データは一つのXMLに：チベットとコンピュータな日々：So-netブログ

	ブログをはじめるログイン

データは一つのXMLに　[XML] [編集]

　古典テキストのXML化の続きを考える。

　長いテキストの場合、HTMLを複数ページに分割して表示する必要がある。長いテキストと言っても、どうだろう、タグなどを除く純粋なテキストデータだけで、500Kとかが限界のような気がする。テキスト自体はもっと長いものもあるが、それは初めから分割してデータ化しておいた方がいい。とはいえ、そのサイズを一ページで表示するのは、実用的ではない。

　そこで、分割して表示することにするのだが、どこで分割したらいいのだろうか。前に<page>要素を一つの単位に分割するということを考えたが、そのようなpage要素は、表示するときのページ分割のためのものであり、構造とデザインを分離するという原則に反した、デザインに引きずられた要素だろう。そこで、この案は却下。

　それでは、見出し毎に切るというのはどうだろうか。これはUnix系のマニュアルでinfoファイルからHTML化したようなものにしばしば見られる。あれは見出しごとに一ページずつになっていることが多く、したがって、ページによっては非常に短いところも出てくる。また個々のページが小さいので、膨大な数のファイルが生成される。これはその後からファイルを手作業で修正しようとしてもできない位のものである。従って、規則的に処理できるようにデータを作っておかなければならない。

　また、見出しからは自動的に目次が作られ、リンクも貼られる。

　問題は、この大量のHTMLの生成が、データの修正がある毎に全部作り直すとすると、かなりの手間がかかるということだ。XMLのデータは個々に分かれる前の全体を含むもので、編集はその一部、多分、段落毎（もっと正確にはブロック要素毎）に編集をし、更新をするときは、その編集したブロックを、全体のXMLに書き戻す必要がある。そのとき同時にHTML化もしてしまうとすると、かなりのオーバーヘッドになる。

　そこで、データの修正は親のXMLデータを更新するとして、HTML化の方は、修正したブロックのみでよく、そのブロックを含むHTMLテキストのみを更新すればよい。それ以外のHTMLファイルの方は、そのまま手を着けずに置いておく。

2005-05-10 23:32 nice!(0) コメント(0) トラックバック(0)