青空文庫テキストをBest Practice for TEI in LibrariesのLevel 2程度の深度で自動的にマークアップしたTEIファイルを格納しています。
Level 3やLevel 4の深度でマークアップする際の入力ファイルとしてご利用ください。
参考:青空文庫テキストをより便利にする(機械可読性を高める)ためのプロジェクト
TEI/XMLファイルの格納先: docs/data
例: docs/data/000005/files/53194_45356.xml
ディレクトリ構造およびファイル名は青空文庫のGitHubリポジトリを参考にしています。
(参考)青空文庫のHTMLファイルのURLを入力してTEI/XMLファイルを表示する
RELAX NG (リラクシング、RELAX Next Generation)ファイルを用いてバリデーションを実施しています。
青空文庫テキストをより便利にする(機械可読性を高める)ためのプロジェクトで定めた形式に変換しています。
上述のスキーマに準拠するように、以下の変換処理を実施しています。
-
タグ
- タグはすべてspanタグに置換し、rendition属性に変換前のタグ情報を与えています。
- 例:h4 => span rendition="h4"
-
属性(置換)
- 形式的なバリデーションをクリアするための置換処理を含んでいます。
- したがって、置換後の属性の使用方法の正しさは考慮できていません。
変換前 | 変換後 |
---|---|
class | rend |
id | xml:id |
src | facs |
alt | source |
gaiji | change |
dir | target |
align | to |
name | synch |
href | corresp |
- 属性(削除)
属性 |
---|
rel |
valign |
property |
border |
cellpadding |
vto |
height |
width |