-
Notifications
You must be signed in to change notification settings - Fork 11
Home
Satoru Nakamura edited this page Jan 24, 2020
·
28 revisions
Welcome to the aozora_tei wiki!
青空文庫テキストをより便利にする(機械可読性を高める)ための勉強会兼プロジェクトです。
TEI P5 Guidelinesに準拠したタグをつけて構造化することを目指しますが、TEI P5ではどうしても足りないタグがある場合には対応を検討します。
- 青空文庫 https://www.aozora.gr.jp/ のページから作品をお選びください。
- すでにTEI化がなされているかどうかは、作業状況 https://tei-eaj.github.io/aozora_tei/tools/lod/progress.html をご確認ください。
- 作品の文字数を含めて確認したい場合には https://tei-eaj.github.io/aozora_tei/tools/lod/search.html をご確認ください。
- 作品が決まりましたら、中村覚氏による自動TEI化ファイルから始めていただくことも可能ですのでぜひご覧ください。 https://github.com/TEI-EAJ/auto_aozora_tei
- ファイル名は、「青空文庫の図書カード番号_tei.xml」としてください。
- TEI化途中のファイルで、とりあえず共有したいという場合は https://github.com/TEI-EAJ/aozora_tei/tree/master/data/draft の目指すレベルのフォルダに置いてください。
- 完成版(と自分が思ったもの)は、https://github.com/TEI-EAJ/aozora_tei/tree/master/data/complete の該当するレベルのフォルダに置いてください。
青空文庫の入力・校正者と底本情報についてはTEI headerでの記述の仕方をそろえましょう。詳しくは、既存のTEI化ファイルのヘッダをご覧ください。
構造化の深度は Best Practice for TEI in Libraries の Level 2~5 で行います。 http://www.tei-c.org/SIG/Libraries/teiinlibraries/4.0.0/bptl-driver.html
各レベルは、大体以下のような深さになります。
- Level2. 青空文庫テクストとほぼ同じ深さ。<p>等による段落分け等の文書全体のツリー構造化は行わない。
- Level3. 段落(<p>)・短歌・俳句(<>>, <lg>)など、ごく基本的な単位で全体をマークアップしてツリー構造化
- Level4. 固有表現など、やや深く利便性を高めたマークアップ
- Level5. 学術編集版(≒校訂テクスト)や言語コーパス等、特定の用途に特化した深いマークアップ
TEIで構造化したテクストはXMLとして色々扱うことができますので、対応ツールも少しずつ集めてご紹介します。
日本語向けTEIガイドライン(作成中・試行版)をご覧ください。
2週間に一回程度、初心者にも優しい「青空文庫でTEI勉強会」を開催しています。Zoomでインターネットから参加もできますのでよかったらぜひご参加ください!
詳細はFacebook イベントページをご確認ください。
青空文庫でTEIプロジェクト