Skip to content
Satoru Nakamura edited this page Jan 24, 2020 · 28 revisions

Welcome to the aozora_tei wiki!

青空文庫テキストをより便利にする(機械可読性を高める)ための勉強会兼プロジェクトです。

TEI P5 Guidelinesに準拠したタグをつけて構造化することを目指しますが、TEI P5ではどうしても足りないタグがある場合には対応を検討します。

作品の選び方

ファイル名とファイルの置き場

青空文庫の入力・校正者と底本情報についてはTEI headerでの記述の仕方をそろえましょう。詳しくは、既存のTEI化ファイルのヘッダをご覧ください。

構造化の深度は Best Practice for TEI in Libraries の Level 2~5 で行います。 http://www.tei-c.org/SIG/Libraries/teiinlibraries/4.0.0/bptl-driver.html

各レベルは、大体以下のような深さになります。

  • Level2. 青空文庫テクストとほぼ同じ深さ。<p>等による段落分け等の文書全体のツリー構造化は行わない。
  • Level3. 段落(<p>)・短歌・俳句(<>>, <lg>)など、ごく基本的な単位で全体をマークアップしてツリー構造化
  • Level4. 固有表現など、やや深く利便性を高めたマークアップ
  • Level5. 学術編集版(≒校訂テクスト)や言語コーパス等、特定の用途に特化した深いマークアップ

TEIで構造化したテクストはXMLとして色々扱うことができますので、対応ツールも少しずつ集めてご紹介します。

マークアップの方法例

日本語向けTEIガイドライン(作成中・試行版)をご覧ください。

視覚化ツール

視覚化例

青空文庫でTEI勉強会

2週間に一回程度、初心者にも優しい「青空文庫でTEI勉強会」を開催しています。Zoomでインターネットから参加もできますのでよかったらぜひご参加ください!

詳細はFacebook イベントページをご確認ください。