そのままでも人が読めることを前提に作られた点で、Markdownなどに通ずるものがあります。ただし、注記など複雑なルールが多数存在。テキストからXHTMLするツールが作られた時点で文法が厳格化されたようです。
青空文庫のテキスト版で使用している文字コード・改行コードは以下のようになっています。
- 文字集合(Coded Caharacter Set): JIS X 0201(カナを除く) + JIS X 0208
- 符号化方式(Character Encoding Scheme): Shift_JIS
- 改行コード: CR+LF
テキストファイル内で使われている文字集合は、上記の通りJIS X 0201と0208ですが、青空文庫では注記を使ってJIS X 0201+0208以外の文字、いわゆる「外字」を記述することができます。
しかし、例えば外字注記でUnicodeの文字が指定できるからといって、Unicodeの文字をなんでも使えるわけではありません。あくまでJIS X 0208の包摂規準(とJIS X 0213で追加された包摂規準)を適用してもJIS X 0208内にはない文字について、JIS X 0213の面区点番号やUnicodeのコードポイントを使った外字注記を使います。JIS X 0213とUnicodeの両方にある文字については、JIS X 0213の面区点番号を使います。
外字については、青空文庫作業マニュアル【入力編】の「4-6. 外字」、青空文庫・外字注記辞書を参照のこと。また、JIS X 0208と0213の包摂規準については「JIS X 0208と0213規格票の包摂関連項目」が青空文庫サイト内で公開されています。
後述のルビの記法では、文字種を使ってルビのかかる文字(被ルビ文字)の範囲を決めています。そのため、青空文庫のテキスト形式の仕様には「文字種」の概念が必要になっています。
ルビ記法を実現するために、以下の文字種が必要です。
- ひらがな(含む特殊ひらがな)
- カタカナ(含む特殊カタカナ)
- アルファベット
- 数字
- 漢字(含む漢字外字)
- 非漢字
- 空白
最後の空白については、「アルファベットとそれ以外の文字の間には空白を入れる」というルールがあるため、アルファベットにルビを振る際にルビの境界として使われます。
そこに Whisky《ウィスキー》 の…
というように記載される場合、「ウィスキー」のルビがかかる文字は「Whisky」になります。
JIS X 0208の範囲で、どの文字がどの文字種になるかを以下に記載します(漢字は省略します)。「特殊ひらがな」「特殊カタカナ」「特殊漢字」は、それぞれひらがな・カタカナ・漢字として扱われる文字です。
ひらがな: ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてでとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりるれろゎわゐゑをん
特殊ひらがな: ゝゞ
カタカナ: ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポマミムメモャヤュユョヨラリルレロヮワヰヱヲンヴヵヶ
特殊カタカナ: ヽヾー
アルファベット:
ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyz
ΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤΥΦΧΨΩ
αβγδεζηθικλμνξοπρστυφχψω
АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ
абвгдеёжзийклмнопрстуфхцчшщъыьэюя
数字: 0123456789
特殊漢字: 仝々〆〇ヶ
非漢字: 、。,.・:;?!゛゜´`¨^ ̄_〃―‐/\~∥|…‥‘’“”()〔〕[]{}〈〉《》「」『』【】+-±×÷=≠<>≦≧∞∴♂♀°′″℃¥$¢£%#&*@§☆★○●◎◇◆□■△▲▽▼※〒→←↑↓〓∈∋⊆⊇⊂⊃∪∩∧∨¬⇒⇔∀∃∠⊥⌒∂∇≡≒≪≫√∽∝∵∫∬ʼn♯♭♪†‡¶◯
青空文庫 組版案内 の 「青空文庫をこえた利用(番外)」の中で、「青空文庫ファイルで使えない文字」として以下の9文字(非漢字)が上げられています。
《》[]〔〕|#※
これらは今のところ、別の文字に置き換えて入力されているようですが、それぞれ以下の外字注記を使うことも提唱されています。
《 → ※[#始め二重山括弧、1-1-52]
》 → ※[#終わり二重山括弧、1-1-53]
[ → ※[#始め角括弧、1-1-46]
] → ※[#終わり角括弧、1-1-47]
〔 → ※[#始めきっこう(亀甲)括弧、1-1-44]
〕 → ※[#終わりきっこう(亀甲)括弧、1-1-45]
| → ※[#縦線、1-1-35]
# → ※[#井げた、1-1-84]
※ → ※[#米印、1-2-8]
いずれにしても、青空文庫本文中にこれらが出てきた場合には、構文的に特別扱いする文字であると解釈してよいようです。
全体像については、入力ファイルを「テキスト版」に仕上げるためにを参照のこと。
説明のまとまった部分を見つけられませんでしたが、注記には
- 「前方参照型」 -
腹がへっても[#「腹がへっても」に傍点]
- 「開始/終了型」 -
[#傍点]青空文庫で読書しよう[#傍点終わり]
があります。ルビの場合は文字種境界または|
を基準に前方参照します。
- 冒頭と末尾 - 青空文庫収録ファイルへの記載事項
- 冒頭に加える記号の説明 - テキスト中に現れる記号について
- 青空文庫における書誌データのとりかた
メタデータも本文と同じファイルに書き、冒頭/本文/末尾 の区切りタグはありません。