Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Статьи со старыми написаниями иероглифов #2309

Open
VanKabumoto opened this issue Jan 15, 2020 · 28 comments

Comments

@VanKabumoto
Copy link
Collaborator

Сейчас в ряде статей из БЯРС сохранены старые (дореформенные) написания иероглифов.
К ним придано в качестве альтернативного написания современное, дописан комментарий вида "В БЯРС вместо иероглифа (новый) использован (старый).
Например:
あみだ【阿彌陀】(амида)〔1-018-2-54〕
• Также 【阿弥陀】.
• В БЯРС вместо иероглифа 弥 использован 彌.

Предлагаю в таких случаях заменить старое написание новым, если оно узаконено в Дзёё Кандзи Хё.
Если написание более новое, но не входит в Дзёё Кандзи Хё, то необходимо убрать строку про "вместо" и оставить только альтернитивный вариант написания.

@nakendlom
Copy link
Collaborator

Абсолютно согласен. Сейчас в большинстве случаев в WARODAI новые написание автоматически внесены уже в заголовок (см. ту же статью あみだ【阿彌陀・阿弥陀】(амида)〔006-53-65〕). Поэтому в WARODAI придется пройти все эти статьи заново, чтобы совсем убрать старое написание из заголовка. Тут можно ориентироваться по комментариям, которые остались в БЯРС (bjrd-source).
Что касается БЯРС (bjrd-source), то в нем вообще можно ничего не править, поскольку это БЯРС как есть, в нем так и было и комментарий все верно отражает.

@VanKabumoto
Copy link
Collaborator Author

С БЯРС-то понятно, а тут действительно всё придётся вручную перепроверять, похоже.

@nakendlom
Copy link
Collaborator

Думаю, это можно частично автоматизировать. Я могу написать скрипт, который составит список статей, в которых вообще встречаются устаревшие иероглифы, на основе комментариев к БЯРС.
Список можно будет проглядеть и далее внести изменения одним махом.

@nakendlom
Copy link
Collaborator

Следует, вероятно, расширить вопрос об устаревших вариантах иероглифов и включить еще и те случаи, которые не были выявлены при редактуре БЯРС и, следовательно, не помечены комментариями вида "В БЯРС вместо иероглифа (новый) использован (старый)".
В качестве примера см. статью БЯРС あかし【灯火・燈火】(акаси)〔1-012-2-27〕.

Думается, что чтобы выработать план действий с ними, нужно ответить на следующие вопросы:

  1. Каков формальный критерий признания иероглифа "устаревшим" в рамках этого словаря?
  2. Вносится ли варианты с устаревшим иероглифов в статью с пометой уст. или полностью убирается вообще?

Для справки:
Многие (из тех, что я проверил бегло, - все) указаны в круглых скобках в действующей редакции 常用漢字表. По поводу того, что именно указано в круглых скобках, в директиве сказано: 丸括弧に入れて添えたものは,いわゆる康熙字典体である。これは,明治以来行われてきた活字の字体とのつながりを示すために参考として添えたものであるが,著しい差異のないものは省いた。

@nakendlom
Copy link
Collaborator

nakendlom commented Jan 22, 2020

Немного терминологии.
Предлагаю в рамках дискуссии в этой теме использовать следующие термины в немного суженном смысле, чтобы точно ничего не путать.
常用漢字 (дзё:ё:кандзи, общеупотребительный иерог., общий иерог.) - знак, входящий в список убщеупотребительных иероглифов в версии от 2010 года (список 2010).
新字体 (синдзитай, иерог. новой формы, новый иерог.) - общеупотребительный иерог., стоящий в колонке 漢字 раздела 本表 списка 2010 вне скобок или в квадратных скобках, но при этом имеющий прежнюю форму в этой же колонке в круглых скобках.
旧字体 (кю:дзитай, иерог. прежней формы, прежний иерог.) - общеупотребительный иерог., стоящий в колонке 漢字 раздела 本表 списка 2010 в круглых скобках.
表外字 (хё:гайдзи, иерог. вне списка) - иероглифы, не входящие в список 2010.

@nakendlom
Copy link
Collaborator

nakendlom commented Jan 22, 2020

В приложенном файле представлен список общих иерогов, которые в списке 2010 года имеют кю:дзитай. Список получен парсингом офиц. директивы, опубликованной на сайте Агентства по культуре.

jyouyoukanjihyou_kyuujitai.txt

@nakendlom
Copy link
Collaborator

nakendlom commented Jan 22, 2020

В приложенном файле представлен список иероглифов, которые встречались в карточках БЯРС в комментариях вида "В БЯРС вместо иероглифа (новый) использован (старый)". Не все из них являются общеупотребительными (см. например, 摑;掴).

bjrd_comments_kanji.txt

@nakendlom
Copy link
Collaborator

nakendlom commented Jan 22, 2020

Рабочее предложение состоит в следующем:

  1. Произвести автоматическую замену 旧字体 на 新字体, а также устаревших форм 表外字 из списка БЯРС на их новые формы внутри статей (не в заголовках).
  2. Для 旧字体, которые встретились в заголовке произвести вынос варианта написания с ними в тело статьи с пометой уст., убедившись при этом, что вариант с 新字体 остался в заголовке. Возможно, это можно автоматизировать.
  3. Для 表外字 из списка БЯРС, которые встретились в заголовке, не делать ничего, т. е. оставить его в заголовке наряду с написанием с новой формой того же 表外字.

@nakendlom
Copy link
Collaborator

nakendlom commented Jan 23, 2020

В приложенном файле приведен список 表外字 из комментариев БЯРС, которые не входят в 常用漢字表. Их пока не трогаем.

bjrd_comments_hyougaiji.txt

@nakendlom
Copy link
Collaborator

Отдельное пояснение по иероглифам 塡 и 頰.
Они есть в 常用漢字, но для них упрощенная форма не указана в скобках. При этом в примечаниях сказано, что такие измененные в виду установленных на информационных устройствах шрифтов начертания иероглифов как 頬, 賭, 剥 для соответственно 頰, 賭, 剝 являются допустимыми (情報機器に搭載されている印刷文字字体の関係で,本表の通用字体とは異なる字体(通用字体の「頰・賭<тут другая форма>・剝」に対する「頬・賭・剥」など)を使用することは差し支えない).
Необходимо в этом вопросе разобраться поподробнее. С точки зрения Unicode 2 из 3 приведенных в примере иероглифа - разные (頰-頬 и 剝-剥), а один (賭), действительно, различается в разных шрифтах.

@nakendlom
Copy link
Collaborator

Подготовил статистику по 旧字体:
Общее число статей, в которых они встречаются - 359.
Число статей, в которых они встречаются только внутри статьи (не в заголовке) - 36.
Число статей, в которых они встречаются только в заголовке (но не в теле) - 306
Число статей, в которых они встречаются и в заголовке, и в теле - 17

@nakendlom
Copy link
Collaborator

План действий:

  1. Произвести замену в 36 карточках только внутри статьи.
  2. Произвести замену в 17 карточках только в теле и в них же убрать старое написание под помету уст.
    После этого должно получится 323 карточки, в которых вообще встречаются 旧字体. Из них в 17 они будут встречаться ТОЛЬКО в теле с пометой уст., 306 - ТОЛЬКО в заголовке.
  3. Произвести вынос под помету уст. в 306 карточках, где такой пометы к этому моменту быть не должно.
    Приступаю к выполнению.

@nakendlom
Copy link
Collaborator

Шаг 1 выполнен см. всю редакцию
Пока не произведена замена в карточке

かいこう【介甲】(кайко:)〔002-11-55〕
<i>см.</i> <a href="#002-20-28">こうかく【甲**殼**】</a>.

Сначала нужно поправить карточку こうかく【甲殼】.
Также не произведена замена в 2 карточках ниже, поскольку в них уже все правильно:

アークとう【アーク灯】(а:кўто:)〔007-76-86〕
<i>уст.</i> 弧光灯, 弧光**燈**
(<i>от англ.</i> arc) дуговая электрическая лампа.

ランプ(рампу)〔007-76-37〕
<i>уст.</i> 洋灯, 洋**燈**
(<i>англ.</i> lamp) лампа.

@nakendlom
Copy link
Collaborator

Шаг 2 выполнен см. всю редакцию

@nakendlom
Copy link
Collaborator

Перед шагом 3 имеем:
306 карточек с 旧字体 в заголовках (совпадает с предсказанным количеством)
25 карточек с 旧字体 в теле статьи. Расхождение с предсказанным на 8 штук. Связано с тем, что на шаге 1:
2 карточки не были обработаны потому, что там уже все правильно (помета уст.)
5 карточек были поправлены так, что в теле добавились пометы уст.
1 карточка かいこう【介甲】(кайко:)〔002-11-55〕- замена не произведена. Нужно заменить после шага 3.

Далее переходим к шагу 3. 331 карточка, в которой 旧字体 только в заголовке.

@nakendlom
Copy link
Collaborator

@VanKabumoto , у меня возникают сомнения, что мое предложение выносить написания с 旧字体 из 常用漢字表 правильное. Нужен ваш совет специалиста. Правильно ли я понимают, что в 40-50-е эти знаки еще никак нельзя назвать устаревшими. А значит, ставя им помету уст., мы нарушаем п. 2.1.
Не следует ли все-таки ставить их в заголовок как один из вариантов написания? Если да, то я приведу все в соответствие с этим.

@nakendlom
Copy link
Collaborator

По результатам всех манипуляций:

  1. Всего статей с 旧字体: 331
  2. Из них встречаются только в заголовках: 324
  3. Из них встречаются только в теле статьи: 7
  4. Встречаются и в заголовке, и в статье: 0

Все приведено к единообразной форме, помета уст. встречается только у двух статей, где она точно нужна:

ランプ(рампу)〔007-76-37〕
<i>уст.</i> 洋灯, 洋<u>燈</u>
(<i>англ.</i> lamp) лампа.

アークとう【アーク灯】(а:кўто:)〔007-76-86〕
<i>уст.</i> 弧光灯, 弧光<u>燈</u>
(<i>от англ.</i> arc) дуговая электрическая лампа.

В одной статье 旧字体 стоит в ссылке:

かいこう【介甲】(кайко:)〔002-11-55〕
<i>см.</i> <a href="#002-20-28">こうかく【甲<u>殼</u>・甲殻】</a>.

Таким образом, если будет принято решение, что все написания с 旧字体 необходимо признать устаревшими, то необходимо:
1. Вынести с пометой уст. написания в 324 статьях, где 旧字体 стоит в заголовке (файл со списком статей приложен kyuujitai_only_header.txt)
2. Добавить помету уст. в следующих 4-х статьях

さしもの【指物・差物】(сасимоно)〔000-70-46〕
1) <i>см.</i> <a href="#003-15-35">さしものぎょう</a>;
2) (<i>тж.</i> 挿物, <u>插</u>物) гребень, шпилька.

さしこむ【差し込む・差込む】(сасйкому)〔001-69-42〕
1) (<i>тж.</i> 挿し込む, <u>插</u>し込む) вкладывать, вставлять;
新聞の中へ広告を差し込む помещать объявление в газете;
2) чувствовать острую (спазматическую) боль;
急に腹が差し込む у меня вдруг появилась острая боль в желудке;
横腹が差し込む колет в боку.

さしこみ【差し込み・差込み・指し込み・指し込み】(сасйкоми)〔007-23-19〕
1) (<i>тж.</i> 挿し込み, <u>插</u>し込み) вкладывание; вставка;
2) <i>эл.</i> штепсельная вилка, штепсель;
3) острая боль; спазма.

さす【差すI】(сасу)〔007-60-63〕
<i>перех., все значения связ.</i>
1) (<i>тж.</i> 挿す, <u>插</u>す) втыкать <i>(шпильки)</i>; вставлять <i>(напр. иллюстрации)</i>;
花びんに花をさす ставить цветы в вазу;
2): 水をさす а) налить воды; б) <i>обр.</i> обдать холодной водой, охладить пыл; в) <i>обр.</i> настроить друг против друга;
目薬をさす впустить глазные капли <i>(в глаза)</i>;
3) раскрывать над головой <i>(зонтик)</i>;
彼女は傘を差している она под зонтиком;
4) протягивать <i>(руку)</i>;
5) (<i>тж.</i> 献す) предлагать, протягивать <i>(рюмку, чашку)</i>;
6) (<i>тж.</i> 佩す) носить <i>(меч за поясом)</i>;
7) мерить <i>(ткань)</i>;
8) ходить, делать ход <i>(в шахматах)</i>;
君から差したまえ делай первый ход, начинай ты;
差し始めの手 первый ход;
9) подмешивать <i>(краску)</i>;
10) ловить <i>(птицу клейким шестом)</i>.

@VanKabumoto
Copy link
Collaborator Author

Относительно 灯 и 燈.
На время издания БЯРС действовал список тоё кандзи, где дан вариант 燈. Поэтому 灯 был относительно него вариантным знаком. Далее в дзёё кандзи 灯 объявлен новым, а 燈 старым. Поэтому нанастоящее время 燈 в Warodai я вижу ненужным. Если все старые написания из Warodai заменять новыми, то 燈 нужно просто убрать, ведь 灯 уже указан.

@nakendlom
Copy link
Collaborator

Относительно 灯 и 燈.
На время издания БЯРС действовал список тоё кандзи, где дан вариант 燈. Поэтому 灯 был относительно него вариантным знаком. Далее в дзёё кандзи 灯 объявлен новым, а 燈 старым. Поэтому нанастоящее время 燈 в Warodai я вижу ненужным. Если все старые написания из Warodai заменять новыми, то 燈 нужно просто убрать, ведь 灯 уже указан.

Да, но в результате я не стал убирать старые варианта, а наоборот - все привел к такому виду, что в статьях, в которых в заголовках встречаются иероглифы, для которых в Дзёё кандзи имеются вариант, к такому виду, что в заголовке всегда дан вариант и новый и старый . См., например, вот эту правку 88a1163. Если бы мы убрали старые варианты, то это не позволило бы искать по старым. Таким образом сейчас все выравнено, все сделано по единому принципу. Это позволяет по крайней мере ничего не потерять.

@VanKabumoto
Copy link
Collaborator Author

А зачем давать оба варианта в заголовке?
В идеале поисковой движок должен бы искать по любому из вариантов. А так простым пользователям как разобраться, какой знак старый и какой новый?

@nakendlom
Copy link
Collaborator

Если убрать варианты с 旧字体 совсем, то в самом словаре не будет информации о устаревших вариантах. Это значит, что при создании альтернативных версий - даже того же EpWING придется эту информацию прямо в конвертер как-то запихивать. А так, эта информация попадает в индекс автоматически. Можно, конечно, переложить эту проблему на того, кто будет делать конвертацию.
О том, как обозначать наиболее "современную" версию - открытый.
Сейчас по крайней мере все варианты собраны единообразно. Если примем решение их удалять и переложить проблему поиска на разработчиков форматов, варианты с устаревшими формами можно легко удалить.

@VanKabumoto
Copy link
Collaborator Author

Если в статье указано 2 варианта - старый и новый, как простым людям, не знающим о таких вещах, понять, какой вариант нужно использовать? Для них они будут равнозначными. Люди будут писать старыми знаками, и при этом ссылаться на этот словарь, мол, он дал такой вариант как правильный.
Я думаю, что если указывать старые формы, то

  1. это нужно делать для всех слов, по крайней мере заглавных.
  2. нужно чётко разграничивать старые и новые формы, а не просто давать их подряд.

@nakendlom
Copy link
Collaborator

nakendlom commented Feb 14, 2020

Если в статье указано 2 варианта - старый и новый, как простым людям, не знающим о таких вещах, понять, какой вариант нужно использовать?

Этот вопрос мы задаем уже несколько раз. Да, нет на него ответа с точки зрения БЯРС.
В БЯРС он не был решен. Там все было свалено в кучу, кроме тех написаний, которые устарели до войны. Такие отмечались пометой уст. Что касается тех написаний, которые устаревали, выходили из употребления в период с 1945 по 1969 - составители БЯРС их дали просто в заголовке все подряд без всякого различения. И отдельно оговорились, что они именно так и сделали: "§8. Слова, имеющие иероглифическое написание, даются в этом написании после транскрипции независимо от его употребительности. ". Это значит, что теми средствами оформления, которые были в БЯРС, указанную вами проблему не решить. Именно поэтому я пока сделал так, как правильно с точки зрения текущих правил оформления.

Далее. Проблема остается, но решать ее придется, придумав что-то новое. То ли придумывать новую помету, то ли сдвигать границу "современного японского языка". Последнее потребует, кстати, пересмотра вообще всех помет уст. и выявления всего, что устарело.

@nakendlom
Copy link
Collaborator

нужно чётко разграничивать старые и новые формы, а не просто давать их подряд

Основная загвоздка как раз и состоит в том, как обозначить это разграничение. Сначала, мне казалось, что надо их убрать под помету уст. Но так неправильно - не являются 旧字体 устаревшими на момент 1945-50.

@VanKabumoto
Copy link
Collaborator Author

Погодите. Почему речь про БЯРС, когда нужно говорить про Warodai?
Для тех, кому нужны старые формы, есть множество других словарей.
В БЯРС разделение не было произведено, насколько я могу судить,

  1. частично по недоработке составителей
  2. в связи с реальной ситуацией в Японии в то время, даже печатные издания не все перестроились.
    Но поскольку сейчас речь о Warodai, что там было в БЯРС не так важно. Важно, как это сделать в нашем словаре правильно.

@nakendlom
Copy link
Collaborator

что там было в БЯРС не так важно. Важно, как это сделать в нашем словаре правильно.

Да, основной вопрос в том - как сделать в Вародай. А про БЯРС я говорю только для того, чтобы обрисовать масштаб нужных правок. Поскольку мы унаследовали словник и его заголовки из БЯРС, нужно просто понимать, что из БЯРС мы также унаследовали и эту проблему.

Думаю, что надо сначала понять, сколько вообще знаков не из 常用漢字表 (они же - 表外字, хё:гайдзи) у нас встречается в заголовках и как вообще все это выглядит. На какие группы знаков можно их разбить. И как с каждой из групп поступать. Как минимум, так выделится 2 группы:

  1. Неузаконенные формы упрощения знаков из 常用漢字表
  2. Действительные знаки, не входящие в 常用漢字表.

Если присоединить к этому уже обработанную нами группу 旧字体, то нам надо придумать как минимум три разных способа маркировки.

В ближайшее время я попробую провести анализ и выявить перечни всех групп.

@nakendlom
Copy link
Collaborator

Первые результаты анализа:

  1. Таблица всех 異体字 (итайдзи - 表外事+旧字体), встречающихся в заголовках статей, с сопоставлением данных из Unihan и указанием числа статей, в которых они встретились - https://github.com/warodai/warodai-utils/blob/master/kanji/itaiji_table.tsv
  2. Список всех заголовков статей, в которых встретились 異体字 с указанием списка этих символов - https://github.com/warodai/warodai-utils/blob/master/kanji/itaiji_headers.tsv

@Cosmicore
Copy link
Collaborator

Давно в теме не было жизни. Вдохну.

В идеале поисковой движок должен бы искать по любому из вариантов.

Это верно. Я заметил, что серьёзные системы сейчас ищут через «или» для каждого знака. То есть, для поискового запроса 阿弥陀経, если специально не включён точный поиск, будет на самом деле выполнен запрос (阿)(弥|彌)(陀)(経|經), что равносильно поиску 阿弥陀経, 阿彌陀経, 阿弥陀經, 阿彌陀經. Это позволит выдать все имеющиеся в базе варианты. Понятно, что сначала анализируются знаки и передаются подстановки. Понятно, что для некоторых знаков подстановок может быть много больше двух. Кстати, каждый из этих четырёх вариантов можно найти в японских текстах, хотя не все из них корректны. И слово такое в словаре есть, но вот по самому историческому из исторических написаний — 阿彌陀經 — оно не найдётся.

А так простым пользователям как разобраться, какой знак старый и какой новый?

И это верно. Видеть современное написание, делая запрос в историческом, желательно.

Для тех, кому нужны старые формы, есть множество других словарей.

А это сомнительно. Запросы и рабочие материалы у пользователей могут быть совершенно разные. Зачем их ограничивать и предлагать пройти по неизвестному адресу, когда можно сделать универсальное решение. Не нам судить, для чего может потребоваться кому-то словарь.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants