-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Статьи со старыми написаниями иероглифов #2309
Comments
Абсолютно согласен. Сейчас в большинстве случаев в WARODAI новые написание автоматически внесены уже в заголовок (см. ту же статью あみだ【阿彌陀・阿弥陀】(амида)〔006-53-65〕). Поэтому в WARODAI придется пройти все эти статьи заново, чтобы совсем убрать старое написание из заголовка. Тут можно ориентироваться по комментариям, которые остались в БЯРС (bjrd-source). |
С БЯРС-то понятно, а тут действительно всё придётся вручную перепроверять, похоже. |
Думаю, это можно частично автоматизировать. Я могу написать скрипт, который составит список статей, в которых вообще встречаются устаревшие иероглифы, на основе комментариев к БЯРС. |
Следует, вероятно, расширить вопрос об устаревших вариантах иероглифов и включить еще и те случаи, которые не были выявлены при редактуре БЯРС и, следовательно, не помечены комментариями вида "В БЯРС вместо иероглифа (новый) использован (старый)". Думается, что чтобы выработать план действий с ними, нужно ответить на следующие вопросы:
Для справки: |
Немного терминологии. |
В приложенном файле представлен список общих иерогов, которые в списке 2010 года имеют кю:дзитай. Список получен парсингом офиц. директивы, опубликованной на сайте Агентства по культуре. |
В приложенном файле представлен список иероглифов, которые встречались в карточках БЯРС в комментариях вида "В БЯРС вместо иероглифа (новый) использован (старый)". Не все из них являются общеупотребительными (см. например, 摑;掴). |
Рабочее предложение состоит в следующем:
|
В приложенном файле приведен список 表外字 из комментариев БЯРС, которые не входят в 常用漢字表. Их пока не трогаем. |
Отдельное пояснение по иероглифам 塡 и 頰. |
Подготовил статистику по 旧字体: |
План действий:
|
Шаг 1 выполнен см. всю редакцию
Сначала нужно поправить карточку こうかく【甲殼】.
|
Шаг 2 выполнен см. всю редакцию |
Перед шагом 3 имеем: Далее переходим к шагу 3. 331 карточка, в которой 旧字体 только в заголовке. |
@VanKabumoto , у меня возникают сомнения, что мое предложение выносить написания с 旧字体 из 常用漢字表 правильное. Нужен ваш совет специалиста. Правильно ли я понимают, что в 40-50-е эти знаки еще никак нельзя назвать устаревшими. А значит, ставя им помету уст., мы нарушаем п. 2.1. |
По результатам всех манипуляций:
Все приведено к единообразной форме, помета уст. встречается только у двух статей, где она точно нужна:
В одной статье 旧字体 стоит в ссылке:
Таким образом, если будет принято решение, что все написания с 旧字体 необходимо признать устаревшими, то необходимо:
|
Относительно 灯 и 燈. |
Да, но в результате я не стал убирать старые варианта, а наоборот - все привел к такому виду, что в статьях, в которых в заголовках встречаются иероглифы, для которых в Дзёё кандзи имеются вариант, к такому виду, что в заголовке всегда дан вариант и новый и старый . См., например, вот эту правку 88a1163. Если бы мы убрали старые варианты, то это не позволило бы искать по старым. Таким образом сейчас все выравнено, все сделано по единому принципу. Это позволяет по крайней мере ничего не потерять. |
А зачем давать оба варианта в заголовке? |
Если убрать варианты с 旧字体 совсем, то в самом словаре не будет информации о устаревших вариантах. Это значит, что при создании альтернативных версий - даже того же EpWING придется эту информацию прямо в конвертер как-то запихивать. А так, эта информация попадает в индекс автоматически. Можно, конечно, переложить эту проблему на того, кто будет делать конвертацию. |
Если в статье указано 2 варианта - старый и новый, как простым людям, не знающим о таких вещах, понять, какой вариант нужно использовать? Для них они будут равнозначными. Люди будут писать старыми знаками, и при этом ссылаться на этот словарь, мол, он дал такой вариант как правильный.
|
Этот вопрос мы задаем уже несколько раз. Да, нет на него ответа с точки зрения БЯРС. Далее. Проблема остается, но решать ее придется, придумав что-то новое. То ли придумывать новую помету, то ли сдвигать границу "современного японского языка". Последнее потребует, кстати, пересмотра вообще всех помет уст. и выявления всего, что устарело. |
Основная загвоздка как раз и состоит в том, как обозначить это разграничение. Сначала, мне казалось, что надо их убрать под помету уст. Но так неправильно - не являются 旧字体 устаревшими на момент 1945-50. |
Погодите. Почему речь про БЯРС, когда нужно говорить про Warodai?
|
Да, основной вопрос в том - как сделать в Вародай. А про БЯРС я говорю только для того, чтобы обрисовать масштаб нужных правок. Поскольку мы унаследовали словник и его заголовки из БЯРС, нужно просто понимать, что из БЯРС мы также унаследовали и эту проблему. Думаю, что надо сначала понять, сколько вообще знаков не из 常用漢字表 (они же - 表外字, хё:гайдзи) у нас встречается в заголовках и как вообще все это выглядит. На какие группы знаков можно их разбить. И как с каждой из групп поступать. Как минимум, так выделится 2 группы:
Если присоединить к этому уже обработанную нами группу 旧字体, то нам надо придумать как минимум три разных способа маркировки. В ближайшее время я попробую провести анализ и выявить перечни всех групп. |
Первые результаты анализа:
|
Давно в теме не было жизни. Вдохну.
Это верно. Я заметил, что серьёзные системы сейчас ищут через «или» для каждого знака. То есть, для поискового запроса 阿弥陀経, если специально не включён точный поиск, будет на самом деле выполнен запрос (阿)(弥|彌)(陀)(経|經), что равносильно поиску 阿弥陀経, 阿彌陀経, 阿弥陀經, 阿彌陀經. Это позволит выдать все имеющиеся в базе варианты. Понятно, что сначала анализируются знаки и передаются подстановки. Понятно, что для некоторых знаков подстановок может быть много больше двух. Кстати, каждый из этих четырёх вариантов можно найти в японских текстах, хотя не все из них корректны. И слово такое в словаре есть, но вот по самому историческому из исторических написаний — 阿彌陀經 — оно не найдётся.
И это верно. Видеть современное написание, делая запрос в историческом, желательно.
А это сомнительно. Запросы и рабочие материалы у пользователей могут быть совершенно разные. Зачем их ограничивать и предлагать пройти по неизвестному адресу, когда можно сделать универсальное решение. Не нам судить, для чего может потребоваться кому-то словарь. |
Сейчас в ряде статей из БЯРС сохранены старые (дореформенные) написания иероглифов.
К ним придано в качестве альтернативного написания современное, дописан комментарий вида "В БЯРС вместо иероглифа (новый) использован (старый).
Например:
あみだ【阿彌陀】(амида)〔1-018-2-54〕
• Также 【阿弥陀】.
• В БЯРС вместо иероглифа 弥 использован 彌.
Предлагаю в таких случаях заменить старое написание новым, если оно узаконено в Дзёё Кандзи Хё.
Если написание более новое, но не входит в Дзёё Кандзи Хё, то необходимо убрать строку про "вместо" и оставить только альтернитивный вариант написания.
The text was updated successfully, but these errors were encountered: