Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Варианты иероглифического написания разделены U+30FB вместо U+FF65 #2490

Open
nevfy-y opened this issue Jul 17, 2021 · 2 comments

Comments

@nevfy-y
Copy link
Collaborator

nevfy-y commented Jul 17, 2021

Если у слова имеется несколько вариантов иероглифического написания, то эти варианты разделяются символом ・ (U+FF65, Halfwidth Katakana Middle Dot).

Вместо этого использован символ ・U+30FB, Katakana Middle Dot в карточках(появились при поиске 【*・*】):

006-30-37
006-19-81
002-05-18
007-56-27
007-79-67
008-66-63
003-24-15

Не всегда между всеми вариантами написания стоит не так точка. Например
たちこめる【立ち罩める・立ち籠める・立ち込める・立込める・立ち篭める・立籠める】(татйкомэру)〔006-30-37〕 нависать над чем-л., окутывать что-л. (о дыме, тумане).

Первые два варианта отделены U+FF65, а между следующими U+30FB.

@nakendlom
Copy link
Collaborator

Это очень полезное наблюдение. Мне казалось, что все такие случаи выявили и исправили еще в году 2009...
Тут нужно написать скрипт для выявления всех таких случаев, просмотреть список и исправить одним махом.

@homocomputeris
Copy link

homocomputeris commented Jun 24, 2023

find . -name '*.txt' | xargs sd '([\p{Script=Hiragana}\p{Script=Han}\p{Script=Latin}\p{Script=Common}\p{N}])(・)([\p{Script=Hiragana}\p{Script=Han}\p{Script=Latin}\p{Script=Common}\p{N}])' '$1・$3'

находит и меняет вот эти файлы:

	modified:   000/85/000-85-48.txt
	modified:   001/25/001-25-68.txt
	modified:   002/05/002-05-18.txt
	modified:   002/33/002-33-48.txt
	modified:   003/24/003-24-15.txt
	modified:   003/31/003-31-01.txt
	modified:   004/10/004-10-83.txt
	modified:   004/47/004-47-90.txt
	modified:   004/80/004-80-54.txt
	modified:   006/19/006-19-81.txt
	modified:   006/25/006-25-85.txt
	modified:   006/30/006-30-37.txt
	modified:   006/45/006-45-23.txt
	modified:   007/56/007-56-27.txt
	modified:   007/79/007-79-67.txt
	modified:   008/66/008-66-63.txt
	modified:   008/99/008-99-19.txt

Ложноположительные есть:
-フェザー・でんしゃ【フェザー・電車】(фэдза:-дэнся)〔000-85-48〕

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants