Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Elasticsearchを使う #4846

Open
mei23 opened this issue Mar 29, 2024 · 2 comments
Open

Elasticsearchを使う #4846

mei23 opened this issue Mar 29, 2024 · 2 comments
Labels
✨Feature 新機能なのだわ

Comments

@mei23
Copy link
Owner

mei23 commented Mar 29, 2024

Summary

Meilisearch: 検索精度が終わってる (漢字なんかが特にダメなので言語判定がダメなのか)
Sonic: 日本語なんか全然対応してない
内部 (めいすきー型MeCab): 精度はまあいい、ただ最終的には重い、日本語以外はダメ CKは特に

ESはビルトインで使える2,3 ngramにするだけで日本語まではそれなりにまともだった。CKは不明
https://github.com/mei23/misskey/blob/4db87aedac6355fd0659ce7b964fc39b1f727412/src/db/elasticsearch.ts

せめてそれにしたい

やっぱりプラグイン追加でCJK個別インデックスにするのが最善?
https://www.elastic.co/jp/blog/how-to-search-ch-jp-kr-part-2

上記+インデックスを節約するために、言語判定を入れるってのがあるけどそれはちょっと地雷かも
CJの判定で誤爆する未来が見える
https://www.elastic.co/jp/blog/how-to-search-ch-jp-kr-part-3

あとフィールド追加したい

前回はメタフィールドが全然なくて失敗したので
userId, visibility あたりは最低限のフィルタとして追加
dateも追加、時間範囲とかなによりも過去データのパージを可能にする
あたりはほしい。
これだけでも、ユーザー/サーバーモデレーションまでは追従できる。

@mei23 mei23 added the ✨Feature 新機能なのだわ label Mar 29, 2024
@mei23
Copy link
Owner Author

mei23 commented Mar 29, 2024

流石に、ユーザー削除/凍結/サイレンス?はインデックス削除回す

@mei23
Copy link
Owner Author

mei23 commented Jul 15, 2024

MisskeyIO#661

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
✨Feature 新機能なのだわ
Projects
None yet
Development

No branches or pull requests

1 participant