[コーパス] - llm-jp-corpus v3.1 日本語文書の重複度に関する調査 #105

YumaTsuta · 2024-12-25T07:10:22Z

Overview

llm-jp-corpus v3.1 日本語文書について、データセット内の重複度分布を計測します。

注釈：データセット内のデータは区別せずに計測し、データセット間では重複調査しない

計算機
- クラスタ: Sakura (Ishikari)
- ノード種別: cpu
- ノード台数: 7 (max)
コード
- リポジトリ: https://github.com/llm-jp/dedup-scripts
- コミット: FIXME xxxxxx
入力データ:
- llm-jp-corpus v3.1 (ja): /home/shared/corpus/llm-jp-corpus-public/llm-jp-corpus-v3-public/ja
出力データ:
- 保存先: sakura:/home/shared/experiments/0105_copusv3.1-ja_dup-count
- データ内訳:
  - {name}: xxx TB （バッファ容量を含む）
W&B ログ:
- https://wandb.ai/{team}/{project} FIXME
開始日: 2024/12/25
終了予定日: YYYY-MM-DD （バッファ期間を含む）

The text was updated successfully, but these errors were encountered:

YumaTsuta added the corpus label Dec 25, 2024

YumaTsuta self-assigned this Dec 25, 2024