Name	Name	Last commit message	Last commit date
parent directory ..
README.md	README.md

Aperçu des grands modèles de langage (LLM) en japonais

[ English | Français | 日本語 ]

Evolution du nombre de paramètres des LLMs en japonais et en non-japonais. Pour des informations sur le modèle japonais, nous nous référons à cet article, et pour le modèle non-japonais, nous nous référons au tableau des modèles sur LifeArchitect.ai (notez cependant que certains modèles ont été omis en raison de l'espace limité sur le graphique. De plus, le nombre de paramètres pour le modèle non-japonais inclut des valeurs estimées). Veuillez nous informer de toute correction ou ajout nécessaire.

Voici une liste des LLMs disponibles au grand public, axés sur l'apprentissage du japonais, ainsi que leurs critères d'évaluation. Cette liste est maintenue par des bénévoles qui collectent des informations à partir de diverses sources telles que des articles académiques et d'autres ressources publiques.

::: warning Attention

Nous ne pouvons garantir l’exactitude ou l’exhaustivité des informations présentées ici.
Certaines informations sont basées sur des conjectures et peuvent ne pas refléter votre cas d'utilisation spécifique.
Bien que de nombreux modèles soient publiés sous des licences permissives telles que MIT ou Apache 2.0, certains modèles sont soumis à des conditions plus restrictives, notamment des clauses d'utilisation non commerciale (exemple CC BY-NC-SA 4.0) ou d'autres modalités légales et contractuelles :::

N'hésitez pas à signaler les erreurs sur la page issues. N'hésitez pas également à contribuer directement avec une pull request.

::: details Table des matières [[toc]] :::

Modèles IA génératives

Pour les modèles multimodal, voir ci-dessous.

Modèles développés à partir de zéro

D'usage général

	Architecture	Longueur Maximale du Contexte	Données d'entraînement	Développeur	Licence / Conditions d'utilisation
Sarashina2-8x70B	Mixtral (8x70b (465b))	8,192	Sparse Upcycling on Sarashina2 (70B)	SB Intuitions	Sarashina Model NonCommercial License
LLM-jp-3 172B	Llama (172b, 172b-instruct2, 172b-instruct3)	4,096	Pre-training: llm-jp-corpus-v3 (2.1T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst	Research and Development Center for Large Language Models	Pre-trained model: LLM-jp-3 172B Terms of Use Post-trained model: llm-jp-3-172b-instruct3 Terms of Use
LLM-jp-3 172B beta2	Llama (172b-beta2, 172b-beta2-instruct2)	4,096	Pre-training: part of llm-jp-corpus-v3 (1.4T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k	Research and Development Center for Large Language Models	LLM-jp-3 172B beta2 Terms of Use
LLM-jp-3 172B beta1	Llama (172b-beta1, 172b-beta1-instruct)	4,096	Pre-training: part of llm-jp-corpus-v3 (0.7T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN	Research and Development Center for Large Language Models	LLM-jp-3 172B beta1 Terms of Use
LLM-jp-3 172B alpha	Llama (172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct)	4,096	Pre-training: part of llm-jp-corpus-v3 (alpha1: 0.7T tokens, alpha2: 1.4T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN	Research and Development Center for Large Language Models	Apache 2.0
Stockmark-100b	Llama (100b, 100b-instruct-v0.1)	4,096	Pre-training: RedPajama, Wikipedia en japonais, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus (910B tokens) Instruction Tuning (LoRA): ichikara-instruction	Stockmark	MIT
PLaMo-100B-Pretrained	Llama¹ (100b)	4,096	Pre-training: Japanese CommonCrawl, RefinedWeb, undisclosed (2.0T tokens)	Preferred Elements (Preferred Networks)	PLaMo Non-Commercial License
Sarashina2	Llama (7b, 13b, 70b)	7b, 13b: 4,096 70b: 8,192	Pre-training: Japanese Common Crawl, SlimPajama, StarCoder (2.1T tokens)	SB Intuitions	MIT
Sarashina1	GPT-NeoX (7b, 13b, 65b)	2,048	Pre-training: Japanese Common Crawl (1T tokens)	SB Intuitions	MIT
Tanuki-8×8B	Tanuki (MoE) (47b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)	4,096	Pre-training: various Web & synthetic datasets（1.7T tokens） SFT, DPO: various synthetic datasets ²	Matsuo Lab LLM Development Project	Apache 2.0
CyberAgentLM3 (CALM3)	Llama (22b-chat)	16,384	undisclosed (2.0T tokens)	CyberAgent	Apache 2.0
LLM-jp-3 13B instruct3	Llama (150m, 150m-instruct2, 150m-instruct3, 440m, 440m-instruct2, 440m-instruct3, 980m, 980m-instruct2, 980m-instruct3, 1.8b-instrcut2, 1.8b-instruct3, 3.7b-instruct2, 3.7b-instruct3, 7.2b-instruct2, 7.2b-instruct3, 13b-instruct2, 13b-instruct3)	4,096	Pre-training: llm-jp-corpus-v3 (2.1T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst	Research and Development Center for Large Language Models	Apache 2.0
LLM-jp-3 13B	Llama (1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 7.2b, 7.2b-instruct, 13b, 13b-instruct)	4,096	Pre-training: llm-jp-corpus-v3 (2.1T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k	Research and Development Center for Large Language Models	Apache 2.0
llm-jp-3-3.7b-instruct-EZO	Llama (3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities)	4,096	additionally trained on LLM-jp-3 (3.7B)	Axcxept	Apache 2.0
LLM-jp-13B v2.0	Llama (13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)	4,096	Pre-training: llm-jp-corpus-v2 (260B tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2	LLM-jp	Apache 2.0
Fugaku-LLM	GPT (13B, 13B-instruct, 13B-instruct-gguf)	2,048	Pre-training: undisclosed dataset Instruction Tuning: OASST1, Dolly Dataset, GSM8K	Titech, Tohoku Univ., Fujitsu, RIKEN, Nagoya Univ., CyberAgent, Kotoba Technologies	Fugaku-LLM Terms of Use
LLM-jp-13B v1.1	GPT (13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)	2,048	Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction DPO (LoRA): HH RLHF	LLM-jp	Apache 2.0
LLM-jp-13B	GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)	2,048	Pré-entraînement: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (300B tokens) Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1	LLM-jp	Apache 2.0
PLaMo-13B	Llama³ (13b, 13b-instruct, 13b-instruct-nc)	base: 4,096 instruct, instruct-nc: 8,192	Pré-entraînement: C4, Project Gutenberg, RedPajama, Japanese Wikipedia, Japanese mC4 (1.5T tokens) Instruction Tuning: Dolly, HH RLHF, OASST1, wikinews (+Alpaca in NC model)	Preferred Networks	Apache 2.0 (CC BY-NC 4.0 as for NC model)
Stockmark-13b	Llama (13b, 13b-instruct)	2,048	Wikipedia en japonais, Japanese CC-100, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus (220B tokens) Instruction Tuning (LoRA): ichikara-instruction	Stockmark	base: MIT instruct: CC BY-NC-SA 4.0
Weblab-10B	GPT-NeoX (10b, 10b-instruction-sft)	2,048	Japanese mC4, The Pile (600B tokens) Instruction Tuning: Alpaca, FLAN	Université de Tokyo Matsuo Lab	CC BY‑NC 4.0
PLaMo 2 8B	hybrid architecture like Samba (8b)		mainly Japanese and English data (6T tokens)	Preferred Elements (Preferred Networks)	PLaMo community license
Tanuki-8B	Tanuki (8b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)	4,096	Pre-training: various Web & synthetic datasets（1.3T tokens） SFT, DPO: various synthetic datasets ²	Matsuo Lab LLM Development Project	Apache 2.0
Japanese StableLM Alpha	GPT-NeoX (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)	2,048	Wikipédia, Japanese CC‑100, Japanese mC4, Japanese OSCAR, RedPajama, ensembles de données privés⁴ (750B tokens) Instruction Tuning: Dolly, HH‑RLHF, wikinews, Alpaca (discarded in v2)	Stability AI	base: Apache 2.0 instruct (v1): Research license instruct (v2): Apache 2.0
CyberAgentLM2 (CALM2)	Llama (7b, 7b-chat, 7b-chat-dpo-experimental)	base: 4,096 chat: 32,768	Ensembles de données japonais et anglais accessibles au public (détails inconnus) (1.3T tokens) DPO: Chatbot Arena Conversations JA (calm2) Dataset	CyberAgent	Apache 2.0 (CC BY 4.0 as for DPO model)
OpenCALM	GPT-NeoX (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))	2,048	Wikipedia en japonais, Japanese mC4, Japanese CC‑100	CyberAgent	CC BY‑SA 4.0
Stormy	GPT-NeoX (7b(6.8b))	2,048	OpenCALM fine-tuned sur llm-japanese-dataset v0 sans âches de traduction	Université de Tokyo Izumi Lab	CC BY‑SA 4.0
rinna GPT (En-Ja Bilingual)	GPT-NeoX (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)	8k model: 8,192 others: 2,048	Wikipedia, Japanese CC‑100, Japanese C4, RedPajama, The Pile (524B tokens) Instruction Tuning: HH‑RLHF, FLAN PPO: HH‑RLHF par apprentissage par renforcement 8k: entrainé sur du long texte	rinna	MIT
japanese-large-lm	GPT-NeoX (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)	2,048	Wikipedia en japonais, Japanese CC‑100, Japanese C4, Japanese OSCAR et ensembles de données privés (650GB) Instruction Tuning: OASST1	LINE	Apache 2.0
rinna GPT (Japanese only)	GPT / GPT-NeoX (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)	≤ 2,048	Wikipédia en japonais, Japanese CC‑100 (1b et plus modèles à ajouter Japanese mC4) Instruction Tuning: HH‑RLHF, FLAN, SHP PPO: HH‑RLHF par apprentissage par renforcement	rinna	MIT
RetrievaT5	T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))		Wikipédia en japonais, Japanese mC4	Retrieva	CC BY‑SA 4.0
Spiral-RetNet-3b-base	RetNet (3b)	2,048	Wikipedia, Japanese CC-100, CulturaX	Spiral.AI	MIT
kotomamba-2.8B	Mamba (2.8B-v1.0)	2,048	Wikipedia en japonais, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
ABEJA GPT	GPT / GPT-NeoX (large, neox-2.7b)		Japanese Wikipedia, Japanese CC‑100, Japanese OSCAR	ABEJA	MIT
WasedaGPT	GPT (small, xl(1.5b))		Wikipédia en japonais, Japanese CC‑100	Université de Waseda Kawahara Lab	CC BY‑SA 4.0
StockmarkGPT	GPT-NeoX (1.4b)		Wikipédia en japonais (0.88B tokens), Japanese CC‑100 (10.5B tokens), ensembles de données privés (8.6B tokens)	Stockmark	MIT
YellowbackGPT	GPT-NeoX (1.3b)		Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR	Yellowback	Apache 2.0
PLaMo 2 1B	hybrid architecture like Samba (1b)		mainly Japanese and English data (4T tokens)	Preferred Elements (Preferred Networks)	Apache 2.0
Sarashina2.1-1B	Llama (1b)	8,192	Japanese and English data on the web (10T tokens)	SB Intuitions	Sarashina Model NonCommercial License
colorfulscoop GPT	GPT (small)		Wikipédia en japonais	Colorful Scoop	CC BY‑SA 3.0
TitechGPT	GPT (medium, medium-reversed) ⁵		Wikipédia en japonais, Japanese CC‑100	Titech Okazaki Lab	CC BY‑SA 4.0
KyotoUniversityGPT	GPT (small, medium, large)		Wikipédia en japonais (3.2GB), Japanese CC‑100 (85GB), Japanese OSCAR (54GB)	Université de Kyoto Laboratoire de traitement des langues et des médias	CC BY‑SA 4.0
JapaneseBART	BART (base, large)		Wikipédia en japonais (18M sentences)	Université de Kyoto Laboratoire de traitement des langues et des médias	CC BY‑SA 4.0
Megagon Labs T5	T5 (base)		Japanese mC4 (782 GB), Wikipédia en japonais 40b (2 GB)	Megagon Labs (Recruit Co.,Ltd.)	Apache 2.0

Spécifique à un domaine

	Domaine	Architecture	Données d'entraînement	Développeur	Licence
Japanese Dialog Transformer	Dialogue	Transformer	Pairs de réponses venant de Twitter	NTT	License en évaluaiton
Japanese News BART	Affaires	BART (base)	Articles de l'actualité économique en japonais (21M articles)	Stockmark	MIT
AcademicBART	Science	BART (base)	CiNii Japanese Papers	Université d'Ehime AI Lab	Apache 2.0

Modèles développés à partir d'LLM non-japonais (avec un apprentissage en continue en japonais)

D'usage général

	Base du Model	Données d'entraînement	Développeur	Licence / Conditions d'utilisation
Llama 3.1 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1, 70B-Instruct-v0.3)	Llama 3.1 (70b)	Pre-training: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie	Swallow Project	Llama 3.1 Community License (Gemma Terms of Use is also applied to the Instruct model)
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407	Llama 3.1 (70b)	undisclosed	CyberAgent	Llama 3.1 Community License
Llama 3 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1)	Llama 3 (70b)	Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 ⁶	Swallow Project	Llama 3 Community License
turing-motors/Llama-3-heron-brain-70B-v0.3	Llama 3 (70b)	additionally trained on Llama 3 Swallow 70B (details undisclosed)	Turing	Llama 3 Community License
Llama 3 Youko 70B (70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq)	Llama 3 (70b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (5B tokens) Instruction Tuning: undisclosed datasetト⁷	rinna	Llama 3 Community License
Swallow 70B (70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf)	Llama 2 (70b)	Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1: OASST1, OASST2	Swallow Project	Llama 2 Community License
KARAKURI LM (70b-v0.1, 70b-chat-v0.1)	Llama 2 (70b)	Pre-training: mC4, CC100, OSCAR, RedPajama, undisclosed dataset (16B tokens) SteerLM: OASST2, undisclosed dataset	KARAKURI	Llama 2 Community License⁸
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b)	Llama 2 (70b)	Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
Swallow-MX 8x7B (8x7b-NVE-v0.1)	Mixtral-8x7B-Instruct-v0.1 (46.7b)	Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault	Swallow Project	Apache 2.0
KARAKURI LM 8x7B Instruct v0.1 (8x7b-instruct-v0.1)	Mixtral-8x7B-Instruct-v0.1 (46.7b)	trained Swallow-MX 8x7B on the following datasets: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, undisclosed dataset	KARAKURI	Apache 2.0 (?)⁹
KARAKURI LM 8x7B Chat v0.1 (8x7b-chat-v0.1)	Mixtral-8x7B-Instruct-v0.1 (46.7b)	trained Swallow-MX 8x7B on OASST2, HelpSteer, and undisclosed datasets using SteerLM	KARAKURI	Apache 2.0
ABEJA-Mixtral-8x7B-japanese (8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged)	Mixtral-8x7B-Instruct-v0.1 (46.7b) *Le modèle sans "Instruct" dans son nom est basé sur Mixtral-8x7B-v0.1	Pre-training: Japanese CC, Redpajama, undisclosed dataset （450B tokens）	ABEJA	Apache 2.0
ABEJA-Qwen2.5-32b-Japanese-v0.1 (32b-Japanese-v0.1)	Qwen 2.5 (32b)	Pre-training: Common Crawl, Cosmopedia, undisclosed dataset （100B tokens） + Chat Vector	ABEJA	Apache 2.0
Nekomata 14B (14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)	Qwen (14b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (66B tokens) Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset	rinna	Tongyi Qianwen LICENSE
Swallow 13B (13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf)	Llama 2 (13b)	Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1: OASST1, OASST2	Swallow Project	Llama 2 Community License
LEIA-Swallow-13B (13b)	Llama 2 (13b)	additionally trained Swallow 13B using LEIA	Individual (Ikuya Yamada, Ryokan Ri)	Llama 2 Community License
ELYZA-japanese-Llama-2-13b (13b, 13b-instruct, 13b-fast, 13b-fast-instruct)	Llama 2 (13b)	Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data (18B tokens) Instruction Tuning: undisclosed dataset	ELYZA	Llama 2 Community License
cyberagent/Mistral-Nemo-Japanese-Instruct-2408	Mistral NeMo (12b)	undisclosed	CyberAgent	Apache 2.0
Llama 3.1 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2, 8B-Instruct-v0.3)	Llama 3.1 (8b)	Pre-training: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie	Swallow Project	Llama 3.1 Community License (Gemma Terms of Use is also applied to the Instruct model)
Llama 3 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1)	Llama 3 (8b)	Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 ⁶	Swallow Project	Llama 3 Community License
turing-motors/Llama-3-heron-brain-8B-v0.3	Llama 3 (8b)	additionally trained on Llama 3 Swallow 8B (details undisclosed)	Turing	Llama 3 Community License
Llama 3 Youko 8B (8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq)	Llama 3 (8b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (22B tokens) Instruction Tuning⁷: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, undisclosed dataset DPO: HelpSteer, HelpSteer2, undisclosed dataset	rinna	Llama 3 Community License
Llama 3 ELYZA JP 8B (8B, 8B-GGUF, 8B-AWQ)	Llama 3 (8b)	undisclosed	ELYZA	Llama 3 Community License
Llama 3 neoAI 8B Chat v0.1 (8B-Chat-v0.1)	Llama 3 (8b)	undisclosed	neoAI	Llama 3 Community License
Llama 3 tedllm (v0)	Llama 3 (8b)	Pre-training: Japanese generic corpus	Tokyo Electron Device	Llama 3 Community License
Swallow 7B (7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)	Llama 2 (7b)	Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1: OASST1, OASST2	Swallow Project	Llama 2 Community License
LEIA-Swallow-7B (7b)	Llama 2 (7b)	additionally trained Swallow 7B using LEIA	Individual (Ikuya Yamada, Ryokan Ri)	Llama 2 Community License
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct)	Llama 2 (7b)	Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data (18B tokens) Instruction Tuning: undisclosed dataset	ELYZA	Llama 2 Community License
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)	Llama 2 (7b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (40B tokens) Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset	rinna	Llama 2 Community License
houou-7b (instruction-7b-v1, instruction-7b-v2, instruction-7b-v3)	Llama 2 (7b)	Instruction-tuned Youri 7B (base) on ichikara-instruction	MoneyForward	Llama 2 Community License
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)	Llama 2 (7b)	Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
SambaLingo-Japanese (Base, Chat)	Llama 2 (7b)	Pre-training: CulturaX Instruction Tuning: ultrachat_200k DPO: ultrafeedback, cai-conversation-harmless	SambaNova Systems	Llama 2 Community License (?)⁹
blue-lizard (blue-lizard)	Llama 2 (7b)	undisclosed	Deepreneur	Llama 2 Community License
Swallow-MS 7B (7b-v0.1, 7b-instruct-v0.1)	Mistral-7B-v0.1 (7b)	Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, OASST1	Swallow Project	Apache 2.0
RakutenAI-7B (7B, 7B-instruct, 7B-chat)	Mistral-7B-v0.1 (7b)	Pre-training: undisclosed Instruction Tuning: Dolly Dataset, OASST1, datasets converted from the train split of NLU datasets (like jaster), undisclosed dataset	Rakuten	Apache 2.0
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b)	Mistral-7B-v0.1 (7b)	Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset	Stability AI	Apache 2.0
ChatNTQ JA 7B (7b-v1.0)	Mistral-7B-v0.1 (7b)	Instruction-tuned Japanese Stable LM Gamma 7B (base) on their own datasets	NTQ Solution	Apache 2.0
Shisa Gamma 7B (7b-v1)	Mistral-7B-v0.1 (7b)	Instruction-tuned Japanese Stable LM Gamma 7B (base) on ultra-orca-boros-en-ja	AUGMXNT	Apache 2.0 (?)⁹
Shisa 7B (base-7b-v1, 7b-v1)	Mistral-7B-v0.1 (7b)	Pre-training: shisa-pretrain-en-ja-v1 (8B tokens) Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1	AUGMXNT	Apache 2.0
Karasu (7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)	Mistral-7B-v0.1 (7b)	Additionally trained Shisa 7B (base) on Aozora Bunko, Japanese Law Precedent Dataset, Japanese Wikipedia, Japanese domain webscrapes from the Japanese subset of CulturaX, UltraChat 200k (7B tokens) Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed dataset	Lightblue	Apache 2.0 (?)⁹
Nekomata 7B (7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)	Qwen (7b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (66B tokens) Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset	rinna	Tongyi Qianwen LICENSE
lightblue/japanese-mpt-7b	MPT (7b)	Japanese mC4	Lightblue	Apache 2.0 (?)⁹
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct)	StableLM-3B-4E1T (3b)	Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset	Stability AI	Apache 2.0
kotomamba-2.8B-CL	mamba-2.8b-slimpj (2.8b)	Japanese Wikipedia, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
Gemma 2 Baku 2B (2b, 2b-it)	Gemma 2 (2b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (80B tokens) OPRO: undisclosed dataset ¹⁰	rinna	Gemma Terms of Use
Japanese Stable LM 2 1.6B (base, instruct)	Stable LM 2 1.6B (1.6b)	Pre-training: Wikipedia, CulturaX Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1	Stability AI	STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE
TinySwallow-1.5B (1.5B, 1.5B-Instruct, 1.5B-Instruct-q4f32_1-MLC, 1.5B-Insturct-GGUF)	Qwen2.5 (1.5b)	Pre-training: trained using the TAID method (with Qwen2.5 (32b) as the teacher model) Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, swallow-magpie-ultra-v0.1, swallow-gemma-magpie-v0.1	Sakana AI, Swallow Project	Apache 2.0
karasu-1.1B	TinyLlama (1.1b)	Pre-training: Japanese OSCAR, Japanese mC4 (3B tokens)	Lightblue	Apache 2.0

Spécifique à un domaine

	Domaine	Base du Model	Développeur	Licence
Llama3-Preferred-MedSwallow-70B (70B)	Médecine	Llama 3 (70b)	Preferred Networks	Llama 3 Community License
AIgroup-CVM-utokyohospital/MedSwallow-70b	Médecine	Llama 2 (70b)	Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire	CC BY-NC-SA 4.0
nekomata-14b-pfn-qfin (qfin, qfin-inst-merge)	Finance	Qwen (14b)	Preferred Networks	Tongyi Qianwen LICENSE
Watashiha-Llama-2-13B-Ogiri-sft (sft, sft-neuron)	Oogiri	Llama 2 (13b)	Watashiha	Llama 2 Community License
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct)	Codage	Code Llama (7b)	ELYZA	Llama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b	Génération de récits	GPT-J (6b)	Individuel (Hiroyuki Osone)	CreativeML OpenRAIL-M License
NovelAI/genji-jp	Génération de récits	GPT-J (6b)	NovelAI	？

Modèles développés à partir d'LLM non-japonais (avec un post-entraînement en japonais)

D'usage général

	Base du Model	Données d'entraînement	Développeur	Licence / Conditions d'utilisation
AXCXEPT/EZO-Qwen2.5-72B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4	Qwen2.5 (72b)		Axcxept	Qwen License
ao-Karasu (72B)	Qwen1.5 (72b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, Japanese technical blogs, News stories, QA site answers, undisclosed dataset	Lightblue	Tongyi Qianwen LICENSE (?)⁹
AXCXEPT/Llama-3.1-70B-EZO-1.1-it	Llama 3.1 (70b)		Axcxept	Llama 3.1 Community License
Llama 3 shisa-v1-llama3-70b (70b)	Llama 3 (70b)	ultra-orca-boros-en-ja-v1	Shisa.AI	Llama 3 Community License (?)⁹
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese	Llama 2 (70b)		Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire	Llama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1	Llama 2 (70b)		Université de Doshisha Media Informatics Lab	？
cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese	DeepSeek-R1-Distill-Qwen (32b)		CyberAgent	MIT
karakuri-ai/karakuri-lm-32b-thinking-2501-exp	QwQ (32b)		KARAKURI	Apache 2.0
AXCXEPT/EZO-Qwen2.5-32B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct	Qwen2.5 (32b)		Axcxept	Apache 2.0
cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese	DeepSeek-R1-Distill-Qwen (14b)		CyberAgent	MIT
EZO-Phi-4 (phi-4-open-R1-Distill-EZOv1, phi-4-deepseek-R1K-RL-EZO)	Phi-4 (14b)		Axcxept	MIT
Qarasu (14B-chat-plus-unleashed)	Qwen (14b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed dataset	Lightblue	Tongyi Qianwen LICENSE (?)⁹
Sparticle/llama-2-13b-chat-japanese-lora	Llama 2 (13b)		Sparticle	？
izumi-lab/llama-13b-japanese-lora-v0-1ep	Llama (13b)		Université de Tokyo Izumi Lab	？
AXCXEPT/EZO-Common-9B-gemma-2-it	Gemma 2 (9b)		Axcxept	Gemma Terms of Use
AXCXEPT/EZO-Humanities-9B-gemma-2-it	Gemma 2 (9b)		Axcxept	Gemma Terms of Use
AXCXEPT/Llama-3.1-8B-EZO-1.1-it	Llama 3.1 (8b)		Axcxept	Llama 3.1 Community License
Llama 3 Suzume 8B (8B-japanese, 8B-japanese-gguf)	Llama 3 (8b)	megagonlabs/instruction_ja, ShareGPT, undisclosed dataset	Lightblue	Llama 3 Community License (?)⁹
Llama 3 shisa-v1-llama3-8b (8b)	Llama 3 (8b)	ultra-orca-boros-en-ja-v1	Shisa.AI	Llama 3 Community License (?)⁹
AXCXEPT/Llama-3-EZO-8b-Common-it	Llama 3 (8b)		Axcxept	Llama 3 Community License
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese	DeepSeek-R1-Distill-Qwen (7b)		Lightblue	Apache 2.0
Karasu DPO (7B)	Qwen 2.5 (7b)		Lightblue	Apache 2.0
ganchengguang/Yoko-7B-Japanese-v1	Llama 2 (7b)		Université nationale de Yokohama Mori Lab	？
Sparticle/llama-2-7b-chat-japanese-lora	Llama 2 (7b)		Sparticle	？
izumi-lab/llama-7b-japanese-lora-v0-5ep	Llama (7b)		Université de Tokyo Izumi Lab	？
lightblue/jod	Mistral-7B-SlimOrca (7b)		Lightblue	Apache 2.0
NTQAI/chatntq-7b-jpntuned	RWKV-4 World (7b)		NTQ Solution	？
Borea (Jp, Common, Coding)	Phi-3.5 (3.8b)		Axcxept	MIT
AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoE	Llama 3.2 (3b)		Axcxept	Llama 3.2 Community License
Gemma-2-JPN (2b-jpn-it)	Gemma 2 (2b)		Google	Gemma Terms of Use
AXCXEPT/EZO-gemma-2-2b-jpn-it	Gemma 2 (2b)		Axcxept	Gemma Terms of Use
AXCXEPT/EZO-Common-T2-2B-gemma-2-it	Gemma 2 (2b)		Axcxept	Gemma Terms of Use

Spécifique à un domaine

	Domaine	Base du Model	Développeur	Licence
JMedLoRA (llama2-jmedlora-6.89ep)	Médecine	Llama 2 (70b)	Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire	CC BY-NC 4.0

Modèles fusionnés

	Modèles originaux (LLMs japonais en gras)	Développeur	Licence
EQUES/MedLLama3-JP-v2	Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8B	EQUES	Llama 3 Community License
EvoLLM-JP-A (v1-7B)	Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002	Sakana AI	Apache 2.0
EvoLLM-JP (v1-7B, v1-10B)	Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002	Sakana AI	MICROSOFT RESEARCH LICENSE

Modèles basés sur des API

	Longueur Maximale du Contexte	Développeur	Plateforme
Solar mini chat ja (solar-1-mini-chat-ja)	32,768	Upstage	self-owned
AI Novelist	2,400 ~ 8,192	Bit192	self-owned
LHTM-OPT		alt Inc.	AWS Marketplace
tsuzumi (tsuzumi-7b)		NTT	Azure AI Foundry

Modèles encodeur

D'usage général

	Architecture	Longueur d'entrée maximale	Données d'entraînement	Développeur	Licence	HuggingFace? ¹¹
ModernBERT-Ja-130M	ModernBERT	8,192	Japanese and English corpora（4.39T tokens）	SB Intuitions	MIT	◯
KyotoUniBERT	BERT (base, large)	512	Wikipédia en japonais (18M articles)	Université de Kyoto Laboratoire de traitement des langues et des médias	Apache 2.0	△
TohokuUniversityBERT	BERT (base, large)	512	base (v1): Wikipédia en japonais (17M articles / 2.6GB) base (v2) & large: Wikipédia en japonais 4.0GB base (v3) & large (v2): Wikipédia en japonais (4.9GB), Japanese CC‑100 (74.3GB)	Université de Tohoku - Groupe TAL	base (v1, v2) & large: CC BY‑SA 3.0 base (v3) & large (v2): Apache 2.0	◯ (base (v1), base (v1, char-level), base (v2), base (v2, char-level), large, large (char-level), base (v3), base (v3, char-level), large (v2), large (v2, char-level))
TohokuNLP BERT-alpha 500M	Llama-based encoder¹²	4,096 or 8,192	Japanese subset of llm-jp-corpus-v3	Tohoku University NLP Group	Apache 2.0	◯ (sq4096-alpha, sq8192-alpha)
NICT BERT	BERT (base)	512	Wikipédia en japonais	NICT	CC BY 4.0	△
Laboro BERT	BERT (base, large)	512	Corpus web en japonais (Actualités, blogs, etc) (12GB)	Laboro.AI	CC BY‑NC 4.0	✕
colorfulscoop BERT	BERT (base)	512	Wikipédia en japonais	Colorful Scoop	CC BY‑SA 3.0	◯
UniversityOfTokyoBERT	BERT (small)	512	Wikipédia en japonais (2.9GB)	Université de Tokyo Izumi Lab	CC BY‑SA 4.0	◯
chiTra (Sudachi Transformers)	BERT (base)	512	NINJAL Web Japanese Corpus (148GB)	NINJAL, WAP Tokushima - Laboratoire IA et TAL	Apache 2.0	△
ACCMS BERT	BERT (base)	512	Wikipédia en japonais (3.3GB)	Université de Kyoto ACCMS	CC BY‑SA 4.0	◯
HitachiBERT	BERT (base)	512	Wikipédia en japonais, Japanese CC‑100	Hitachi	CC BY‑NC‑SA 4.0	◯¹³
RetrievaBERT	BERT ¹⁴	2,048	Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The Stack	Retrieva	Apache 2.0	◯
Bandai Namco DistilBERT	DistilBERT	512	(Distillation de BERT (base) de l'Université du Tohoku)	Bandai Namco Research	MIT	◯
Laboro DistilBERT	DistilBERT	512	(Distillation of Laboro BERT(base))	Laboro.AI	CC BY‑NC 4.0	◯
LINE DistilBERT	DistilBERT	512	(Distillation de LINE en interne BERT model)	LINE	Apache 2.0	◯
rinna RoBERTa	RoBERTa (base)	512	Wikipédia en japonais, Japanese CC‑100	rinna	MIT	◯
WasedaRoBERTa	RoBERTa (base, large)	512	Wikipédia en japonais, Japanese CC‑100	Waseda Kawahara Lab	CC BY‑SA 4.0	◯ (base, large, large (seq512))¹⁵
InformatixRoBERTa	RoBERTa (base)	512	Wikipédia en japonais, Web Articles (25GB)	Informatix	Apache 2.0	△
KyotoUniversityRoBERTa	RoBERTa (base, large)	512	Wikipédia en japonais, Japanese CC‑100	Université de Kyoto Laboratoire de traitement des langues et des médias	CC BY‑SA 4.0	◯ (base (char-level), large (char-level))
YokohamaNationalRoBERTa	RoBERTa (base)	512	Wikipédia en japonais (3.45GB)	Université nationale de Yokohama - Mori Lab	Apache 2.0	◯
Megagon Labs RoBERTa	RoBERTa (base)¹⁶	1,282	Japanese mC4 (200M sentences)	Megagon Labs (Recruit Co.,Ltd.)	MIT	◯
ACCMS RoBERTa	RoBERTa (base)	512	Wikipédia en japonais (3.3GB) + Japanese CC‑100 (70GB)	Université de Kyoto ACCMS	CC BY‑SA 4.0	◯
CinnamonELECTRA	ELECTRA (small)	512	Wikipédia en japonais	Cinnamon	Apache 2.0	◯
Megagon Labs ELECTRA	ELECTRA (base)	512	Japanese mC4 (200M sentences)	Megagon Labs (Recruit Co.,Ltd.)	MIT	◯
UniversityOfTokyoELECTRA	ELECTRA (small, base)	512	Wikipédia en japonais (2.9GB)	Université de Tokyo Izumi Lab	CC BY‑SA 4.0	◯ (small, base)
JapaneseRoFormer	RoFormer (base)	512	Wikipédia en japonais (3.45GB)	Université nationale de Yokohama - Mori Lab	Apache 2.0	◯
JapaneseLUKE	LUKE (base, large)	512	Wikipédia en japonais	Studio Ousia	Apache 2.0	◯ (base, large)
KyotoUniversityDeBERTaV2	DeBERTaV2 (tiny, base, large)	512	Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR (171GB)	Université de Kyoto - Laboratoire du traitement des langues et médias	CC BY‑SA 4.0	◯ (tiny, tiny (char-level), base, large)
KyotoUniversityDeBERTaV3	DeBERTaV3 (base)	512	llm-jp-corpus	Kyoto University Language Media Processing Lab	Apache 2.0	◯
UniversityOfTokyoDeBERTaV2	DeBERTaV2 (small, base)	512	Wikipédia en japonais, Japanese Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR	University of Tokyo Izumi Lab	CC BY-SA 4.0	◯ (small, base)
GLOBIS DeBERTaV3	DeBERTaV3 (xsmall, base, large)	512	Wikipedia, WikiBooks, Aozora Bunko, Japanese CC-100, Japanese mC4, Japanese OSCAR	GLOBIS	CC BY-SA 4.0	◯ (xsmall, base, large)
JapaneseBigBird	BigBird (base)	4,096	Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR	Waseda Kawahara Lab	CC BY‑SA 4.0	◯
JapaneseLayoutLM	LayoutLM (base)	512	Pre-trained on Japanese Wikipedia, initialized with TohokuUniversityBERT	The Japan Research Institute, Limited	CC BY-SA 3.0	◯

Spécifique à un domaine

	Domaine	Architecture	Données d'entraînement	Développeur	Licence	HuggingFace?
JapaneseBlogELECTRA	Langue familière	ELECTRA (small)	Corpus de blogs en japonais (354M sentences)	Université de technologie de Kitami - Laboratoire de Masui-Ptaszynski	CC BY‑SA 4.0	◯
JapaneseSpokenLanguageBERT	Langue parlée	BERT (base)	Formation supplémentaire pour TohokuUniversityBERT en utilisant le Corpus of Spontaneous Japanese (CSJ) (Dans le modèle DAPT, le compte rendu de la diète est également utilisé)	Retrieva	Apache 2.0	◯
AcademicRoBERTa	Science	RoBERTa (base)	CiNii Japanese Papers (6.3M sentences)	Université d'Ehime Laboratoire IA	Apache 2.0	◯
local-politics-BERT	Politique	BERT (base)	Procès-verbaux de la Diète nationale, Procès-verbaux de l'Assemblée locale	Projet de Corpus des Procès-Verbaux des Assemblées Locales Japonaises	CC BY-SA 4.0	◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) ¹⁷
UBKE-LUKE	Économie	LUKE (base)	Wikipédia en japonais, Rapports financiers, Articles de nouvelles économiques	Uzabase	CC BY-NC	◯
JapaneseFinancialBERT	Finance	BERT (small, base)¹⁸	Wikipédia en japonais, Japanese Financial Corpus (27M sentences/5.2GB)	Université de Tokyo Izumi Lab	CC BY‑SA 4.0	◯ (small, base)
JapaneseFinancialELECTRA	Finance	ELECTRA (small)	Wikipédia en japonais (20M sentences/2.9GB), Japanese Financial Corpus (27M sentences/5.2GB)	Université de Tokyo Izumi Lab	CC BY‑SA 4.0	◯
JapaneseNewsBERT	Affaires	BERT (base)	Articles sur l'économie en japonais(3M articles)	Stockmark	CC BY 4.0	△
JapaneseNewsXLNet	Affaires	XLNet (base)	Articles sur l'économie en japonais (3M articles)	Stockmark	？	◯ ※ Version non officielle
JapaneseNewsALBERT	Affaires	ALBERT (base)	Articles sur l'économie en japonais (3M articles)	Stockmark	？	△
MinpakuBERT	Patrimoine culturel	BERT (base)	Formation supplémentaire avec les données du patrimoine culturel du Musée national d'ethnologie sur Tohoku University BERT	Université de Hyogo Ohshima Lab	MIT	◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token)
UTH-BERT	Médecine	BERT (base)	Dossiers médicaux en japonais (120M lignes)	Université de Tokyo Hôpital Cours de développement en IA pour la médecine	CC BY‑NC‑SA 4.0	△
medBERTjp	Médecine	BERT (base)	Wikipédia en japonais, Corpus médical en japonais ("今日の診療プレミアム/Today's Care Premium" Web Version)	Université d'Osaka Hôpital Laboratoire d'information médicale	CC BY‑NC‑SA 4.0	△
JMedRoBERTa	Médecine	RoBERTa (base)	Japanese Medical Papers (11M sentences/1.8GB)	NII Aizawa Lab	CC BY‑NC‑SA 4.0	◯ (ManbyoWordPiece, SentencePiece)¹⁹

Plongement lexical par mots et par documents ²⁰

Bi-Encoders

Single-representation bi-encoders

	Longueur Maximale du Contexte	Développeur	Licence
sbintuitions/sarashina-embedding-v1-1b	8,192	SB Intuitions	Sarashina Model NonCommercial License
RoSEtta (pkshatech/RoSEtta-base-ja)	1,024	PKSHA Technology	Apache 2.0
GLuCoSE v2 (pkshatech/GLuCoSE-base-ja-v2)	512	PKSHA Technology	Apache 2.0
Ruri (cl-nagoya/ruri-pt-small, cl-nagoya/ruri-pt-base, cl-nagoya/ruri-pt-large, cl-nagoya/ruri-small, cl-nagoya/ruri-base, cl-nagoya/ruri-large)	512	Université de Nagoya - Sasano Group	Apache 2.0
Japanese SimCSE (cl-nagoya/unsup-simcse-ja-base, cl-nagoya/unsup-simcse-ja-large, cl-nagoya/sup-simcse-ja-base, cl-nagoya/sup-simcse-ja-large)	512	Université de Nagoya - Sasano Group	CC BY-SA 4.0
GLuCoSE (pkshatech/GLuCoSE-base-ja)	512	PKSHA Technology	Apache 2.0
colorfulscoop/sbert-base-ja		Colorful Scoop	CC BY‑SA 4.0
MU-Kindai/SBERT-JSNLI-base MU-Kindai/SBERT-JSNLI-large		Université de Kindai	？
MU-Kindai/Japanese-SimCSE-BERT-base-unsup MU-Kindai/Japanese-SimCSE-BERT-large-unsup MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup MU-Kindai/Japanese-SimCSE-BERT-base-sup MU-Kindai/Japanese-SimCSE-BERT-large-sup		Université de Kindai	MIT
pkshatech/simcse-ja-bert-base-clcmlp		PKSHA Technology	CC BY‑SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base MU-Kindai/Japanese-MixCSE-BERT-large		Université de Kindai	MIT
MU-Kindai/Japanese-DiffCSE-BERT-base		Université de Kindai	MIT
bclavie/fio-base-japanese-v0.1		Individuel (Benjamin Clavié)
cl-nagoya/shioriha-large-pt		Université de Nagoya - Sasano Group

Multi-representation bi-encoders

	Développeur	Licence
JaColBERTv2.5 (JaColBERTv2.4, JaColBERTv2.5)	Answer.AI	MIT
JaColBERTv2 (JaColBERTv2)	Individuel (Benjamin Clavié)	MIT
JaColBERT (JaColBERT)	Individuel (Benjamin Clavié)	MIT

Cross-Encoders

	Développeur	Licence
Ruri-Reranker (cl-nagoya/ruri-reranker-stage1-small, cl-nagoya/ruri-reranker-stage1-base, cl-nagoya/ruri-reranker-stage1-large, cl-nagoya/ruri-reranker-small, cl-nagoya/ruri-reranker-base, cl-nagoya/ruri-reranker-large)	Université de Nagoya - Sasano Group	Apache 2.0
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1 hotchpotch/japanese-reranker-cross-encoder-small-v1 hotchpotch/japanese-reranker-cross-encoder-base-v1 hotchpotch/japanese-reranker-cross-encoder-large-v1 hotchpotch/japanese-bge-reranker-v2-m3-v1	Individuel (Yuichi Tateno)	MIT

Modèles Vision-Language

Text+Image vers Text

Modèles développés à partir de zéro

D'usage général

	Architecture	Données d'entraînement	Développeur	License / Terms of Use
llava-calm2-siglip (llava-calm2-siglip)	LLaVA-1.5	coversational data generated from MS-COCO and VisualGenome	CyberAgent	Apache 2.0
LLM-jp-3 VILA 14B (14b)	LLaVA-1.5	Japanese image text pairs, LLaVA-Pretrain, Japanese interleaved data, coyo (subset), mmc4-core (subset), llava-instruct-ja, japanese-photos-conv, ja-vg-vqa, synthdog-ja, LLaVA-1.5 instruction data (subset)	Research and Development Center for Large Language Models	Apache 2.0 & OpenAI Terms of Use
Heron (blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1)	BLIP-2 / GIT	v1: LLaVA-Instruct-150K-JA or LLaVA-Instruct-620K-JA v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset	Turing	CC BY-NC 4.0
Japanese Stable VLM (japanese-stable-vlm)	LLaVA-1.5	Japanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQA	Stability AI	STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha (japanese-instructblip-alpha)	InstructBLIP	Japanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQA	Stability AI	JAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4 (bilingual-gpt-neox-4b-minigpt4)	MiniGPT-4	CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset	rinna	MIT

Spécifique à un domaine

	Architecture	Domaine	Développeur	Licence
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm	LLaVA	Oogiri	Watashiha	Llama 2 Community License

Modèles développés à partir d'VLM non-japonais

	Base du Model	Données d'entraînement	Développeur	Licence
AXCXEPT/EZO-InternVL2-26B	InternVL2	-	Axcxept	MIT

Modèles fusionnés

	Modèles originaux (LLMs japonais en gras)	Développeur	Licence
Llama-3-EvoVLM-JP-v2 (v2)	Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-V	Sakana AI	Llama 3 Community License
AXCXEPT/Llama-3-EZO-VLM-1	(trained from Llama-3-EvoVLM-JP-v2)	Axcxept	Llama 3 Community License
EvoVLM-JP (v1-7B)	Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7B	Sakana AI	Apache 2.0

Text vers Image

D'usage général

	Architecture	Training Data	Développeur	License
CommonArt β (commonart-beta)	PixArt-Σ	CommonCatalog-cc-by, Megalith-10M, Smithonian Open Access, ArtBench (CC-0 only)	AI Picasso	Apache 2.0
EvoSDXL-JP (v1)	Stable Diffusion	- (merged from several diffusion models, including Japanese Stable Diffusion XL)	Sakana AI	Apache 2.0²¹
Japanese Stable Diffusion XL (japanese-stable-diffusion-xl)	Stable Diffusion	Inconnu	Stability AI	STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
TohokuUniversity Stable Diffusion (base, refiner)	Stable Diffusion	Corpus parallèle anglais-japonais de la tâche partagée WMT2023, environ 13 millions de légendes de laion2B-multi	Université de Tohoku - Groupe TAL	CreativeML OpenRAIL-M License
rinna Stable Diffusion (japanese-stable-diffusion)	Stable Diffusion	LAION-5B Japanese Subset (100M images)	rinna	CreativeML OpenRAIL-M License

Spécifique à un domaine

	Architecture	Domaine	Développeur	Licence
Evo-Nishikie (v1)	Stable Diffusion (ControlNet)	Ukiyo-e	Sakana AI	Apache 2.0²¹
Evo-Ukiyoe (v1)	Stable Diffusion	Ukiyo-e	Sakana AI	Apache 2.0²¹

Text vers Vidéo

	Architecture	Training Data	Développeur	License
AIdeaLab VideoJP (AIdeaLab-VideoJP)	CogVideoX	Pixabay, FineVideo	AIdeaLab	Apache 2.0

Autres

	Architecture	Données d'entraînement	Développeur	Licence
llm-jp-clip (llm-jp-clip-vit-base-patch16, llm-jp-clip-vit-large-patch14)	CLIP	Traduction d'environ 1,5 milliard de sous-titres à partir du sous-ensemble anglais de ReLAION-5B	Research and Development Center for Large Language Models	Apache 2.0
LY CLIP (clip-japanese-base)	CLIP	CommonCrawl, CC12M, YFCC100M	LY Corp.	Apache 2.0
Recruit CLIP (japanese-clip-vit-b-32-roberta-base)	CLIP	environ 120 millions de légendes de laion2B-multi	Recruit Co.,Ltd.	CC BY-4.0
Japanese Stable CLIP (japanese-stable-clip-vit-l-16)	SigLIP	CC12M traduit en japonais, STAIR Captions	Stability AI	STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP (japanese-clip-vit-b-16)	CLIP	CC12M traduit en japonais	rinna	Apache 2.0
rinna CLOOB (japanese-cloob-vit-b-16)	CLOOB	CC12M traduit en japonais	rinna	Apache 2.0
HAKUHODO Technologies CLIP (base, deeper, wider)	CLIP	about 120 million captions from laion2B-multi	HAKUHODO Technologies	CC BY-NC-SA 4.0

Modèles Speech-Language

Reconnaissance automatique de la parole

	Architecture	Données d'entraînement	Développeur	Licence
Kotoba-Whisper (v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1, v2.2)	Distil-Whisper	ReazonSpeech	Kotoba Technologies	Apache 2.0
Nue ASR (nue-asr)	Nue ASR (HuBERT + LLM)	ReazonSpeech	rinna	Apache 2.0
ReazonSpeech (espnet-v1, espnet-next, espnet-v2, nemo-v2)	ESPnet (Conformer-Transducer) / NeMo (FastConformer-RNNT)	ReazonSpeech	Reazon Holdings	Apache 2.0

Autres

	Architecture	Données d'entraînement	Développeur	Licence
J-Moshi (j-moshi, j-moshi-ext)	Modèle de base de texte et de parole basé sur Transformer (Moshi)	Corpus de dialogues de parole (J-CHAT, Japanese Callhome, CSJ, corpus de dialogues d'agence de voyages, corpus de dialogues de chat propriétaire, corpus de dialogues de consultation propriétaire), corpus de dialogues textuels (Japanese PersonaChat, Japanese EmpatheticDialogues, corpus de dialogues quotidiens japonais, RealPersonaChat)	Nagoya University Higashinaka Lab	CC BY-NC 4.0
Kotoba-Speech (v0.1)	Transformer	undisclosed	Kotoba Technologies	Apache 2.0
UniversityOfTokyoHuBERT (base-jtube)	HuBERT	JTubeSpeech	University of Tokyo Saruwatari & Takamichi Lab	MIT
rinna HuBERT (base, large)	HuBERT	ReazonSpeech	rinna	Apache 2.0
Reazon wav2vec 2.0 (base, large)	wav2vec 2.0	ReazonSpeech	Reazon Holdings	Apache 2.0
rinna wav2vec 2.0 (base)	wav2vec 2.0	ReazonSpeech	rinna	Apache 2.0

Standard d'évaluation pour les LLM en japonais

Benchmarks hybrides

	Description	Développeur
Nejumi LLM Leaderboard3	Évalue les capacités linguistiques japonaises des LLM sous trois angles : compétence en compréhension linguistique, aptitude à l'application, et alignement (incluant le contrôle et la sécurité). Pour plus de détails, voir cet article.	Weights & Biases
Japanese LLM Evaluation	Réalise une évaluation complète de divers LLM basés sur trois types de tâches : compréhension et génération du japonais, dialogues japonais multi-tours, et compréhension et génération en anglais. Publie également swallow-evaluation, un script d'évaluation qui intègre et améliore les outils existants d'évaluation des LLM.	Swallow Project

Référence traditionnelle basé sur des tâches de Compréhension du langage naturel (NLU)

	Description	Développeur
Open Japanese LLM Leaderboard	Évalue les modèles de langage japonais dans 16 tâches différentes en utilisant llm-jp-eval.	LLM-jp, Hugging Face
llm-jp-eval	Un outil qui évalue automatiquement les LLM japonais à travers plusieurs jeux de données. La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE).	LLM-jp
JP Language Model Evaluation Harness	Un fork par Stability AI de EleutherAI/lm-evaluation-harness. Il s'agit d'un outil pour évaluer automatiquement les LLM japonais à travers plusieurs jeux de données. La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE). Il y a un résumé détaillé des résultats de l'évaluation par rinna : [rinna] Benchmark de Stability-AI/lm-evaluation-harness	Stability AI
JGLUE	Version japonais de GLUE référence suite, avec les tâches MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, et JCommonsenseQA. JCoLA vient du laboratoire d'Oseki de l'université de Tokyo. Voir ici and here (ja only) pour plus d'informations sur chaque tâches.	Université de Waseda Laboratoire Kawahara et Yahoo
JMMLU	Un benchmark construit comme une version japonaise du MMLU Benchmark, consistant en des questions à choix multiples de divers domaines académiques, y compris les sciences naturelles, les humanités et les sciences sociales. En plus de la traduction du MMLU original, il contient de nouveaux problèmes basés sur le contexte culturel unique du Japon (problèmes spécifiques au Japon).	Université de Waseda Laboratoire Kawahara

Standard des tâches génératives ouvertes

	Description	Développeur
Japanese MT-bench	Version japonaise du MT-bench qui interroge sur la capacité à converser en plusieurs tournures. Il inclut 80 questions, 10 de chacune des 8 catégories : écriture, jeu de rôle, raisonnement, maths, codage, extraction, STEM, sciences humaines. Certaines questions ont été modifiées pour s'adapter à la culture japonaise lors de la création de la version japonaise. Il comprend également un script qui réalise une évaluation absolue en 10 niveaux par GPT-4.	Stability AI
ELYZA-tasks-100	Classement basé sur les réponses des modèles avec 100 tâches complexes et diverses, y compris les tâches testant la synthèse, la correction, l'abstraction, l'induction et d'autres compétences. Utilise des humains pour noter les réponses du modèle, puis classe les modèles en fonction de leurs scores moyens.	ELYZA
Preferred Generation Benchmark (pfgen-bench)	Un banc d'essai pour mesurer la capacité des LLMs à générer du texte en japonais basé sur 50 questions de bon sens uniques au contexte japonais. Il évalue selon trois axes : fluidité, véracité et utilité. L'évaluation est réalisée sans utiliser LLM-as-a-Judge en calculant des métriques basées sur des n-grammes ou des règles.	Preferred Elements (Preferred Networks)
Rakuda Benchmark	Classement basé sur les réponses des modèles avec 40 questions ouvertes la géographie, l'histoire, la politique, et la société japonaise. Utilise GPT-4 pour évaluer les résultats du modèle par paires, puis classe les modèles en ajustant le maximum de vraisemblance sur le modèle de probabilité d'Elo/Bradley-Terry avec les préférences de GPT-4.	YuzuAI
Japanese Vicuna QA Benchmark	Il s'agit de la version japonaise de vicuna-blog-eval, qui est le précurseur de MT-Bench. Il comprend 80 questions sur la connaissance générale, le jeu de rôle, le bon sens, l'estimation de Fermi, la pensée contrefactuelle, le codage, les mathématiques, et l'écriture. Il comprend également un script pour une évaluation automatique par GPT-4 (calcul du taux de victoire). Le tableau de classement peut être trouvé ici.	Université de Kyoto Laboratoire de traitement des langues et des médias
Tengu-Bench	Comprend 120 questions ouvertes de diverses catégories. Catégories de questions : interprétation des tableaux, puzzles logiques, génération d'idées, appel de fonctions, résumé de longs documents (plus de mille jetons), résumé de conversations, questions fermées sur des longs documents (plus de mille jetons), honorifiques, création de projet, mathématiques, traduction, extraction, contrôle éthique, estimation des coûts, Japon, bavardage, calembours, formatage, construction, affaires, jugement juridique, politique, questions hypothétiques.	Lightblue
Shaberi	Un cadre qui peut évaluer collectivement le Japanese MT-bench, le Rakuda Benchmark, le ELYZA-tasks-100, et le Tengu-Bench. Il existe également un fork de Shisa.AI.	Lightblue

Benchmarks pour mesurer la performance dans des domaines spécifiques

	Description	Développeur
Japanese Language Model Financial Evaluation Harness	Un benchmark pour les LLM japonais dans le secteur financier. Il comprend des tâches telles que l'analyse des sentiments dans la finance (chabsa), des tâches de connaissances de base en analyse de titres (cma_basics), des tâches relatives aux audits dans les examens de comptable public certifié (cpa_audit), des tâches à questions à choix multiple dans les examens de planificateur financier (fp2), et des tâches d'examen blanc pour les examens de vendeurs de titres (security_sales_1). Pour plus de détails, veuillez consulter ici.	Preferred Networks
pfmt-bench-fin-ja	Un benchmark pour mesurer les capacités de génération des LLM japonais dans le domaine financier.	Preferred Networks
Stockmark Business Questions	La collection comprend 50 questions qui approfondissent les connaissances sur des sujets tels que les tendances du marché, l'actualité, les problèmes sociaux et les tendances commerciales.	Stockmark
JMED-LLM	Un ensemble de données pour évaluer les LLM dans le domaine médical japonais. Il compile des tâches de traitement du langage médical japonais développées précédemment pour le benchmarking des LLM.	NAIST Social Computing Lab.
JMedBench	Un benchmark pour les LLM dans le domaine médical japonais. Il comprend 20 ensembles de données dans 5 types de tâches : questions-réponses à choix multiple, traduction automatique, reconnaissance d'entités nommées, classification de documents, et similarité textuelle sémantique (certains ensembles de données sont empruntés à JMMLU et JMED-LLM). Un outil appelé med-eval est développé pour faciliter l'évaluation sur JMedBench.	NII Aizawa Lab
Japanese Medical Language Model Evaluation Harness	Un benchmark pour évaluer les LLM japonais dans le domaine médical en japonais et en anglais, exécutable par une seule commande.	Individuel (Issey Sukeda)
karakuri-bench	Un ensemble de données pour mesurer la performance des LLM japonais dans le support client.	KARAKURI

Benchmarks pour mesurer la factualité et la sécurité

	Description	Développeur
JTruthfulQA	La version japonaise du dataset pour évaluer la factualité des LLM TruthfulQA. Il comprend des questions sur les superstitions et d'autres croyances tenues par certaines personnes qui ne sont pas factuelles, ainsi que des questions sur les connaissances spécifiques au Japon, le tout collecté à partir de zéro.	Waseda University Kawahara Lab
JCommonsenseMorality	Un dataset sur la moralité de sens commun japonaise. Les phrases décrivant des actions sont étiquetées avec des valeurs binaires indiquant si elles sont moralement répréhensibles ou acceptables.	Hokkaido University Language Media Lab
JBBQ	La version japonaise du dataset de questions-réponses sur les biais sociaux BBQ, développée par la traduction, la révision et l'ajout de questions basées sur la culture et les coutumes japonaises.	University of Tokyo Yanaka Lab

Benchmarks pour mesurer les capacités de raisonnement logique

	Description	Développeur
JFLD (Japanese Formal Logic Deduction)	Un dataset pour évaluer les capacités de raisonnement déductif des LLM japonais (la version japonaise de la FLD (Formal Logic Deduction) proposée par les mêmes auteurs). Il se caractérise par le fait qu'il est composé d'exemples contrefactuels pour évaluer indépendamment des connaissances que possède le LLM.	Hitachi
JHumanEval	Une version japonaise du benchmark HumanEval, qui évalue la capacité à générer du code Python à partir d'instructions en anglais. En créant la version japonaise, le texte a d'abord été traduit automatiquement, puis corrigé manuellement.	Université des Femmes du Japon - Laboratoire Kuramitsu

Benchmarks pour la génération de texte contrôlée

	Description	Développeur
LCTG Bench	Un benchmark pour la contrôlabilité des LLM japonais. Il évalue si les LLM peuvent adhérer à des contraintes sur quatre aspects : le format de sortie, le nombre de caractères, les mots-clés et les mots interdits. La qualité du texte généré est également évaluée.	CyberAgent

Benchmarks pour modèles d'embeddings

	Description	Développeur
JMTEB	Un benchmark développé comme la version japonaise de MTEB. Il se compose de tâches telles que le regroupement de documents, la classification de textes, la similarité de phrases, la prédiction d'étiquetage de paires de phrases et l'extraction de texte (une tâche de reclassement a été récemment ajoutée).	SB Intuitions
JQaRA	Un ensemble de données pour évaluer l'extraction de documents japonais et la précision du reclassement. Chacune des 1,667 questions est attribuée à 100 documents candidats, dont au moins un peut répondre à la question. Les questions sont tirées de JAQKET, et les documents candidats proviennent de Wikipédia japonais.	Individuel (Yuichi Tateno)
JaCWIR	Un ensemble de données créé pour évaluer l'extraction de documents et le reclassement dans des domaines autres que Wikipédia. Chacune des 5,000 questions est attribuée à une page Web servant de source pour la question et à 99 pages Web sans rapport.	Individuel (Yuichi Tateno)

Benchmarks pour modèles vision-langage

	Description	Développeur
llm-jp-eval-mm	Un outil pour évaluer la performance des VLMs japonais sur plusieurs tâches de référence	Research and Development Center for Large Language Models
JMMMU	Un benchmark construit comme la version japonaise du MMMU Benchmark. Il se compose de 720 problèmes traduits du MMMU et de 600 nouveaux problèmes uniques à la culture japonaise.	University of Tokyo Aizawa Lab
JDocQA	Un jeu de données de questions-réponses basé sur des documents japonais (brochures, diapositives, rapports, sites web), comprenant un total de 11 600 questions. Il inclut divers formats de questions, y compris des questions non répondables.	NAIST Watanabe Lab
Heron VLM Leaderboard powered by Nejumi/WandB	Résume les résultats d'évaluation de Japanese-Heron-Bench et LLaVA-Bench-In-the-Wild (Japanese).	Turing, Weights & Biases
Japanese-Heron-Bench	21 images se voient attribuer un total de 102 questions. Il est caractérisé par des paires image-question qui nécessitent une connaissance liée au Japon.	Turing
JA-VLM-Bench-In-the-Wild	Un jeu de données préparé indépendamment par Sakana AI pour évaluer EvoVLM-JP-v1-7B. Il se compose de 50 questions attribuées à 42 images. Il se caractérise par des images et des questions qui exigent une connaissance du Japon.	Sakana AI
JA-Multi-Image-VQA	Un jeu de données pour évaluer la capacité de question-réponse en japonais pour plusieurs images.	Sakana AI
LLaVA-Bench-In-the-Wild (Japanese)	Ceci est la version japonaise de LLaVA-Bench-In-the-Wild, traduite à l'aide de DeepL. Il se compose de 60 questions attribuées à 24 images.	Turing
LLaVA-Bench (COCO) Japonais	Il s'agit de la version japonaise, traduite par DeepL, du jeu de données LLaVA-Bench (COCO) utilisé pour évaluer LLaVA. Il se compose de 30 images, chacune avec 3 types de questions qui leur sont attribuées.	Turing
Japanese Visual Genome VQA dataset	Un jeu de données de questions-réponses annotées basé sur des images du Visual Genome dataset. Un sous-ensemble de ce jeu de données, JA-VG-VQA-500, composé de 500 questions, est parfois utilisé comme benchmark pour évaluer les VLMs.	Yahoo

Références pour les modèles et les architectures

Références pour les méthodes d'entraînement

Nos contributeurs

Nous aimons les contributeurs ! N'hésitez pas à contribuer à ce projet.

Citation

La synthèse de ce répertoire est également publiée sous forme de prépublication: Exploring Open Large Language Models for the Japanese Language: A Practical Guide

Lorsque vous référencez ce répertoire, veuillez le citer comme suit:

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

Quelques modifications architecturales ont été apportées. Pour plus de détails, référez-vous à : 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 ↩
Référez-vous aux articles suivants: 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など, 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー ↩ ↩²
Certaines améliorations de performances ont été apportées au modèle Llama original. Voir ici pour plus détails. ↩
Les détails n'ont pas été rendus publics, mais l'ensemble de données privé comprend des jeux de données de l'équipe japonaise du projet EleutherAI Polyglot et des membres de Stable Community Japan. ↩
Ce projet a mené des recherches d'évaluation sur l'utilisation de la génération de droite à gauche au lieu de la génération habituelle de gauche à droite, en publiant des modèles de gauche à droite et de droite à gauche. ↩
Avant de procéder à l'ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. ↩ ↩²
Après avoir effectué un ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. ↩ ↩²
Cependant, si une utilisation commerciale de KARAKURI LM est souhaitée, un contact direct avec le développeur, KARAKURI Inc., est requis. ↩
Dans l'ajustement des instructions, comme il utilise des données générées par les modèles d'OpenAI, tels que GPT-3.5, GPT-4, etc. pour l'entraînement, il se peut qu'il viole les termes d'OpenAI. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰
Avant de procéder à l'ajustement des instructions, un vecteur de chat entre Gemma 2 Instruct et Gemma 2 Base est ajouté. ↩
○: Le modèle se trouve sur le Model Hub d'HuggingFace et peut être chargé avec la commande AutoModel.from_pretrained() . △: Le modèle ne se trouve pas sur le Model Hub mais peut être chargé manuellement avec la bibliothèque de transformateurs HuggingFace. ✕: Le modèle ne se charge pas avec HuggingFace. ↩
En supprimant l'attention causale de Llama, il est utilisé comme un modèle de type encodeur. ↩
Ce projet a mené des recherches d'évaluation sur l'analyse morphologique avant la tokenisation et a publié son modèle le plus performant, qui utilisait Juman++ et BPE. ↩
Cependant, la longueur de séquence maximale a été étendue à 2048, et diverses modifications architecturales ont été apportées par rapport au BERT d'origine. Voir le README du dépôt HuggingFace pour plus de détails. ↩
nlp-waseda/roberta-base-japanese et nlp-waseda/roberta-large-japanese entrainé avec une longueur de context 128 token, mais nlp-waseda/roberta-large-japanese-seq512 étendu la longueur du contexte à 512. ↩
Étendu la longueur du contexte de 128 à 512. ↩
Pour les détails de chaque modèle, veuillez vous référer au Chapitre 4 de l'article des auteurs. Notez que le modèle SC-2M-wiki n'est strictement pas un modèle spécifique à un domaine car il est pré-entraîné uniquement sur Wikipédia. ↩
Le modèle "Small" s'entraîne sur Wikipédia japonais et le Corpus financier japonais simultanément, tandis que le modèle "Base" prend le TohokuUniversityBERT et dispense un apprentissage supplémentaire sur le Corpus financier japonais. ↩
ManbyoWordPiece lance une étape de prétokenization en utilisant MeCab (IPA+Manbyo dictionaries), puis utilise WordPiece pour la tokenization sous-mots, pendant que le modèle SentencePiece segmente le texte directement en utilisant un modèle unigram. ↩
La classification des modèles d'intégration a été référencée à partir de Dense Text Retrieval based on Pretrained Language Models: A Survey (Zhao+, 2022). L'architecture Bi-Encoder insère deux entrées distinctes dans le modèle et vectorise chacune d'elles, en utilisant leur produit scalaire ou la similarité cosinus comme mesure de leur proximité. En revanche, l'architecture Cross-Encoder insère les entrées combinées dans le modèle pour calculer directement leur proximité en interne. Bien que les Cross-Encoders entraînent des coûts de calcul plus élevés, ils sont souvent utilisés comme rerankers dans l'extraction d'informations en raison de leur capacité à calculer plus précisément la proximité des entrées. Parmi les Bi-Encoders, il existe des types (par exemple, ColBERT) qui représentent l'entrée en tant que multiples vecteurs (comme un par token) plutôt qu'un seul vecteur, d'où une classification supplémentaire en bi-encodeurs à représentation unique et bi-encodeurs à représentation multiple. ↩
Cependant, il appelle à la réflexion pour l'utilisation dans la recherche et l'éducation. De plus, soyez conscient que certaines des licences pour les modèles sources ne sont pas Apache 2.0. ↩ ↩² ↩³

Files

fr

Directory actions

More options

Directory actions

More options

Latest commit

History

fr

Folders and files

parent directory

README.md

Aperçu des grands modèles de langage (LLM) en japonais

Modèles IA génératives

Modèles développés à partir de zéro

D'usage général

Spécifique à un domaine

Modèles développés à partir d'LLM non-japonais (avec un apprentissage en continue en japonais)

D'usage général

Spécifique à un domaine

Modèles développés à partir d'LLM non-japonais (avec un post-entraînement en japonais)

D'usage général

Spécifique à un domaine

Modèles fusionnés

Modèles basés sur des API

Modèles encodeur

D'usage général

Spécifique à un domaine

Plongement lexical par mots et par documents 20

Bi-Encoders

Single-representation bi-encoders

Multi-representation bi-encoders

Cross-Encoders

Modèles Vision-Language

Text+Image vers Text

Modèles développés à partir de zéro

Modèles développés à partir d'VLM non-japonais

Modèles fusionnés

Text vers Image

D'usage général

Spécifique à un domaine

Text vers Vidéo

Autres

Modèles Speech-Language

Reconnaissance automatique de la parole

Autres

Standard d'évaluation pour les LLM en japonais

Benchmarks hybrides

Référence traditionnelle basé sur des tâches de Compréhension du langage naturel (NLU)

Standard des tâches génératives ouvertes

Benchmarks pour mesurer la performance dans des domaines spécifiques

Benchmarks pour mesurer la factualité et la sécurité

Benchmarks pour mesurer les capacités de raisonnement logique

Benchmarks pour la génération de texte contrôlée

Benchmarks pour modèles d'embeddings

Benchmarks pour modèles vision-langage

Références pour les modèles et les architectures

Références pour les méthodes d'entraînement

Nos contributeurs

Citation

Footnotes

Plongement lexical par mots et par documents ²⁰