Add files via upload

.
llm-jp · Dec 16, 2024 · ba8264f · ba8264f
1 parent 8e9656e
commit ba8264f
Showing 1 changed file with 54 additions and 34 deletions.
diff --git a/tasks.html b/tasks.html
@@ -90,31 +90,31 @@ <h4 data-animation="fadeInUp" data-delay=".6s">評価タスク</h4>
 		<h4 data-animation="fadeInUp" data-delay=".6s">安全性タスク</h4>
 		<p data-animation="fadeInUp" data-delay=".8s">
 <br>		  
-安全性と有用性を両立した応答をするためのチューニングを行います。
-		有害な入力が与えられた場合にも安全面で適切な回答を行い、尚且つ回答の有用性も担保したLLMの作成を目的としています。
+安全性と有用性を両立した応答をするためのチューニングを行います。有害な入力が与えられた場合にも安全面で適切な回答を行い、尚且つ回答の有用性も担保したLLMの作成を目的としています。
 <br><br>
 
+
 安全性については、安全性への配慮を要するQAデータセット「AnswerCarefully」を利用した評価を行う予定です。
-また、有用性については、1. 「一般的なLLM利用」と、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」について評価を行う予定です。1番については「ichikara-instruction」と同等のデータ（= ichikara-eval）を用いて評価を行います。2番については「AnswerCarefully」をベースに、「一見有害に見えるが、回答可能な事例」のデータ（= AnswerCarefully ボーダーライン）を用いて評価を行います。
-これらの安全性と有用性のデータについて、それぞれサンプルデータを提供いたしますので、是非ともご確認ください。
+また、有用性については、1. 「一般的なLLM利用」と、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」について評価を行う予定です。1番については<a href="https://liat-aip.sakura.ne.jp/wp/llm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90/llm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF-%E5%85%AC%E9%96%8B/">「ichikara-instruction」</a>と同等のデータ（= llm-jp-instructions）を用いて評価を行います。2番については<a href="https://liat-aip.sakura.ne.jp/wp/answercarefully-dataset/">「AnswerCarefully」</a>をベースに、「一見有害に見えるが、回答可能な事例」のデータ（= AnswerCarefully ボーダーライン）を用いて評価を行います。
+これらの安全性と有用性のデータについて、それぞれサンプルデータを提供いたしますので、是非ともご確認ください（ただし回答データは含みません）。
 <br><br>				
 
-評価についてはLLM-as-a-Judgeを利用して実施します。
-安全性については、「出力が有害」と「出力が無害かつ有用」の観点で評価を実施予定です。
-有用性については、1. 「一般的なLLM利用」については「流暢性」「正確性」「詳細性」「関連性」の観点で評価を実施予定です。また、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」については、「出力が過剰な回答拒否かどうか」の観点で評価を実施予定です。
-また、本タスクでは確実な安全性に重きを置き、チューニング後のLLMの推論はシードを変更して複数回行う予定です。
+評価についてはLLM-as-a-Judgeを利用し、次のように実施する予定です。
+安全性については、「出力が有害」と「出力が無害かつ有用」の観点で評価を実施します。
+有用性については、1. 「一般的なLLM利用」については「流暢性」「正確性」「詳細性」「関連性」の観点で評価を実施します。また、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」については、「出力が過剰な回答拒否かどうか」の観点で評価を実施します。
+また、本タスクでは確実な安全性に重きを置き、チューニング後のLLMの推論はシードを変更して複数回行います。
 <br><br>				
 
-サンプルデータは参加者に適宜共有いたします。
-「AnswerCarefully」データ、「ichikara-dev」データ、「AnswerCarefully ボーダーライン」データを「ツール・データ」に記載したリンクにて共有予定ですのでご確認ください。
+サンプルデータとして、「AnswerCarefully」データ、「llm-jp-instructions」データ、「AnswerCarefully ボーダーライン」データは参加者に別途連絡いたします。
 なお、これらのデータは本コンペティションのみでご利用ください。これらのデータは既に公開済みか、後ほど何らかの形での公開予定のデータですので、コンペティション以外の利用はそちらをご利用ください。
 
+なお、本タスクでは一般に公開されているAnswerCarefullyのTestデータの利用は禁止とします。
 <br><br>
 </p>
 		<h4 data-animation="fadeInUp" data-delay=".6s">数学タスク</h4>
 		<p data-animation="fadeInUp" data-delay=".8s">
 <br>		  		  
-		数学タスクでは、現在広く用いられている数学データセットの一つであるMATHデータセット (Hendrycs et al., 2021) の日本語翻訳データのもとで正解率を競います。MATHデータセットは米国の高校数学コンテストで出題された問題に基づくデータセットです。代数学、幾何学、確率など幅広い単元をカバーしており、難易度も様々です。
+数学タスクでは、広く用いられている数学データセットの一つであるMATHデータセット <a href="https://arxiv.org/abs/2103.03874">(Hendrycs et al., 2021)</a> の日本語翻訳データのもとで正解率を競います。MATHデータセットは米国の高校数学コンテストで出題された問題に基づくデータセットです。代数学、幾何学、確率など幅広い単元をカバーしており、難易度も様々です。
 <br><br>		
 
 <ol>
@@ -134,11 +134,13 @@ <h4 data-animation="fadeInUp" data-delay=".6s">数学タスク</h4>
 </ol>    
 <br>
 		<p data-animation="fadeInUp" data-delay=".8s">
-
-システムの性能はテストセットの問題に対する正解率で評価します。システム出力の最終行を回答とみなし、正解との完全一致に基づき正解・不正解の判定を行います。
+	システムの性能はテストデータの問題に対する正解率で評価します。正解・不正解は、システム出力の最終行を回答とみなし、正解との完全一致に基づき判定します。	  
+<br><br>
+
+本タスクでは、外部ツールを使用するシステムを構築しても構いません。例えば、推論の途中で計算を行うために電卓を呼び出したり<a href="https://arxiv.org/abs/2110.14168">(Cobbe et al., 2021)</a>、モデルの生成テキストから回答を抜き出すスクリプトを呼び出し、最終的なシステム出力を整形しても構いません。使用可能な外部ツールの範囲に関しては後述の共通ルールをご確認ください。 
 <br><br>
 
-外部ツールを使用するシステムを構築しても構いません。例えば、推論の途中で計算を行うために電卓を呼び出したり (Cobbe et al., 2021)、モデルの生成テキストから最終的な回答を抜き出すスクリプトを呼び出し、最終的なシステム出力を整形しても構いません。使用可能な外部ツールの範囲に関しては後述の共通ルールをご確認ください。
+ただし、本タスクは MATH データセットのテストデータに由来する問題を評価に用いるため、本データおよびその派生物を用いたチューニングと推論は禁止とします。MATH データセットの学習データやその他のデータセットに関しては利用の制約はありません。
 <br><br>
 		</p>
 
@@ -159,70 +161,88 @@ <h4 data-animation="fadeInUp" data-delay=".6s">数学タスク</h4>
 
 		<h4 data-animation="fadeInUp" data-delay=".6s">共通ルール</h4>
 		<p data-animation="fadeInUp" data-delay=".8s">
+<br>
 		  <ol>		
 <li>チューニングを行うベースモデルは、llm-jp-3-13b とします（インストラクションチューニング済みモデルも可）。</ul>
 <ol>		
 <li><a href="https://huggingface.co/llm-jp/llm-jp-3-13b">https://huggingface.co/llm-jp/llm-jp-3-13b</a>
-<li><a href="https://huggingface.co/llm-jp/llm-jp-3-13b-instruct">https://huggingface.co/llm-jp/llm-jp-3-13b-instruct</a>  
+<li><a href="https://huggingface.co/llm-jp/llm-jp-3-13b-instruct">https://huggingface.co/llm-jp/llm-jp-3-13b-instruct</a>
+<li> llm-jp-3-13b-instruct2-public（参加者のみに近日中に提供）
 </ol>
+<li>評価は、モデルやデコーダを全て含めた Docker ファイルを提出していただき、オーガナイザ側で推論および評価を行います（詳細は結果提出方法を参照）。コンペティション期間中に、開発データを用いた中間評価を実施します（詳細は別途ご連絡します）。</li>
 <li>２つの評価タスクについて1つのモデルを構築してもよいですし、異なるモデルを構築してもかまいません。</li>
 
 <li>チューニング手法について制約はありません。継続学習、教師付き学習、知識編集など、何をやってもかまいません。
 
-<li>新たにデータを構築してもかまいません。本コンペティションで利用したデータについて公開義務はありません。
+<li>新たにデータを構築してもかまいません。本コンペティションで利用したデータについて公開義務はありません。ただし、各タスク説明で禁止されているデータは使用しないでください。
 
 <li>デコーダやプロンプトを工夫してもかまいません。結果提出時には、デコーダやプロンプトを含めて提出していただきます。
 
 <li>RAGや外部ツールを使用してもかまいませんが、評価の際にはネットワークから遮断した環境でモデルを動かします。モデルを動かすのに必要なファイルやデータは全て提出物に含めてください。
 
 <li>評価の際は以下の計算リソースを用います。この条件で評価が完了するようにしてください。
 <ol>
-<li>mdx A100 40G x 1
-<li>時間制限
-<li>提出するDockerイメージのサイズ: 1TBまで
+  <li>mdx I GPU演算加速ノード 1インスタンス (NVIDIA Tesla A100 40GiB x 4台)
+    <ol>
+      <li>システムの詳細は<a href="https://mdx.jp/mdx1">mdx I</a>のページを参照してください
+    </ol>
+<li>時間制限：テストデータ全体に対する推論が24時間以内に完了すること
+<li>提出するDockerイメージのサイズ: 200GBまで
 </ol>  
 </ol>
 </p>
 
 <br><br>
 <h4 data-animation="fadeInUp" data-delay=".6s">ツール・データ</h4>		
 <p data-animation="fadeInUp" data-delay=".8s">
+<br>
   <ol>
     <li>ベースモデル <a href="https://huggingface.co/llm-jp/llm-jp-3-13b">
 https://huggingface.co/llm-jp/llm-jp-3-13b</a>
     <li>インストラクションチューニング済みモデル
       <a href="https://huggingface.co/llm-jp/llm-jp-3-13b-instruct">https://huggingface.co/llm-jp/llm-jp-3-13b-instruct</a>
-    <li>サンプルコード（チューニング） llm-jp-3-13b をチューニングして llm-jp-3-13b-instruct2 を作るプログラム
+    <li>サンプルコード（チューニング）：llm-jp-3-13b をチューニングして llm-jp-3-13b-instruct2-public を作るプログラム
       <ol>
 	<li> <a href="https://github.com/llm-jp/tuning-competition-baseline">https://github.com/llm-jp/tuning-competition-baseline</a>
       </ol>
-<!--    <li>サンプルコード（デコーダ） llm-jp-3-13b-instruct を動かして、開発データに対して出力と評価結果を出し、リーダーボードに載せるツール 
+    <li>サンプルコード（デコーダ）
       <ol>
-	<li> 評価スクリプトを最終評価までに作成する形となります(開発データは公開しますが, 評価ツールは公開しない形となります). しばらくお待ちください.
-      </ol>
--->
-    <li>サンプルデータ
-      <ol>      
-	<li>安全性チューニング <a href="https://drive.google.com/drive/folders/1CA9aDM4miw8U8-JUz8hPM7ZME5KSz7zU?usp=drive_link"> Google Drive</a>	  	    
-	<li>数学チューニング (数学タスクのサンプルデータを参照ください)
+	<li> llm-jp-3-13b-instruct を動かして入力データに対して出力を行うプログラムが Docker のサンプルスクリプトに含まれています。
       </ol>
+    <li>サンプルデータ：参加者へ別途案内します。
     <li>Weights & Biases
       <ol>
-	<li>		今回のコンペティションの利用に際しては、アカデミックの方だけではなく、企業の方のご利用も可能です。
+	<li>今回のコンペティションの利用に際しては、アカデミアの方だけではなく、企業の方も利用可能です。
       </ol>
 </ol>
 <br><br>
 		<h4 data-animation="fadeInUp" data-delay=".6s">結果提出方法</h4>
 <p data-animation="fadeInUp" data-delay=".8s">
-  
+<br>
 		<ol>
-		  <li>モデルパラメーターと推論用スクリプトをDockerイメージに含めて提出してください。
-		  <li>Dockerイメージの保存方法は以下のスクリプトを参考にしてください。(この資料が世に出る前にレポジトリの公開および、mainブランチにマージすること)<a href="https://github.com/llm-jp/nlp2025-ws/tree/main/docker_sample">https://github.com/llm-jp/nlp2025-ws/tree/main/docker_sample</a>
-		  <li>保存するDockerイメージの最大サイズは1TBまでとします。
+		  <li>モデルパラメータと推論用スクリプトをDockerイメージに含めて提出していただきます。
+		  <li>Dockerイメージを作成するサンプルスクリプトを後日提供します。
 		  <li>最終的な提出先は後日お知らせします。
 		</ol>
 </p>		
-
+<br><br>
+		<h4 data-animation="fadeInUp" data-delay=".6s">mdxの使い方</h4>
+<p data-animation="fadeInUp" data-delay=".8s">
+<br>    
+		<ol>
+		  <li>後日追記します。
+		</ol>
+</p>		
+<br><br>
+		<h4 data-animation="fadeInUp" data-delay=".6s">注意事項</h4>
+<p data-animation="fadeInUp" data-delay=".8s">
+<br>
+		<ol>
+		  <li>コンペティションにおいてデータやLLMの利用に特に制限は設けませんが（タスクの説明で明示されているものを除く）、各データやモデルでは利用条件が定められているので、十分注意して利用するようにしてください。例えば OpenAI のモデルは、OpenAI と競合するモデルの開発が禁止されています。
+		</ol>
+</p>		
+<br><br>
+<br><br>
 
               </div>
 	    </div>