Skip to content

Commit

Permalink
Add files via upload
Browse files Browse the repository at this point in the history
  • Loading branch information
tsuyoshi-okita authored Nov 17, 2024
1 parent 0522c1a commit a078242
Show file tree
Hide file tree
Showing 2 changed files with 15 additions and 18 deletions.
3 changes: 2 additions & 1 deletion contact.html
Original file line number Diff line number Diff line change
Expand Up @@ -72,7 +72,8 @@
<div class="row d-flex justify-content-center">
<div class="col-lg-8">
<div class="section-tittle text-center mb-80">
<h4>オルガナイザ​ &emsp; Organization</h4>
<h4>ワークショップオーガナイザ​ &emsp; Organization</h4>

<p data-animation="fadeInUp" data-delay=".8s">
<ol>
<li> 大北剛(九工大)
Expand Down
30 changes: 13 additions & 17 deletions feature.html
Original file line number Diff line number Diff line change
Expand Up @@ -140,20 +140,13 @@ <h5 data-animation="fadeInUp" data-delay=".6s">タスクに関して</h5>
<h5 data-animation="fadeInUp" data-delay=".6s">評価方法</h5>
<p data-animation="fadeInUp" data-delay=".8s">
<ul>
<li>安全性チューニングタスクに関しては、
安全性への配慮を要するQAデータセット「AnswerCarefully 」、
一般ドメインのQAデータセット「ichikara-instruction1」と同
等のデータを用いて、安全性と有用性の2つの側面を評価するこ
とを予定しています。また、数学チューニングに関しては、算数・
数学の試験問題で評価することを予定しています。詳細については、
別途明示いたします。同時に、dockerを用いた提出方法において、
明示して、参加チーム内でも測定できる形とします。リーダーボー
ドでは、これを用いた表示で自動的に順位づけを行います。事務局
が許可なくDockerイメージの内容を確認することはありません。
<li>
安全性チューニングタスクに関しては、
安全性への配慮を要するQAデータセット「AnswerCarefully 」、一般ドメインのQAデータセット「ichikara-instruction1」と同等のデータを用いて、安全性と有用性の2つの側面を評価することを予定しています。また、数学チューニングに関しては、算数・数学の試験問題で評価することを予定しています。詳細については、別途明示いたします。同時に、dockerを用いた提出方法において、明示して、参加チーム内でも測定できる形とします。リーダーボードでは、これを用いた表示で自動的に順位づけを行います。事務局が許可なくDockerイメージの内容を確認することはありません。
<br><br>
<li>ワークショップ当日に1時間時間を取り、参加者全員で、上位3チーム(参加チームが多い場合には5チーム)の出力を評価する形で、人手評価を加える予定です。ワークショップ当日には、上位3チームに入らないチームの方も、このような形で評価を行うことに賛同して人手評価に加わっていただけましたらと考えております。同時に、安全性の評価に詳しい者がパネリストとして、結果の吟味を行う時間も作ろうと考えております。
<li>
ワークショップ当日に1時間時間を取り、上位3チーム(参加チームが多い場合には5チーム)の出力を評価する形で、人手評価を実施する予定です。同時に、安全性の評価に詳しい研究者がパネリストとして、結果の吟味を行う時間を作る予定です。
<br><br>
<li>チューニングに用いるデータとしては、llm-jp-evalのデータは含まれてはならず、しかし、ichikara、MT-Benchなどのデータは使っても良いという形にしたいと思います。llm-jp-evalのデータを用いている場合には、チーティングと見なし、失格とさせていただきます。
</ul>
</p>
</div>
Expand All @@ -174,16 +167,19 @@ <h5 data-animation="fadeInUp" data-delay=".6s">評価方法</h5>
<h5 data-animation="fadeInUp" data-delay=".6s">GPUに関して</h5>
<p data-animation="fadeInUp" data-delay=".8s">
<ul>
<li>計算リソースは、mdx 1インスタンス(NVIDIA Tesla A100 4枚)を上限としてリクエストに応じて提供いたします。チューニングコンペのレジストレーションにおいて、希望するGPU数としてリクエストして下さい。資源は限られているためにどれだけのGPUを使っていただくかの決定は、事務局の決定にしたがっていただく形となります。また、参加チームのリクエストの数によっては、期間全体としてではなく、日毎の細かいローテーションを行う可能性もあります。
<li>
計算リソースは、mdx 1インスタンス(NVIDIA Tesla A100 4枚)を上限としてリクエストに応じて提供いたします。チューニングコンペのレジストレーションにおいて、希望するGPU数としてリクエストして下さい。資源は限られているため、どれだけのGPUを使っていただくかの決定は、事務局の決定にしたがっていただく形となります。また、参加チームのリクエストの数によっては、期間全体としてではなく、日毎の細かいローテーションを行う可能性もあります。
<br><br>
<li>自前のGPUを利用する方は、リクエストするGPU数をゼロとして、mdx インスタンスを使わない形で問題ありません。その場合、使っていただくGPUの数に制限はありませんが、システムの記述をしていただく際に明示していただくようお願いいたします。
<li>
自前のGPUを利用する方は、リクエストするGPU数をゼロとして、mdx インスタンスを使わない形で問題ありません。その場合、使っていただくGPUの数に制限はありませんが、システムの記述をしていただく際に明示していただくようお願いいたします。
</p>
<h5 data-animation="fadeInUp" data-delay=".6s">ワークショップでの結果発表</h5>
<p data-animation="fadeInUp" data-delay=".8s">
<ul>
<li>3月14日にNLP2025併設のワークショップを開催します。このワークショップの中で、チーム毎に代表者1人は結果発表(発表は遠隔でも可)してください。これは義務としてお願いします。なお、参加チームの数が発表枠以上になった場合には、事務局でセレクションをさせていただく可能性があることはご承知おきください。

<li>この結果発表では、詳細なチューニングの機構、データなどをプレゼンしていただけますようにお願いいたします。
<li>
3月14日にNLP2025併設のワークショップを開催します。このワークショップの中で、チーム毎に代表者1人は結果発表(発表は遠隔でも可)してください。なお、参加チームの数が発表枠以上になった場合には、事務局でセレクションをさせていただく可能性があることはご承知おきください。
<li>
この結果発表では、詳細なチューニングの機構、データなどをプレゼンしていただけますようにお願いいたします。
</ul>
<br><br>
</p>
Expand Down

0 comments on commit a078242

Please sign in to comment.