Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[v3-13b-exp4-LR] - exp4の最適学習率の探索 #8

Open
odashi opened this issue Aug 2, 2024 · 1 comment
Open

[v3-13b-exp4-LR] - exp4の最適学習率の探索 #8

odashi opened this issue Aug 2, 2024 · 1 comment

Comments

@odashi
Copy link
Member

odashi commented Aug 2, 2024

Overview

v3 13B exp4の学習率は2e-4だが、この設定ではspikyな挙動が誘発されている。
この挙動を引き起こさない最適な学習率の探索を行う。
各実験で30k-40k程度のstep学習を行い、各種統計量の比較を行う。
また異なる学習率スケジューリングについても実験を行う。

Details

基本設定は #1 と同様とする。
学習率のみ下記に変更して実験する。
(実験設定は順次増やす)

  • 1e-4 -> 1e-5 cos decay
  • 3e-4 -> 3e-5 cos decay
  • 8e-5 constant
  • 1e-4 constant

Resources

@odashi
Copy link
Member Author

odashi commented Aug 2, 2024

#9 との兼ね合いで使用ノード数を調整。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant