Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Fix] Rewrite encoding in TransformersEmbedder #48

Draft
wants to merge 16 commits into
base: dev
Choose a base branch
from

Conversation

lsz05
Copy link
Collaborator

@lsz05 lsz05 commented Jul 31, 2024

今までのTransformersEmbedderのエンコードメソッドでは独自のバッチ化をしているため,マルチGPUの場合,二重のバッチ分割によりバグを起こりやすいという問題点があります。また,マルチGPUの場合,バッチサイズがGPU数の整数倍ではないと(例えば,batch size = 4, n_gpu = 8)data parallelがうまくいかない可能性があり,バッグりやすいです。

関連する Issue / PR

N/A

PR をマージした後の挙動の変化

  • TransformersEmbedderが独自のbatch_encode_with_cacheを持つようにし,二重のバッチ分割を解消
  • TransformersEmbedderのembedding出力を全てtorch.Tensorとし,np.numpyをやめる
  • TransformersEmbedderにおいて,マルチGPUの場合,バッチサイズがプロセス数の整数倍でなければエラーを出す

挙動の変更を達成するために行ったこと

  • TransformersEmbedderのエンコードメソッドをリファクタリングした

動作確認

  • テストが通ることを確認した
  • マージ先がdevブランチであることを確認した

@lsz05 lsz05 changed the title [Fix] Rewrite encoding in TransformersEmbedder [Fix] Rewrite encoding in TransformersEmbedder Jul 31, 2024
@akiFQC akiFQC requested a review from ryokan0123 July 31, 2024 07:23
@lsz05 lsz05 requested review from akiFQC and masaya-ohagi July 31, 2024 07:23
@lsz05 lsz05 added the pending label Dec 9, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant