Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[80] cosFormer: Rethinking Softmax in Attention #109

Open
dhkim0225 opened this issue Mar 14, 2022 · 0 comments
Open

[80] cosFormer: Rethinking Softmax in Attention #109

dhkim0225 opened this issue Mar 14, 2022 · 0 comments

Comments

@dhkim0225
Copy link
Owner

아 ㅋㅋ relu 가 빠르다고 ㅋㅋ

image

paper

self-attention

A == self attention function
attention output 은 다음과 같이 정의된다.
image

보통 S 는 다음과 같이 정의된다.
image
image

self-attention 은 왜 잘 될까? (좀 더 깊은 대답은, #98 의 대답이 되겠지만,, 저자들은 이렇게 주장한다.)

  1. non-negativity
  2. 적당한 값으로 re-weighting

2개의 feature 만 유지하면서, 더 효율적인 방식으로 이를 해결할 수 없을까?

cosFormer

linear transformation 부분을 relu 로 대체함.
image

이걸로 non-negative 는 유지가 되는 거고, smoothing 은 어떻게 할까?
0~1 로 re-weight 만 잘 할 수 없을까?
저자들이 고민하다가 내놓은 해결책은, cos re-weighting

query dimension == N, key&value dimension == M 이다.
relu * relu dot product 이후에 reweight 를 다음과 같이 수행해 준다.
i-j < M 이기 때문에, 0~1 값으로 곱해주는 거다.
image

딱 느낌이 오겠지만,

  1. locality 는 강화시키고,
  2. 먼 거리의 token 일수록 re-weighting이 손해가 될 수밖에 없다.

그래서, LRA benchmark 에서도 Pathfinder 성능은 낮다.

위 수식을 정리하면 다음과 같다.
image

따라서 최종 식은,
image
image
image
image
image

Result

WikiText-103

image

LRA

image

Speed

image

Others

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant