๊ณฐํ๋ค : ์ฌ๋ฌผ์ด๋ ์ผ์ ์๋ด๋ฅผ ์๋ ค๊ณ ์์ธํ ์ฐพ์๋ณด๊ณ ๋ฐ์ง๋ค.
์ต์ข ๋ฐํ ๊ตฌ๊ธ ์ฌ๋ผ์ด๋ ๋ฐ pdf & Youtube
๊ณฐํ๋ค๋ ํ์๋ค์ ์์ ํ ๋ต์์ ์๋์ผ๋ก ์ฑ์ ํด ์ ์๋๋ค์ ๋ฐ๋ณต์ ์ฑ์ ์์ ์ ํจ์จ์ ์ผ๋ก ์ค์ฌ์ฃผ๋ ํ๋ก์ ํธ์ ๋๋ค. ๊ต์ก๊ธฐ๊ด์์ ์ฌ์ฉํ๋ AI ์๋ ์ฑ์ ์์คํ ์ด ๊ธฐ์กด์ ๋จ์ (๋์ด์ฐ๊ธฐ, ์ ์ฌ์ด ๋ฑ์ ํ๋ณํ์ง ๋ชปํ๋ ๊ฒ)์ผ๋ก ์ธํด ์ค์ ๋ก ์ฌ์ฉํ๊ธฐ ์ด๋ ต๋ค๋ ์ฌ์ค์ ๋ฐํ์ผ๋ก, ๋จ์ ๋ค์ ๊ฐ์ ํ๊ณ ๋์ฑ ์ ๋ฐํ ์ฑ์ ๋ณด์กฐ ์๋น์ค๋ฅผ ๋ง๋ค๊ณ ์ ํ์ต๋๋ค.
๊ณฐํ๋ค๋ ์์ ๊ฐ์ ์์คํ ๊ตฌ์กฐ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ์ฌ์ฉ์๊ฐ ์น์์ ๋ฌธ์ , ๋ชจ๋ฒ๋ต์, ํค์๋, ํ์ ๋ต๋ณ csv๋ฅผ input์ผ๋ก ๋ฃ์ผ๋ฉด ๊ณฐํ๋ค๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์์ ๋ต๋ณ์ ์๋์ผ๋ก ์ฑ์ ํฉ๋๋ค. ํด๋น ๊ฒฐ๊ณผ๋ฌผ์ ์ฌ์ฉ์๊ฐ ์นํ์ด์ง์์ ๋ค์ด๋ก๋ ๋ฐ์ ์ ์๋ ํํ์ธ CSV๋ก ์ ๊ณตํฉ๋๋ค.
๊ณฐํ๋ค๋ ๋ค์ฏ ๋ช ์ ํ์ ์ผ๋ก ๋ง๋ค์ด์ง ํ๋ก์ ํธ์ด๋ฉฐ, ๊ฐ์ ๋งก์๋ ์ญํ ์ ์์ ๊ฐ์ต๋๋ค.์ฑ์ ์ ํ์ ๋ต์๊ณผ ๋ชจ๋ฒ๋ต์๊ณผ์ ๋ฌธ์ฅ ์ ์ฌ๋๋ฅผ ํตํ ์ ์์ ๋ฌธ์ฅ ๋ด์ ํค์๋ ์ ์๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋๋ค.
1. ํค์๋ ๋ชจ๋ธ
ํค์๋ ๋ชจ๋ธ์ Word2Vec์ ์ฌ์ฉํ์ผ๋ฉฐ FastText๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํํ์ต๋๋ค. ์ ์๋์ด ์์ฑํ ํค์๋๋ฅผ ๋ฐํ์ผ๋ก ๋ฌธ์ฅ ๋ด์์ ์ผ์ ์์น ์ด์์ ์ ์ฌ๋ ๊ฐ์ ๊ฐ์ง๋ ๋จ์ด๋ค์ ๊ฒ์ถํ๋๋ก ๊ตฌํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ ํํ ์ผ์นํ๋ ๋จ์ด ๋ฟ๋ง์ด ์๋๋ผ ์ ์ฌํ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋จ์ด๋ค๋ ๊ฒ์ถํด ์ฑ์ ์ ์งํํ ์ ์์์ต๋๋ค. ์ ์ฑ์ ์ผ๋ก ํ๋จํ ๊ฒฐ๊ณผ ์ ์ฌ๋ ๊ธฐ์ค ์์น(cosine similarity)๋ฅผ 0.35๋ก ์ ํ์ต๋๋ค.
2. ๋ฌธ์ฅ ์ ์ฌ๋ ๋ชจ๋ธ
๋ฌธ๋งฅ ์ ์ฌ๋ ์ฑ์ ๋ชจ๋ธ์ ๊ฐ ๋ฌธ์ฅ์ ์๋ฒ ๋ฉ์ ๊ตฌํ๊ณ ์ฝ์ฌ์ธ ์ ์ฌ๋ ์์คํจ์๋ก ํ์ตํ๋ sentence BERT๋ฅผ ์ด์ฉํ์ต๋๋ค. ์ผ๋ฐ์ ์ธ BERT๋ชจ๋ธ๋ก ๋ฌธ์ฅ์์ ์ ๋ ฅ์ผ๋ก ๋ฃ๊ณ ํ๊ท ํน์ ์ด์ง๋ถ๋ฅ๋ก ํ์ตํ๋ฉด ์ ํฌ๊ฐ ๊ตฌ์ถํ validation ๋ฐ์ดํฐ์์ ์ข์ง์์ ์ฑ๋ฅ์ด ๋์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ ์ข์ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ์ป๊ธฐ ์ํด ์ฌ์ ํ ์คํฌ์ ๋ค์ํ ๋ฐ์ดํฐ์ ์ผ๋ก ์คํํด๋ณด์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ klue/bert-bas ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก Natural langugage inference ํ ์คํฌ๋ก ๋จผ์ ํ์ธํ๋ํ ํ, ๋ฌธ์ฅ ์ ์ฌ๋ ํ ์คํฌ์ ํ์ธํ๋ํ ๋ชจ๋ธ์ ์ ํํ์์ต๋๋ค.
- klue/bert-base์ ์ฌ์ ํ์ต ๋ฐ ์ฌ์ฉ ๋ฐ์ดํฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ Ablations
๋ฐ์ดํฐ์ | Threshold | ||||||
---|---|---|---|---|---|---|---|
korNLI | korSTS | klueSTS | paraKQC | ์์ฑ ๋ฐ์ดํฐ | korSTS ๋์ฌ ์ผ๋ถ ๋ฐ์์ด ์นํ(500) | 0.6 | 0.7 |
โ | 0.60 | 0.59 | |||||
โ | โ | 0.67 | 0.65 | ||||
โ | โ | 0.63 | 0.58 | ||||
โ | โ | 0.53 | 0.61 | ||||
โ | โ | 0.64 | 0.59 | ||||
โ | โ | 0.65 | 0.64 | ||||
โ | โ | โ | 0.52 | 0.52 |
- BERT(korSTS ํ๊ท ํ์ต)๊ณผ SBERT(klue/bert-base+NLI+STS) ์ ๋ฌธ์ฅ ์ ์ฌ๋ score ์ฐจ์ด ์์
๋ชจ๋ฒ๋ต์ | ๊ฒฝ์์ฌ๊ฐ ์์ ๊ฒฝ์ฐ ์๋ก์ ์ํ์ด ์ ํ๋ฆฌ๊ฒ ํ๊ธฐ ์ํด ๊ฐ๊ฒฉ๋ ๋ฎ์ถ๊ณ ์ํ์ ํ์ง๋ ์ข์์ง๋ค. ๋ ์ํ์ ๋ค์์ฑ์ ๋๋ฆฌ๋๋ฐ๋ ๋์์ด ๋๋ค. | BERT | SBERT |
---|---|---|---|
๋ต๋ณ 1 | ์ ํ์ ๊ฐ๊ฒฉ์ด ๋ฎ์์ง๊ณ , ํ์ง์ด ์ข์์ง๋ค. ๋ ์ ํ์ ๋ค์์ฑ์ด ์ฆ๊ฐํ๊ณ , ์๋น์๋ค์ ๋ ์ข์ ํํ์ ๋ฐ์ ์ ์๋ค. | 0.56 | 0.81 |
๋ต๋ณ 2 | ์๋ก์ ์ด๊ถ์ ๋ ์ป๊ธฐ ์ํด ํ์ง์ด๋ ๊ฐ๊ฒฉ๊ฒฝ์๋ ฅ ๋ฐ์๋ฅผ ๋์ด๊ธฐ ์ํด ๋ ธ๋ ฅํ์ฌ ์๋น์๋ ๋ ์ง ์ข์ผ๋ฉด์๋ ๊ฐ์ผ ์ํ์ ์ป์ ์ ์์ ๊ฒ์ด๋ค. | 0.52 | 0.75 |
๋ชจ๋ฒ ๋ต์ | ๊ณ ๋๊ฐ ๋์์ง๋ฉด ๊ณต๊ธฐ์ ์๋ ฅ์ด ๋ฎ์์ง๋๋ฐ, ์จ๋๊ฐ ์ผ์ ํ ๋ ์๋ ฅ์ด ๋ฎ์์ง๋ฉด ๊ธฐ์ฒด์ ๋ถํผ๋ ์ฆ๊ฐํ๋ฏ๋ก ๊ณผ์ ๋ด์ง ๋ด๋ถ ๊ธฐ์ฒด์ ๋ถํผ๊ฐ ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ด๋ค. | BERT | SBERT |
---|---|---|---|
๋ต๋ณ 1 | ๊ธฐ์์ด ๋ฎ์์ ธ์ ๊ณต๊ธฐ์ ์๋ ฅ ๋๋ฌธ์ ๋นต๋นตํด์ง๊ฒ ๋ ๊ฒ์ผ ๊ฒ ๊ฐ๋ค. | 0.57 | 0.67 |
๋ต๋ณ 2 | ํ์ง์ ๋นํด ๋์ ์ฐ์ ์๋ ฅ์ด ๋ฎ๊ณ ์จ๋๋ ๊ฐ์ํ๋ค. PV=nRT์ ๋ฐ๋ผ T๋ ๊ฐ์ํ๋, P์ ๊ฐ์ ์ํฅ์ด ๋ ์ปค์ ๋ถํผ๋ ์ฆ๊ฐํ๊ฒ ๋๋ค. | 0.51 | 0.66 |
- ์งง์ ๋ฌธ์ฅ์ SBERT ์ค์ฝ์ด ์์
- ์งง์ ๋ฌธ์ฅ์ ๋ํ ๋ฐ์์ด, ๋ถ์ ํํ, ์ด์ ๋ณํ๋ ํ์ ํ๋ ์ค์ํ ํน์ ๋จ์ด๊ฐ ๋ฑ์ฅํ์ง ์์ ๊ฒฝ์ฐ ์ด๋ ค์ํ๋ ๊ฒฝํฅ์ฑ ์กด์ฌ
๋ชจ๋ฒ ๋ต์ | ๊ณ ๋๊ฐ ๋์์ง๋ฉด ๊ณต๊ธฐ์ ์๋ ฅ์ด ๋ฎ์์ง๋๋ฐ, ์จ๋๊ฐ ์ผ์ ํ ๋ ์๋ ฅ์ด ๋ฎ์์ง๋ฉด ๊ธฐ์ฒด์ ๋ถํผ๋ ์ฆ๊ฐํ๋ฏ๋ก ๊ณผ์ ๋ด์ง ๋ด๋ถ ๊ธฐ์ฒด์ ๋ถํผ๊ฐ ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ด๋ค. | SBERT |
---|---|---|
๋ต๋ณ 1 | ์ง๊ตฌ๋ ์ฃผ๋ณ์ ๋์ง ์๋๋ค. | 0.58 |
๋ต๋ณ 2 | ์ฃผ๋ณ์ ์ง๊ตฌ๋ฅผ ๋๋ค. | 0.97 |
๋ต๋ณ 3 | ์ง๊ตฌ๋ ๋ฉ์ถฐ์๋ค. | 0.54 |
๋ต๋ณ 4 | ๋ฉ์ถฐ์์ง ์๊ณ ์ค์ฌ์ ๊ธฐ์ค์ผ๋ก ๊ณ์ ์์ง์ธ๋ค | 0.47 |
๋ต๋ณ 5 | ์ง๊ตฌ๋ ๋ฉ์ถฐ์์ง ์๊ณ ์ค์ฌ์ ๊ธฐ์ค์ผ๋ก ๊ณ์ ์์ง์ธ๋ค | 0.76 |
- pip install -r requirements.txt
- sh ์ปค๋งจ๋๋ก requirements.sh ์ค์น
-
๋ฌธ์ฅ ์ ์ฌ๋ ์ฑ์ ๋ชจ๋ธ Train ๋ฐ์ดํฐ(์คํ ๋ฐ์ดํฐ)
KorSTS paraKQC Kor-sentence KLUE STS ๋ผ๋ฒจ 0~5๊ฐ 0 ๋๋ 1 0 ๋๋ 1 0 ๋๋ 1 / 0~5๊ฐ ํน์ง ์งง์ ๋ฌธ์ฅ.์ธ๊ตญ STS-B ๋ฒ์ญ. ๋ด์ค, ํํ ์ค๋ช ๋ด์ฉ ์งง์ ๋ฌธ์ฅ. ์ง๋ฌธ์ค์ฌ ์งง์ ๋ฌธ์ฅ. ์ง์์ธ ์ง๋ฌธ ํฌํจ. ์ธํฐ๋ท ์ฉ์ด ๋ค์ ์งง์ ๋ฌธ์ฅ. Airbnb, Policy, paraKQC ํฌํจ ๋ฐ์ดํฐ ๊ฐ์ 5,749 15,170 61,220 11,668 -
๋ฌธ์ฅ ์ ์ฌ๋ ์ฑ์ ๋ชจ๋ธ Train ๋ฐ์ดํฐ(์ ์ ๋ฐ์ดํฐ)
- ์งง์ ๋ฌธ์ฅ. ์ ์์ด, ๋ฐ์์ด ๊ณ ๋ คํด ๋ฐ์ดํฐ ์ ์
- ๋ผ๋ฒจ : 0 ๋๋ 1
- ๋ฐ์ดํฐ ๊ฐ์ : 14,390
-
ํค์๋ ์ฑ์ & ๋ฌธ์ฅ ์ ์ฌ๋ ์ฑ์ ๋ชจ๋ธ Validation & Test ๋ฐ์ดํฐ : ๊ต์ก๋ถ์ ํ๊ตญ๊ณผํ์ฐฝ์์ฌ๋จ์ด ์ง์ํ ์์ ํ ํ๊ฐ ์ง์ํ๋ก๊ทธ๋จ ๊ฐ๋ฐ ์ฌ์ ๋ฐ์ดํฐ(์ฐ๊ตฌ์ฑ ์: ํ๋ฏผ์ ๊ต์)
- ์ด, ์ค, ๊ณ ๋ฑํ๊ต ๊ต์ก๊ณผ์ ์ ํด๋น๋๋ ์ฌํ, ๊ณผํ ์์ ํ ๋ฌธ์ 64๋ฌธํญ
- raw data : ๋ฌธ์ , ํ์ ๋ต์, ๋ฌธ์ ์ ๋ํ ํค์๋ ๋ฐ ๋ต์๋ณ ํค์๋ ํฌํจ์ฌ๋ถ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
- validation data : ์ค์ ๋ก ๋ชจ๋ธ ํ๊ฐ์ ์ฌ์ฉ๋์๋ validation dataset์ ๋๋ค. ๋ชจ๋ฒ ๋ต์ ์ ์ ๋ฐ ํ์ผ๋ฟ ํ๊น ์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ง์ ๊ตฌ์ถํ์ต๋๋ค.
- paired data : raw data์ ๋ํด ๋ชจ๋ฒ ๋ต์์ ๋ฌธ์ ๋ณ๋ก ์ง์ ์ ์ํ๊ณ , (๋ชจ๋ฒ ๋ต์, ํ์ ๋ต์) pair๋ฅผ ๋ง๋ค์ด ๋ ๋ฌธ์ฅ ์๋ฒ ๋ฉ ๊ฐ์ cosine similarity๋ฅผ ๊ตฌํด์ pair ๋ฐ์ดํฐ์ ์ ์ ์ํ์ต๋๋ค.
- ๋ค์ ๋งค๋ด์ผ์ ์ฐธ๊ณ ํด์ฃผ์ธ์ Gompada ์ฌ์ฉ ๋งค๋ด์ผ << Click
-
๋ ธ์
-
๊ฐ๋ฐ ์ธ์ ๋ณ๋ก Branch๋ฅผ ๋๋์ด Pull Reqeust ๊ธฐ๋ฐ ํ์ ์ ์งํํ์ต๋๋ค.
-
Commit๊ณผ ๊ด๋ จ๋ ๋ด์ฉ์ ์์ฑํด ๊ณต์ ํ๊ณ ์ ํ์ต๋๋ค.