- NH투자증권 제 1회 빅데이터 경진대회 수상 : Dacon에서 진행한 "AI야, 진짜 뉴스를 찾아줘!" 대회
- League 내 2등
(리뽀 팀)
: NH투자증권 본사에서의 결선 쇼케이스 발표 - [League 1] 알고리즘 개발과 [League 2] 시각화 주제 중
[League 1] 알고리즘 개발
주제에 참가 - 대회 주제 : 뉴스 데이터 중 진짜 뉴스와 가짜 뉴스를 분류하는 Text Classification(딥러닝을 활용한 AI 뉴스 필터링 알고리즘 개발)
- About_NLP
- Preprocessing
- Vectorization
- Word_Embedding
- Modeling
- NH투자증권이 제공한 데이터는 대회 종료 후 파기되었음
- 한국어불용어.txt : 여러 논문과 자료들을 참고하고 직접 수집하여 전처리한 불용어 데이터
- GoogleNews-vectors-negative300.bin.gz : Embedding Layer에 사용한 Google에서 제공한 Word Embedding 데이터
- word-embeddings : Fasttext, Glove, Word2vec, Swivel 데이터
코드 순서
- EDA
- Preprocessing
- Modeling
- 확인용
- 제출코드
- AutoKeras
- TFBert
- GPT2
- SVM
- LightGBM 등
- KoNLPy 공식 웹사이트 참고
$ python3 -m pip install --upgrade pip
$ python3 -m pip install konlpy
- KoNLPy 공식 웹사이트 참고
- 2. MeCab이 설치가 안되는 윈도우 유저는 아래의 3. Mecab(eKoNLPy) 사용 권장
$ bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
- eKoNLPy 공식 깃허브 참고
$ git clone https://github.com/entelecheia/eKoNLPy.git
$ cd eKoNLPy
$ pip install .
$ pip install . --upgrade
- 설치 확인
from ekonlpy.tag import Mecab
mecab = Mecab()
mecab.pos('금통위는 따라서 물가안정과 병행, 경기상황에 유의하는 금리정책을 펼쳐나가기로 했다고 밝혔다.')
[('금통위', 'NNG'),
('는', 'JX'),
('따라서', 'MAJ'),
('물가', 'NNG'),
('안정', 'NNG'),
('과', 'JC'),
('병행', 'NNG'),
(',', 'SC'),
('경기', 'NNG'),
('상황', 'NNG'),
('에', 'JKB'),
('유의', 'NNG'),
('하', 'XSV'),
('는', 'ETM'),
('금리', 'NNG'),
('정책', 'NNG'),
('을', 'JKO'),
('펼쳐', 'VV'),
('나가', 'VX'),
('기', 'ETN'),
('로', 'JKB'),
('했', 'VV'),
('다고', 'EC'),
('밝혔', 'VV'),
('다', 'EF'),
('.', 'SF')]