Pada Natural Language Processing (NLP), informasi yang akan digali berisi data-data yang strukturnya “sembarang” atau tidak terstruktur. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi data yang terstruktur untuk kebutuhan lebih lanjut (sentiment analysis, topic modelling, dll).
Text data needs to be cleaned and encoded to numerical values before giving them to machine learning models, this process of cleaning and encoding is called as Text Preprocessing.
Kode ini executable dan vieawable tersedia di Jupyter Notebook.
Kode pada repositori ini menggunakan beberapa library Python untuk melakukan text-preprocessing yaitu:
- Natural Language Toolkit (NLTK) - Permodelan teks
- PySastrawi - Stemming bahasa Indonesia
- Matplotlib - Visualisasi data
Penjelasan sederhana dari setiap tahapan text-preprocessing pada repositori ini saya tulis pada artikel disini.
Kuncahyo Setyo Nugroho
✉️ [email protected]