GitHub - zhangxiann/Tianchi-NLP-Beginner

这是我参加天池零基础入门NLP - 新闻文本分类的代码仓库。比赛地址：https://tianchi.aliyun.com/competition/entrance/531810/information 这是来源于 Datawhale 的开源代码。由于原来的代码没有注释，也没有整个流程的讲解，对于新手不太友好。

因此，为了减少对于新手的阅读难度，我添加了一些内容。包括数据处理和模型，以及详细的代码注释，希望能帮助到有需要的人。

包括 2 个文件夹：

textcnn

使用 TextCNN 模型的代码。讲解文章：阿里天池 NLP 入门赛 TextCNN 方案流程讲解

bert

使用 Bert 模型的代码。讲解文章分为 3 篇：

tensorflow 版本是 1.x。

包括 Bert 预训练和微调 Bert 两大步，具体步骤如下：

数据准备

1.1 首先在 bert 文件夹里创建 data 文件夹，把训练数据 train_set.csv 和测试数据 test_a.csv 放到 bert/data 文件夹。运行 prepare_data.py，把文本数据放到一个文件中，每篇文章之间使用空行分隔
```
python prepare_data.py
```
1.2 运行create_vocab.py，创建字典
```
python create_vocab.py
```
对数据进行 MASK
```
  bash create_pretraining_data.sh
```
开始训练 Bert
```
  bash run_pretraining.sh
```
把 Tensorflow 的模型，转换为 PyTorch 的模型
```
  bash convert_checkpoint.sh
```
微调 Bert 模型，进行文本分类
```
python finetune_bert.py
```

我的文章都会发布在公众号上，欢迎关注我的微信公众号

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
bert		bert
textcnn		textcnn
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

textcnn

bert

About

Releases

Packages

Languages

zhangxiann/Tianchi-NLP-Beginner

Folders and files

Latest commit

History

Repository files navigation

textcnn

bert

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages