如果

中文文本分析相关资源汇总

Python库

项目	地址	简介
jieba分词	https://github.com/fxsjy/jieba	中文分词库
multistop	https://github.com/hidadeng/multistop	停用词表，支持中英法德等15种语言
cnsenti	https://github.com/hidadeng/cnsenti	中文文本情感分析、情绪分析库
快速构建专属领域中文情感词典	https://github.com/hidadeng/wordexpansion	使用SO_PMI互信息算法简单快速构建不同领域(手机、汽车等)的专业情感词典
eventextraction	https://github.com/hidadeng/eventextraction	计算文本逻辑性
中文复杂事件的概念与显式模式	https://github.com/hidadeng/eventextraction	中文复合事件的概念与显式模式，包括条件事件、因果事件、顺承事件、反转事件等事件抽取，并形成事理图谱。
中文信息抽取工具	https://github.com/fighting41love/cocoNLP	从中文文本数据中抽取出结构化的信息，如时间、手机号、运营商、邮箱、地址、人名、身份证
图片识别	https://github.com/breezedeus/cnocr	识别出图片中的中文文本
label-studio多媒体标注工具	https://github.com/heartexlabs/label-studio	可对文本、图片、音频和视频数据进行标注
中文可读性	https://github.com/cdimascio/py-readability-metrics	可读性算法包括Flesch-Kincaid Grade Level, Gunning Fog, ARI, Dale Chall, SMOG
Synonyms	https://github.com/huyingxi/Synonyms	用于自然语言理解的很多任务：文本对齐，推荐算法，相似度计算，语义偏移，关键字提取，概念提取，自动摘要，搜索引擎等。
SpaCy 中文模型	https://github.com/howl-anderson/Chinese_models_for_SpaCy	SpaCy 中文模型
Scattertext可视化	https://github.com/JasonKessler/scattertext	能否分析出某个类别的文本与其他文本的用词差异；简单修改后可支持中文
HarvestText文本挖掘和预处理工具	https://github.com/blmoistawinde/HarvestText	文本挖掘和预处理工具（文本清洗、新词发现、情感分析、实体识别链接、句法分析等），无监督或弱监督（种子词）方法
开源金融大数据	https://github.com/PKUJohnson/OpenData	股票、基金、期货、宏观等金融数据。还有非金融数据，如空气质量、高考录取分、院线票房等非金融数据
中日韩分词	https://github.com/jeongukjae/python-mecab	中日韩分词工具
汉字数字(中文数字)-阿拉伯数字转换工具	https://github.com/Wall-ee/chinese2digits	最好的汉字数字(中文数字)-阿拉伯数字转换工具。

语料(数据)

资源名	地址	介绍
微信公众号语料库	https://github.com/SophonPlus/ChineseNlpCorpus	搜集、整理、发布中文自然语言处理语料/数据集，与有志之士共同促进中文自然语言处理的发展。
中文公司名语料库	https://github.com/wainshine/Company-Names-Corpus	公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。
微信公众号语料库	https://github.com/nonamestreet/weixin_public_corpus	数据量3G；纯文本,每行一篇，JSON格式。name是微信公众号名字，account是微信公众号ID，title是题目，content是正文。
多语言音频数据	https://voice.mozilla.org/en/datasets	多种语言音频数据，包括来自42,000名贡献者超过1,400小时的语音样本，涵github
知识问答	https://github.com/liuhuanyong/MiningZhiDaoQACorpus	百度知道问答语料库，包括超过580万的问题，938万的答案，5800个分类标签。基于该问答语料库，可支持多种应用，如闲聊问答，逻辑挖掘。
中文任务基准测评	https://github.com/CLUEbenchmark/CLUE	中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜
中文突发事件语料库	https://github.com/shijiebei2009/CEC-Corpus	中文突发事件语料库（Chinese Emergency Corpus）-上海大学-语义智能实验室

知识图谱

项目名	地址	简介
awesome-knowledge-graph	https://github.com/husthuke/awesome-knowledge-graph	整理知识图谱相关学习资料
文档图谱信息可视化	https://github.com/liuhuanyong/TextGrapher	输入一篇文档，将文档进行关键信息提取，进行结构化，并最终组织成图谱组织形式，形成对文章语义信息的图谱化展示。
事件三元组抽取	https://github.com/liuhuanyong/EventTriplesExtraction	基于依存句法与语义角色标注的事件三元组抽取
中文人物关系抽取	https://github.com/liuhuanyong/PersonRelationKnowledgeGraph	中文人物关系图谱构建；基于知识库的数据回标基于远程监督与bootstrapping方法的人物关系抽取；基于知识图谱的知识问答等应用
证券知识图谱	https://github.com/lemonhu/stock-knowledge-graph	利用网络上公开的数据构建一个小型的证券知识图谱/知识库
大规模中文知识图谱数据	https://github.com/ownthink/KnowledgeGraphData	1.4亿中文知识图谱,百度网盘（链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp ）注：解压密码是：https://www.ownthink.com/
京东商品知识图谱	https://github.com/liuhuanyong/ProductKnowledgeGraph	基于京东网站的1300种商品上下级概念，约10万商品品牌，约65万品牌销售关系，商品描述维度等知识库，基于该知识库可以支持商品属性库构建，商品销售问答，品牌物品生产等知识查询服务，也可用于情感分析等下游应用．
重大事件抽取	https://github.com/liuhuanyong/ImportantEventExtractor	针对某一事件话题下的新闻报道集合，通过使用docrank算法，对新闻报道进行重要性识别，并通过新闻报道时间挑选出时间线上重要新闻。

如果

如果您是经管人文社科专业背景，编程小白，面临海量文本数据采集和处理分析艰巨任务，可以参看《python网络爬虫与文本数据分析》视频课。作为文科生，一样也是从两眼一抹黑开始，这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂o(￣︶￣)o，

python入门
网络爬虫
数据读取
文本分析入门
机器学习与文本分析
文本分析在经管研究中的应用

感兴趣的童鞋不妨戳一下《python网络爬虫与文本数据分析》进来看看~

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
img		img
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
大邓和他的Python.png		大邓和他的Python.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Python库

语料(数据)

知识图谱

如果

更多

About

Releases

Packages

License

FrankWhh/ChineseTextAnalysisResouce

Folders and files

Latest commit

History

Repository files navigation

Python库

语料(数据)

知识图谱

如果

更多

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages