中文NLP工具包中文NLP工具

 

工具包综合NLP工具包

流行的英语/多语言NLP工具包常用的英语或支持多语言的NLP工具包

中文分词

信息提取信息提取

QA和Chatbot问答和聊天机器人

 

2. 语料库

3. 组织相关中文NLP组织和会议

4. 学习资料

中文NLP工具包中文NLP工具

工具包综合NLP工具包

  • 清华的THULAC中文词法分析工具包(C ++ / Java / Python)

  • 中科院的NLPIR(Java)

  • 哈工大的LTP语言技术平台(C ++)

  • 复旦(Java)的FudanNLP

  • BosonNLP,由Boson(商业API服务)

  • HanNLP(Java)

  • SnowNLP(Python)Python库,用于处理中文文本

  • YaYaNLP(Python)纯python 编写的中文自然语言处理包,取名于“牙牙学语”

  • DeepNLP(Python)深度学习NLP管道在Tensorflow上使用预训练的中文模型实现。

  • chinese_nlp(C ++和Python)中文自然语言处理工具和示例

  • 中文文本语料库的中文注释器(Python)注解

流行的英语/多语言NLP工具包常用的英语或支持多语言的NLP工具包

  • 斯坦福大学的CoreNLP(Java)

  • NLTK(Python)

  • spaCy(Python)

  • OpenNLP(Java)

  • gensim(Python)Gensim是一个Python库,用于使用大型语料库进行主题建模,文档索引和相似性检索。

中文分词

  • Jieba结巴中文分词(Python)做最好的Python

  • kcws深度学习中文分词(Python)BiLSTM + CRF与IDCNN + CRF

  • ID-CNN-CWS(Python)迭代膨胀卷积用于中文分词

  • Genius中文分词(Python)Genius是一个开源的python中文分词组件,采用CRF(条件随机场)条件随机场算法。

  • loso中文分词(Python)

信息提取信息提取

  • MITIE(C ++)库和信息提取工具

  • 小鸭(Haskell)语言,引擎和工具,用于表达,测试和评估输入字符串上的可组合语言规则。

  • IEPY(Python)IEPY是一个专注于关系提取的信息提取开源工具。

  • 呼吸管:专注于信息提取的培训数据创建和管理系统

  • 在TensorFlow中使用LSTM实现的神经关系提取

  • 中文命名实体识别的神经网络模型

  • 信息提取-使用IDCNN / biLSTM + CRF的中文命名实体识别,以及使用biGRU + 2ATT的关系提取中文实体识别与关系提取

QA和Chatbot问答和聊天机器人

  • Rasa NLU(Python)将自然语言转换为结构化数据

  • 用于对话软件的基于Rasa Core(Python)机器学习的对话引擎

  • Chatterbot(Python)ChatterBot是用于创建聊天机器人的机器学习会话对话引擎。

  • Chatbot(Python)基于向量匹配的情境式聊天机器人

  • Tipask(PHP)是一个开放源码的PHP问答系统,基于Laravel框架开发,易于扩展,具有强大的负载能力和稳定性。

  • QuestionAnsweringSystem(Java)一个Java实现的人机问答系统,能够自动分析问题并发出提示答案。

  • 使用TensorFlow实现序列的聊天机器人模型的序列(Python)

  • 使用深度学习算法实现的中文阅读理解问答系统(Python)

  • DuReader中文阅读理解基线代码(Python)

语料库

  • 开放知识图谱OpenKG

  • 大规模中文概念图谱CN-Probase 公众号介绍

  • CLDC中文语言资源联盟

  • 维基百科转储

  • 98年人民日报词性标注库@百度盘

  • 百度百科 100gb 语料@百度盘密码neqs出处应该是梁斌penny大神

  • 搜狗20061127新闻语料(包含分类)@百度盘

  • UD中文(用于培训POS)

  • 中文word2vec模型

  • 中文word2vec模型之维基百科中文使用2017年6月20日中文维基百科语料训练的脚本和模型文件。

  • 同义词:中文近义词工具包基于维基百科中文和word2vec训练的近义词库,封装为python包文件。

  • Chinese_conversation_sentiment中文情感数据集可能对情感分析有用。

  • 中文突发事件语料库 Chinese Emergency Corpus

  • dgk_lost_conv中文对白语料汉语会话语料库

  • 用于训练中英文对话系统的语言料库

  • 八卦版问答中文语料

  • 汉语拆字字典

  • 中国股市公告信息爬取通过python脚本从巨潮网络的服务器获取中国股市(sz,sh)的公告(上市公司和监管机构)

  • tushare财经数据接口 TuShare是一个免费,开源的python财经数据接口包。

  • 保险行业语料库 [ 52nlp介绍Blog ]保险领域的OpenData用于机器学习任务

  • 最全中华古诗词数据库唐宋两朝近一万四千古诗人,接近5.5万首唐诗加26万宋诗。两宋时期1564位词人,21050首词。

  • DuReader中文阅读理解数据

  • 中文语料小数据包含了中文命名实体识别,中文关系识别,中文阅读理解等一些小量数据

  • 中文数据预处理材料中文分词词典和中文替换词

相关中文NLP组织和会议

  • 中国中文信息学会

  • NLP Conference Calender NLP社区中的主要会议,期刊,研讨会和共享任务。

学习资料学习资料

  • 中文深度学习书

  • Stanford CS224n带有深度学习的自然语言处理2017

  • 牛津CS DeepNLP 2017

  • Dan Jurafsky和James H. Martin的语音和语言处理

  • 52nlp我爱自然语言处理

  • hankcs编码农场

  • 文本处理实践课资料文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量和名词词林中文相似度计算,文档自动摘要,信息抽取,情感分析与观点挖掘等实验。

转载网址:https://github/NLPchina/Awesome-Chinese-NLP

更多推荐

精选的中文NLP(自然语言处理)资源列表