关于文本分类（情感分析）的中文数据集汇总

文本分类（情感分析）中文数据集汇总

这段时间在公司NLP组里实习，相应的开始学习了一些NLP的知识，并搜索了一些关于NLP中文本分类领域的相关数据集，本文主要列举一些中文数据集。关于英语数据集，且听下回分解。

1.THUCNews数据集：

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测，准确率可以达到88.6%。

数据集地址： http://thuctc.thunlp/

2.今日头条新闻文本分类数据集：

数据来源：今日头条客户端
数据规模：共382688条，分布于15个分类中。
数据格式：6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言，之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据，以_!_分割的个字段，从前往后分别是
新闻ID，分类code（见下文），分类名称（见下文），新闻字符串（仅含标题），新闻关键词

数据集地址：https://github/fate233/toutiao-text-classfication-dataset

3.全网新闻数据(SogouCA)：

来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息

数据格式为

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>

注意：content字段去除了HTML标签，保存的是新闻正文文本

数据集地址： https://www.sogou/labs/resource/ca.php

4.搜狐新闻数据(SogouCS)：

来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息

数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>

注意：content字段去除了HTML标签，保存的是新闻正文文本

数据集地址： https://www.sogou/labs/resource/cs.php

5.ChnSentiCorp_htl_all数据集：

7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论

数据字段：
Label：1表示正向评论，0表示负向评论
Review：评论内容

数据集地址：
https://raw.githubusercontent/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv

6.waimai_10k数据集：

某外卖平台收集的用户评价，正向4000 条，负向约 8000 条

数据字段：

Label：1表示正向评论，0表示负向评论
Review：评论内容

数据集地址：
https://raw.githubusercontent/SophonPlus/ChineseNlpCorpus/master/datasets/waimai_10k/waimai_10k.csv

7.online_shopping_10_cats数据集：

10 个类别（书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店），共 6 万多条评论数据，正、负向评论各约 3 万条

数据集下载地址：
https://github/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

8.weibo_senti_100k数据集：

10 万多条，带情感标注新浪微博，正负向评论约各 5 万条。

数据集下载地址：
https://github/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

9.simplifyweibo_4_moods数据集：

36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条

数据集下载地址：
https://pan.baidu/s/16c93E5x373nsGozyWevITg

10.dmsc_v2数据集：

28部电影，超70万用户，超200万条评分/评论数据

数据集地址：https://pan.baidu/s/1c0yn3TlkzHYTdEBz3T5arA

原始数据集地址：https://www.kaggle/utmhikari/doubanmovieshortcomments

11.yf_dianping数据集：

24 万家餐馆，54 万用户，440 万条评论/评分数据

数据集地址：https://pan.baidu/s/1yMNvHLl6QYsGbjT7u51Nfg
原始数据集地址：http://yongfeng.me/dataset/

12.yf_amazon数据集：

52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据

原始数据集地址：http://yongfeng.me/dataset/
数据集地址：https://pan.baidu/s/1SbfpZb5cm-g2LmnYV_af8Q

13.Datahub数据中心：

包含文本分类、情感分析以及知识图谱的数据集

相关地址：http://www.datahub.ileadall42/data/list?category=2&parent_category=1

14.知乎看山杯数据集：

数据集下载地址：https://pan.baidu/s/1qUr6IQQn6DzrMlbaAUZslQ
提取码: qbiw

15.AI_challenger情感分析数据集：

数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次，层次一为粗粒度的评价对象，例如评论文本中涉及的服务、位置等要素；层次二为细粒度的情感对象，例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。

数据集下载地址：https://github/nju161250102/AI_challenger/tree/master/data

16.复旦中文文本分类语料库

数据链接:https://pan.baidu/s/1833mT2rhL6gBMlM0KnmyKg
密码:zyxa

更多推荐

关于文本分类（情感分析）的中文数据集汇总

关于文本分类（情感分析）的中文数据集汇总

文本分类（情感分析）中文数据集汇总

1.THUCNews数据集：

2.今日头条新闻文本分类数据集：

3.全网新闻数据(SogouCA)：

4.搜狐新闻数据(SogouCS)：

5.ChnSentiCorp_htl_all数据集：

6.waimai_10k数据集：

7.online_shopping_10_cats数据集：

8.weibo_senti_100k数据集：

9.simplifyweibo_4_moods数据集：

10.dmsc_v2数据集：

11.yf_dianping数据集：

12.yf_amazon数据集：

13.Datahub数据中心：

14.知乎看山杯数据集：

15.AI_challenger情感分析数据集：

16.复旦中文文本分类语料库

发布评论取消回复

最近发表

热门文章

标签列表

关于文本分类（情感分析）的中文数据集汇总

文本分类（情感分析）中文数据集汇总

1.THUCNews数据集：

2.今日头条新闻文本分类数据集：

3.全网新闻数据(SogouCA)：

4.搜狐新闻数据(SogouCS)：

5.ChnSentiCorp_htl_all数据集：

6.waimai_10k数据集：

7.online_shopping_10_cats数据集：

8.weibo_senti_100k数据集：

9.simplifyweibo_4_moods数据集：

10.dmsc_v2数据集：

11.yf_dianping数据集：

12.yf_amazon数据集：

13.Datahub数据中心：

14.知乎看山杯数据集：

15.AI_challenger情感分析数据集：

16.复旦中文文本分类语料库

相关文章

发布评论取消回复

最近发表

热门文章

标签列表