疫情相关谣言数据
这一部分的数据集收集了:
(1)自 2020 年 1 月 22 日开始的微博不实信息数据,包括被认定为不实信息的微博的内容、发布者,以及举报者、审理时间、结果等信息,截至 2020 年 3 月 3 日共 325 条微博原文,31,284 条转发和 7,912 条评论,用于帮助各位研究者分析研究疫情期间的不实信息传播;
(2)自 2020 年 1 月 18 日开始的腾讯谣言验证平台以及丁香园不实信息数据,包括被认定为正确或不实信息的谣言内容、时间以及用以判断是否为谣言的依据等信息,截至 2020 年 3 月 1 日共 507 条谣言数据,其中事实性数据124条,数据分布为,负例:420 正例:33 不确定:54。
目录
数据地址
下载链接:https://data.thunlp.org/covid19/rumor.zip
其中,rumor_weibo文件夹包含了被认定为不实信息的微博内容与审理结果等,rumor_forward_comment文件夹包含了这些微博的评论内容和转发附言。对于同一条微博,两个文件夹中的json文件名相同。对于已被删除的微博,只有rumor_weibo中的一个文件描述与之相关的审理信息,rumor_forward_comment中无对应文件;fact.json 记录了腾讯与丁香园不实数据。
数据内容说明
微博不实信息分别由rumor_weibo和rumor_forward_comment中的两个同名json文件所描述。rumor_weibo中的json具体字段如下:
- rumorCode: 该条谣言的唯一编码,可以通过该编码直接访问该谣言举报页面。
- title: 该条谣言被举报的标题内容。
- informerName: 举报者微博名称。
- informerUrl: 举报者微博链接。
- rumormongerName: 发布谣言者的微博名称。
- rumormongerUr: 发布谣言者的微博链接。
- rumorText: 谣言内容。
- visitTimes: 该谣言被访问次数。
- result: 该谣言审查结果。
- publishTime: 该谣言被举报时间。
- related_url: 与该谣言相关的证据、规定等链接。
rumor_forward_comment中的json具体字段如下:
- uid: 发表用户ID。
- text: 评论或转发附言文字。
- date: 发布时间。
- comment_or_forward: 二值,要么是- comment,要么是- forward,表示该条信息是评论还是转发附言。
腾讯与丁香园不实信息内容格式为:
- date: 时间
- explain: 谣言类型
- tag: 谣言标签
- abstract: 用以验证谣言的内容
- rumor: 谣言
作者与致谢
1. 微博不实信息数据
作者:王聿中、朱泽宇、刘一芃
数据来源:新浪微博
2. 腾讯与丁香园不实信息数据
作者:刘正皓
数据来源:腾讯谣言验证平台以及丁香园
致谢:感谢伍亮(github id:LiangWuCode)提供相应api接口
让我们用数据为疫情研究贡献力量,共享数据请联系我们