疫情相关谣言数据
这一部分的数据集收集了:
(1)自 2020 年 1 月 22 日开始的微博不实信息数据,包括被认定为不实信息的微博的内容、发布者,以及举报者、审理时间、结果等信息,截至 2020 年 3 月 3 日共 325 条微博原文,31,284 条转发和 7,912 条评论,用于帮助各位研究者分析研究疫情期间的不实信息传播;
(2)自 2020 年 1 月 18 日开始的腾讯谣言验证平台以及丁香园不实信息数据,包括被认定为正确或不实信息的谣言内容、时间以及用以判断是否为谣言的依据等信息,截至 2020 年 3 月 1 日共 507 条谣言数据,其中事实性数据124条,数据分布为,负例:420 正例:33 不确定:54。
目录
数据地址
下载链接:https://data.thunlp.org/covid19/rumor.zip
其中,rumor_weibo文件夹包含了被认定为不实信息的微博内容与审理结果等,rumor_forward_comment文件夹包含了这些微博的评论内容和转发附言。对于同一条微博,两个文件夹中的json文件名相同。对于已被删除的微博,只有rumor_weibo中的一个文件描述与之相关的审理信息,rumor_forward_comment中无对应文件;fact.json 记录了腾讯与丁香园不实数据。
数据内容说明
微博不实信息分别由rumor_weibo和rumor_forward_comment中的两个同名json文件所描述。rumor_weibo中的json具体字段如下:
rumorCode: 该条谣言的唯一编码,可以通过该编码直接访问该谣言举报页面。title: 该条谣言被举报的标题内容。informerName: 举报者微博名称。informerUrl: 举报者微博链接。rumormongerName: 发布谣言者的微博名称。rumormongerUr: 发布谣言者的微博链接。rumorText: 谣言内容。visitTimes: 该谣言被访问次数。result: 该谣言审查结果。publishTime: 该谣言被举报时间。related_url: 与该谣言相关的证据、规定等链接。
rumor_forward_comment中的json具体字段如下:
uid: 发表用户ID。text: 评论或转发附言文字。date: 发布时间。comment_or_forward: 二值,要么是comment,要么是forward,表示该条信息是评论还是转发附言。
腾讯与丁香园不实信息内容格式为:
date: 时间explain: 谣言类型tag: 谣言标签abstract: 用以验证谣言的内容rumor: 谣言
作者与致谢
1. 微博不实信息数据
作者:王聿中、朱泽宇、刘一芃
数据来源:新浪微博
2. 腾讯与丁香园不实信息数据
作者:刘正皓
数据来源:腾讯谣言验证平台以及丁香园
致谢:感谢伍亮(github id:LiangWuCode)提供相应api接口
让我们用数据为疫情研究贡献力量,共享数据请联系我们