本文编写于 1403 天前,最后修改于 1403 天前,其中某些信息可能已经过时。

疫情相关谣言数据

这一部分的数据集收集了:

(1)自 2020 年 1 月 22 日开始的微博不实信息数据,包括被认定为不实信息的微博的内容、发布者,以及举报者、审理时间、结果等信息,截至 2020 年 3 月 3 日共 325 条微博原文,31,284 条转发和 7,912 条评论,用于帮助各位研究者分析研究疫情期间的不实信息传播;

(2)自 2020 年 1 月 18 日开始的腾讯谣言验证平台以及丁香园不实信息数据,包括被认定为正确或不实信息的谣言内容、时间以及用以判断是否为谣言的依据等信息,截至 2020 年 3 月 1 日共 507 条谣言数据,其中事实性数据124条,数据分布为,负例:420 正例:33 不确定:54。

目录

数据地址

下载链接:https://data.thunlp.org/covid19/rumor.zip

其中,rumor_weibo文件夹包含了被认定为不实信息的微博内容与审理结果等,rumor_forward_comment文件夹包含了这些微博的评论内容和转发附言。对于同一条微博,两个文件夹中的json文件名相同。对于已被删除的微博,只有rumor_weibo中的一个文件描述与之相关的审理信息,rumor_forward_comment中无对应文件;fact.json 记录了腾讯与丁香园不实数据。

数据内容说明

微博不实信息分别由rumor_weiborumor_forward_comment中的两个同名json文件所描述。rumor_weibo中的json具体字段如下:

  • rumorCode: 该条谣言的唯一编码,可以通过该编码直接访问该谣言举报页面。
  • title: 该条谣言被举报的标题内容。
  • informerName: 举报者微博名称。
  • informerUrl: 举报者微博链接。
  • rumormongerName: 发布谣言者的微博名称。
  • rumormongerUr: 发布谣言者的微博链接。
  • rumorText: 谣言内容。
  • visitTimes: 该谣言被访问次数。
  • result: 该谣言审查结果。
  • publishTime: 该谣言被举报时间。
  • related_url: 与该谣言相关的证据、规定等链接。

rumor_forward_comment中的json具体字段如下:

  • uid: 发表用户ID。
  • text: 评论或转发附言文字。
  • date: 发布时间。
  • comment_or_forward: 二值,要么是comment,要么是forward,表示该条信息是评论还是转发附言。

腾讯与丁香园不实信息内容格式为:

  • date: 时间
  • explain: 谣言类型
  • tag: 谣言标签
  • abstract: 用以验证谣言的内容
  • rumor: 谣言

作者与致谢

1. 微博不实信息数据

作者:王聿中、朱泽宇、刘一芃

数据来源:新浪微博

2. 腾讯与丁香园不实信息数据

作者:刘正皓

数据来源:腾讯谣言验证平台以及丁香园

致谢:感谢伍亮(github id:LiangWuCode)提供相应api接口

让我们用数据为疫情研究贡献力量,共享数据请联系我们