疫情相关谣言数据
这一部分的数据集收集了:
(1)自 2020 年 1 月 22 日开始的微博不实信息数据,包括被认定为不实信息的微博的内容、发布者,以及举报者、审理时间、结果等信息,截至 2020 年 3 月 3 日共 325 条微博原文,31,284 条转发和 7,912 条评论,用于帮助各位研究者分析研究疫情期间的不实信息传播;
(2)自 2020 年 1 月 18 日开始的腾讯谣言验证平台以及丁香园不实信息数据,包括被认定为正确或不实信息的谣言内容、时间以及用以判断是否为谣言的依据等信息,截至 2020 年 3 月 1 日共 507 条谣言数据,其中事实性数据124条,数据分布为,负例:420 正例:33 不确定:54。
目录
数据地址
下载链接:https://data.thunlp.org/covid19/rumor.zip
其中,rumor_weibo
文件夹包含了被认定为不实信息的微博内容与审理结果等,rumor_forward_comment
文件夹包含了这些微博的评论内容和转发附言。对于同一条微博,两个文件夹中的json
文件名相同。对于已被删除的微博,只有rumor_weibo
中的一个文件描述与之相关的审理信息,rumor_forward_comment
中无对应文件;fact.json
记录了腾讯与丁香园不实数据。
数据内容说明
微博不实信息分别由rumor_weibo
和rumor_forward_comment
中的两个同名json
文件所描述。rumor_weibo
中的json
具体字段如下:
rumorCode
: 该条谣言的唯一编码,可以通过该编码直接访问该谣言举报页面。title
: 该条谣言被举报的标题内容。informerName
: 举报者微博名称。informerUrl
: 举报者微博链接。rumormongerName
: 发布谣言者的微博名称。rumormongerUr
: 发布谣言者的微博链接。rumorText
: 谣言内容。visitTimes
: 该谣言被访问次数。result
: 该谣言审查结果。publishTime
: 该谣言被举报时间。related_url
: 与该谣言相关的证据、规定等链接。
rumor_forward_comment
中的json
具体字段如下:
uid
: 发表用户ID。text
: 评论或转发附言文字。date
: 发布时间。comment_or_forward
: 二值,要么是comment
,要么是forward
,表示该条信息是评论还是转发附言。
腾讯与丁香园不实信息内容格式为:
date
: 时间explain
: 谣言类型tag
: 谣言标签abstract
: 用以验证谣言的内容rumor
: 谣言
作者与致谢
1. 微博不实信息数据
作者:王聿中、朱泽宇、刘一芃
数据来源:新浪微博
2. 腾讯与丁香园不实信息数据
作者:刘正皓
数据来源:腾讯谣言验证平台以及丁香园
致谢:感谢伍亮(github id:LiangWuCode)提供相应api接口
让我们用数据为疫情研究贡献力量,共享数据请联系我们