本文编写于 1973 天前,最后修改于 1746 天前,其中某些信息可能已经过时。
			  疫情相关新闻数据
这一部分的数据集收集了自 2020 年 1 月 1 日开始的新闻数据,包含了新闻的标题、内容、关键词等信息,截至 2020 年 5 月 31 日共收集 248,960 条新闻以及 2,653,086 条对应评论,用于帮助各位研究者分析研究疫情期间的新闻数据。
目录
数据地址
下载链接:https://data.thunlp.org/covid19/news.zip
数据内容说明
数据文件夹中总共分为三个部分包括:data,comment。
data文件夹中包含了若干个文件,每个文件对应某个日期的数据,格式为json。这部分的内容对应新闻的正文数据(会随着日期逐步更新),其中的字段包括:
- time:新闻发布的时间。
- title:新闻的标题。
- url:新闻的原地址链接。
- meta:新闻的正文信息,其中包括以下字段:- content:新闻的正文内容。
- description:新闻的简短描述。
- title:新闻的标题。
- keyword:新闻关键词。
- type:新闻的类型。
 
comment文件夹中包含了若干个文件,每个文件对应某个日期的数据,格式为json。这部分的内容对应新闻的评论数据(评论数据和新闻正文数据之间可能会有一周左右的延迟),其中的字段包括:
- time:新闻发布的时间,与- data文件夹内数据相对应。
- title:新闻的标题,与- data文件夹内数据相对应。
- url:新闻的原地址链接,与- data文件夹内数据相对应。
- comment:新闻的评论信息,该字段为一个数组,数组每一个元素包含如下信息:- area:评论人地区。
- content:评论内容。
- nickname:评论人昵称。
- reply_to:评论人回复对象,若无则代表不是回复。
- time:评论时间。
 
作者与致谢
作者:钟皓曦
数据来源:新浪新闻
让我们用数据为疫情研究贡献力量,共享数据请联系我们