本文编写于 1630 天前,最后修改于 1403 天前,其中某些信息可能已经过时。
疫情相关新闻数据
这一部分的数据集收集了自 2020 年 1 月 1 日开始的新闻数据,包含了新闻的标题、内容、关键词等信息,截至 2020 年 5 月 31 日共收集 248,960 条新闻以及 2,653,086 条对应评论,用于帮助各位研究者分析研究疫情期间的新闻数据。
目录
数据地址
下载链接:https://data.thunlp.org/covid19/news.zip
数据内容说明
数据文件夹中总共分为三个部分包括:data,comment
。
data
文件夹中包含了若干个文件,每个文件对应某个日期的数据,格式为json
。这部分的内容对应新闻的正文数据(会随着日期逐步更新),其中的字段包括:
time
:新闻发布的时间。title
:新闻的标题。url
:新闻的原地址链接。meta
:新闻的正文信息,其中包括以下字段:content
:新闻的正文内容。description
:新闻的简短描述。title
:新闻的标题。keyword
:新闻关键词。type
:新闻的类型。
comment
文件夹中包含了若干个文件,每个文件对应某个日期的数据,格式为json
。这部分的内容对应新闻的评论数据(评论数据和新闻正文数据之间可能会有一周左右的延迟),其中的字段包括:
time
:新闻发布的时间,与data
文件夹内数据相对应。title
:新闻的标题,与data
文件夹内数据相对应。url
:新闻的原地址链接,与data
文件夹内数据相对应。comment
:新闻的评论信息,该字段为一个数组,数组每一个元素包含如下信息:area
:评论人地区。content
:评论内容。nickname
:评论人昵称。reply_to
:评论人回复对象,若无则代表不是回复。time
:评论时间。
作者与致谢
作者:钟皓曦
数据来源:新浪新闻
让我们用数据为疫情研究贡献力量,共享数据请联系我们