本文编写于 1630 天前,最后修改于 1403 天前,其中某些信息可能已经过时。

疫情相关新闻数据

这一部分的数据集收集了自 2020 年 1 月 1 日开始的新闻数据,包含了新闻的标题、内容、关键词等信息,截至 2020 年 5 月 31 日共收集 248,960 条新闻以及 2,653,086 条对应评论,用于帮助各位研究者分析研究疫情期间的新闻数据。

目录

数据地址

下载链接:https://data.thunlp.org/covid19/news.zip

数据内容说明

数据文件夹中总共分为三个部分包括:data,comment

data文件夹中包含了若干个文件,每个文件对应某个日期的数据,格式为json。这部分的内容对应新闻的正文数据(会随着日期逐步更新),其中的字段包括:

  • time:新闻发布的时间。
  • title:新闻的标题。
  • url:新闻的原地址链接。
  • meta:新闻的正文信息,其中包括以下字段:

    • content:新闻的正文内容。
    • description:新闻的简短描述。
    • title:新闻的标题。
    • keyword:新闻关键词。
    • type:新闻的类型。

comment文件夹中包含了若干个文件,每个文件对应某个日期的数据,格式为json。这部分的内容对应新闻的评论数据(评论数据和新闻正文数据之间可能会有一周左右的延迟),其中的字段包括:

  • time:新闻发布的时间,与data文件夹内数据相对应。
  • title:新闻的标题,与data文件夹内数据相对应。
  • url:新闻的原地址链接,与data文件夹内数据相对应。
  • comment:新闻的评论信息,该字段为一个数组,数组每一个元素包含如下信息:

    • area:评论人地区。
    • content:评论内容。
    • nickname:评论人昵称。
    • reply_to:评论人回复对象,若无则代表不是回复。
    • time:评论时间。

作者与致谢

作者钟皓曦

数据来源:新浪新闻

让我们用数据为疫情研究贡献力量,共享数据请联系我们