用于讽刺检测的新闻标题数据集
文件列表(压缩包大小 3.30M)
免费
概述
以前在Sarcasm Detection中进行的研究大多使用Twitter数据集,该数据集是基于基于标签的监督收集的,但是这些数据集在标签和语言方面都很复杂。此外,许多推文都是对其他推文的答复,而在这些推文中检测嘲讽需要联系上下文。
为了克服与Twitter数据集中的噪音相关的限制,此Sarsarm Detection的News Headlines数据集是从两个新闻网站收集的。TheOnion旨在形成时事的讽刺版本,我们从“简讯”和“新闻图片”类别(讽刺)中收集了所有头条新闻。我们从HuffPost收集真实(而非讽刺)的新闻头条。
与现有的Twitter数据集相比,此新数据集具有以下优点:
由于新闻头条是由专业人员以正式方式撰写的,因此没有拼写错误和非正式使用。这减少了稀疏性,并且还增加了找到预训练的嵌入的机会。
此外,由于TheOnion的唯一目的是发布讽刺新闻,因此与Twitter数据集相比,我们获得的高质量标签的噪音要少得多。
与回复其他推文的推文不同,我们获得的新闻标题是独立的。这将有助于我们挑逗真正的讽刺元素。
每个记录包含三个属性:
is_sarcastic:如果记录是讽刺的,则为1,否则为0
headline:新闻文章的标题
article_link:链接到原始新闻文章。有助于收集补充数据
数据的一般统计信息,有关如何使用python读取数据的说明以及基本的探索性分析可在此GitHub存储库中找到。可以在此GitHub存储库中找到在此数据集上受训的混合NN体系结构。
via:https://www.kaggle.com/rmisra/news-headlines-dataset-for-sarcasm-detection
如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈
评论(0)