满足不同角色需求: 领域专家 数据科学家 科研人员、高校教师及学生
Reuters-21578 文本分类数据集
2045次浏览 dataju 于 2021-08-17 发布
该内容是由用户自发提供,聚数力平台仅提供平台,让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权,请告知我们及时删除。
数据集概述

https://hyper.ai/datasets/4945

Reuters – 21578 Dataset 是用于文本分类研究的测试集合,它是一个多类、多标签数据集,其有望在未来几年被 RCV1 取代,该数据集有 90 个类、7769 个训练文件和 3019 个测试文件,是 Reuters – 21578 基准的 ModApte 子目录。

Reuters – 21578 数据集最初由 Carnegie Group 和 Reuters 于 1987 年在开发 CONSTRUE 文本分类系统的过程中收集和标记,后期由 AT&T Labs Research 于 1997 年 9 月发布,主要发布人为 David D. Lewis,相关论文有:

《Automated Learning of Decision Rules for Text Categorization》

《Toward Language Independent Automated Learning of Text Categorization Models》

《TCS: A Shell for Content-Based Text Categorization》

《CONSTRUE/TIS: A System for Content-Based Indexing of a Database of News Stories》


数据集详情
暂无
数据集元数据
暂无
概念层次
领域场景: 未指定
领域问题: 未指定
领域应用: 未指定
应用案例: 未指定