“garbage in, garbage out”实体识别,做过实际工业落地的朋友都知道,当前影响业务模型效果的天花板其实是数据,绝大多数算法工程师的日常工作其实是在清洗数据、构造数据,模型性能的提升更多的是靠数据清洗、底层数据的优化得到的。
因此,我们在实际的工作中一定要注意底层数据的建设,只专注上层的模型调参或魔改,实际上是有一定的本末倒置的。
实体识别、实体关系抽取是进行实体知识图谱构建的两个重要步骤。而为了推动着两个任务的发展,学术界和工业界已经陆续推出了一些评测比赛以及开放数据,这对我们进行模型研究以及特定问题梳理提供了有效借鉴。
顺着这个思路,作者通过搜集、整理,形成了当前比较主流的实体识别数据集和实体关系数据集,包括常用12类实体识别、10类关系抽取数据集,以供大家参考。
一、实体识别数据集
实体识别是进行知识图谱构建中的一个重要步骤,而作为推动实体识别技术的发展,当前已经陆续开放出来了一些实体识别数据集。例如MSRA-NER实体数据集、人民日报实体数据集等。下面,共整理得到12类实体识别数据集。
1、MSRA-NER实体数据集
MSRANER是由微软亚洲研究院标注的新闻领域的实体识别数据集,也是SIGNAN backoff 2006的实体识别任务的数据集之一。
该数据集包含5万多条中文实体识别标注数据,实体类别分为人物、地点、机构三类,包括训练集46364个句子,验证集4365个句子,于2016年推出。
地址:
2、人民日报实体数据集
人民日报实体数据集是以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。
人民日报实体数据集标注了LOC(地名), ORG(机构名), PER(人名)三类实体,共包括19359条数据集。
地址:
3、新浪微博实体数据集
WeiboNER是根据新浪微博2013年11月至2014年12月间历史数据筛选过滤生成,包含1890条微博消息,基于LDC2014的DEFT ERE的标注标准进行标注。
该数据集实体包含地名、人名、机构名、行政区名四类类别,并且每个类别可细分为特指(NAM,如“张三”标签为“PER.NAM”)和泛指(NOM,如“男人”标签为“PER.NOM”)。
该数据集一共包括1890条微博消息,发布于2015年。包括1350条训练集、270条验证集、270条测试集。
地址:
4、CLUENER细粒度实体数据集
CLUENER2020是根据清华大学开源的文本分类数据集THUCNEWS,进行筛选过滤、实体标注生成,原数据来源于Sina News RSS。
该数据集包含组织(organization)、人名(name)、地址(address)、公司(company)、政府(government)、书籍(book)、游戏(game)、电影(movie)、职位(position)、景点(scene)等10个实体类别,且实体类别分布较为均衡。
CLUENER2020共包括训练集10748个句子,验证集1343个句子。
地址:
5、Yidu-S4K医疗命名实体识别数据集
Yidu-S4K数据集源自CCKS2019评测任务一,即“面向中文电子病历的命名实体识别”的数据集。
包括实验室检验、影像检查、手术、疾病和诊断、药物、解剖部位共6类实体类型。 Yidu-S4K 数据集包括1000条训练集、379条测试集。
地址:
6、面向试验鉴定的实体数据集
面向试验鉴定的命名实体数据集是由军事科学院系统工程研究院在CCKS 2020中组织的一个评测。
预定义类别包括试验要素(如:RS-24弹道导弹、SPY-1D相控阵雷达)、性能指标(如测量精度、圆概率偏差、失效距离)、系统组成(如中波红外导引头、助推器、整流罩)、任务场景(如法国海军、导弹预警、恐怖袭击)四大类。
在训练集中,给定了400篇的标注文档。
地址:
7、BosonNLP实体数据集
BosonNLP NER数据集是玻森数据提供的命名实体识别数据,采用UTF-8进行编码,每行为一个段落标注,共包括2000段落,共标注时间、地点、人名、组织名、公司名、产品名等六个实体类型。
地址:
8、影视音乐书籍实体数据集
影视音乐书籍实体数据集是一个类似于人名、地名、组织机构名的实体数据集,标注了影视、音乐、书籍三类实体。
该数据集大约10000条,具体包括7814条训练集、977条验证集以及978条测试集。
地址:
9、中文电子病历实体数据集
目前现存公开的中文电子病历标注数据十分稀缺,为了推动CNER系统在中文临床文本上的表现, CCKS在2017、2018、2019、2020都组织了面向中文电子病历的命名实体识别评测任务。
1)CCKS2017数据集
CCKS2017原始数据集人工标注了包括症状和体征、检查和检验、疾病和诊断、治疗、身体部位在内共5类实体。 该数据集分为训练集和测试集。其中训练集包括300个医疗记录,测试集包含100个医疗记录。
地址:
2)CCKS2018数据集
CCKS2018原始数据集由人工标注了包括解剖部位、症状描述、独立症状、药物、手术在内的五类实体。
该数据集包括训练集和测试集。其中训练集包括600个医疗记录,测试集包含400个医疗记录。
地址:
3)CCKS2019数据集
CCKS2019原始数据集由人工标注了包括疾病和诊断、检查、检验、手术、药物、解剖部位共六类实体。
该数据集包括训练集和测试集。训练集包括1000个医疗记录,测试集包含379个医疗记录。
地址: 。
4)CCKS2020数据集
CCKS20数据集由人工标注了包括疾病和诊断、检查、检验、手术、药物、解剖部位共六类实体。 原始数据集包括训练集和测试集。其中训练集包括1050个医疗记录。
地址:
10、中文电子简历实体数据集
Resume NER是根据新浪财经网关于上市公司的高级经理人的简历摘要数据,进行筛选过滤和人工标注生成的,建于2018年。
该数据集包含1027份简历摘要,实体标注分为人名、国籍、籍贯、种族、专业、学位、机构、职称等8个类别。
该数据集共包括3821条训练集、463条验证集、477条测试集。
地址:
11、CoNLL 2003数据集
CoNLL 2003数据集包括1393篇英语新闻文章和909篇德语新闻文章,标注了LOC、ORG、PER、MISC共四种实体类型。
地址:
12、OntoNotes5.0 数据集
OntoNotes 5.0由1745k英语、900k中文和300k阿拉伯语文本数据组成,来源于电话对话、新闻通讯社、广播新闻、广播对话和博客。实体被标注为PERSON、ORGANIZATION和LOCATION等18个类别。
地址:
二、实体关系抽取数据集
关系抽取是从纯文本中识别实体之间的关系事实,也是完成实体识别任务后的一个重要工作,从抽取的范围来看,包括句子级RE关系和文档级关系。同样的,当前也陆续开放出来了一些实体关系评测和数据集,例如ACE、semeval、Duee等。
下面整理得到10大类开放数据集。
1、ACE实体关系数据集
ACE2005数据集包括英语,阿拉伯语和中文三部分数据,分成广播新闻和新闻专线两部分。 该数据集包含ART、Gen-affiliation在内的6种关系类型,Employment、Founder、Ownership在内的额18种子关系类型。
ACE04语料库共包含451个文档和5 702个关系实例。ACE2005中文数据集包括633个文档、307991个字符。
地址:
2、SemEval实体关系数据集
SemEval数据集是2010年国际语义评测大会中Task8任务所使用的数据集,共包括Cause-Effect(因果关系)、Instrument-Agency(操作、使用关系)、Product-Producer(产品-生产者关系)、 Content-Container(空间包含关系)、Entity-Origin(起源关系)、Entity-Destination(导向关系)、 Component-Whole(组件-整体关系)、Member-Collection(成员-集合关系)、Message-Topic(主题关系)等10类关系。
该数据集包括8000个训练样本,2717个测试样本。
地址:
3、FewRel实体关系数据集
FewRel是清华大学于2018年发布的精标注关系抽取数据集,是当前规模最大的中文实体关系数据集。
该数据集包括100个关系类别、70,000个关系实例。每句的平均长度为24.99,一共出现 124,577 个不同的单词/符号。
地址:
4、Wiki80实体关系数据集
Wiki80是从数据集FewRel上提取的一个关系数据集,共包含location、part of、follows等80种关系,每种关系个数均为700,共56000个样本。
该数据集50400条训练集、5600条验证集。
地址:
5、NYT10实体关系数据集
NYT10是在基于远程监督的关系抽取任务上最常用的数据集,由NYT corpus 在2010年基于Freebase远程监督得到的,共包含founders、place_of_birth在内的53种关系(包括一种NA),存在一定的噪声。
该数据集包括466876条训练集、55167条验证集以及172448条测试集。
地址:
6、DuIE2.0实体关系数据集
DuIE2.0是业界规模最大的基于schema的中文关系抽取数据集实体识别,来自百度百科、百度贴吧和百度信息流文本。
该数据集包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。
该数据集包括171135个训练集、21055个测试数据,外加80184条混淆数据。
地址:
7、COAE2016实体关系数据集
CAOE2016关系数据集是CAOE2016 task3任务中用到的一个关系数据集,涉及到任关系类别包括出生日期、出生地、毕业院校、配偶、子女、高管、员工数、创始人、总部、其他共十类关系。
该数据集中包含988个训练数据和483个测试数据。 地址:
8、人物实体关系数据集
人物关系抽取数据集是CCKS2019中的一个层级关系分类任务,包括三大类(亲属关系、社交关系、师生关系),四中类(配偶、血亲、姻亲、友谊)、35小类(现夫、前妻)种关系类型。 该数据集包括3841条验证集、287351条训练集以及77092条测试集句子。
地址:
9、Chinese Literature Text文档级实体关系数据集
Chinese Literature Text是面向中文文学的一个实体关系数据集,标注了物体、人名、地名、时间名、容量名、组织和摘要共7类实体,位于、部分、家庭、概括、社会、拥有、使用、制造、邻接等9类实体关系。
该数据集共计726篇文章,29096句话,超过100000个字符。训练集695篇,验证集58篇、测试集84篇。
地址:
10、DocRED文档级实体关系数据集
DocRED是基于维基百科的文档级关系抽取数据集,数据集中每个文档都被标注了命名实体提及、核心参考信息、句内和句间关系以及支持证据。关系类型涉及科学、艺术、时间、个人生活在内的96种Wikidata关系类型。
该数据集在5053个维基百科文档上进行标注,包含132375个实体和56354个关系事实。
地址:
总结
本文整理出了12类实体识别数据集以及10类实体关系数据集,只给出了简介、数据集情况以及链接,对于进一步的数据查看、下载、研究可以通过链接进一步展开。
实际上,对于开放数据而言,我们要考到两个方面: 一个是审视现有标注数据的标注形式,看到存在的实际实体分布、实体关系分布,以及存在的标注问题,从而反推总结出一些标注规范的设计、标注方法。
另一个是看到当前实体识别和实体关系的数据情况、性能情况,并能够与自身的工作相结合,在有个清晰的认识后,能够进一步地做好实体识别和实体关系识别任务。
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:。
就职于360人工智能研究院、曾就职于中国科学院软件研究所。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。
1、本站资源针对会员完全免费,站点中所有资源大部分为投稿作者付费教程,切勿轻易添加教程上除本站信息外的任何联系方式,谨防被割,如有疑问请随时联系客服。
2、本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。