简介
信息抽取是基于已有信息筛选出目标信息,不是无中生有,生成是有无中生有的能力
信息抽取主要包括三个子任务:命名实体识别、关系抽取、事件抽取。
实体抽取又称命名实体识别,其目的是从文本中抽取实体信息元素。想要从文本中进行实体抽取,首先需要从文本中识别和定位实体,然后再将识别的实体分类到预定义的类别中去。
关系抽取是知识抽取的重要子任务之一,面向非结构化文本数据, 关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。关系抽取与实体抽取密切相关,一般在识别出文本中的实体后,再抽取实体之间可能存在的关系,也有很多联合模型同时将这两个任务一起做了的;
事件抽取是指 从自然语言文本中抽取出用户感兴趣的事件信息,并以结构化的形式呈 现出来,例如事件发生的时间、地点、发生原因、参与者等。跟关系抽取有重叠的地方,同样也可以分为流水线方法和联合抽取方法。
例子:
1.NER命名实体识别 (实体抽取):从文本中检测出命名实体,并将其分类到预定义的类别中,例如人物、组织、地点、时间等。图中高灰色记的文字就是命名实体,在一般情况下,命名实体识别是知识抽取其他任务的基础。
2.关系抽取 :从文本中识别抽取实体及实体之间的关系。例如,从句子“[王思聪] 是万达集团董事长[王健林]的独子”中识别出实体“[王健林]”和“[王思 聪]”之间具有“父子”关系。
3.事件抽取:识别文本中关于事件的信息,并以结构化的形式呈现。例如,从恐怖袭击事件的新闻报道中识别袭击发生的地点、时间、袭击目标和受害人等信息。
参考
https://zhuanlan.zhihu.com/p/183966841
https://zhuanlan.zhihu.com/p/376898772
https://zhuanlan.zhihu.com/p/352513650