2022-04-07 83c88498ec56138e051003cb9d162918 99+ 4 m 0.6 k

信息抽取 Information Extraction

简介

信息抽取是基于已有信息筛选出目标信息，不是无中生有，生成是有无中生有的能力

信息抽取主要包括三个子任务：命名实体识别、关系抽取、事件抽取。

实体抽取又称命名实体识别，其目的是从文本中抽取实体信息元素。想要从文本中进行实体抽取，首先需要从文本中识别和定位实体，然后再将识别的实体分类到预定义的类别中去。

关系抽取是知识抽取的重要子任务之一，面向非结构化文本数据，关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。关系抽取与实体抽取密切相关，一般在识别出文本中的实体后，再抽取实体之间可能存在的关系，也有很多联合模型同时将这两个任务一起做了的；

事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息，并以结构化的形式呈现出来，例如事件发生的时间、地点、发生原因、参与者等。跟关系抽取有重叠的地方，同样也可以分为流水线方法和联合抽取方法。

例子：

1.NER命名实体识别（实体抽取）：从文本中检测出命名实体，并将其分类到预定义的类别中，例如人物、组织、地点、时间等。图中高灰色记的文字就是命名实体，在一般情况下，命名实体识别是知识抽取其他任务的基础。
2.关系抽取：从文本中识别抽取实体及实体之间的关系。例如，从句子“[王思聪] 是万达集团董事长[王健林]的独子”中识别出实体“[王健林]”和“[王思聪]”之间具有“父子”关系。
3.事件抽取：识别文本中关于事件的信息，并以结构化的形式呈现。例如，从恐怖袭击事件的新闻报道中识别袭击发生的地点、时间、袭击目标和受害人等信息。