text Span抽取

基于问题在段落中寻找答案

1
2
3
1 问题:苏轼是哪里人?
2 描述:苏轼是北宋著名的文学家与政治家,眉州眉山人。
3 标签:眉州眉山人

bert中的SQuAD问答任务

标签

引入start 和 end 标签

结构

损失

1
2
3
4
5
6
7
8
9
sequence_output = all_encoder_outputs[-1] #[src_len, batch_size, hidden_size]
logits = self.qa_outputs(sequence_output) # [src_len, batch_size,2]
start_logits, end_logits = logits.split(1, dim=-1)
start_logits = start_logits.squeeze(-1).transpose(0, 1) # [batch_size,src_len]
end_logits = end_logits.squeeze(-1).transpose(0, 1) # [batch_size,src_len]
loss_fct = nn.CrossEntropyLoss(ignore_index=ignored_index)
start_loss = loss_fct(start_logits, start_positions)
end_loss = loss_fct(end_logits, end_positions)
final_loss=(start_loss + end_loss) / 2

模型输出为: [src_len, batch_size,2]

两个(start 和 end )src_len分类的平均

预测

假设候选文本长度为n,输出n个2分类结果,选出最大的start概率和end概率最为start和end label

参考

https://zhuanlan.zhihu.com/p/77868938

https://blog.csdn.net/guangyacyb/article/details/105526482

https://zhuanlan.zhihu.com/p/473157694

信息抽取 Information Extraction

简介

信息抽取是基于已有信息筛选出目标信息,不是无中生有,生成是有无中生有的能力

信息抽取主要包括三个子任务:命名实体识别、关系抽取、事件抽取。

实体抽取又称命名实体识别,其目的是从文本中抽取实体信息元素。想要从文本中进行实体抽取,首先需要从文本中识别和定位实体,然后再将识别的实体分类到预定义的类别中去

关系抽取是知识抽取的重要子任务之一,面向非结构化文本数据, 关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。关系抽取与实体抽取密切相关,一般在识别出文本中的实体后,再抽取实体之间可能存在的关系,也有很多联合模型同时将这两个任务一起做了的;

事件抽取是指 从自然语言文本中抽取出用户感兴趣的事件信息,并以结构化的形式呈 现出来,例如事件发生的时间、地点、发生原因、参与者等。跟关系抽取有重叠的地方,同样也可以分为流水线方法和联合抽取方法。

例子:

1.NER命名实体识别 (实体抽取):从文本中检测出命名实体,并将其分类到预定义的类别中,例如人物、组织、地点、时间等。图中高灰色记的文字就是命名实体,在一般情况下,命名实体识别是知识抽取其他任务的基础。
2.关系抽取 :从文本中识别抽取实体及实体之间的关系。例如,从句子“[王思聪] 是万达集团董事长[王健林]的独子”中识别出实体“[王健林]”和“[王思 聪]”之间具有“父子”关系。
3.事件抽取:识别文本中关于事件的信息,并以结构化的形式呈现。例如,从恐怖袭击事件的新闻报道中识别袭击发生的地点、时间、袭击目标和受害人等信息。

参考

https://zhuanlan.zhihu.com/p/183966841

https://zhuanlan.zhihu.com/p/376898772

https://zhuanlan.zhihu.com/p/352513650

NER

Named Entity Recognition,命名实体识别

旨在从文本中抽取出命名实体,比如人名、地名、机构名等

分类

文本数据标注

为什么标注?说白了就是标签

https://blog.csdn.net/scgaliguodong123_/article/details/121303421

举个例子:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
BIO-三位序列标注法(B-begin,I-inside,O-outside)
B-X代表实体X的开头 x:PER(person) , ORG(orgnization),LOC(location)
I-X代表实体X的中间或结尾
O代表不属于任何类型的
样例:

我 O
是 O
李 B-PER
果 I-PER
冻 I-PER
, O
我 O
爱 O
中 B-ORG
国 I-ORG
, O
我 O
来 O
自 O
四 B-LOC
川 I-LOC
。 O

参考

https://www.cnblogs.com/huangyc/p/10064853.html

https://www.cnblogs.com/YoungF/p/13488220.htmlhttps://www.cnblogs.com/YoungF/p/13488220.html

https://tech.meituan.com/2020/07/23/ner-in-meituan-nlp.html

https://zhuanlan.zhihu.com/p/156914795

https://blog.csdn.net/scgaliguodong123_/article/details/121303421


:D 一言句子获取中...