2022-06-07 915ab6250af08953f33739bd66371d03 99+ fast 0.0 k

oov怎么解决

oov：Out-Of-Vocabulary

中文：采用字粒度

英文：subword

oov怎么解决

2022-05-31 33a7636093b40a75f321dd9a2f266054 99+ fast 0.1 k

超长文本处理

bert最大长度固定，默认为512

数据层面：

1 直接截断：太粗暴，可能把重要的丢了

2 抽取重要部分

3 分段+拼接

问题很多，怎么训练？？怎么预测？？？

模型层面：

transformer-xl based的ptm，比如xlnet

传统rnn based的seq2seq

参考

https://www.zhihu.com/question/395903256

超长文本处理

2022-05-31 3460727c6543e52f76de076a92330880 99+ fast 0.1 k

词表特殊词的含义

[PAD]：要将句子处理为特定的长度，就要在句子前或后补[PAD]

[CLS]：句子的开始

[SEP]：分开两个输入句子

[mask] ：遮盖句子中的一些单词

[UNK]：标记词典内没有的词

词表特殊词的含义

2022-05-29 caa4d2c00fbf24ca0cc72ecc916f97fe 99+ fast 0.0 k

预训练任务

分类

TLM : Translation Language Modeling

DAE: Denoising Autoencoder

CTL: Contrastive Learning

RTD： Replaced Token Detection

SOP：Sentence Order Prediction

DIM：Deep InfoMAx

参考

https://arxiv.org/pdf/2003.08271v4.pdf

https://zhuanlan.zhihu.com/p/360892229

预训练任务

2022-05-18 736eb7ea22865f52388af03b22686de5 99+ fast 0.1 k

Evaluation of Text Generation A Survey

从3个维度将评价指标分类

1 Human-Centric Evaluation Methods

gold standard expensive to execute

2 Untrained Automatic Evaluation Metrics

widely used

汇总

property：应该是说这个方法的关注点

3 Untrained Automatic Evaluation Metrics

overfitting and `gaming of the metric.’

参考

https://arxiv.org/abs/2006.14799

NLP 文本生成

Evaluation of Text Generation A Survey

2022-04-07 83c88498ec56138e051003cb9d162918 99+ 4 m 0.6 k

信息抽取 Information Extraction

简介

信息抽取是基于已有信息筛选出目标信息，不是无中生有，生成是有无中生有的能力

信息抽取主要包括三个子任务：命名实体识别、关系抽取、事件抽取。

实体抽取又称命名实体识别，其目的是从文本中抽取实体信息元素。想要从文本中进行实体抽取，首先需要从文本中识别和定位实体，然后再将识别的实体分类到预定义的类别中去。

关系抽取是知识抽取的重要子任务之一，面向非结构化文本数据，关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。关系抽取与实体抽取密切相关，一般在识别出文本中的实体后，再抽取实体之间可能存在的关系，也有很多联合模型同时将这两个任务一起做了的；

事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息，并以结构化的形式呈现出来，例如事件发生的时间、地点、发生原因、参与者等。跟关系抽取有重叠的地方，同样也可以分为流水线方法和联合抽取方法。

例子：

1.NER命名实体识别（实体抽取）：从文本中检测出命名实体，并将其分类到预定义的类别中，例如人物、组织、地点、时间等。图中高灰色记的文字就是命名实体，在一般情况下，命名实体识别是知识抽取其他任务的基础。
2.关系抽取：从文本中识别抽取实体及实体之间的关系。例如，从句子“[王思聪] 是万达集团董事长[王健林]的独子”中识别出实体“[王健林]”和“[王思聪]”之间具有“父子”关系。
3.事件抽取：识别文本中关于事件的信息，并以结构化的形式呈现。例如，从恐怖袭击事件的新闻报道中识别袭击发生的地点、时间、袭击目标和受害人等信息。

参考

https://zhuanlan.zhihu.com/p/183966841

https://zhuanlan.zhihu.com/p/376898772

https://zhuanlan.zhihu.com/p/352513650

NLP 信息抽取

信息抽取 Information Extraction

2022-04-06 2b076f3e212f5e7c7526fe3e5e881eba 99+ fast 0.0 k

nlp教材

《embeddings in natural language processing》

http://josecamachocollados.com/book_embNLP_draft.pdf

《Speech and Language Processing》

https://web.stanford.edu/~jurafsky/slp3/

2022-03-28 81968be5cd4d92e9426b0d24ca360006 99+ fast 0.0 k

ptm之间的联系

ptm之间的联系

2022-01-24 f612a3cb8926d7a20f7a2570f145f1de 99+ fast 0.0 k

pretrain

https://huggingface.co/docs/transformers/task_summary Language Modeling

https://huggingface.co/blog/how-to-train

2022-01-19 dfd456161c6a73a2b627dc04717f15ad 99+ fast 0.1 k

TextGCN Graph Convolutional Networks for Text Classification

https://arxiv.org/abs/1809.05679

1.build a single text graph for a corpus based on word co-occurrence and document word relations,

2.then learn a Text Graph Convolutional Network (Text GCN) for the corpus. Our Text GCN is initialized with one-hot representation for word and document, it then jointly learns the embeddings for both words and documents, as supervised by the known class labels for documents.

GNN NLP GCN 文本分类