文本改写和term分析

1.文本改写

改写主要步骤query纠错、query对齐、query扩展

1.1query纠错

在搜索过程中由于对先验知识的掌握不足或者在使用输入法的时候误输入导致的,本质为去噪过程。

常用的query纠错方法有数字、拼音、漏字、重复字、谐音/形近字等方式。

1.2query对齐

对于输入query并无错误,但表达上与搜索引擎索引内容不相符而作的一种改写操作。例如“星爷是哪一年生的”,通过实体对齐,可改写为“周星驰的出生时间”。

方法:1.对齐规则 2.文本改写模型

1.3 query扩展

是将与用户输入的query的相似扩展query进行展示,使得用户可以选择更多的搜索内容,帮助用户挖掘潜在需求。

2.term分析

一段文本分词后,对于不同的词语,在相同文本中的重要性应该是不同的。

baseline的无监督方法可以是:tf-idf。

参考

https://zhuanlan.zhihu.com/p/344631739

意图识别

本质是分类任务,多用在搜索引擎和智能问答中。

解决方法

1、基于规则模板意图识别

https://blog.csdn.net/qq_16555103/article/details/100767984

2、基于深度学习模型来对用户的意图进行判别

比如fasttext,LSTM+attention,BERT

参考

https://blog.csdn.net/qq_37228811/article/details/104307144?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-0.no_search_link&spm=1001.2101.3001.4242

https://blog.csdn.net/qq_16555103/article/details/100767984


:D 一言句子获取中...