文本改写和term分析

1.文本改写

改写主要步骤query纠错、query对齐、query扩展

1.1query纠错

在搜索过程中由于对先验知识的掌握不足或者在使用输入法的时候误输入导致的,本质为去噪过程。

常用的query纠错方法有数字、拼音、漏字、重复字、谐音/形近字等方式。

1.2query对齐

对于输入query并无错误,但表达上与搜索引擎索引内容不相符而作的一种改写操作。例如“星爷是哪一年生的”,通过实体对齐,可改写为“周星驰的出生时间”。

方法:1.对齐规则 2.文本改写模型

1.3 query扩展

是将与用户输入的query的相似扩展query进行展示,使得用户可以选择更多的搜索内容,帮助用户挖掘潜在需求。

2.term分析

一段文本分词后,对于不同的词语,在相同文本中的重要性应该是不同的。

baseline的无监督方法可以是:tf-idf。

参考

https://zhuanlan.zhihu.com/p/344631739

Author

Lavine Hu

Posted on

2021-10-12

Updated on

2021-11-26

Licensed under

# Related Post
  1.意图识别
  2.query理解
Comments

:D 一言句子获取中...