文本改写和term分析
1.文本改写
改写主要步骤query纠错、query对齐、query扩展
1.1query纠错
在搜索过程中由于对先验知识的掌握不足或者在使用输入法的时候误输入导致的,本质为去噪过程。
常用的query纠错方法有数字、拼音、漏字、重复字、谐音/形近字等方式。
1.2query对齐
对于输入query并无错误,但表达上与搜索引擎索引内容不相符而作的一种改写操作。例如“星爷是哪一年生的”,通过实体对齐,可改写为“周星驰的出生时间”。
方法:1.对齐规则 2.文本改写模型
1.3 query扩展
是将与用户输入的query的相似扩展query进行展示,使得用户可以选择更多的搜索内容,帮助用户挖掘潜在需求。
2.term分析
一段文本分词后,对于不同的词语,在相同文本中的重要性应该是不同的。
baseline的无监督方法可以是:tf-idf。
参考
文本改写和term分析