Tagged: stopwords

0

ElasticSearch进阶之停用词处理

我想停用词(Stop Words)这个概念对大家来说并不陌生,通常来说,停用词是在一个语言中出现的频率很高的词语(和文本或者语言相关,同样的词在不同的语言中出现的频率可能完全不同),比如我们常见的the, is, and等等,这些词很难进行精确的搜索,也很容易影响搜索的性能。所以在ElasticSearch中可以对他们进行特殊处理,当然ElasticSearch早期对他们进行处理的另外一个主要原因是为了节省磁盘和memory的空间,但是随着时间的推移,单纯从存储空间来看,其实是否要特殊处理可能已经不是很重要了(当然准确的说在位置和偏移信息的保存中,它还是会占用很多存储空间的)。 去除停用词...