在使用xunsearch过程中发现的一些问题及其解决方法,记录如下。
目前主要遇到的问题就是搜索结果不完整,应该是分词的问题。
1. 人名的搜索
比如,搜索大牛“戴永久”的数据,发现出来的结果不完整。
最终通过修改$prefix/etc/rules.utf8.ini文件解决此问题,此文件中的姓里没有戴姓,导致搜索不完整,将戴姓加入后解决此问题。
2. “塔里木”的搜索
数据中有一些是和塔里木河有关系的数据,但用户搜索的时候很可能只搜索“塔里木”,但搜索塔里木的时候,结果也不完整。
本来我以为这个可以通过修改自定义词典解决的,即$prefix/etc/dict_user.txt,但修改完成后,即使重建索引、重启服务,搜索结果仍然如此。
未解。
测试代码:
<?php require_once '/home/wlx/xunsearch/sdk/php/lib/XS.php'; $xs=new XS('westdc'); $tokenizer = new XSTokenizerScws; $text = '塔里木河下游浅层地下水变化的生态效应及生态系统健康评价研究项目的汇交数据'; $words = $tokenizer->getResult($text); //$tops = $tokenizer->getTops($text, 100, 'ns'); print_r($words); ?>
发表回复