sphinx全文检索之PHP使用教程解析.doc
文本预览下载声明
sphinx全文检索之PHP使用教程
这是半年前没有对外写的文章,现在拿出来分享下。可能会有一些不正确或不严谨的地方,某些语言可能比较轻浮,请见谅。以上一篇的email数据表为例:数据结构:
CREATE TABLE email (
emailid mediumint(8) unsigned NOT NULL auto_increment COMMENT 邮件id,
fromid int(10) unsigned NOT NULL default 0 COMMENT 发送人ID,
toid int(10) unsigned NOT NULL default 0 COMMENT 收件人ID,
content text unsigned NOT NULL COMMENT 邮件内容,
subject varchar(100) unsigned NOT NULL COMMENT 邮件标题,
sendtime int(10) NOT NULL COMMENT 发送时间,
attachment varchar(100) NOT NULL COMMENT 附件ID,以逗号分割, PRIMARY KEY (emailid),
) ENGINE=MyISAM;
使用打开控制台,必需打开控制台PHP才能连接到sphinx(确保你已经建立好索引源):d:\coreseek\bin\searchd -c d:\coreseek\bin\sphinx.confcoreseek/api目录下提供了PHP的接口文件 sphinxapi.php,这个文件包含一个SphinxClient的类在PHP引入这个文件,new一下
$sphinx = new SphinxClient();
//sphinx的主机名和端口
$sphinx-SetServer ( loclahost, 9312 );
//设置返回结果集为php数组格式
$sphinx-SetArrayResult ( true );
//匹配结果的偏移量,参数的意义依次为:起始位置,返回结果条数,最大匹配条数
$sphinx-SetLimits(0, 20, 1000);
//最大搜索时间
$sphinx-SetMaxQueryTime(10);
//执行简单的搜索,这个搜索将会查询所有字段的信息,要查询指定的字段请继续看下文
$index = email //索引源是配置文件中的 index 类,如果有多个索引源可使用,号隔开:email,diary 或者使用*号代表全部索引源
$result = $sphinx-query (搜索关键字, $index);
echo
;
print_r($result);
echo
;$result是一个数组,其中total是匹配到的数据总数量matches是匹配的数据,包含id,attrs这些信息words是搜索关键字的分词你可能奇怪为什么没有邮件的内容这些信息,其实sphinx并不会返回像mysql那样的数据数组,因为sphinx本来就没有记录完整的数据,只记录被分词后的数据。具体还要看matches数组,matches中的ID就是指配置文件中sql_query SELECT语句中的第一个字段,我们配置文件中是这样的sql_query = SELECT emailid,fromid,toid,subject,content,sendtime,attachement FROM email所以matches中的ID是指emailid至于weight是指匹配的权重,一般权重越高被返回的优先度也最高,匹配权重相关内容请参考官方文档attrs是配置文件中sql_attr_ 中的信息,稍后会提到这些属性的用法说了这么多,即使搜索到结果也不是我们想要的email数据,但事实sphinx是不记录真实数据的,所以要获取到真实email数据还要根据matches中的ID去搜索mysql的email表,但总体来说这样一来一回的速度还是远远比mysql的LIKE快得多,前提是几十万数据量以上,否则用sphinx只会更慢。接下来介绍sphinx一些类似mysql条件的用法
//emailid的范围
$sphinx-SetIdRange($min, $max);
//属性过滤,可过滤的属性必需在配置文件中设置sql_attr_ ,之前我们定义了这些
sql_attr_uint = fromid
sql_attr_uint
显示全部