sphinx配置,中文分词,PHP调用sphinx.ppt

sphinx配置,中文分词,PHP调用sphinx.ppt

ID:48200801

大小:370.50 KB

页数:41页

时间:2020-01-15

sphinx配置,中文分词,PHP调用sphinx.ppt_第1页
sphinx配置,中文分词,PHP调用sphinx.ppt_第2页
sphinx配置,中文分词,PHP调用sphinx.ppt_第3页
sphinx配置,中文分词,PHP调用sphinx.ppt_第4页
sphinx配置,中文分词,PHP调用sphinx.ppt_第5页
资源描述:

《sphinx配置,中文分词,PHP调用sphinx.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大纲1.sphinx概述;2.sphinx的优缺点;3.sphinx分布图;4.Sphinx以及coreseek中文分词安装和配置;5.使用PHP使用sphinx;1.sphinx概述Sphinx是SQLPhraseIndex(查询词组索引)的缩写,Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL,XML等做全文搜索,它提供的API接口包括:PHP,Python,Perl,Ruby,java等,同时为MySQL也设计了一个存储引擎插件(SphinxSE)。它是一个分布式的全文检索系统。2.sphinx的优缺点优点:高速的建立索引(在当代CPU上

2、,可达到10MB/秒);高性能的搜索(在2–4GB的文本数据上,平均每次检索响应时间小于0.1秒);可处理海量数据(目前已知可以处理超过100GB的文本数据,在单一CPU的系统上可处理100M文档);提供了优秀的相关度算法,基于短语相似度和统计BM2的复合Ranking方法;支持分布式搜索;提供文档片段(摘要以及高亮)生成功能;可作为MySQL的存储引擎提供搜索服务;支持布尔、短语、词语相似度等多种检索模式;文档支持多个全文检索字段(最大不超过32个);缺点:必须要有主键主键必须为整型不负责数据存储(计算)配置不灵活3.sphinx分布图相当于数据库的中间层,缓解数据库的压力4.

3、sphinx的安装和配置Sphinx安装1.上传软件包sphinx-0.9.9.tar.gz;2.解压:tar-zxvfsphinx-0.9.9.tar.gz3.编译安装:进入到sphinx的源码文件夹里,运行下列命令就可以安装sphinx了:cd/lamp/sphinx-0.9.9./configure --prefix=/usr/local/sphinx --with-mysql=/usr/local/mysql make && make install4.安装完成之后,导入一些数据;我们用安装mysql自带的test库进行测试;运行/usr/local/sphinx/etc

4、/目录下的example.sql脚本,把数据导到数据库中:/usr/local/mysql/bin/mysql-uroot-p***usetest;//进入test库mysql>showtables;//查看表Test库中documents表是自动导进来的;我们插入几条中文进去;mysql>insertintodocumentsvalues(null,1,

5、10,now(),'方研矩形','方研矩行科技有限公司');6.配置sphinx.conf配置文件;进入到sphinx的etc目录找到配置文件cd /usr/local/sphinx/etc我们需要备份一下配置文件,防止改错不好处理。cp sphinx.conf.dist sphinx.conf进入配置文件。vim sphinx.confSphinx基本配置数据源src是名字可以自己指定(意思就是说数据从哪里来得)sourcesrc113行{type=mysql#数据库类型sql_host=localhost#MySQL主机IPsql_user=sphinxuser#MySQL用

6、户名sql_pass=sphinxpass#MySQL密码sql_db=sphinx#MySQL数据库sql_port=3306#MySQL端口sql_sock=/tmp/mysql.sock#如果是linux下需要开启,指定sock文件。35行sql_query_pre=SETNAMESUTF8#MySQL检索编码73行sql_query_pre=SETSESSIONquery_cache_type=OFF#关闭缓存74行sql_query=#获取数据的SQL语句79行(默认就可以)SELECTid,group_id,UNIX_TIMESTAMP(date_added)ASd

7、ate_added,title,contentFROMdocumentssql_attr_uint=group_id#无符号整型107行根据79行指定的字段填写sql_attr_timestamp=date_added#时间类型131行根据79行指定的字段填写#用于命令界面端(CLI)调用的测试(一般来说不需要)187行sql_query_info=SELECT*FROMdocumentsWHEREid=$id}主索引indextext1271行{source=src1#索引源声

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。