《搜索引擎解密》PPT课件

《搜索引擎解密》PPT课件

ID:41200168

大小:649.01 KB

页数:44页

时间:2019-08-18

《搜索引擎解密》PPT课件_第1页
《搜索引擎解密》PPT课件_第2页
《搜索引擎解密》PPT课件_第3页
《搜索引擎解密》PPT课件_第4页
《搜索引擎解密》PPT课件_第5页
资源描述:

《《搜索引擎解密》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、搜索引擎解密猎兔搜索罗刚搜索引擎结构文档文本提取索引程序索引库(Lucene)搜索查询服务器(Solr)文件数据库爬虫NBA搜索Lucene是什么包括全文索引库简单的语言解析功能不包括爬虫文档格式解析“PageRank”等排序算法Lucene来源与发展1999Cutting开发的第一个Java程序2001捐赠给Apache2004年11月1.4.3版本2008年10月2.4.0版本2009年11月3.0.0版本Lucene的用户国际TwitterIBMLinkedIn捐出分类统计的子项目bobo-browse和实时搜索的项目Zoie国内凤凰网敦煌网豆丁

2、人工编的名词索引-方便查找全文索引结构12435词:文档:北京武汉天津上海大连Lucene中的倒排索引索引相关类DocumentAnalyzerIndexWriterField(Title)通过IndexWriter来写索引,通过IndexReader读索引。一段有意义的文字需要通过Analyzer分割成一个个词语后才能按关键词搜索。Analyzer就是分析器,StandardAnalyzer是Lucene中最常用的分析器。TokenStream实例保存着当前的Attribute状态。Attribute是一个接口,实现中包含一个代表词本身含义的字符串

3、和该词在文章中相应的起止偏移位置,Attribute还可以用来存储词类型或语义信息。一个Document代表索引库中的一条记录。要搜索的信息封装成Document后通过IndexWriter写入索引库。调用Searcher接口按关键词搜索后,返回的也是一个封装后的Document的列表。一个Document可以包含多个列,叫做field。例如一篇文章可以包含“标题”、“正文”、“修改时间”等field,创建这些列对象以后,可以通过Document的add方法增加这些列。Field(Body)Field(URL)AnalyzerAnalyzerana

4、lyzer=newStandardAnalyzer();//oranyotheranalyzerTokenStreamts=analyzer.tokenStream("myfield",newStringReader("sometextgoeshere"));while(ts.incrementToken()){System.out.println("token:"+ts));}创建索引//创建新的索引或者对已有的索引增加文档index=newIndexWriter(indexDirectory,newStandardAnalyzer(Version.

5、LUCENE_CURRENT),!incremental,IndexWriter.MaxFieldLength.UNLIMITED);Filedir=newFile(sSourceDir);indexDir(dir);//索引路径index.optimize();//索引优化index.close();//关闭索引库向索引增加文档Documentdoc=newDocument();//创建网址列Fieldf=newField("url",news.URL,Field.Store.YES,Field.Index.NOT_ANALYZED,//不分词Fie

6、ld.TermVector.NO);doc.add(f);//创建标题列f=newField("title",news.title,Field.Store.YES,Field.Index.ANALYZED,//分词Field.TermVector.WITH_POSITIONS_OFFSETS);//存Token位置信息doc.add(f);//创建内容列f=newField("body",news.body,Field.Store.YES,Field.Index.ANALYZED,//分词Field.TermVector.WITH_POSITIONS_

7、OFFSETS);//存Token位置信息doc.add(f);index.addDocument(doc);搜索//read-only=trueIndexSearcherisearcher=newIndexSearcher(directory,true);//Parseasimplequerythatsearchesfor"text":QueryParserparser=newQueryParser(Version.LUCENE_CURRENT,"fieldname",analyzer);Queryquery=parser.parse("text")

8、;//返回前1000条搜索结果ScoreDoc[]hits=isearcher.search(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。