移动搜索引擎的设计与实现

移动搜索引擎的设计与实现

ID:19432766

大小:17.53 KB

页数:7页

时间:2018-10-02

移动搜索引擎的设计与实现_第1页
移动搜索引擎的设计与实现_第2页
移动搜索引擎的设计与实现_第3页
移动搜索引擎的设计与实现_第4页
移动搜索引擎的设计与实现_第5页
资源描述:

《移动搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、移动搜索引擎的设计与实现  1、引言  因特网的出现,彻底地改变了我们生活,使我们地球真正成为一个地球村,人和人之间的交流也从来没有如此的简单直接,手机开始走入我们的千家万户,成为了我们的生活必须品,渐渐的尤其是在在中国,手机用户的数量已经远远超过因特网的数量,而且这个数目正在快速增加,还有就是人们更换手机的周期要比更新电脑的周期短得多。所以未来无线互联网将会大大地改变我们的生活。但现有的移动搜索存在一些问题:  现有互联网的搜索模式到手机上来,没有为手机这样的终端的特点量身定做一个搜索引擎。  目前的移动搜索引擎都是基于GSM网络,也就是3G网络,这种网络上

2、的特点就是上网速度慢,服务不够为用户考虑。  移动搜索里用户搜索的内容将会有区别于互联网搜索,比如地图搜索、视频搜索、比价搜索等等。  移动搜索,由于手机终端的屏幕小等问题,所以要求返回结果的准确性和精确性,用户是无法忍受你返回给他一大堆垃圾的。  移动搜索要求个性化,因为可以根据手机号码等来作为区别每个个体,同时广告也需要个性化和针对性。  2、系统相关技术  爬虫模块的设计与实现  在Web上出现的第一个实用站点之一——搜索引擎中,爬虫程序表现出了强大的功能。搜索引擎的作用是检索Web的内容。当你把几个关键字键入搜索引擎时,它会提供符合搜索标准的Web链接

3、。搜索引擎通过构造一个包含Web内容索引的大数据库来实现这一功能。  如果人工地去检索和分类整个Web将是一项巨大的工作。因而扫描Web站点、检索其内容这一工作始终是留给爬虫程序来做的。当爬虫程序扫描Web站点时,它同时也查看当前站点所链接的其他网页。爬虫保留这些链接的列表,当它完成当前站点的扫描时,它将访问那些被链接的站点。由于在Web中广泛使用了超级链接,我们可以设想这种方式进行下去,一个爬虫程序最终可以访问整个Web的几乎所有可访问的网页。然而几乎每天都有新的站点接入,而一个爬虫程序也不可能访问因特网的每一个站点。  2.索引模块的设计与实现  在整个搜

4、索系统中,爬虫模块实现对网页的链接的分析和对页面信息的处理,并且把有用的信息保存为文件存入磁盘中。那么紧接着第二步就是索引模块对磁盘中的文件进行分析和建立索引文件。索引模块的好坏直接关系到整个搜索引擎的高效性和准确性。  Answer索引模块的运行机制,Answer索引模块从功能上可以分为三个部分。  从磁盘系统中读取AnswerSpider保存的有格式的文本文件。因为Lucene只能索引文本文件,所以如果要索引其他类型的文件时,必须对转换成文本。  分析正文数据使之更加适合被索引。分析数据时,先将文本数据切分成一些大块或者语汇单元,然后对它们执行一些可选的操

5、作。在Answer索引中是使用CJKAnalyzer分析器对文本文件进行分析。  将分析过后的数据写入索引。对输入数据分析处理完之后,就可以将结果写如到索引文件中。Lucene将输入数据以一种称为倒排索引的数据结构进行存储。在进行关键字快速查找时,这种数据结构能够有效地利用磁盘空间。另外在这一部分中Answer还对没个网页进行了一次类似Google的PageRank的打分,使索引评分更公平公正。  3、系统的设计与实现  搜索模块功能  搜索模块包括接受用户输入查询短语、检索、获得相应的匹配结果并显示给用户。此时我们已经有了索引网页库和倒排文件,需要做的就是通

6、过搜索模块实现索引数据与用户查询的互通。  在搜索模块中,Answer在调用Lucene类的基础上又增加了两个类ParseHits类和ReadHits类。  ReadHits类:ReadHits是一个读取由Hits类返回的结果的类,在该类中会调用ParseHit类用于对结果集进行解析。ReadHits类是直接和用户界面打交道的类。  ParseHit类:ParseHit类是一个再一次把和用户输入短语与返回结果集合进行比较解析的类,是为了使搜索结果更加准确而设置的一个类。例如会把查询短语和返回的结果中的网页的标题进行匹配,如果和标题的相似度很接近则会把该结果的顺

7、序提前。  3.搜索模块运行机制  Answer搜索模块的运行机制主要包含四个部分,各个部分的任务分别如下:  在用户界面上提供给用户输入框,用来接收用户输入的查询项。  调用QueryParser类对用户输入的查询项进行解析,例如解析“A+B”短语等。  创建多个项对象,使之能够在多个关键域中查询。在索引模块中,我们对网页的URL,Tille等关键词使用方法分别创建了索引,这些结果将会搜索模块中被使用。例如:  Termt=newTerm;  Queryquery=newTermQuery;  Hitshits=searcher..search;  利用Re

8、adHits类和ParseHit类对结

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。