欢迎来到天天文库
浏览记录
ID:5238664
大小:959.00 KB
页数:32页
时间:2017-11-30
《面向丝绸领域的垂直搜索关键算法研究毕业答辩》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、面向丝绸领域的垂直搜索关键算法研究答辩人:导师:内容概要一、研究意义二、研究现状三、研究内容四、总结展望10/11/20212面向丝绸领域的垂直搜索引擎关键算法研究内容概要一、研究意义二、研究现状三、研究内容四、总结展望10/11/20213面向丝绸领域的垂直搜索引擎关键算法研究一、研究意义互联网的信息量呈爆炸趋势增长,数量的增加带来的是搜索服务品质的下降,并且查询的结果里存在大量的重复信息和垃圾信息,用户的查询效率非常低。网络的发展客观上就需要一批能够满足某一特定领域、特定人群或者说是某一特定需求的网站。……几十万几百万几千万几十亿网页信息量10/11/20214面向丝绸
2、领域的垂直搜索引擎关键算法研究一、研究意义(续)丝绸作为面料行业的一个种类,随着面料行业的科技含量逐步提高,企业的发展与网络的联系也越来越紧密。企业可以通过网络获得本行业的原料、加工、产品的最新信息,产业链上各个环节动态信息,可以发布自身的信息以获得更多的商机,可以通过网络平台进行交易。如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。10/11/20215面向丝绸领域的垂直搜索引擎关键算法研究内容概要一、研究意义二、研究现状三、研究内容四、总结展望10/11/20216面向丝绸领域的垂直搜索引擎关键算法研究二、研究现状国外现状
3、:国外垂直搜索获得了1400万美元的融资,强力刺激了广告主对垂直搜索广告的认可和期待。垂直搜索引擎广告将会在未来几年借助垂直搜索引擎的发展迎来更大的发展空间和机遇。美国垂直搜索引擎的发展已经充分说明了这种经营模式的正确。Mediconsult.com公司通过发布有关疾病和治疗的详细内容,每月赢得高达2500万次的点击,有260万患者和100万医生浏览。由此可见,专业化,垂直化已成为未来搜索引擎发展的一个潮流和方向。国内现状与美国方兴未艾的垂直搜索引擎发展相比,国内明显还处于落后状态,国内众多网站虽然在自己的发展过程中做了许多有益的探索,但在内容垂直化、服务集中化、访问经常化
4、方面还有很长的路要走。10/11/20217面向丝绸领域的垂直搜索引擎关键算法研究内容概要一、研究意义二、研究现状三、研究内容四、特色创新五、总结展望10/11/20218面向丝绸领域的垂直搜索引擎关键算法研究3.1面向丝绸领域垂直搜索引擎的总体设计—功能需求分析页面权值计算功能网页信息的自动采集信息的自动提取存储爬行的网页URL列表存储各个网页的结构信息存储不同URL的权值存储产品相关信息提供信息检索功能以页面的形式返回给用户信息的自动采集信息数据库的管理信息的检索与显示10/11/20219面向丝绸领域的垂直搜索引擎关键算法研究3.1面向丝绸领域垂直搜索引擎的总体设计—
5、系统的总体框架图Web服务器丝绸产品信息查询ADO组件丝绸产品信息查询界面Internet页面Spider服务器网页分析网页信息结构化抽取URL信息库丝绸产品信息库表示层逻辑层数据存储层10/11/202110面向丝绸领域的垂直搜索引擎关键算法研究3.1面向丝绸领域垂直搜索引擎的总体设计—系统的关键技术分析系统的效率蜘蛛的抓取速度网页的权值计算查询器的分页机制系统之间的自动协调由于垂直搜索引擎是一个复杂的综合系统,各个子系统之间是相互协调,紧密相关。所以在设计时需要全面考虑,任何一个环节的效率都会影响到整个系统的效率。10/11/202111面向丝绸领域的垂直搜索引擎关键算
6、法研究3.2面向丝绸领域的垂直搜索引擎的具体实现—自动搜索算法的具体实现WEB用户指定词表?元搜索Y种子网址NSpider搜索网页去重页面存储器丝绸产品信息数据库页面索引库用户首先指定与丝绸产品信息相关的词表,利用元搜索引擎来查询与这些词相关的种子网址,用户也可以直接指定种子网址列表,得到需要搜索的URL列表后,利用spider去采集相关网页,经过去重后存入页面存储器,再经过网页分析和结构化信息的抽取后,把丝绸信息相关的内容存入数据库,供用户查询。10/11/202112面向丝绸领域的垂直搜索引擎关键算法研究3.2面向丝绸领域的垂直搜索引擎的具体实现—自动搜索算法的具体实现
7、(续)利用元搜索引擎来限定搜索范围的流程搜索函数部分相关代码:String[]Search(Stringstr,StringURL)//返回一个保存url地址字符串的字符串数组{URLaddress=newURL(url);//建立http连接Stringhost=url.getHost();//获取主机号Intport=url.getport();//获取端口号Socketsocket=newSocket(host,port);//实例化socketInputStreamin=socket.getInputstr
此文档下载收益归作者所有