欢迎来到天天文库
浏览记录
ID:33164886
大小:3.35 MB
页数:88页
时间:2019-02-21
《基于web图像搜索引擎的spider系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、(作者姓名)指导教师姓名昱医塾攮擅昱电子科技大学成都(职务、职称、学位、单位名称及地址)申请专业学位级别硕士专业名称计算机软件与理论论文提交日期2010.04论文答辩日期2010.05学位授予单位和日期电子科技大学答辩委员会主席评阅人年月日注l:注明《国际十进分类法UDC》的类号。t:独创性声明帅《I
2、lIIIlIIIⅢIllIIlIlll0IIlIlllIII㈣Y1802619本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的
3、学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:目刍t一日期:砷阳年f月巧日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:区进笪一一导师签名:日期:矽p年厂月巧日.r}一摘要随着Intemet、数码相机技术和扫描技术的迅速发展,网络上的图像信息以爆炸
4、性的速度不断丰富和扩展。然而由于w曲数据具有多样性、复杂性和无规则性,如何快速有效地从海量数据中获取所需的图像信息成为一项非常具有挑战性的工作。图像搜索引擎正是为解决这个问题而诞生的。现有的w曲图像搜索引擎包括基于内容的和基于文本的两类。基于内容的W曲图像搜索引擎主要根据图像内容(如颜色、纹理等)为图像建立索引,而基于文本的w曲图像搜索引擎则主要根据页面间的超链接等文本信息来标注图像。然而,目前这些方案的效果均不够理想,很难精准地检索图像信息。因此,我们项目组提出基于谱图理论的W曲图像搜索引擎技术,该技术结合了基于内容的图像搜索引擎和基于文本的图像搜索引擎的特点,是一种更有效的新型W
5、曲图像信息分析方法。在构建图像搜索引擎时,首先需要将图像数据采用爬虫收集起来。但是由于网络上的信息纷繁复杂,可能会下载大量无用的数据。这样会浪费网络带宽和影响信息提取。因此我们对h舐trix爬虫进行扩展和改进,针对不同网站的特点设计了普通爬虫和精确爬虫。对于普通的网站,优先考虑信息的全面性,采用了普通爬虫模块进行下载。对于图像网站,在牺牲一定全面性的情况下,采用了精确爬虫模块进行下载。这样就能在一定程度上保证图像数据的数量和质量。在数据下载之后,如何剔除噪声信息提取出对图像描述有用的文字信息成为一个需要解决的问题。在论文中对网页的H聊L标记进行分析,实现了有效的页面解析,提取出描述图
6、像的文本信息。这样就能提高整个系统检索的准确度和精确度。同时,为保证系统的更新度,拓展了h耐trix的更新方案,提出从网页结构、网页内容和网页图像三方面来检测分析网页是否需要更新。。本文首先介绍了图像搜索引擎系统的总体设计,分别介绍了数据下载模块、预处理模块、图像分类模块、图像检索模块。在分析Spider系统的总体架构、运行流程和重要组件的基础上,实现了普通爬虫和精确爬虫,分别针对不同的网页进行数据下载。为满足系统需要,在对数据处理中实现了页面解析功能、中文分词功能和图像的标准化。同时对爬虫的更新策略进行分析,提出了更有效的更新摘要策略,可以有效地提高系统的更新度。并对爬虫的队列进行
7、哈希运算排序,优化爬虫性能。最后对爬虫和整个系统的性能进行了测试和分析。关键词:图像检索,爬虫,页面解析,增量爬行II●ABSTRACTWimmerapiddeVelopmelltofthehltemet,di西talc锄eraandscanllingtecllllolo趵,,ⅡleimageiIlfomationonmehltemctisconst赳1tly训chaIldeXpaIldateXplosivespeed.HoweVer,向rt11ediVersity,Complexity锄dirregul撕tyofmewebda‰howt0gettllepictureinfonnat
8、ion自ommaSsiVedataquicHyhasbecomeaChallen西ngtask.hnagcse∞che11百neisbomtosolvemisproblem.TheWebimagesearcheng:iIleincludescontent-basedimagesearchengineandteXt-baSedilllagesearcheIl百ne.Content-basedimagesearchen百necreateindexf.orima
此文档下载收益归作者所有