基于文本的web图片搜索引擎的研究

基于文本的web图片搜索引擎的研究

ID:14384185

大小:126.50 KB

页数:11页

时间:2018-07-28

基于文本的web图片搜索引擎的研究_第1页
基于文本的web图片搜索引擎的研究_第2页
基于文本的web图片搜索引擎的研究_第3页
基于文本的web图片搜索引擎的研究_第4页
基于文本的web图片搜索引擎的研究_第5页
资源描述:

《基于文本的web图片搜索引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于文本的Web图片搜索引擎的研究摘要如需全文或定做各专业论文,可联系QQ2537024709本文研究工作是针对Web图片搜索引擎的应用背景,以构建大型Web图片搜索引擎为目标,提出基于文本检索方式的Web图片搜索引擎设计方案。文中介绍和研究了一系列与Web图片搜索引擎相关的技术,包括网页抓取、相关性排序(VSM和LSI)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。本文重点地研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索。在对真实数据进行实验和分析的基础上,提出了若干关键技术,用于系统的设计,现归纳如下:1)本文提出的方法通过细致地分析HTM

2、L文件的标记、标记、网页标题、网页的超链接文本、图片URL、标记、关联的结构、

结构、图片周围文本等部分的结构特点,并利用真实数据进行实验验证,总结了9条提取模式,用于从这些结构中提取与图片相关的信息,以保证提取到的信息相关性程度较高。研究了三种具体的提取方法:基于DOM的方法、基于字符串的方法和基于Wrapper的方法。2)提出了过滤无用图片的方法,提高了系统中图片的可用度。该方法将图片文件大小小于某一阈值,图片的长或宽小于某一阈值,图片的长宽比例超过某一阈值以及同一网页内通过引用次数超过某一阈值的图片作为无用图片剔除。

3、3)通过统计分析总结出HTML文件中表现出的一些潜在规律,比如JPG和GIF的区别、标记的不同意义以及图片引用次数的不同意义。得到如下结论:JPG重要性大于GIF;标记来源图片的重要性大于标记的图片;引用次数越高的图片重要性越高,而引用次数高的图片需要经过过滤才能保证重要性较高。4)粗略地探讨了将LSI算法应用于图片搜索引擎来整合文字和内容信息的方法,并通过简单实验进行了效果验证。5)设计并实现了一个基于文本的Web图片搜索引擎-11-,给出了系统的总体结构图,并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个

4、工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。关键词:Web图片搜索引擎图像检索基于文本基于内容信息提取-11-AbstractInthethesis,weformaschemetodesignalarge-scaleWebimagesearchenginesystemusingmainlytext-basedtechnology.WeintroduceandresearchaseriesoftechniquesrelatedtoWebimagesearchengine,suchascrawling,relevanceranking(VSMandLSI),inform

5、ationextractionandindexing.Thosetechniqueswillbeusedinoursystemdesign.WeconcentrateonhowtoextractinformationrelevanttoimagesfromHTMLdocumentsmoreeffectivelyandprecisely.Accordingtoexperimentsandanalysisonrealdata,weproposeseveralkeytechniquesasbelowfordesigningthesystem:1)Weanalyzecarefullythestru

6、ctureofHTMLcomponentsincludingtag,tag,titleofwebpage,anchortextofwebpage,URLofimage,tag,

tag,surroundingtextoftagetc.Andsumupnineextractionpatternstofetchinformationrelevanttoimages.Wealsoresearchthreeextractingmethods:DOMbasedmethod,StringbasedmethodandWrapperbasedmethod.

7、2)Weproposesomemethodstofilteruselessimagesaccordingtofilesize,widthandheightofimagesandreferredcountofimagesbytags.3)ThroughstatisticsofmassofHTMLdocuments,Weconcludesomelatentrules,suchasthedifferencebetwe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。