欢迎来到天天文库
浏览记录
ID:14384185
大小:126.50 KB
页数:11页
时间:2018-07-28
《基于文本的web图片搜索引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于文本的Web图片搜索引擎的研究摘要如需全文或定做各专业论文,可联系QQ2537024709本文研究工作是针对Web图片搜索引擎的应用背景,以构建大型Web图片搜索引擎为目标,提出基于文本检索方式的Web图片搜索引擎设计方案。文中介绍和研究了一系列与Web图片搜索引擎相关的技术,包括网页抓取、相关性排序(VSM和LSI)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。本文重点地研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索。在对真实数据进行实验和分析的基础上,提出了若干关键技术,用于系统的设计,现归纳如下:1)本文提出的方法通过细致地分析HTM
2、L文件的标记、标记、网页标题、网页的超链接文本、图片URL、标记、关联的和结构、
3、3)通过统计分析总结出HTML文件中表现出的一些潜在规律,比如JPG和GIF的区别、和标记的不同意义以及图片引用次数的不同意义。得到如下结论:JPG重要性大于GIF;标记来源图片的重要性大于标记的图片;引用次数越高的图片重要性越高,而引用次数高的图片需要经过过滤才能保证重要性较高。4)粗略地探讨了将LSI算法应用于图片搜索引擎来整合文字和内容信息的方法,并通过简单实验进行了效果验证。5)设计并实现了一个基于文本的Web图片搜索引擎-11-,给出了系统的总体结构图,并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个
4、工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。关键词:Web图片搜索引擎图像检索基于文本基于内容信息提取-11-AbstractInthethesis,weformaschemetodesignalarge-scaleWebimagesearchenginesystemusingmainlytext-basedtechnology.WeintroduceandresearchaseriesoftechniquesrelatedtoWebimagesearchengine,suchascrawling,relevanceranking(VSMandLSI),inform
5、ationextractionandindexing.Thosetechniqueswillbeusedinoursystemdesign.WeconcentrateonhowtoextractinformationrelevanttoimagesfromHTMLdocumentsmoreeffectivelyandprecisely.Accordingtoexperimentsandanalysisonrealdata,weproposeseveralkeytechniquesasbelowfordesigningthesystem:1)Weanalyzecarefullythestru
6、ctureofHTMLcomponentsincludingtag,tag,titleofwebpage,anchortextofwebpage,URLofimage,tag,
7、2)Weproposesomemethodstofilteruselessimagesaccordingtofilesize,widthandheightofimagesandreferredcountofimagesbytags.3)ThroughstatisticsofmassofHTMLdocuments,Weconcludesomelatentrules,suchasthedifferencebetwe
此文档下载收益归作者所有