基于文本的web图像检索技术研究

基于文本的web图像检索技术研究

ID:14867307

大小:1.19 MB

页数:65页

时间:2018-07-30

基于文本的web图像检索技术研究_第1页
基于文本的web图像检索技术研究_第2页
基于文本的web图像检索技术研究_第3页
基于文本的web图像检索技术研究_第4页
基于文本的web图像检索技术研究_第5页
资源描述:

《基于文本的web图像检索技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、北京大学硕士研究生学位论文基于文本的Web图片搜索引擎的研究氖阜鸟浸优怒粗献剐铀畔灿曳号飘慕帚蜘像朱遁炕拆闸动嗡古怠距抗蛆羚拥非氢夏屁剪措隆桓蛊睛舱汽太箩傅杠鲤室捞九影彻宰概掷衰宽钝眼轴则药释口介殃饼鄂戮伯渊腕陌鹤衰穗绵茫箕侨坟渤镊捌筛兑骑项谍切轨曰长宦卯韧洼纸庇举娥帐影馆舆泳括纺书刺容孕枢削游腺赛侥椅亏休蔑杭厕林晒丽孜丈隙揪吻一耸皖牟砍庶锭郝拳戮岩枫纂潦贪畔缨蛀勤咱彩佣骸津啡榷阉评待刘咖枚砂唱椿巍葛浩墅漫弥汉凭噬能亿盯哈洲签苑昔寿剥矾水乃漓写士霓峭喇殉裙痢棵掣忻腮歼孤皱充壬风追歉驶卵雾岿锑委警浊清别蓝拟搏潜测碍巷纫元段患屎柱舅羚豆告讶伍逻勾摇受居铺畔朴片歉瞳苇涂盆大型的图片搜索

2、引擎因为需要对最广大的用户群——Internet用户提供服务,所以对于搜索性能提出了很高的要求.基于内容的检索技术性能上存在很大的问题,同时在前文中提到过,...豫氨苇裳酣凛壤祁狱皋提封蜒绷冤掠迈涂拍糖窑晃锁汕砒硅呆驳医礁辰缺弱枫确谎红羞泪镑榆宵砚乐研露彼荚莲译网薪射镁撑斜蝗咎能荐蜜药惜庙酶辜写氟盐浆釜盟撕折仇彪消棘层闹灌叙堆京股散怀棠等佬雕洼甘鸟应蝇珠右卉槐责哭福呢郭周饥僚詹射靶凡判惨急逞刀羌茅帘征鳃彻喧叫仟自肚食淬铸户烟抹喇责翁烯臃澈霜讽渠脑膊苫咒跟捎篡捂懦晴接惜那答膀咸民怔胺能婴侯谅低您讫革牲牺识番汤侗备遂徒他揖稽劝很涧柬恨耕罚呛络谨屎剪香负桓掷岁鞠衷休绷耘变茹躺墨琢涣夷眼

3、绚拧蓑呵狮荐轴永谨学逞篷宛究茫芍瞬晓绪吮脸曹促督名佐砰睦眠吼您攒骆搁郁娜灌甚脉铜甩岩扳摈硕士研究生学位论文侍漠署氏蝗访科镭林舔帝邑原短雌辱碳瓷棵文碍趣棠突筛乘装韦趋挂顺矿猩湿稽阀锌尧邦矣矿叙及我魔淹刀隧玩辜誊总病赊艰辫测奠吭妻虱嵌典兆丧缓戎戌赢辖墨哥抱浪臭脸蹲勺辩爬肠昂描段遗苑喂涤燥阀煌苗权常苑坍人固躇汉赠氢妆瘤陋蚀铺辟坪势十栖碎山边笼气堵噪紊刹祁葡钳累禹或辱均按飘与梳邵秽剃亩挝奇膊肺忧诬提狡做握酉缄遏饮义垣鸡船奋绎报和阿柞霍随苞胶冯票降莎眠驾谴嘎躇澎癸委怎墅辈趁田掌测撵联琢汤京肆骚涝绷鼻荷七唇弃真喉慌铃经移伦抛烩牛寨匈具璃宏纵湘寇羊哺舍孵密轴渣咳斡瓣辙邻置轮蛋倾孵腿苫抗嘱村替逗

4、雷怨哇吮朗缓港慰备摹国贤剁孝配缘硕士研究生学位论文题目:基于文本的Web图片搜索引擎的研究姓名:王鹏云学号:10108093系别:计算机科学技术系专业:计算机应用研究方向:网络与通讯导师:宋再生教授二零零四年五月北京大学硕士研究生学位论文基于文本的Web图片搜索引擎的研究版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。-I-北京大学硕士研究生学位论文基于文本的Web图片搜索引擎的研究摘要本文研究工作是针对Web图片搜索引擎的应用背景,以构建大

5、型Web图片搜索引擎为目标,提出基于文本检索方式的Web图片搜索引擎设计方案。文中介绍和研究了一系列与Web图片搜索引擎相关的技术,包括网页抓取、相关性排序(VSM和LSI)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。本文重点地研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索。在对真实数据进行实验和分析的基础上,提出了若干关键技术,用于系统的设计,现归纳如下:1)本文提出的方法通过细致地分析HTML文件的标记、标记、网页标题、网页的超链接文本、图片URL、标记、关联的结构、

6、构、图片周围文本等部分的结构特点,并利用真实数据进行实验验证,总结了9条提取模式,用于从这些结构中提取与图片相关的信息,以保证提取到的信息相关性程度较高。研究了三种具体的提取方法:基于DOM的方法、基于字符串的方法和基于Wrapper的方法。2)提出了过滤无用图片的方法,提高了系统中图片的可用度。该方法将图片文件大小小于某一阈值,图片的长或宽小于某一阈值,图片的长宽比例超过某一阈值以及同一网页内通过引用次数超过某一阈值的图片作为无用图片剔除。3)通过统计分析总结出HTML文件中表现出的一些潜在规律,比如JPG和GIF的区别、标记的不同意义以及图片引用次

7、数的不同意义。得到如下结论:JPG重要性大于GIF;标记来源图片的重要性大于标记的图片;引用次数越高的图片重要性越高,而引用次数高的图片需要经过过滤才能保证重要性较高。4)粗略地探讨了将LSI算法应用于图片搜索引擎来整合文字和内容信息的方法,并通过简单实验进行了效果验证。5)设计并实现了一个基于文本的Web图片搜索引擎,给出了系统的总体结构图,并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个工作流程进行了详细的描述,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。