中文互联网视频搜索引擎系统策略研究

中文互联网视频搜索引擎系统策略研究

ID:33170290

大小:19.43 MB

页数:170页

时间:2019-02-21

中文互联网视频搜索引擎系统策略研究_第1页
中文互联网视频搜索引擎系统策略研究_第2页
中文互联网视频搜索引擎系统策略研究_第3页
中文互联网视频搜索引擎系统策略研究_第4页
中文互联网视频搜索引擎系统策略研究_第5页
资源描述:

《中文互联网视频搜索引擎系统策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、多拿夫窖博士学位论文中文互联网视频搜索引擎系统策略研究OntheResearchandDevelopmentofaVideoSearchEngineforChineseWeb作者:郭眈导师:陈常嘉北京交通大学∥田v、一l二火●、I学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借词。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本

2、授权说明)学位论文作者签名:御f陟已/签字日期:12年5’月j/日导师签名签字日期:,二年5月j/曰中图分类号:TP393学校代码10004自级:/a异北京交通大学北尿父嬗大罕博士学位论文中文互联网视频搜索引擎系统策略研究OntheResearchandDevelopmentofaVideoSearchEngineforChineseWeb作者姓名:郭眈导师姓名:陈常嘉学位类别:工学学号:博98071职称:教授学位级别:博士学科专业:通信与信息系统研究方向:信息检索北京交通大学2012年3月致谢本论文的工作是在我的导师陈常

3、嘉教授的悉一11'指导下完成的,陈常嘉教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。陈常嘉教授治学严谨,有着渊博的学识和敏锐的洞察力,对待学生严格要求,对待科研工作执着不懈。陈老师对我的工作给予了极大的信任和关际,在我工作取得进步时,给我提出更多问题,让我不断思索和改进,在我工作最困难的时候,不断给予我鼓励和帮助,使我坚持完成科研工作和博士论文。在此衷心感谢多年来陈常嘉老师对我的关心和指导,并且相信陈老师给我传授的知识、方法,和对待人生、面对挑战的生活态度,将使我受益终生。我的硕士导师汪齐贤教授.实验室的胡师舜

4、、郭宇春、赵永祥老师悉心指导我完成了实验室的科研工作,在学习上和生活上都给予了我很大的关心和帮助,在此向胡师舜、郭宇春、赵永祥老师表示衷心的谢意。在实验室工作及撰写论文期间,陈一帅、杨悦等同学对我论文中的性能评估研宄工作给予了热情帮助,在此向他们表达我的感激之情。感谢我的父母和妻子,他们对我无私的关怀、理解和支持,是我一生中最值得珍瞎的财富。中文摘要摘要:互联网是人类迄今为止发明的最大的信息知识宝库,特别是随着Web20时代的到来,互联网的信息贡献者普及到全体上网人群。搜索引擎的出现使得这些海量的信息的价值被真正发掘出来,

5、让所有信息都拥有平等的被发现、获取和应用的机会。互联网上的信息种类由最初的文字、图片越来越向以音频、视频为主的多媒体方向拓展,对视频信息的检索需求也应运而生。继传统搜索引擎技术之后,如何实现高效的、适应大规模且快速增长和更新的视频内容的搜索成为新的研究热点。本论文即是作者于攻读博士学位期间从事中文互联网视频搜索引擎的研究开技工作的总结,这是国内第一个正式公开发布的视频搜索引擎。本论文的研究工作自2006年开始。以国内最大搜索引擎的互联网数据库为基础,第一次对中文互联网的视频数据分布和用户搜索行为日志进行了大规模测量和研究,

6、对中文互联网用户的视频搜索需求进行了充分细致的分析,在对传统搜索引擎的工作原理进行了具体分析和对视频搜索引擎提出具体评估标准之后,得出了传统搜索引擎不能胜任视频搜索引擎工作目标、有必要构建专用的视频搜索引擎的结论。在此基础上,本文提出了视频搜索引擎的架构模型,并指出实现视频搜索引擎的主要核心技术问题,包括面向视频分享网站的定向抓取和信息抽取,面向网页视频的挖掘和信息抽取,以及面向视频搜索的检索排序,并针对这些核心技术问题提出相应的算法。进一步,基于这些核心算法构建了国内外第一个基于中文互联网的视频搜索引擎系统,面向公众提供

7、在线视频搜索服务,该引擎已成为国内影响力最大的互联网视频搜索引擎。论文主要工作和创新如下:11提出了面向视频分享网站的定向抓取的方法,主要解决视频分享网站的视频数据抓取和信息提取问题。在抓取的过程中.提出基于对视频分享网站的网站结构和网页结构进行分类的算法,对不同类型的网页可以采取不同的深度抓取策略,并针对包含视频内容的网页类型应用不同的信息抽取包装器,提取出识别规则,保证对视频分享网站的深度抓取和准确挖掘。21提出了基于传统搜索引擎的全网网页库中的网页视频进行挖掘和信息抽取的算法。对全网spider系统的URL抓取优先级

8、算法进行了详细分析,提出了用DOM树方法进行网页视频进行信息抽取的方法,保证视频数据抽取的准确性,提升全面性。定向抓取与全网挖掘相结合,为视频搜索提供基本的数据源和文本索引信息.并在覆盖率和准确性之司取得平衡。31基于对用户视频搜索需求的分析,提出了适台中文视频搜索的归并排序的算法,并提出在线评估实验的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。