《信息检索课程介绍》PPT课件

《信息检索课程介绍》PPT课件

ID:36685480

大小:691.60 KB

页数:47页

时间:2019-05-10

《信息检索课程介绍》PPT课件_第1页
《信息检索课程介绍》PPT课件_第2页
《信息检索课程介绍》PPT课件_第3页
《信息检索课程介绍》PPT课件_第4页
《信息检索课程介绍》PPT课件_第5页
资源描述:

《《信息检索课程介绍》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Web信息检索技术主讲人:杜蕾联系方式:dulei_hd@163.com20010年8月-11月1写在授课之前授课学时实验学时-10学时-30学时2Quiz下面场景中,按回车键,会发生什么?浏览器地址栏里输入http://www.163.com/之后Google搜索框里输入”黑龙江大学”之后3本课程的内容(1)信息及信息资源信息检索概述信息检索模型信息检索评价检索的改进技术4本课程的内容(2)文本分类和聚类信息过滤Web信息检索基于内容的图像及音频检索问答系统及自动文摘5信息及信息资源信息的涵义信息的种类、特征信息资源电子信息资源电子信息资源的特征、类型6信息检索概述概念及意义体系结构研究现

2、状与发展趋势相关领域主要搜索引擎分类与评价信息检索的应用7信息检索模型布尔模型向量空间模型(VSM)概率模型8信息检索评价相关性问题信息检索性能评价信息检索性能评价指标信息检索评价试验平台TREC9检索的改进词(Term)处理Stemming(词干提取)技术,词法分析、形态还原,停用词表的构建,语义词典的构建,分词、词性标注和词义消歧等索引技术倒排文档(InvertedList),Signature文件,PAT树等提问(Query)处理提问理解,提问的语义扩展(包括基于局部聚类的提问扩展,基于局部上下文分析的提问扩展,基于相似语义词典的提问扩展,基于统计词典的语义扩展)相关反馈(包括Term

3、权重的重新计算,相关反馈策略的评价等)10文本分类和聚类特征词抽取TFIDF信息增益方法文本表示文本相似度计算文本分类算法文本聚类算法11文本过滤过滤系统中的Profile的表示与管理各种匹配算法BruteForce算法Knuth-Morris-Pratt算法Boyer-Moore算法Karp-Rabin过滤系统在信息安全中的应用12Web信息检索Web检索的历史与现状WebInformationDiscovery搜索技术(Crawling)排序算法PageRankHitsWebNoisesDetection13*基于内容的图像及音频检索*图像的特征表示图像相似度计算相关反馈基于音频的信息检

4、索计算14*问答系统及自动文摘*问答系统问题的理解与分类转述(Paraphrasing)答案抽取问答式信息检索的应用自动文摘自动摘录基于理解的自动文摘基于信息抽取的自动文摘基于篇章结构的自动文摘15课程目的发现了什么问题?Web信息的数量,内容丰富程度(庞杂)↑人们访问信息的效率↓课程目的介绍面对web信息过载问题挑战的各种研究和尝试,具体为大规模Web信息搜集、分析与处理方法与技术认识这个激动人心领域的导论16研究对象——Web1980年TimBerners-Lee负责的Enquire(EnquireWithinUponEverything的简称)项目。1990年11月,第一个Web服务器

5、nxoc01.cern.ch开始运行,TimBerners-Lee在自己编写的图形化Web浏览器“WorldWideWeb”上看到了最早的Web页面。1991年,CERN(EuropeanParticlePhysicsLaboratory)正式发布了Web技术标准。目前,与Web相关的各种技术标准都由著名的W3C组织(WorldWideWebConsortium)管理和维护。www.w3c.org17Web的支撑技术用超文本技术(HTML)实现信息与信息的连接用统一资源定位技术(URI)实现全球信息的精确定位用新的应用层协议(HTTP)实现分布式的信息共享。这三个特点无一不与信息的分发、获取

6、和利用有关。TimBerners-Lee说:"Web是一个抽象的(假想的)信息空间。"也就是说,作为Internet上的一种应用架构,Web的首要任务就是向人们提供信息和信息服务。18Web技术的发展客户端技术GIF第一次为HTML页面引入了动感元素JavaApplets和JavaScript的支持CSS(CascadingStyleSheets)和DHTML(DynamicHTML)技术插件、ActiveX控件技术服务端技术CGI允许服务端的应用程序根据客户端的请求,动态生成HTML页面,动态信息交换Perl,PHP、ASP、JSP企业级开发平台--J2EE和.NET19Web增长Load

7、onthefirstWebserver(info.cern.ch)1000timeswhatithasbeen3yearsearlier20Web增长网站数目↑↑↑1993-1996,from130to600.000sitesNetcraftsaidthatithascounted85,541,228websitesatthebeginningof2006/06,Thenumberrepresentsagai

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。