网络精准搜索与智能挖掘关键技术研究

网络精准搜索与智能挖掘关键技术研究

ID:42332027

大小:3.98 MB

页数:52页

时间:2019-09-12

网络精准搜索与智能挖掘关键技术研究_第1页
网络精准搜索与智能挖掘关键技术研究_第2页
网络精准搜索与智能挖掘关键技术研究_第3页
网络精准搜索与智能挖掘关键技术研究_第4页
网络精准搜索与智能挖掘关键技术研究_第5页
资源描述:

《网络精准搜索与智能挖掘关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、网络精准搜索和智能挖掘关键技术WebPreciseSearchandIntelligentMining张华平副教授研究生导师北京理工大学计算机语言处理研究所副所长北京工商大学《Web挖掘》研究生班2011-4-15Who’stalking张华平,北理工计算机语言信息处理研究所副所长,副教授,研究生导师,研究方向:自然语言处理、信息检索、信息安全。获得2011年钱伟长中文信息处理科学技术奖一等奖,中科院院长奖,中科院计算所所长特别奖,专著2部,专利3项,国内外论文20余篇。经历:2000-2005年在中科院计算所硕博连读,

2、获博士学位,研制汉语分词系统ICTCLAS(目前用户数超过10万家),博士期间参与新颖性监测研究,参加TREC2004NoveltyTrack在国际14家团队中,综合排名第一;2006-2009年,创办中科计算技术转移中心网络智能事业部(30余人),先后担任了863、242、中国证监会舆情系统、工信部网络监管、中国移动云计算搜索等重大项目。2009年底至今,担任研究所副所长,目前承担了科技部及安全部重大项目。Whatheisdoing报告纲要网络精准搜索关键技术网络智能挖掘关键技术相关应用“庆祝日本地震”真相挖掘中国邮政

3、集团邮址精准搜索四维图新POI智能提取从利比亚救援说起…更多的搜索引擎信息检索技术的应用搜索推荐挖掘IR技术情报处理内容安全舆情分析信息检索学科:一门有关信息获取、存储、组织和访问的学科应用:针对用户需求返回满足该需求信息的一门应用从信息规模上分类个人信息检索:个人相关信息的组织、整理、搜索等。桌面搜索(DesktopSearch)、个人信息管理(PIM=PersonalInformationManagement)、个人数字记忆(PersonalDigitalMemory)企业级信息检索:在企业内容文档的组织、管理、搜索

4、等。内容管理(ContentManagement)Web信息检索:在超大规模数据集上的检索。WebSearchUsingIRQueryStringIRSystemRankedDocuments1.Page12.Page23.Page3..DocumentcorpusWebSpider最简单的搜索引擎搜索引擎结构www索引库索引检索用户接口采集器…采集器文档库www文档库文本操作用户接口文档倒排索引库检索查询处理排序采集倒排文档文本逻辑视图逻辑视图用户反馈查询需求排序文档倒排索引文档库预处理Invert索引库文档倒排,生成

5、InvertedFiles文档分析,编码识别,词语切分,去停用词等倒排索引结构索引文件结构:不管怎么变化基本都由这几部分组成词典文档信息词频信息位置信息其他信息倒排索引的挑战如何快速构造倒排索引?如何使索引尽可能小?如何构造索引使检索尽可能的快?如何构造动态文档集的索引(增量,差量索引和索引更新)?如何在资源有限的情况下构造海量数据的索引?信息检索用户任务检索:特别检索过滤浏览经典模型布尔模型向量模型概率模型结构化模型非重叠链表模型邻近节点模型浏览扁平示模型结构导向模型超文本模型集合论模型模糊集合论模型扩展布尔模型代数模

6、型广义向量模型潜语义标引模型神经网络模型概率模型推理网络模型信任度网络模型信息检索模型分类布尔查询一种简单的检索模型,建立在经典的集合论和布尔代数的基础上。遵循两条基本规则:每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为0或1。查询是由三种布尔逻辑运算符and,or,not连接索引词组成的布尔表达式。合取布尔查询处理StemTermtLexiconSearch3571347912367根据ft排序37合取Ranking和信息检索经典布尔模型能精确判断文档是否出现某一查询,但并不能给出相关性排序信息检索是一个

7、查询Q和文档Dd相似度计算过程:存在一个问题:当Q包含常用词t时,那些包含比较多t的文档总是排在前面,其他的非常用词根本不起作用,所以需要根据inversedocumentfrequency(IDF)计算Term的权重wt:ft是包含termt的文档数向量向量(矢量,vector):既有大小又有方向的量,通常用有向线段表示,记作或者考虑从空间坐标系原点出发(其他向量可以平移到原点出发)的向量,终点坐标为,我们称之为一个n维向量向量的运算:加、减、倍数、内积向量的模、距离和夹角向量的模(大小):向量

8、的(欧氏)距离夹角α向量空间模型向量空间模型(VectorSpaceModel,VSM)是康奈尔大学Salton等人上世纪70年代提出并倡导,原型系统SMART*term独立性假设:term在文档中的出现是独立、互不影响的。查询和文档都可转化成term及其权重组成的向量表示,都可以看成空间中的点。向量之间通过距离计算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。