欢迎来到天天文库
浏览记录
ID:27564404
大小:1.10 MB
页数:27页
时间:2018-12-04
《《web挖掘基础》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Web挖掘基础知识WWW提纲Web挖掘的概念Web内容挖掘Web结构挖掘Web日志挖掘Web挖掘的挑战Web数据量太庞大:ServerLevelCollection、ClientLevelCollection和ProxyLevelCollectionWeb数据的复杂性高于传统的文本文档Web是一个动态性极强的信息源Web面对的是一个广泛的用户群体Web上的信息只有很小的一部分是相关的或有用的Web挖掘与IRWeb上的IR是Web挖掘的一个方面,仅是对信息有序化。Web挖掘是智能化的IR,IR出现早,技术成熟。Web挖掘概念Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程
2、:C→P。Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等。Web挖掘分类Web挖掘类项目Web内容挖掘Web结构挖掘Web日志挖掘处理数据类型IR方法:无结构数据、半结构数据Web结构数据用户访问Web数据主要数据自由化文本、HTML标记的超文本Web文档内及文档间的超链Serverlog,Proxyserverlog,Clientlog表示方法词集、段落、概念、IR的三种经典模型图关系表、图处理方法统计、机器学习、自然语言理解机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现页面权重分类聚
3、类模式发现Web站点重建,商业决策Web内容挖掘基于网页内容或其描述中抽取知识的过程。Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。日志的预处理IPAddressTime/DateMethod/URIReferrerAgent202.120.224.415:30:01/2-Jan-01GETIndex.htmhttp://ok.edu/link.htmMozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET1.htmhttp://ex.edu/index.htmMozilla/4
4、.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GETA.htmhttp://ex.edu/index.htmMozilla/4.0(IE5.0W98)202.120.224.415:37:09/2-Jan-01GETE.htmhttp://ex.edu/C.htmMozilla/4.0(IE5.0W98)202.120.224.415:33:04/2-Jan-01GETIndex.htmhttp://ok.edu/res.phpMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET1.htmhttp:
5、//ex.edu/index.htmMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GETA.htmhttp://ex.edu/index.htmMozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GETB.htmhttp://ex.edu/A.htmMozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GETC.htmhttp://ok.edu/A.htmMozilla/4.0(IE5.0W98)Web文本挖掘Web文本挖掘针对包括Web页面内
6、容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。Web文本挖掘的方法文本概括:从文本(集)中抽取关键信息,用简洁的形式总结文本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,通常需要给出文本摘要。文本分类:把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模型,然后利用这种关系模型判断新文本的类别。召回率和精度。文本聚类:根据文本的不同特征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。Web文本挖掘的应用搜索引擎领域:利用Web文本挖掘可以更合理地组织搜索
7、结果:按照页面之间的相似程度分为若干簇。自然语言理解领域:结合自然语言处理技术和Web文本挖掘技术。文本挖掘在垃圾邮件过滤中的应用Web多媒体挖掘Web多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义,发现隐含的、有价值的和可理解的模式,得出事件的趋向和关联,为用户提供决策支持。多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。多媒体挖掘系统的结构多媒体挖掘的典型应用视频挖掘:从电影、监控录像等视频数据中提取视频
此文档下载收益归作者所有