面向主题挖掘与观点分析的博客知识挖掘

面向主题挖掘与观点分析的博客知识挖掘

ID:46221864

大小:89.96 KB

页数:6页

时间:2019-11-21

面向主题挖掘与观点分析的博客知识挖掘_第1页
面向主题挖掘与观点分析的博客知识挖掘_第2页
面向主题挖掘与观点分析的博客知识挖掘_第3页
面向主题挖掘与观点分析的博客知识挖掘_第4页
面向主题挖掘与观点分析的博客知识挖掘_第5页
资源描述:

《面向主题挖掘与观点分析的博客知识挖掘》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、文章编号:1006—9860(2011)02—0125—05面同王题蛊呢与观糕去祈的酋害知识袈屁*王萍(上海大学计算中心,上海200444)摘要:Blog是Web2.0环境下用户自创內容的重要形式,已经成为互联网上一种重要的信息源和知识源。如何快速、准确地获得Blog信息及隐藏在信息中的知识是人们的迫切需要。本文构建了一个Blog知识挖掘框架,该框架基于文本聚类和主题模型两种文本分析方法,挖掘Blog日志中潜在的概念主题,并对所挖据的概念主题进行观点分析,这将有助于对于领域知识的深层次研究。笔者应用该方法以c-LeamingBlog9志为研究对象,进行了实例研究。关

2、键词:博客;知识挖掘;主题;观点;e-Learning中图分类号:G434文献标识码:A一、引言Blog是Web2.0环境下一种重要的用户自产生内容,其信息具有较强的实时性和多样性。Blog内容中也包含了丰富的作者观点和情感因素,是人们真实情感和事件评论的体现,蕴含着丰富的舆情信息。Blog已经成为互联网上一种重要的信息源,Blog空间可以看作是一个覆盖面广,扩展性好,实时性强的知识库,具有信息发布,知识获取和知识共享等功能。首先,作为一种个人知识发布(PersonalKnowledgePublishing)方式,Blog是学术交流一种有益的补充。个人通过Blog

3、发布信息的过程,也是形成个人思想的过程,Blog帮助构建了个人思考空间(PersonalThinkingSpace)

4、lJ,促进了个人知识的组织和积累。其次,作为一种深度互动沟通的方式,Blog创造了一个虚拟的网络交流空间,通过文字组织的方式来表达交流的内容。经过不断的积累、修改、整理和总结,可以有效地聚集起那些本来难以结构化的零散性知识,将其变为可以共享的知识,并促进隐性知识的显性化。第三,作为一个开放、低壁垒的交流媒体,Blog允许参与者交换想法,展开讨论,通过查找、推广、反向査找、阅读等方式,使知识能够聚集和共享。以上特点和功能为Blog作为一种知识源进行知识

5、挖掘提供了基础。知识挖掘是从数据中识别出有效的、新颖的、潜在有用的、最终可理解的模式的分析处理过程叫Blog文本知识挖掘是指利用自然语言处理和数据挖掘等技术,对Blog日志文本信息进行分析,从而发现和抽取有用知识的过程。通过知识挖掘,快速、准确地获得信息及隐藏在信息中的知识,这不仅是人们的迫切需要,也是解决信息社会中“数据过剩”和“知识贫乏”矛盾的要求。在学习领域,知识挖掘是解决网络学习环境中学习迷失问题円的有效方法,并有助于为学习者营造个人学习环境提供支持,帮助学习者更加有效地获取学习内容,从而提高学习的效率和效果。二、Blog知识挖掘分析面对迅速发展的Blog信

6、息网络,进行Blog知识挖掘的目标是:(1)提高Blog资源利用效率和精度;(2)实现领域概念的自动抽取和知识获取;(3)向学习者屏蔽原始数据的繁琐细节,从Blog数据中提炼岀有意义的、简洁的知识,呈现给学习者;(4)向具有不同知识需求的学习者提供因人而异的、有针对性的领域知识服务。•本文为上海市教育科学研究项目“网络学习支持的有效性研究”(项目编号:B2609105)的阶段性研究成果。由于Blog本身所具有的一些待性,Blog知识挖掘研究与传统的Web挖掘有所不同,在Blog知识发现研究中面临着新的挑战役因此,在对Blog的知识挖掘研究工作中,我们需要从Blog内

7、容具有的特点出发,探寻适当的技术解决方案。•1.Blog数据的特点分析数据源是进行知识挖掘的基础,需对数据源进行分析,探寻其中可能隐含的知识类型,选择合适的技术与方法进行知识发现。从文本挖掘的角度分析,Blog0志数据是一种半结构化数据,内容非严格性和含主观性文本是其典型特征。(1)从文本的表示层面分析,Blog日志具有内容的非严格性Blog0志是个人观点和思想的表达,相对于传统语言规范表达的方式,人们的Blog写作具有自由性。因此Blog内容结构灵活,文章、词句、修辞方式、符号等相对传统文本篇章更加丰富、随意,也造成了Blog文本内容的非规范性和非严格性。(2)从

8、文本的语义层面分析,Blog日志是一种主观性文本作为人们真实情感和事件评论的表达,Blog日志的另一个特点是包含情感倾向信息,区别于科学文献等客观性文本,是一种带有情感色彩的主观性.文本oBlog中蕴含着作者对文章主题或对象的看法、态度或观点,是作者个人情感的表达和体现。2.Blog知识挖掘的维度根据对Blog数据特点和挖掘目标的分析,我们将Blog文本知识挖掘划分为主题挖掘和观点分析(也称为意见挖掘、情感分析等)两种类型。(1)主题挖掘即从Blog内容中发现Blog空间所隐含和关注的主题。Blog空间中信息量巨大,Blog作者经常会对一些概念主题展开讨论。挖掘

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。