BLOG社区发现研究

BLOG社区发现研究

ID:44207828

大小:110.52 KB

页数:3页

时间:2019-10-19

BLOG社区发现研究_第1页
BLOG社区发现研究_第2页
BLOG社区发现研究_第3页
资源描述:

《BLOG社区发现研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、学术论坛BLOG社区发现研究王婷(湖北经济学院计算机学院湖北武汉430205)摘要:介ftTBlog社風鼻*特杠及社区发现的几种典型方法.分析了Blog社区发现的基水桓条.总结了社区复观枚术中存A的H«t農方何。关縫词:blog社区岌现数携挖播中图分类号:TP393文獻标识码:A文章编号:l674-098X(2008)ll(b)-0197-011Blog社区网络日志WebLog■简称博客(Blog).口misI弘x*.i-t=1.»rzu-I-曰#4邑:上疋WitT-EPV—TTHS水疋IF令刁吸者以H志形式进行交Q的媒介。它由一系列表达作者(Blogger)个

2、人的想法.感悟.技术讨论等带有时间H期标签的帖子(post或entry)组成,包含读者的评论.指向其他Blog的blogroll链接和来自其他网站.Blog评论的trackback链接。Blog的更新较快■一般按post发表时间的倒序排列°W€b社区,简称社区•由具有相同兴趣的暇位和个人所组成丁他们通过共同认可的网页讨论某个主题。社区内所有成员网页与其他成员网贞间的链接数都应大于它和社区外页面的链接数。社区有些是明确定义过的,比如新闻组(NewsGroup).商帽(Webring)和某些门户网站的待定内容频道。由于网络资源众多R更新迅速,也存在大谊隐含的社区。早

3、期Blog的聚合程度比较低,随善BlQg.的快i朿发展和影响■力的逐麻壇加,其社群形成效应也渐渐显示出来。Blog社区与传统Web社区很大的不同。传统社区中•讨论的是同一主题,而BIor是一个高度个人化的空间.Blogger可能会发表很多不同主题的post,读者也有相当一部分是岀于对Blogger本人而非某个主题的兴趣而发表评论,所以可能存在更多的隐含社区。2Blog社区发现算法•・・••••■■••••**•■•*•社区发现M以采用人工的方法•但效率低下•成本高昂。自动化和半自动化的社区发现技术近年来已成为研究热点。社区发现把社区看作一个图•页I6L作者或站点

4、是图的节点•节点间的联系是图的边。传统Web社区按不同的实现途衿可分为基THITS(hyperlink-inducedtopicsearch)算法的技术、基于有向二分图的技术和基于网络流址的技术⑼。这些发现方祛可以用来发现Blog社区■但效率不髙•研究者们也提出了一些专门针对Blog的算法。其屮,基干流量.基于内容分析和慕下相互感知的方法是比较有代表性的几种。2.1基于流量的社区发现基于浹显的社区发现方法的基础是页面间的相互引用。关注同一话题的Blogger间可能并不知道对方的存在•但他们可能引用了相同的网页。典吃算法是WP(weakestpairs)。Wp算法

5、将页而分为Post与非Blcg的w已bpage两个巢合•两个集合间形成一个引用矩阵R。通过矩阵运算计算节点间的关系強度。为了去除无用的引用链接和结点・WP算法寻找关系j弱的结点对•然后找到这对结点间白路絵■把逋过吊短路径频率最斋的¥制除,得到的由结点和链接边组成白子图都被认为是一个社区。2.2基于内容分析的社区发现社区的中心都是一个或几个壬于内容分析的社区发现方法对Blogn^xa行筛选•根据内容的相关度来发现社区。首先为标題、文章和评论设工不同的权值,从内容中筛去已设定好的高频无用词,如上沙发二孤•然炷根療词语的出现频來和权值得到主题词.再利用利用度、密度、中

6、心度等参数来分析.挖掘出社区。23基于Blog间相互感知的社区发现社区的形成来自于blogger的post.而该posl被阅渎焙可能后产生与讨论话題相关的post.基于感知的社区发现方法对特定的行为如阅读.拷贝.另作以及行为发生的频率和时间赋以概率值,由概率决定丕同的相&感知度以此侄为图中边的权值•然后便用这芋養数进行隐含社区的推理发现。3Blog社区发现各类社区发现算法对于表示社区的图的理解都有区别•所以町能适用于不同的数据集,但无论采用哪种算法,社区发现的过程大体上循如卜•步骤。3.1选择数据集数据氮可•以菜用二些i平测机构如TREC等的数据,也可以直接从网

7、络中抓取,利用网络爬行誥从Internet±搜集网页信息。在爬行过程中•对毎个获取的网页内容进行分析,只下我并保留Blog信息,包括Bloj?站点的uri.文章.评论.trackback链接等•然洽将信息存人数据库中。3.2数据的分析与建模社区可以抽仪为图的形式,但对不同的方法而吉,图的意义各不相同。在数据分析阶段,应对数据进行筛选•去除項复及无效数摇•并根据对图的定义来抽取出需要的节点信息和边的信息■构建出图的模型。这一步骤可以根据算法需姜编写程序进行,也可以借助现有的工具软件如分词工具等。3.3抽取社区根据算法,对整个图形进行切割•将其切分成较小的,•联壕錨

8、密的子叭子图姉为寻找到的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。