微博在主题社区发现研究中如何应用

微博在主题社区发现研究中如何应用

ID:22216457

大小:54.00 KB

页数:5页

时间:2018-10-27

微博在主题社区发现研究中如何应用_第1页
微博在主题社区发现研究中如何应用_第2页
微博在主题社区发现研究中如何应用_第3页
微博在主题社区发现研究中如何应用_第4页
微博在主题社区发现研究中如何应用_第5页
资源描述:

《微博在主题社区发现研究中如何应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、微博在主题社区发现研究中如何应用----社区管理论文-->第1章绪论1.1研究背景据统计,至2012年,国外著名的Facebook全球注册用户达到6亿,每天近2亿条微博产生,Tp;1[15]提出另一种基于统计的寻找话题权威的方法,与链接分析的方法形成对比。第2章相关技术介绍2.1信息检索模型2.1.1布尔模型布尔模型是最早、最简单的信息检索模型,其查询与检索都是基于布尔代数理论,为用户查询和文档精确匹配。在布尔模型里,文档和查询都被表不成由一组词构成的向量,向量值只有0、1,表示存在或不存在。布尔查询是逻辑操作符与(A

2、ND)、或(OR)、非(NOT)的组合。这三个布尔操作符都有自己逻辑上的语义,例如一个查询((xANDy)AND(NOTz))就是表示包含X和y但是不包含Z的集合。2.1.2向量空间模型向量空间模型将文档表示成一个权值向量,其中的每一个权值都通过词频率表(TF)或者词逆向文档频率表(TF-IDF)来表示。对比布尔模型,dj中t,的权值不再只能是0、1,而可以是任何值。词频率表(TermFrequency)中,文档dj中ti的权值就是在dj中tj出现的次数,被定义为fij,在此基础上还可以进行标准化。TF表的缺点在于,没

3、有考虑如果一个词出现在一个数据集里的许多文档中,也就是说这个词是通用词,那么它将不具有代表性。第3章网络爬虫............143.1网络爬虫的原理............143.2网页处理............163.3网络爬虫的设计............203.4本章小结............21第4章基于微博的主题社区发现关键技术研究............234.1微博的介绍............234.2领袖发现............244.3最大流过禾呈及最大流模型............

4、264.4最大流过程的剪枝迭代问题............284.5基于微博主题社区发现的整体流程............294.6本章小结............31第5章基于微博的主题社区发现系统设计与实现............325.1系统整体架构设计............325.2核心代码实现............335.3本章小结.............37结论中国互联网己全面进入微博时代,新浪与腾讯微博的注册用户己经突破3亿,每天登陆的用户量超越4000万。与此同时,微博用户群被认为是中国互联网使用

5、的高端群体,是最切身参与互联网活动频率最高且具有最大购买潜力的互联网群体。由此,随着微博的火热和潜在市场驱动,催生了有关的营销方式,即微博营销。越来越多的企业注册认证微博账号,通过微博这一平台更新企业或其产品的内容,跟大众群体交流,以达到有效实现品牌建立和传播,增加产品曝光和市场推广,发现目标客户,精准互动-->营销,主动客服,服务真实客户,企业的口碑实时监测,确保危机公关的目的。本文着眼于盛大永恒之塔微博营销的这一需求,寻找微博中对盛大永恒之塔有兴趣或有潜在兴趣的群体,以保证微博营销的投放准确性。基于微博的主题社区发

6、现,打破传统观点利用内容与链接分析的结合方法,编码设计了主题社区爬虫。其主要贡献如下:1)设计多线程爬虫,在保证准确率的情况下,并进行深度优化。节省了资源,提高了访问效率。2)提出通过领域领袖发现为初始迭代集合的方法寻找主题社区的新思路,同时设计用户节点访问和筛选策略,极大减少了爬虫不必要的访问。3)创新性的将链接分析方法(最大流模型)和基于内容的分析方法(文本分析)结合应用,很大程度上避免了HITS算法存在的主题漂移问题。根据微博的实际特征优化最大流社区模型中节点容量边的权重,进一步提升了准确率。基于微博社区的主题爬

7、虫能够比较圆满的解决微博营销者寻找投放目标的问题,在理论和应用上都有很大的价值,也为进一步研宄工作奠定了基础。另一方面,尽管文本提出的领域领袖计算公式发挥了不小的作用,但是领域领袖中常量参数的调优仍以及公式的升级有待进一步研宄。最大流模型节点边容量的调优,在一定程度上加大了领域相关度判断的精度,但公式依然比较粗糙,有待优化。实验过程依赖的领域分类器的性能,所以分类器的优化空间还有待进一步提升。微博,这一信息互动平台存在巨大的信息量可供挖掘,定当成为日后研宄的热点。如何提供快速高效、准确、覆盖面广的领域用户寻找方法,是微

8、博挖掘中一个极具价值和挑战的研究方向。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。