基于概率主题模型的景点知识挖掘及其可视化

基于概率主题模型的景点知识挖掘及其可视化

ID:28222787

大小:17.91 KB

页数:5页

时间:2018-12-08

基于概率主题模型的景点知识挖掘及其可视化_第1页
基于概率主题模型的景点知识挖掘及其可视化_第2页
基于概率主题模型的景点知识挖掘及其可视化_第3页
基于概率主题模型的景点知识挖掘及其可视化_第4页
基于概率主题模型的景点知识挖掘及其可视化_第5页
资源描述:

《基于概率主题模型的景点知识挖掘及其可视化》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于概率主题模型的景点知识挖掘及其可视化  摘要:针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入“全局景点”过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目的地景点的主题分布。实验通过对景点主题特征进行聚类,评估聚类效果从而间接评价模型训练效果,并定性

2、分析“全局景点”对模型的作用。实验结果表明,该模型对旅游文本的建模效果优于基准算法TF-IDF与隐含狄利克雷分布,且“全局景点”的引入对建模效果有明显的改善作用。最后通过景点关联图的方式对实验结果进行可视化展示。  关键词:概率主题模型;旅游文本;噪声;Gibbs采样;可视化  中图分类号:TP391  文献标志码:A  0引言  Web技术及在线旅游代理的飞速发展导致旅游数据爆炸性增长。如何有效地从海量旅游数据中挖掘出有用的信息并以直观方式进行展示成为当前的迫切需求。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把

3、资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于概率主题模型的景点知识挖掘及其可视化  摘要:针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入“全局景点”过滤噪声语义,并利用Gibbs采样算法估计最

4、大似然函数的参数,获取目的地景点的主题分布。实验通过对景点主题特征进行聚类,评估聚类效果从而间接评价模型训练效果,并定性分析“全局景点”对模型的作用。实验结果表明,该模型对旅游文本的建模效果优于基准算法TF-IDF与隐含狄利克雷分布,且“全局景点”的引入对建模效果有明显的改善作用。最后通过景点关联图的方式对实验结果进行可视化展示。  关键词:概率主题模型;旅游文本;噪声;Gibbs采样;可视化  中图分类号:TP391  文献标志码:A  0引言  Web技术及在线旅游代理的飞速发展导致旅游数据爆炸性增长。如何有效地从海量旅游数据中挖

5、掘出有用的信息并以直观方式进行展示成为当前的迫切需求。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  近年来,对旅游数据的挖掘工作多集中于对旅游照片及相应元数据、标签的研究,如文献[1-2]等利用Flickr网站用户上传

6、的海量旅游照片及标签信息对景点进行聚类分析;文献[3]从Panoramio[4]网站采集照片聚成地标,并为每个地标找到最具代表性的照片与标签等。随着文本数据挖掘的快速发展,旅游文本数据相关的研究工作方兴未艾,相关研究工作通常可分为两类,即词频分析法和主题挖掘法。词频分析法利用词频统计结果进行文本分析,如文献[5]采用词频分析法刻画目的地旅游感知形象,文献[6]利用内容分析法获取目的地语义网络分析图等。该类方法将单词视为单纯的文本符号,无法识别其中的语义信息。主题挖掘法采用或扩展隐含狄利克雷分布[7],利用潜在主题识别语义信息,从而提高

7、文本数据挖掘的效果,如文献[8-9]提出一种地点主题模型用于挖掘目的地的主题分布信息,以文本标签形式生成目的地概述。然而旅游目的地由景点组成,目的地特征由景点的类型与特征构成,同一文本可能涉及不同景点,这些景点间具有地理位置、主题等关联关系,上述方法对地点划分粒度较大且没有考虑景点关联关系。另外,旅游文本中常包含时间、门票、电话等与景点主题特征相关性不大的信息,即“噪声语义”,多数主题挖掘方法没有考虑噪声语义消除问题,LT模型虽可利用“全局主题”过滤噪声语义,但模型复杂度较高。为充分利用景点间的关联关系,有效消除噪声语义,本文提出一种

8、简单的基于概率主题模型的景点主题模型以无监督地从旅游文本中挖掘景点主题分布信息,并以景点关联图的形式展示旅游目的地的景点类型与主题特征。  1相关工作  概率主题模型  概率主题模型是针对文本中隐含主题的一种建模方法。由

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。