异构数据文本挖掘技术研究

异构数据文本挖掘技术研究

ID:28170646

大小:18.15 KB

页数:6页

时间:2018-12-08

异构数据文本挖掘技术研究_第1页
异构数据文本挖掘技术研究_第2页
异构数据文本挖掘技术研究_第3页
异构数据文本挖掘技术研究_第4页
异构数据文本挖掘技术研究_第5页
资源描述:

《异构数据文本挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。异构数据文本挖掘技术研究  [摘要]本文主要研究基于自然语言处理技术和数据挖掘技术,面向出版行业,对海量、异构的数字出版文本内容进行智能分析与挖掘,研究与实现命名实体识别与语义关系抽取、自动摘要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术,为资源的编辑、加工、整理提供帮助,为知识标引和素材推

2、荐等提供技术支撑。  [关键词]出版;文本挖掘;异构数据  doi:10.3969/j.issn.1673-0194.XX.21.070  [中图分类号][文献标识码]A[文章编号]1673--0164-02  1背景为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校

3、组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  数字出版已经成为出版行业的一种趋势,将逐渐取代传统出版方式。数字出版所产生的大量数字内容需要进行智能管理和自动加工,而其中文本数字内容数量最多,包括报纸、期刊、图书等出版类型,对文本数字内容的智能加工与挖掘技术是数字出版领域的关键基础技术,对数字出版多个子系统起到平台支撑作用。例如,文本分类技术可以将数字内容按照行业分类体系自动归类,文档自动摘要技术可以将数字内容进行提炼和标引。这些技术能帮助出版行业单位对数字资源进行明晰化、系统化、

4、智能化的管理,自动发掘潜在的知识规律,替代人工劳动,提高了生产效率。  目前,文本挖掘技术已经被广泛应用于互联网搜索与服务行业。主要采用的技术包括网页信息抽取技术、网页聚类技术、日志挖掘技术等,其目的是通过对互联网网页、用户日志等数据进行分析,改善搜索效果和提高用户体验。然而,与互联网搜索领域不同,数字出版领域的数字出版物形式多样,包括期刊、报纸、书籍等等,不同类型的出版物具有不同的篇幅与结构。传统的文本挖掘技术已不能满足对数字出版领域数字内容的智能化处理与分析需求,因此亟需研发面向数字出版领域的文本挖掘技

5、术。  2大数据文本挖掘技术研究现状  基于自然语言处理技术和数据挖掘技术,面向数字出版领域的文本挖掘技术,对异构出版内容资源内包含的知识体系进行抽取和挖掘,为资源的编辑、加工、整理提供帮助,为知识标引和素材推荐等提供技术支撑。一方面,对已有文本挖掘技术进行升级改造,以满足数字出版行业的技术要求;另一方面,针对新的技术需求,研发文本挖掘创新技术。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰

6、富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  文本挖掘成果的处理对象主要针对新闻文本类型,无法处理数字出版行业所产生的异构数字内容,例如对科技文献和书籍进行自动摘要的难度要远大于对新闻文档的自动摘要,因此这些已有的文本挖掘技术已经打下了一个坚实的基础。  3异构数据文本挖掘技术目标  基于自然语言处理技术和数据挖掘技术,面向出版行业,对海量、异构的数字

7、出版文本内容进行智能分析与挖掘,研究与实现命名实体识别与语义关系抽取、自动摘要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术,为资源的编辑、加工、整理提供帮助,为知识标引和素材推荐等提供技术支撑。本课题研发的技术将作为数字出版行业的关键支撑技术,为多个相关子系统提供服务。  面向新闻的命名实体识别技术、传统的文档摘要与关键词抽取技术、面向简单分类体系的文本分类技术、基于高维索引的文本相似搜索技术、基于规则的文本过滤技术、基于聚类的主题检测技术、基于查询的主题追踪技术、

8、新闻规范文本的情感分类技术。  4异构数据文本挖掘技术路线  异构数据文本内容文本挖掘技术划分为三个层次:引擎层、服务层以及应用与管理层。  引擎层  引擎层包括各项文本挖掘的基础功能,实现文本挖掘的核心算法。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。