《中文助手》说明书

《中文助手》说明书

ID:2088308

大小:201.50 KB

页数:9页

时间:2017-11-14

《中文助手》说明书_第1页
《中文助手》说明书_第2页
《中文助手》说明书_第3页
《中文助手》说明书_第4页
《中文助手》说明书_第5页
资源描述:

《《中文助手》说明书》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1文献自动标引解决方案21.1方案概述21.2模块组成21.2.1文献自动标引模块21.2.1.1文本分类21.2.1.2主题词标引31.2.1.3自动文摘41.3性能指标41.3.1准确率和速度41.3.2扩展性与通用性51.4效果演示52智能词语技术62.1方案概述62.2模块组成62.2.1新词语识别62.2.2词语分类聚类62.2.3智能分词系统72.3效果演示83行业知识门户83.1方案概述84联系方式991文献自动标引解决方案1.1方案概述基于自主研发的中文信息处理技术,以文本内容语义计算、文本内容自动标引为核心,“文献自动标引解决

2、方案”集成文本分类、主题词标引和自动文摘三个子模块,将文献内容以精练准确的形式,如类目、主题词、摘要自动标引出来。1.2模块组成1.2.1文献自动标引模块应用国际领先的文本挖掘、自然语言处理等核心技术,以自主研发的中文信息处理技术为基础,提供对海量数据进行智能自动分类、主题词自动标引、自动文摘等实用功能。以其为基础可方便地开发应用系统,快速地实现智能信息挖掘,有效地进行知识管理与检索。1.2.1.1文本分类“基于关键短语的立体文本分类模型”:A、立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,利用表义完整的关键短语,提高特征项的完整

3、独立程度,有效克服了传统分类算法中向量空间模型和贝叶斯假设(特征之间被假定为是相互条件独立的)的缺点,在3万篇测试集上(15大类,4级244小类),大类微平均提高了3.1%,小类微平均提高了15%。B、立体模型是一个交叉多层级的系统。在纵的方面,是一个层级的系统,采用双向层级小类校正算法分类,一级级分到四层子类。在横的方面,采用兼类多标签分类策略,智能判断文档是否兼类,兼哪几类。大类微平均和宏平均F1值比扁平模型分别提高了1.8和2.7个百分点。9C、扩展性强,用户可以根据自身需要,动态增删或调整分类体系。支持自动训练,提供新分类体系和相对应的

4、已分类文档之后能够实现新分类体系的文档的自动分类。交叉多层级立体分类,如,一篇微软新品软件发布的文档既可归为“科技_电脑_软件_操作系统”,也可归为“经济_产经_产业新闻”。可显示类别间相似度,以分析了解分类体系是否设计合理。分类方法支持领域知识、统计等多种方法。1.1.1.1主题词标引针对主题词的领域不均匀性和邻界域两个特征,首创并模拟计算了主题词表征文本主题特征程度的主题度。结合方差和TFIDF原理,设计了形式化的主题词计算模型。以主题词及其主题度为领域知识,结合统计方法,形成了一个知识与统计相结合的主题词自动标引系统。主要特点:◆ 支持叙

5、词汉字标引(词表选词标引)、辅助标引(自由词标引)、关键词标引(提取文章关键词标引)。◆ 支持基于专家知识的规则标引或纯粹词语计算的统计标引,用户可选,或者二者相结合。◆ 标引词的数量可用户自定义,支持定量(3-5个)或根据文章长度动态确定标引词数。◆ 能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。◆ 支持自动训练,无需提供训练文档集即可实现新文档的自动标引。9◆ 支持文档多级标引。自动文摘1.1.1.1自动文摘文摘系统基于词语的主题度计算,自动抽取文献关键性句子形成摘要(原文中约25%的文字,可自定义)。基本特点:◆ 

6、能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。◆ 能够利用专业文档语料库进行训练。◆ 同时支持自动训练,无需提供新摘要文档语料库,即能实现新文档的自动摘要。◆ 摘要比例可由用户自定义。◆ 摘要可读性强,能覆盖原文献主题。1.2性能指标1.2.1准确率和速度A、文本分类:在4级、244个类目的分类体系,3万篇文献的开放测试中,准确率达94%;分类速度10万字/秒B、主题词标引:500篇文献的测试时间约为5秒,综合平均得分为8.08(共10分)。C、自动文摘:1000篇文献的测试时间约为10秒,综合平均得分为7.76(共10

7、分)。91.1.1扩展性与通用性完整的应用开发接口:提供.Net组件、COM组件、Java组件接口,并且针对有较高底层开发要求的用户提供完整的二次开发接口。支持多种编码:提供对 GB2312、BIG5、GBK、GK18030、UNICODE等多种编码的直接支持。扩展性强:底层词表和概念术语可以自由增加或删除,导入导出;可以根据自身需要,动态增删或调整分类体系;可以根据需要,自由设定主题词抽取个数,自由设定文摘抽取比例。1.2效果演示网络版在线演示地址:http://www.languagetech.cn/class_demo.aspx单机版详细

8、说明参见《帮助文档》。图1:网络演示版(http://www.languagetech.cn/class_demo.aspx)91智能词语技术1.1方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。