中文分词算法在专利文献中的应用研究

中文分词算法在专利文献中的应用研究

ID:22527623

大小:100.74 KB

页数:17页

时间:2018-10-30

中文分词算法在专利文献中的应用研究_第1页
中文分词算法在专利文献中的应用研究_第2页
中文分词算法在专利文献中的应用研究_第3页
中文分词算法在专利文献中的应用研究_第4页
中文分词算法在专利文献中的应用研究_第5页
资源描述:

《中文分词算法在专利文献中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中文分词算法在专利文献中的应用研宄[摘要]介绍了专利文献中中文分词的基本方法,主要分析了基于词类的错误驱动学习方法、条件随机场方法、期望最大值方法在分词方面的应用,并进行了对比实验。[关键词]专利文献中文分词1引言专利文献包含全世界科学技术信息内容的90%[1],其中不仅包含技术也包括法律和经济信息,除了某些需要保密的领域,如军工行业,专利文献涉及了绝大部分工程技术领域,如果能有效利用这些信息,就可以避免重复研发,减少开发时间,降低开发成本,也可以有效防止侵犯他人合法权益,降低企业风险。怎样才能高效地利用海量专利文献信息,从这些信息中查找到需要的

2、资料,解决这个问题的关键是对专利文献进行精确快速的检索,而进行检索的最重要一步是对海量专利文献进行索引,没有索引就无法快速精确地检索到需要的信息,索引的基础则是对文献进行分词,分词的质量决定了索引的质量,一种好的分词方法可以大幅提高文献的查准率。中文分词有两块难点,一个是分词的歧义,一个是未收录词的判断[2],专利文献的用词,有其自己的特点,存在着大量未收录的专业术语,而歧义词语仅占很小的一部分,在分词的时候必须重点考虑专业术语的切分,因为其对整体性能的影响是歧义影响的5倍[3]。下节将重点描述这方面的内容。2专利文献的用词特点我们首先需要研究专

3、利文献的用词特点,通过了解掌握这些特点,可以利用这些规律,更好地进行分词处理,提升分词效率。专利文献用词有以下几个特占.2.1具有专利文献特点的一些相对高频的词语,比如“本发明”、“特征”、“方法”、“一种”等,大部分的专利都会涉及这些词语。2.2由于多数专利文献带有很强的专业性,有大量未登录在词典的词语,比如“二十二碳六烯酸”、“星地应答机”等技术词汇,很难进行正确的分词,这点很难解决。2.3专利文献中为了表达一种复杂的功能或仪器,往往带有多个定语,比如“双测向多臂井径测量仪器”、“高精度非垂直截面可旋转测量仪器”等等,这给我们分词带来了一定的

4、困难。2.4专利文献中为了描述清楚功能,一些专利文献中会反复出现一些特定的词语,如“一种星载计算机软件的在轨更新方法”反复提到了“星务”这个词,这个词在分词词典里是没有的,而我们可以通过统计的方法将它作为分词标记。3专利文献分词算法3.1分词算法综述现有的关于中文分词的技术主要是有两大类,一种是利用海量词典进行分词,另一种则是利用统计进行分词。词典分词的原理是将N个连续汉字与词典里的词语进行适配,取其最长的适配词,拿“计算机的基本原理”来讲,“计算”是一个词,“计算机”也是一个词,分词的时候取长度较长的“计算机”,而不会取“计算”、“机”两个词;

5、最基础的词典分词方法有正向匹配算法和逆向匹配算法,它们分别是从句子的头和尾进行匹配,其结果基本一致,略有不同,词典分词的准确率较高,分词的质量由词典收纳词的丰富程度决定,其不具备对未知词语的判断能力。统计分词可以对文献中反复出现的词语进行识别,特别是对于专利文献,其最核心的词必然比其他词出现的频率局,但是出现频率同的词却不一定是核心的词,比如“可以”、“用于”等等,这些词是常用的连接词,出现的频率很高,但却和文献的主体意思没有关系,如果这些词过于频繁出现会降低统计的效率。实验证明,单纯的词典法或是统计法对专利文献分词并没有很好的效果,我们将对基于

6、词类错误驱动学习方法(CTBL)、条件随机场方法(CRF)、期望最大值方法(EM)等3种分词方法在专利文献中的应用展幵研宄。3.2基于词类的错误驱动学习方法*基金项目:2010年福建省科技计划重点项目“基于SVM-INE的企业专利地图生成与辅助决策支持系统”(编号:2010H0014)。错误驱动学习方法(TBL)是一种符号式的机器学习方法,在许多语言应用场景中都有很广泛的应用,例如词语的分类等,Palmer还将其应用到了汉语的分词中,实际效果也表明,TBL在分词应用中可以有很好的功效,也可以和其他的分词系统配合使用。由于规则模板减少了TBL方法需

7、要检索的转换规则的时间,所以,寻找适合的规则模板是十分关键的,通过对比,单纯运用词例化模板的TBL分词系统,其准确率一般不超过90%,而这个水平距离优秀的要求还有一定的距离,此外,由数据稀疏导致的过学习缺陷,也一直困扰着TBL方法,因此将语法以及词法信息融合到TBL方法中去,可以一定程度上提高分词的性能,CTBL方法(基于词类)就是如此诞生的,该方法可以使分词的学习规律更快更准确[4]。首先,把词分为四大类:(1)已知收录词,包含所有已经收录在词典中的词;(2)特定名称词,比如地名、人名等;(3)数字名词,时间、数量等词;(4)派生词,重叠词(形

8、形色色)等词。所有的词都可以看成是一棵树,树的根是完整的词语,而叶节点是分拆后的词,除此之外的节点是结构上的信息,这些信息是依照规定的语

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。