基于网络资源的未登录词扩展-研究

基于网络资源的未登录词扩展-研究

ID:33951130

大小:2.15 MB

页数:58页

时间:2019-03-02

基于网络资源的未登录词扩展-研究_第1页
基于网络资源的未登录词扩展-研究_第2页
基于网络资源的未登录词扩展-研究_第3页
基于网络资源的未登录词扩展-研究_第4页
基于网络资源的未登录词扩展-研究_第5页
资源描述:

《基于网络资源的未登录词扩展-研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、目录4.1朱登录词的扩展识别简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯374.2来登录词扩展的相关参数分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯374.2.1左右邻信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯374.2.2搜索引擎返回摘要个数以及扩展深度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯404.3未登录词的扩展算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.414.3.1二元候选宋登录词抽取算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414.3.2种子网络资源扩展⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

2、⋯⋯⋯⋯⋯.424.4本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯46第五章实验与结论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。475.1实验前准备⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.485.1.1切分的概念⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~485.1.2候选种子⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯485.1.3未登录词扩展的评价指标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯485.1.4算法流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

3、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯495.2实验与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯495.2.1封闭性测试⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯495.2.2开放性测试⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯505.2.3与传统算法比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..515.3本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯52第六章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯536.1本文总结⋯⋯⋯⋯⋯⋯⋯⋯

4、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯536.2米米工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯53参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.55致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯!;9攻读硕士学位期间发表学术论文目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。60V第一章绪论伴随着时代的发展和科技的进步,新鲜的词汇大量地涌现己成为当前时期无法避免的语言现象一刊。中文语言信息处理是--17N用计

5、算机的高效性对中文El语及书面语言进行分析、转换、传输、存储等操作的科学,是自然语言处理的一个新的研究方向,是我国实现中文信息处理现代化及信息化的必经之路。与欧美的语言情况不同,中国的语言没有特定符号来区分单词的界限,所以,任意的相邻的字符元素都有构成单词的可能性,更进~步,书面语言中无法区别字符形态的变化,这些障碍都对新词自动识别的研究造成了巨大的影响。在众多语言处理加工的领域中,中文信息处理方法如信息检索、自动分词、词典编纂及机器翻译等,都需要对新鲜词汇进行自动的识别p3。相关信息处理效果很大程度上取决于新词识别的性能,

6、例如新词识别结果及中文自动分词技术已成为提高分词处理效果的瓶颈哺1。最近几年以来,伴随着互联网信息资源的丰富和发展,利用网络信息资源提取信息已经逐渐成为当前热门的研究方向,从而借助网络资源处理未登录词的识别问题也比以往研究更加易于实现。1.1研究背景国外关于搜索引擎技术的研究领先中国将近十年的时间,从最开始的Archie搜索引擎,到接下来的Excite,以及后来的altvista、overture、google等搜索引擎公司的发展,至今已有十几年的历史,但是中国国内关于搜索引擎的研究是在二十世纪末二十一纪初曲1。所以,在互联

7、网的大格局里,很多的技术研发领域都是国外的产品和技术独领风骚,更明显的是,从开始的操作系统到后来的浏览器以及某些处理软件等等,都是国外研究某个领域很长时间后国内才开始研究。但搜索引擎与其他技术研究领域相比,显得有些特别,比如在国内有像百度、中搜等这样的优秀的搜索引擎不断地发展起来,尽管搜索引擎技术在国外开始研究的时间相对很早。在当前的中文搜索引擎领域中,国内外的搜索引擎技术水平不相上下。形成这种局面的原因,很大程度上是由于英文和中文这两种语言本身的一些特点和阅读理解方式的差异,这些差异中使用到的关键技术就是中文分词u们。中文

8、分词一直是中文文本处理的核心技术,就是把待分文本分解成为若干个基于网绍资源的来登录词扩展研究词条,然后根据某种既定的规则对文本中连续的字串重新组合成新词的过程⋯3。中文分词是搜索引擎以及信息检索不可缺少的根本性工作,因此它是中文信息的各种处理技术中最多使用的手段“引。由于不适用分词技术的处

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。