欢迎来到天天文库
浏览记录
ID:27843173
大小:48.00 KB
页数:8页
时间:2018-12-06
《开题报告-搜索引擎中文分词算法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、1.本课题的研究意义,国内外研究现状、水平和发展趋势1.1研究意义本课题的研究意义,国内外研究现状、水平和发展趋势众所周知,英文以词为单位,以空格隔开,而中文以字为单位,连字成句才能描述一个完整的意思。计算机可以很容易地理解英文单词,而对由词组成的屮文句子,必须通过屮文分词技术才得以理解。把中文的汉字序列切分成有意义的词,即中文分词,乂称切词。屮文分词技术是信息处理领域屮的重要技术,也是屮文搜索引擎屮必须耍用到的技术。中文分词就是将中文连续的字序列按照一定的规则重新组合成词序列的过程。其作为中文信息处理的基础,己经被广泛
2、应用于相关领域。1・2国内外研究现状、水平和发展趋势中文自动分词己经被研究了二十多年,但是目前仍然是制约汉语信息处理发展的一个瓶颈。它主要存在语言学和计算机科淫等两方而的困难。语言学方面的困难有:(1)词的定义不统一,语言学界对词还没有给出一个为大家广泛接受的、严格且统一的非形式定义。(2)汉语的分词还没有形成一个公认的分词标准。这是人和计算机共同面临的困难。同一文本可能被不同的人划分为几种不同的分词结果。(3)词的具体判定问题还没有完全解决。尽管《信息处理用现代汉语分词规范》提出了分词单位和一套比较系统的分词规则,但是
3、由于真实文本的复杂性和多样性,实践与理论之间的重大差异,仍然没有能够有彻底的解决办法。(4)汉语词与词之间不像西文那样有明显的分隔符(如空格等),也不像日文那样冇丰富的词尾变化(如H语屮的片假名和平假名构成了书而H语的词尾变化)。(5)新词在不断增加(如人名、地名、新产生的词、外來词等)。计算机方面的困难冇:(1)没有合理的自然语言形式模型。(2)如何有效地利用和表示分词所需的语法知识和语义知识。(3)如何对语义进行理解和形式化。1.本课题的基本内容和要求,关键问题及其解决的方法和措施2.1基本内容口动分词系统的最核心的
4、工作是进行分词。对于一个实用化的分词系统而言,不仅要求在分词速度和分词精度方面满足一定的要求,而且要像开发大型传统软件那样,在各个阶段不断地进行评价,其口的主要是检查它的准确性和实用性,分词系统的性能指标主要有以下儿个方面:(1)分词精度分词精度是指切分的止确率。它是口动分词系统的一个重要技术指标。由于中文文本是按句连写,词间无空格,因而在中文文本处理中,首先遇到的问题是词的切分问题。分词的正确率将直接影响更高一级的处理。影响分词正确率的主要因素有两个:歧义切分问题和中文姓名、地名、机构名等专有名词的识别。为了捉高分词系
5、统切分正确率,应该从整体性能,歧义处理和专业词识别等三个方面进行性能测试。(2)分词速度分词速度是指单-位吋间内所处理的汉字个数。在分词正确率基木满足要求的情况下,切分速度是另一个很重要的指标,特别对于算法不单一,使用了辅助(如联想,基丁•规则的,神经网络,专家系统等)方法更应注意这一点。影响分词速度的因素有:汉字吊机械切分时杳词典的时间、歧义字段的查找和歧义字段的校正。通常中文信息处理的文本数量是相当大的,因此必须考虑方法是否能使系统总开销合理。在人机交互方式下处理歧义问题的策略和人机接口的设计,有吋会严重地影响切分速
6、度,这也是应考虑的因素。(3)功能完备性口动分词系统除了完成分词功能外,还应具备词库增删、修改、查询和批处理等功能。(4)可维护性该属性包描改正性维护、适应性维护和完善性维护等。这是提供数拯存储和计算功能扩充要求的软件屈性,包括词库的存储结构,输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性以及ii描述性等软件质量准则有直接的联系,对于研究实验性质的软件是非常重的,因为这类软件需要不断提高与改进,使之适应屮文信息处理的各种应用。(5)可移植性可移植性是指应用系统能从一个计算机系
7、统或环境转移到另一个系统或环境的容易程度。一个好的分词系统不应该只能在一种环境下运行,而应该稍作修改便可在另一种环境下运行,使它更便于推广。2.2基木要求a.算法基础(1)分析需求,尝试确定变量数量、名称和类型。(2)根据给定的算法或流程图,分析各变量的功能及变量Z间的关系。(3)根据需要,合理、有效地运用变量和运算符,书写表达式。b.有效运用算法的三种结构解决问题(1)设计算法,有效运用顺序结构、分支结构和循环结构解决问题。(2)冇效运用计数器、累加器、累乘器解决问题。(3)合理运用三种算法结构的组合解决问题(如:分支
8、欧套结构、循环欧套分支结构、双重循环结构)。c.算法实例(1)分析问题,包扌乩输入、输出和处理的要求。(2)设计算法,包括:枚举法、解析法、冒泡排序、顺序查找等算法。(3)有效使用流程图表达算法(或使用伪代码、程序语言实现算法)o(4)根据给定的算法或流程图,推测算法的功能。(5)根据流程图,预测算法的执行结果。(6
此文档下载收益归作者所有