资源描述:
《基于SVM的汉语问句分类研究【开题报告】》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、毕业设计开题报告计算机科学与技术基于SVM的汉语问句分类研究一、选题的背景与意义如今已是网络信息爆炸的时代,信息浩如烟海,人们对于网络的普遍需求是怎样快速寻找到自己想要的信息。尽管目前有比较知名的搜索引擎如百度、谷歌、雅虎等,但是都存在很多不足,而对于更加准确、高效、人性的智能检索系统的研发成为人们迫切的愿望。自动问答(QuestionAnswering,QA)系统,是指系统接受用户以自然语言形式描述的提问,随后能够从大量的数据中查找出并且为用户返回一个简洁、准确的答案。问答系统是目前自然语言处理领域一个非常热门的问题,它被认为是新一代智能检索系统。不同的问答系统具有不同的结构,但大部分
2、系统有着相同的框架,包括问句理解、信息检索和答案抽取三部分。问题理解虽然是问答系统的一个子过程,但却是第一个重要的模块,这直接影响到了信息检索和答案选取的正确率。因此,找出能够良好识别汉语问句的方法,将使中文自动问答系统朝着应用于多领域的普遍方向发展。特征选取是问句分类中最关键的一部分,这与文本分类有很多相似的地方,但是除了提取问句中的词、词性、语块句法特征外,还需提取问句中一些隐含的语义特征。目前流行的方法有识别同义词、关联词,计算语义相似度和语义相关度,语义块和命名实体识别。对于问句分类方法的研究,目前主要集中在两个方面,一是基于规则的方法,通过专家提取各种问句类型的疑问词与其他相关
3、词组合的特征规则,通过规则来判定问句所属类型。另一种是通过统计的方法实现问句的分类,通过对真实的经过标注的问句语料进行统计学习,提取能表达各种问句类型的特征规则,建立学习模型,实现各种问句的类型识别。二、研究的基本内容与拟解决的主要问题:汉语问句分类目标是根据实际问句特征将其归为一定集合的汉语问句类型中的一种,本文的分类标准参考文献[9]中的问句分类体系,将汉语问句分成50多个类型,两个层次,第一层分为6个大类,每个大类下又分多个小类,具体见表1。表1问句分类体系大类小类缩写缩写表达式人物特定人物团体机构人物描述人物列举其他地点星球城市国家大陆省河流湖泊山脉海洋岛屿其他数量编码总数价格百
4、分比速度温度年龄距离重量面积范围顺序频率其他时间日期时间时间范围时间列举其他实体动物植物食物身体事件机械交通工具语言宗教货币颜色其他描述定义描述方式原因其他描述需要解决的问题是:1)特征选取是问句分类中关键的一部分,和文本分类有许多类似的地方,但是问句中包含较少的词,所有又有不同。特征选取的方法有句法特征选取和语义特征选取。2)问句分类算法采用统计学的机器学习算法,如K近邻算法(KNN),简单贝叶斯(NB),决策树(DT),支持向量机(SVM)等等,实现对特征集的分类。3)数据集利用问句事件抽取器(CQEE)提取哈工大问题集和TREC免费问题集中的一部分,并根据表1的问句分类体系选择若干
5、小类进行测试。三、研究方法与技术路线1、句法特征选取词是句子的最基本的组成单位,一个句子是由多个词组成,词性是分析句子结构的基础,因此选择词和词性作为基本的特征空间.词或词性特征的提取相对比较容易,采用中科院计算所开发的分词和词性标注工具ICTCLAS对问句进行词切分和词性标注,其中词性标注按照北大的词性标注集规范进行。2、用支持向量机(SVM)进行统计分类SVM分类器中的特征都是数字型,为此必须对特征进行编码,将其转化为数字型,并提取相应编码项的特征值,作为LIBSVM的训练特征向量输入.其向量输入格式为:〈label〉〈index1〉:〈value1〉〈index2〉:〈value2
6、〉⋯⋯〈indexn〉:〈valuen〉,其中label为问句相应类别的编号,〈index〉是问句中特征定义的编号,〈value〉为其对应的特征项的特征值.对于每一个问句,要求提取出一个上面表达形式的特征向量用于训练和测试.问句分类器选取了语义相似度的特征,因此对该特征进行编码,即确定〈index〉项序号和具体特征之间的对应关系.特征编码要借助于问句类别表、FAQ标准问句库、中科院词表。特征编码确定后,对于每一个问句只需确定这个特征编号(Index)在问句中对应的特征值(Value),对选取特征只取两个值(0或1).。对问句与标准问句库进行相似度计算后,判断该问句是否包含相关特征项.若问
7、句中出现该对应编码的特征,则对应的特征值为1,否则为0。然后对每一个训练和测试问句构建出一个表达问句的SVM特征向量。按照上述方式构造分类器的问句特征维数很大,SVM能够处理高维特征,但是训练时间较长。四、研究的总体安排与进度:2010-2011第一学年:12月20日-1月9日:查阅相关书籍资料,对于中文自动问答系统作整体上的了解。1月10日-2月16日:学习基于词和词性的句法特征选择方法和SVM算法的分类方法。2010-2011第