欢迎来到天天文库
浏览记录
ID:38154174
大小:451.39 KB
页数:5页
时间:2019-05-29
《基于句子关系的网页主题文本抽取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:基于句子关系图的网页文本主题句抽取[J],现代图书情报技术,2009(3):57-61.总第176期2009年第3期基于句子关系图的网页文本主题句抽取何维王宇(大连理工大学管理学院大连116024)【摘要】针对网页文本结构信息少、噪声大的特点,将句子看作点,将句子间的相似性看作边,用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典,将句子相似度定义为句子语义相似度,解决短文本词频相似度低的问题。选用互联网
2、公开语料进行测试,抽取的主题句达到平均80.6%的可接受性。【关键词】主题句句子关系图句子相似度【分类号】TP391ExtractingTopicSentencesformWebTextBasedonSentenceRelationshipMapHeWeiWangYu(SchoolofManagement,DalianUniversityofTechnology,Dalian116024,China)【Abstract】ConcerningtheissuesofWebtextwithlittlestructur
3、einformationandbignoise,sentencesareviewedasnodesandsimilaritiesbetweenthemareviewedasedges,arelationshipmapisusedtodescribetherelationshipbetweensentences.Topicsentencesofatextcanbegotthroughsearchingthenodeswhichhavemostofedges.Usingthesemanticdictionary,s
4、entencesimilarityisdefinedasitssemanticsimilaritytoaddresstheproblemoflowwordfrequencysimilarityofshorttext.Aninternetpubliccampusischosentotakeatest,80.6%acceptabilityhavebeenachieved.【Keywords】TopicsentenceSentencerelationshipmapSentencesimilarity1引言主题句是表示
5、文本主题的一种重要方式,主题句抽取是文本自动处理的基础工作,在文本自动摘要、信息检索、文本分类等领域应用广泛。有效的给句子赋予权重是主题句抽取的关键。张云涛、龚玲等将概念关系引入词串的权重计算,同时综合考[1]虑句子的位置、句子长度、文本层次结构等信息进行了主题句抽取;马颖华、王永成等根据汉语文本切分困难的特点,结合信息论方法,以字同现频率为基础,统计句(段)的信息量,作为权重对句子进行排序,抽取主题句[2][3][4][5](段);廉站俊、吕学强等结合句子相似度对预先确定的主题类别进行抽取;孙宏纲、陈炯分别将
6、主题句抽取应用于具体的领域,取得了不错的效果;蔡巍、王永成等根据传统基于词典的方法在Web网页主题抽取上的缺[6]点,提出利用文本结构信息的无需词典的方法。这些方法在实际中取得了一定的成功,但赋权依赖句子的位置、句中主题词等信息,处理起来比较麻烦。选出的句子是主题句,但不是覆盖文本内容最广的主题句。[7,8][9]Salton研究文本的切分对于检索效果的影响中使用了文本关系图。国外MandarMitra,国内薛翠芳、郭收稿日期:2008-12-29收修改稿日期:2009-01-21本文系国家自然科学基金项目“
7、企业(组织)知识管理中的若干基础科学问题研究”(项目编号:70431001)的研究成果之一。XIANDAITUSHUQINGBAOJISHU57知识组织与知识管理[10]炳炎运用文本关系图对文本结构进行分析,在此基当然,与其他句子关系边多的句子可能内容有重础上进行主题段抽取。文本关系图是一种描述文本之复,所以抽取的时候需要将内容重复度(相似度)超过间关系的形式化模型。主题句应该是文本中覆盖内容阀值的句子去除,这样同一主题尽可能挑选内容不一最广的句子,这些句子最能代表文本的内容。结合样的句子,合理的选择阀值可以避
8、免较小主题的句子Web文本结构信息较少的特点,可以用句子关系图描因连接边少而无法被选上。述文本中句子之间的关系,进行主题句抽取,这样就可3句子相似度的定义以避免统计句子的位置信息和词的权重信息。为建立句子关系图,需要计算句子之间的相似度。中文是意合语言,句法上比较宽松,词之间的顺序[11]句子相似度在基于实例的机器翻译(ExampleBased不是最重要的。机器翻译和自动问答领域关心的
此文档下载收益归作者所有