基于句子关系的网页主题文本抽取

基于句子关系的网页主题文本抽取

ID:38154174

大小:451.39 KB

页数:5页

时间:2019-05-29

基于句子关系的网页主题文本抽取_第1页
基于句子关系的网页主题文本抽取_第2页
基于句子关系的网页主题文本抽取_第3页
基于句子关系的网页主题文本抽取_第4页
基于句子关系的网页主题文本抽取_第5页
资源描述:

《基于句子关系的网页主题文本抽取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:基于句子关系图的网页文本主题句抽取[J],现代图书情报技术,2009(3):57-61.总第176期2009年第3期基于句子关系图的网页文本主题句抽取何维王宇(大连理工大学管理学院大连116024)【摘要】针对网页文本结构信息少、噪声大的特点,将句子看作点,将句子间的相似性看作边,用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典,将句子相似度定义为句子语义相似度,解决短文本词频相似度低的问题。选用互联网

2、公开语料进行测试,抽取的主题句达到平均80.6%的可接受性。【关键词】主题句句子关系图句子相似度【分类号】TP391ExtractingTopicSentencesformWebTextBasedonSentenceRelationshipMapHeWeiWangYu(SchoolofManagement,DalianUniversityofTechnology,Dalian116024,China)【Abstract】ConcerningtheissuesofWebtextwithlittlestructur

3、einformationandbignoise,sentencesareviewedasnodesandsimilaritiesbetweenthemareviewedasedges,arelationshipmapisusedtodescribetherelationshipbetweensentences.Topicsentencesofatextcanbegotthroughsearchingthenodeswhichhavemostofedges.Usingthesemanticdictionary,s

4、entencesimilarityisdefinedasitssemanticsimilaritytoaddresstheproblemoflowwordfrequencysimilarityofshorttext.Aninternetpubliccampusischosentotakeatest,80.6%acceptabilityhavebeenachieved.【Keywords】TopicsentenceSentencerelationshipmapSentencesimilarity1引言主题句是表示

5、文本主题的一种重要方式,主题句抽取是文本自动处理的基础工作,在文本自动摘要、信息检索、文本分类等领域应用广泛。有效的给句子赋予权重是主题句抽取的关键。张云涛、龚玲等将概念关系引入词串的权重计算,同时综合考[1]虑句子的位置、句子长度、文本层次结构等信息进行了主题句抽取;马颖华、王永成等根据汉语文本切分困难的特点,结合信息论方法,以字同现频率为基础,统计句(段)的信息量,作为权重对句子进行排序,抽取主题句[2][3][4][5](段);廉站俊、吕学强等结合句子相似度对预先确定的主题类别进行抽取;孙宏纲、陈炯分别将

6、主题句抽取应用于具体的领域,取得了不错的效果;蔡巍、王永成等根据传统基于词典的方法在Web网页主题抽取上的缺[6]点,提出利用文本结构信息的无需词典的方法。这些方法在实际中取得了一定的成功,但赋权依赖句子的位置、句中主题词等信息,处理起来比较麻烦。选出的句子是主题句,但不是覆盖文本内容最广的主题句。[7,8][9]Salton研究文本的切分对于检索效果的影响中使用了文本关系图。国外MandarMitra,国内薛翠芳、郭收稿日期:2008-12-29收修改稿日期:2009-01-21本文系国家自然科学基金项目“

7、企业(组织)知识管理中的若干基础科学问题研究”(项目编号:70431001)的研究成果之一。XIANDAITUSHUQINGBAOJISHU57知识组织与知识管理[10]炳炎运用文本关系图对文本结构进行分析,在此基当然,与其他句子关系边多的句子可能内容有重础上进行主题段抽取。文本关系图是一种描述文本之复,所以抽取的时候需要将内容重复度(相似度)超过间关系的形式化模型。主题句应该是文本中覆盖内容阀值的句子去除,这样同一主题尽可能挑选内容不一最广的句子,这些句子最能代表文本的内容。结合样的句子,合理的选择阀值可以避

8、免较小主题的句子Web文本结构信息较少的特点,可以用句子关系图描因连接边少而无法被选上。述文本中句子之间的关系,进行主题句抽取,这样就可3句子相似度的定义以避免统计句子的位置信息和词的权重信息。为建立句子关系图,需要计算句子之间的相似度。中文是意合语言,句法上比较宽松,词之间的顺序[11]句子相似度在基于实例的机器翻译(ExampleBased不是最重要的。机器翻译和自动问答领域关心的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。