一种web文本的自动提取方法

一种web文本的自动提取方法

ID:33496917

大小:299.20 KB

页数:5页

时间:2019-02-26

一种web文本的自动提取方法_第1页
一种web文本的自动提取方法_第2页
一种web文本的自动提取方法_第3页
一种web文本的自动提取方法_第4页
一种web文本的自动提取方法_第5页
资源描述:

《一种web文本的自动提取方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第24卷第6期2010年12月江苏科技大学学报(自然科学版)JournalofJiangsuUniversityofScienceandTechnology(NaturalScienceEdition)V01.24No.6Dec.2010一种Web文本的自动提取方法印国成1,孙茂圣1,2(I.扬州大学广陵学院,江苏扬州225009)(2.南京航空航天大学信息科学与技术学院,江苏南京210016)摘要:文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的

2、进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理.关键词:网页;文本;格式控制符;分离中图分类号:TP393文献标志码:A文章编号:1673—4807(2010)06—0596—04MethodforautomaticacquisitionoftextfromwebpagesYinGuochen91,SunMaoshen91'2(1.GuanglingColl

3、ege,YangzhouUniversity,YangzhouJiangsu225009,China)(2.SchoolofInformationScienceandTechnology,NanjingUniversityofAeronauticsandAstronautics,NanjingJiangsu210016,China)Abstract:TextistheleadingsourceofknowledgeinWeb.However,theexistingWebpagewiththehtmlex-pressionm

4、ixestextcontentandformatcontr01.Thishinderstheprocessofknowledgeacquisition.ThispaperpresentedaseparationmethodofthecontroloftextandformatorientedWebpage,analyzingthehtmlfileandfil-teringalloftheformattingcontrolcodestogetapageofplaintextcontent.Themethodisunivers

5、alandinde.pendentoflanguageanddomainofthetext.Also,itcanbeusedforthepretreatmentofWebknowledgeacquisi·tion.Keywords:webpage;text;characterofformatcontrol;acquisitionWeb是一个“海量知识库”,其知识的组织方式杂乱无章⋯.html把Web上信息的内容和格式控制符混合在一起,其组织方式不具有结构性,严重阻碍了信息的机器可读、共享和互操作【2“J.现有的Web挖掘研

6、究热点包括Web内容挖掘和Web使用挖掘.前者侧重Web知识的获取,后者注重Web使用过程中相关的数据挖掘怕J.Web挖掘涉及的基本方法和技术包括聚类Mj、关联规则‘"、序列模式‘8I、分类‘91、依赖性建模‘21、统计分析等‘101.领域知识获取主要针对指定网站进行,在In.temet中找到想要的资源,进行资源整理和信息重组.提取网页信息的目的主要有2个:①进行比较分析,帮助用户进行决策;②收集信息,集中管理资源¨1

7、.本文属于Web内容挖掘研究范畴,拟获取Web页面中的纯文本信息,过滤网页的格式控制符.它作为Web知识

8、获取的预处理,为Web知识挖掘奠定了基础.1问题描述html文件是当前Web网页的主流形式,此类文件通过Dreamweaver,FrontPage,UltraEdit,Axure等开发工具生成,并可部署到http服务器.用户可以通过多种网页浏览器阅读图文并茂的Web页收稿日期:2010—09—08基金项目:江苏省自然科学基金资助项目(BK2009699)作者简介:印国成(1972一),男,江苏泰兴人,工程师,研究方向为现代教育技术及数据挖掘.E-mail:ygc—yz@163.eonl万方数据第6期印国成,等:一种Web文

9、本的自动提取方法597面,获得自己需要的信息.海量的Web页面蕴含了人类95%以上的知识,因此Web页面也正成为知识工程领域最为关注的知识源.网页的编写语言html是一种标记性语言.这种标记性语言的特点在于每一个标记都用<>来固定,而没在<>中的文字大部分是显示在网页上的信息.知识工程师关注Web页面中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。