基于web的企业产品信息抽取系统设计与实现

ID：34344515

大小：1.17 MB

页数：78页

时间：2019-03-05

资源描述：

《基于web的企业产品信息抽取系统设计与实现》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA工程硕士学位论文ENGINEERINGMASTERDISSERTATION论文题目基于Web的企业产品信息抽取系统设计与实现工程领域指导教师作者姓名软张件帆谭工博锋程士学号200892330011分类号UDC注1密级学位论文基于Web的企业产品信息抽取系统设计与实现（题名和副题名）谭锋（作者姓名）指导教师姓名张帆博士电子科技大学成都金栋林副教授湖州职业技术学院湖州（职务、

2、职称、学位、单位名称及地址）申请专业学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2010.10.1论文答辩日期2010.10.17学位授予单位和日期电子科技大学答辩委员会主席评阅人2010年10月20日注1：注明《国际十进分类法UDC》的类号独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。

3、与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名：谭锋日期：2010年9月10日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后应遵守此规定）签名：谭锋导师签名：日期：2010年9月10日摘要摘要在万维网的Web页中，蕴藏着大量

4、的可为我们所用的信息。如何快速、准确地从这些Web页中找到并提取出我们所需要的信息，己经成为当前最热门的研究课题之一。随着Web信息抽取技术研究的不断深入和逐渐成熟，开发基于Web的信息抽取系统或为现有软件增加Web信息抽取功能已成为一些企业的迫切需要。本课题正是根据一个企业的实际应用开发需求而提出的。论文介绍了课题的背景和意义，Web信息抽取系统的研究现状，课题的主要研究内容，介绍了基于Web的信息抽取系统的设计与开发所涉及主要相关技术。这些技术主要包括HTML文档和XML文档的结构剖析，将HTML文档转换为XML文档格

5、式的转换方法，正则表达式的书写语法及其在HTML文档标签清理操作中的作用和使用方法，使用.NETFramework平台提供的XML相关类操作访问XMLDOM对象的方法，使用.NETFramework提供的XPath数据模型对XML文档进行定位及抽取数据的编程方法，使用ADO.NET操作访问数据库的方法等。在此基础上，针对一个企业的实际项目开发需求，详细阐述了基于Web的企业产品信息抽取系统项目的设计与开发过程，包括系统需求分析、系统设计、系统实现、系统测试等。本课题实现的Web信息抽取系统具有友好的用户界面，具有URL管理

6、、规则管理、数据抽取、数据管理、用户管理5大功能。使用本系统，用户可以通过输入URL浏览网页内容，可以通过添加URL使含有所需信息的Web页成为待抽取的目标页。系统可以根据用户设定的URL下载HTML文档到本地机器中，并使用网页解析器将HTML文档转换为XML格式，使用.NETFramework的正则表达式类清理XML文档中多余的HTML标签。系统使用XMLDOM模型对象加载XML文档生成DOM树，然后在窗体界面上以树形方式展示XML文档数据，并提供交互方式让用户对需要抽取的信息进行标记以生成抽取规则。在抽取操作时，系统使

7、用XPath数据模型建立抽取规则，使用.NETFramework相关XML类实现数据抽取，并将提取的数据存入到创建的SQLServer数据库表中，供用户进行查询和分析使用。该系统具备了Web信息抽取所需要的基本功能，具有较好的实用I摘要价值，再经过进一步的功能完善，即可在企业实际应用。关键词：Web信息抽取，HTML，XML，DOM，抽取规则，XPathIIABSTRACTABSTRACTWorldWideWebbearsaconsiderableamountofusefulinformationforus.Howtoqu

8、icklyandaccuratelyfindtheinformationweneed,whichhasbecomeoneofthemostpopularresearchtopics.WiththedevelopmentoftheWebinformationextractiontechnology,the

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 78



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于web的企业产品信息抽取系统设计与实现

基于web的企业产品信息抽取系统设计与实现

相关文章

相关标签