资源描述:
《模式匹配论文:基于内容的internet web中文信息过滤》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、模式匹配论文:基于内容的InternetWeb中文信息过滤【中文摘要】本论文研究的主要内容为基于内容的中文网络信息过滤。在论文的撰写过程中,首先深入研究了模式匹配中的一些经典算法,包括算法流程,匹配思想以及时空性能。并对英文语境进行了分析,了解到在英文中字母使用较平均的特点。经典模式匹配算法之所以有着良好的性能,正是由于其充分利用了英文语境的这一特点。但在对中文语境进行分析之后可发现,中文语言特点与英文有着极大的不同,主要表现为中文语境中汉字使用频率分布极为不平衡。因此将适用于英文语境的模式匹配算法直接移植到中文语境当中并不可取。本文充分利用了中
2、文语境的特点,改进了经典的模式匹配算法,根据汉字使用频率调整了字符串匹配中的比较顺序,从而使得算法效率得到了提高,并通过实验加以验证,证实了改进的正确性与合理性。此外,中文语境中存在着一些更为独特的特点,本文针对其中的同音字、形近字这一现象,利用它们发音相似的特点,提出了一种利用拼音转换提高匹配准确率的方法。相比字符串直接匹配的方法,这种方法显得更加智能,更加面向使用计算机的人,而非计算机。同样,拼音转换的方法也通过实验得到了验证。最后,本文通过编程实现了一个小型的代理服务器,并将改进后的模式匹配算法与拼音转换算法嵌入程...【英文摘要】Them
3、aincontentsofthispaperaretofilterChineseinformationinthenetwork.Firstly,IresearchedsomeclassicalgorithmsinthefieldofPatternMatchingincludingtheprocessofthealgorithm,theideaofthematchingandtheperformanceoftimeandspace.AftertheanalysisofEnglishcontext,Ifindthatthefrequencyoflet
4、terusinginEnglishissoaveragethattheclassicalgorithmscouldhaveagoodperformance.However,aftertheanalysisofChinesecontext,thereisagreatdifferencebetwee...【关键词】模式匹配内容过滤拼音转换代理服务器【英文关键词】PatternMatchingContentFilteringPINYINTransferringProxyServer【目录】基于内容的InternetWeb中文信息过滤致谢5-6中文摘要6
5、-7ABSTRACT7序8-111引言11-141.1研究背景与意义11-121.2研究内容121.3论文组织结构12-142相关内容介绍14-262.1模式匹配技术14-172.1.1模式匹配定义142.1.2模式匹配分类142.1.3模式匹配应用领域14-152.1.4模式匹配发展15-172.2模式匹配算法17-232.2.1单模式匹配算法17-202.2.2多模式匹配算法20-232.3过滤系统介绍23-262.3.1现有产品介绍23-242.3.2过滤系统发展趋势24-263基于中文语境的过滤系统设计26-453.1过滤系统组成模块26
6、-273.2系统模块设计27-293.2.1数据抽取273.2.2词典维护27-283.2.3文本处理28-293.2.4审核过滤293.3算法设计29-393.3.1拼音转换算法29-313.3.2改进的模式匹配算法31-393.4算法性能分析39-454基于中文语境的过滤系统实现45-574.1系统介绍45-464.2系统实现46-524.2.1系统界面46-484.2.2内存管理48-494.2.3词典维护49-504.2.4数据抽取504.2.5文本处理50-514.2.6审核过滤514.2.7其他主要函数51-524.3系统功能测试52
7、-575结论57-585.1工作总结575.2下一步展望57-58参考文献58-60附录A60-65作者简历65-67学位论文数据集67