单汉字检索中的集合索引方法

单汉字检索中的集合索引方法

ID:5382048

大小:154.65 KB

页数:4页

时间:2017-12-08

单汉字检索中的集合索引方法_第1页
单汉字检索中的集合索引方法_第2页
单汉字检索中的集合索引方法_第3页
单汉字检索中的集合索引方法_第4页
资源描述:

《单汉字检索中的集合索引方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第24卷J第7期计算机工程I998~-7月ComputerEngineeringJuly1998’数据库技术及应用·单汉字检索中的集合索引方法莲志堑施伯乐高卫国q2、(复且大学计算机系上海200433)(复且大争数学系上海200433)摘要根}汉字在文献中使用的额度和分布规律,利用图书分类的原则,提出了基于汉字在成组惟续索引号)文献中出现的集合索引7r案。与基于单值表达的常规索引方案作了比较,并对一类短语料进行了实验,给出了部分比较结果以及索引调整的一些分析结果模拟图书分类中汉字非均匀分布的特点,从理论上分析文献索引各参量间的美系分析表明,集合索引法与单值表达索引相比+能够显著提高索引效率

2、,减少索引空间,还可进行随机动态调整。关键词芝汉字耔宇连续廑i4-采,t-艟童Set-basedIndexMetllodfnChineseWordRe订ievalFanZhixinShiBaileGaoWeiguo(DeptofComputerofFudanUniv.Shanghai200433)(DepIofMathematicsofFudanUniv.Shanghai200433)【Abslraet】Chinesewordhasitsownusagefrequencyruleinthetext,slightlydifferentfromEnglishword.Accordingtoth

3、eclass~mtionoftext,thispaperproposedtheset—basedapproachonChinesewordindexFollowingtheresultsofsomeexperimemsoncomparingwiththesingle-valuemethodttheset—basedmethodcanreduceindexspaceandacceleratere.trievespeed,itseficiencycanbeenhancedlater.InthispapertananalyticalmodelWaSestablishedforstudypurpo

4、se.【Keywords】Set—basedindex;Chiwordindex;SuccessiondegreelIlw—N索引结构1集合索引的原理W—N索引所含予表的个数不超过所选用汉字库用s代表集合索引,采用文献索引号表示文献标中汉字的总数+每张予表的表名由表前辍和一个汉字识,有别于文献编目号。这样+既保持了索引与编且内码拼成。由于汉字中常用字出现频率极高,出现在号的逻辑独立.又利于索引的重组及自改善。系统保连续文献索引号的可能性就很大设H(k)表示文献持一张犏目号——索引号对照表,索引号的连续是由索引号为k的文献所包含蚵相异汉字的集合,lH(k系统自动维护的.索引的约束特性如下:(

5、1)一篇文表示集合H(k)所含元素的数目,定义相邻文献的汉献可有多个逻辑序位,每个序位保存一个逻辑最小可字连续度d0】为d6)=_IX(1)~H{I广+IX区分的项(这里指单汉字)+序位自1’开始连续标记;0】如果不考虑语用特性的话,一个序位原则上可放用区间表示燕鳞文献索引号的集麦为任何一个汉字.由此可知,一个汉字可出现在多篇文lowh讪献中,在同一篇文献中可多次出现。文献索引号下界l文献索引号上界索引S包括T和T.1两张表。表T管理这种区间表示不仅符合汉字字频分布和图书分类从汉字到文献索引号的映射,称w—N索引。而表的特点,而且符合查询以集合为单元的特征。实验结T—I管理文献从索引号一汉

6、字到文献内位置的映果表明。与单值表示的索引s相比,不仅节省了空射,称N—w—L索引。w—N索引采用每个汉字一张间,更重要的是提高了检索速度.每一种图书分类都表,单汉字内码嵌在该字所属w—N索引的表名内。使汉字分布具有总体均匀、局部聚集的特性,该结构每张表保存一个汉字出现的所有文献索引号正符合这一特点。此外,由于采用索弓l号,就可以通N-W-L索引与索引V的T2索引相似,不同的是位过对文献按索引号进行调整来提高汉字连续度,而不置用位置集代替,即某字在一篇文献中出现的所有位影响其它书目管理.置都放在一条记录里。例:如果某字出现在文献号103,104,105,注:甘规的交叉索引V包括索引T(w。

7、lN)和T,106,l07,109+124。125中,则有记录(103,w,L)两部分,其中w为汉字tN为文献索引号,L为文107),(109.109),(124,125)献内的位强,T是由汉字查文献号的索引,只有一张表,T:是从文献号查位置的索引。它由若干个子表组成。N保存文献号的较低字节部分,其较高字节部分放在子表的表名中,范志新男,27岁,博士生主要从事知识库研究索引S有不同的实现方案-下面详细讨论其中一种a收稿日

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。