永发信息网

什么是基于索引搜索 动态分配算法

答案:1  悬赏:80  手机版
解决时间 2021-04-27 11:56
什么是基于索引搜索 动态分配算法
最佳答案
倒排索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件。建立全文索引中有两项非常重要,一个是如何对文本进行分词,一是建立索引的数据结构。分词的方法基本上是二元分词法、最大匹配法和统计方法。索引的数据结构基本上采用倒排索引的结构。
分词的好坏关系到查询的准确程度和生成的索引的大小。在中文分词发展中,早期经常使用分词方式是二元分词法,该方法的基本原理是将包含中文的句子进行二元分割,不考虑单词含义,只对二元单词进行索引。因此该方法所分出的单词数量较多,从而产生的索引数量巨大,查询中会将无用的数据检索出来,好处是算法简单不会漏掉检索的数据。之后又发展出最大匹配分词方法,该方法又分为正向最大分词和逆向最大分词。其原理和查字典类似,对常用单词生成一个词典,分析句子的过程中最大的匹配字典中的单词,从而将句子拆分为有意义的单词链。最大匹配法中正向分词方法对偏正式词语的分辨容易产生错误,比如“首饰和服装”会将“和服”作为单词分出。达梦数据库采用的是改进的逆向最大分词方法,该分词方法较正向正确率有所提高。最为复杂的是通过统计方式进行分词的方法。该方法采用隐式马尔科夫链,也就是后一个单词出现的概率依靠于前一个单词出现的概率,最后统计所有单词出现的概率的最大为分词的依据。这个方法对新名词和地名的识别要远远高于最大匹配法,准确度随着取样文本的数量的增大而提高。
二元分词方法和统计方法是不依赖于词典的,而最大匹配法分词方法是依赖于词典的,词典的内容决定分词结构的好坏。
全文检索的索引被称为倒排索引,之所以成为倒排索引,是因为将每一个单词作为索引项,根据该索引项查找包含该单词的文本。因此,索引都是单词和唯一记录文本的标示是一对多的关系。将索引单词排序,根据排序后的单词定位包含该单词的文本。
步骤1)读取一整条句子到变量str中,转到步骤2

步骤2)从句子的尾端读取1个字到变量word中,转到步骤3

步骤3)在字典查找word中保存的单词。如果存在则保存word,转到步骤4,否则转到步骤5)

步骤4)如果是字典中最大单词或者超过最大单词数(认定为新词),从句尾去掉该单词,返回步骤2

步骤5)读取前一个字到word中,构成新单词,转到步骤3)

词库的内存数据结构和词库中单词的匹配算法

内存中单词采用层次结构保存
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
求孙燕姿的《全心全意》歌词?
梦幻广4流溪河
今天中午好似多喝了,现在头好痛,哪位哥们能
弹弹堂武器强化
如果一个人老对你隐身,你上它下,还需要留着它
收藏夹文件被占用
QQ农场什么时候能面向所有手机QQ空间普通用户
华德龙广告装潢地址在哪,我要去那里办事
去天津空港旧机动车交易市场!从京津城铁下来
wow联盟 闪金镇附近哪有卖包的??
谁QQ飞车最有钱请告诉我
卫星锅什么时候能看
我是1990年12月06日出生的,(阴历)请问这生
吃石榴籽对人体有什么坏处
西方哲学家名言英语版,经典西方哲学家名人名
推荐资讯
童勇机械加工这个地址在什么地方,我要处理点
谁知道 空15军 特种大队 现在驻地在那?
为什么摁两次发送才能发出去?
旧街场白咖啡好喝吗
跪求第一首歌曲名
老长虹凉皮总店这个地址在什么地方,我要处理
关于话费的问题
Is looks ( )Sam will be late again.
为什么我的电脑内存使用这么多。卡死了
免费的财务软件下载网址
口才好从事什么职业比较好
飞车怎么能一直漂移到终点?教我下谢谢
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?