关于SimHash如何保证指纹的唯一性?
答案:1 悬赏:80 手机版
解决时间 2021-11-19 23:07
- 提问者网友:爱唱彩虹
- 2021-11-19 18:15
关于SimHash如何保证指纹的唯一性?
最佳答案
- 五星知识达人网友:话散在刀尖上
- 2021-11-19 19:19
1): 计算simHash码
a). 字符串String分词得到tokens;
b). 计算每个tokens的64位Hash码;
c). 按Hash码的位进行标记,1则标记为1、否则标记为-1;
d). 把每个tokens的Hash码按位进行统计求和;
e). 进行签名,大于0则为1,否则为0,得到64位simHash指纹。
2): 把64位simHash码均分为汉明距离n+1块,方便后续查找的所有近邻simHash码;
3): 计算两个simHash码的汉明距离,
方法一:给出simHash的64位二进制码字符串:str1.charAt(i) != str2.charAt(i);
方法二:给出simHash的int值:先做异或,然后统计异或后二进制位数为1的个数追问您好,我想问的是,汉字如何通过hash算法得到hash码?另外如何保证不同的关键词得到不同的hash码的?
a). 字符串String分词得到tokens;
b). 计算每个tokens的64位Hash码;
c). 按Hash码的位进行标记,1则标记为1、否则标记为-1;
d). 把每个tokens的Hash码按位进行统计求和;
e). 进行签名,大于0则为1,否则为0,得到64位simHash指纹。
2): 把64位simHash码均分为汉明距离n+1块,方便后续查找的所有近邻simHash码;
3): 计算两个simHash码的汉明距离,
方法一:给出simHash的64位二进制码字符串:str1.charAt(i) != str2.charAt(i);
方法二:给出simHash的int值:先做异或,然后统计异或后二进制位数为1的个数追问您好,我想问的是,汉字如何通过hash算法得到hash码?另外如何保证不同的关键词得到不同的hash码的?
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯