永发信息网

英文句子相似度算法,如何进行相似度的计算,主要用什么方式

答案:1  悬赏:20  手机版
解决时间 2021-05-02 05:52
英文句子相似度算法,如何进行相似度的计算,主要用什么方式
最佳答案
如何计算句子的语义相似度,很容易想到的是向量空间模型(VSM)和编辑距离的方法,比如A:“我爸是李刚”,B:“我儿子是李刚”,利用VSM方法A(我,爸,是,李刚)B(我,儿子,是,李刚),计算两个向量的夹角余弦值,不赘述;编辑距离就更好说了将“爸”,“儿子”分别替换掉,D(A,B)= replace_cost;
这是两种相当呆的方法,属于baseline中的baseline,换两个例子看一下就知道A:“楼房如何建造?”,B:“高尔夫球怎么打?”,C:“房子怎么盖?”,如果用VSM算很明显由于B,C中有共同的词“怎么”,所以BC相似度高于AC;编辑距离同理;
解决这种问题方法也不难,只要通过同义词词典对所有句子进行扩展,“如何”、“怎么”,“楼房”、“房子”都是同义词或者近义词,扩展后再算vsm或者edit distance对这一问题即可正解.这种方法一定程度上解决了召回率低的问题,但是扩展后引入噪声在所难免,尤其若原句中含有多义词时.例如:“打酱油”、“打毛衣”.在汉字中有些单字词表达了相当多的意义,在董振东先生的知网(hownet)中对这种类型汉字有很好的语义关系解释,通过hownet中词语到义元的树状结构可以对对词语粒度的形似度进行度量.
问题到这里似乎得到了不错的解答,但实际中远远不够.VSM的方法把句子中的词语看做相互独立的特征,忽略了句子序列关系、位置关系对句子语义的影响;Edit Distance考虑了句子中词语顺序关系,但是这种关系是机械的置换、移动、删除、添加,实际中每个词语表达了不同的信息量,同样的词语在不同词语组合中包含的信息量或者说表达的语义信息大不相同.What about 句法分析,计算句法树的相似度?这个比前两种方法更靠谱些,因为句法树很好的描述了词语在句子中的地位.实际效果要待实验证实.
对了,还有一种方法translation model,IBM在机器翻译领域的一大创举,需要有大量的语料库进行训练才能得到理想的翻译结果.当然包括中间词语对齐结果,如果能够利用web资源建立一个高质量的语料库对两两相似句对通过EM迭代词语对齐,由词语对齐生成句子相似度,这个.想想还是不错的方法!
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
请问能不能告诉我 买个电脑大概多少钱
10界文科356能上什么好点的浙江省的专科学校
如何建立一个网店?简单说点步骤就可以
三星平板怎么三清,三星平板怎么三清啊!
有那种可以把答案设置成一个迷的软件没?
不知道什么时候手机上也能玩QQ农场?
浦林机砖厂在什么地方啊,我要过去处理事情
讲真的:一个陌生的地方,一个不熟悉的地方,
dnf几时江苏1区可以在转区到5区啊
高三第一轮复习好的教辅书有哪些? 2011内蒙
没有结果的爱情,该放手吗?
为什么我家没次打开QQ空间应用都弹出输入密码
视频聊天信号不好是什么问题?
仿写打比方的句子大全,照样样子,仿写打比方的
网游《天龙八部》明教89怎样打宝石,怎样加点
推荐资讯
快男巡演的时间
水泉沟我想知道这个在什么地方
梦幻地府怎么加点好?我不要极端加法!
跑酷的基本训练有几项?
天龙八部里的珍兽。冰妖那些BB是哪里的啊?
如何自己清洗银饰啊。
软件问题~~~~~~~~~
今天穿什么好呢?
集合和函数问题
求GBA爆转陀螺2002青龙之章金手指代码
“我感动天、感动地、怎么感动不了你”是什么
爱就爱— —陈好 好听麽?
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?