永发信息网

如何实现拼音与汉字的互相转换,拼音汉字转换器彝

答案:2  悬赏:20  手机版
解决时间 2021-12-28 22:09
如何实现拼音与汉字的互相转换,拼音汉字转换器彝
最佳答案
基于词库的汉字转拼音

词库中既要包含每个字的拼音,也要包含常用单词/短语的读音。有些字是多音字,所以至少要保存其最常用的读音,不常用的读音多出现在单词短语里。
你好世界杯
我们的词库是这样子的:
你:nǐ
好:hǎo,hào
世:shì
界:jiè
杯:bēi
世界:shì,jiè
你好:nǐ,hǎo
苦尽甘来:kǔ,jìn,gān,lái
词库中最长的词 苦尽甘来 包含4个字。所以 你好世界杯 从4个字开始匹配:

判断 你好世界 是否在词库中,不在;


判断 你好世 是否在词库中,不在;


判断 你好 是否在词库中,在,得到 nǐ,hǎo ;


判断 世界杯 是否在词库中,不在;


判断 世界 是否在词库中,在,得到 shì,jiè ;


判断 杯 是否在词库中,在,得到 bēi ;

于是 你好世界杯 被转换为 nǐ,hǎo,shì,jiè,bēi 。
基于词库和分词工具的汉字转拼音
纯粹的基于词库的方法在实际的使用中会遇到问题,例如 提出了解决方案 这句话中 了解 会被当作一个单词,所以会得到错误的结果:
tí,chū,liǎo,jiě,jué,fāng,àn
更好的方法是先进行分词得到:
提出

解决
方案
然后基于词库对每个结果分别处理。
基于HMM的拼音转汉字
这里的拼音一般不带声调。
将汉字作为隐藏状态,拼音作为观测值,使用viterbi算法可以将多个拼音转换成合理的汉字。例如给出 ti,chu,le,jie,jue,fang,an ,viterbi算法会认为 提出了解决方案 是最合理的状态序列。
HMM需要三个分布,分别是:
初始时各个状态的概率分布
各个状态互相转换的概率分布
状态到观测值的概率分布
这个3个分布就是三个矩阵,根据一些文本库统计出来即可。
viterbi算法基于动态规划,
基于词库的拼音转汉字
原则:
词的权重大于字的权重;
转换中匹配的词越多,权重越小。
词库的格式是:
拼音:单词:权重
例如:
ni:你:0.15 ni:泥:0.12 a:啊:0.18 hao:好:0.14 nihao:你好:0.6
假如输入是 ni,hao,a ,我们计算一下各种组合的权重:
组合 权重
你,好,啊 0.15×0.14×0.18 = 0.00378
泥,好,啊 0.12×0.14×0.18 = 0.003024
你好,啊 0.6×0.18 = 0.108
可以看出, 你好,啊 是最好的结果。
实际实现中需要用到 动态规划 , 和求有向无环图中两点之间最短距离类似。
全部回答
支持一下感觉挺不错的
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
时差情书第一封的内容
二手车汽车保险过户一定要原车主身份证吗 10
单选题我国最近从国外引进一套设备,它可以有
有意境的微信名
我,连我弟都能把我气哭,我想回家她们不让我
患难是什么意思
星际争霸2作弊码
九月的缩写形式怎么读
已知直线y=kx+b与直线y=x-3平行,且与x轴交点
打麻将有技巧吗?怎样才能让自己的手气旺起来
一根电线长120米,截去3分之1后剩多少怎么做
我女朋友有时候老是用您来称呼我表示什么
卖纸钱的店叫什么
能告诉我10个写花的成语吗?
单选题Theexpertshavemadeanotherbreakt
推荐资讯
2012年11月1日,全国营业税改征增值税广东试
报可以换什么偏旁。
各位大神,10万块买雅阁,迈腾,凯美瑞哪款二
灵山县檀圩镇工商所办公地址在什么地方?我要
a letter, he decided to send a telegram.A.
8200÷900的商和余数是A.900…1B.9…1C.9…10
幼儿园三维目标是什么
深圳无线上网卡 生产厂家做的比较大的有几家
医疗保险断交会怎样 医疗保险断交有什么影响
小学赞美学校的诗歌
诈骗判刑了,家属有责任还钱吗??
已知,则ab=________.
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?