永发信息网

tesseract 字库文件怎么打开

答案:2  悬赏:30  手机版
解决时间 2021-01-30 20:17
tesseract 字库文件怎么打开
最佳答案
rce proportional word segmentation on all rows.
edges_max_children_per_outline 40 Max number of children inside a character outline. Increase this value if some of KANJI characters are not recognized (rejected).
以下是代码   
engine.SetVariable("chop_enable ", "F");
engine.SetVariable("enable_new_segsearch", 0);
engine.SetVariable("use_new_state_cost ", "F");
engine.SetVariable("segment_segcost_rating", "F");
engine.SetVariable("language_model_ngram_on", 0);
engine.SetVariable("textord_force_make_prop_words", "F");
engine.SetVariable("edges_max_children_per_outline", 50);

这里面chop_enable参数与官网推荐的不太一样,我发现按照官网的设置,会有很多文字识别不出来。
第五步,开始识别。

var page = engine.Process(p);
var testText = page.GetText();
var c=page.GetMeanConfidence();

第一行代码返回一个Page对象,通过该对象可以获得识别的文本,而且还可以获得识别文本所在位置(这个在识别非固定模式文档时非常有用,可以根据关键字动态查找识别字段位置)。
在例子中OCR做全文识别,但是做全文识别很多情况下识别质量一般,最好增加识别区域参数,同时将PageSegMode参数设置为PageSegMode.SingleBlock(代表多行大小相同的文字)或PageSegMode.SingleRow(代表单行大小相同的文字)。
第二行和第三行分别返回识别的文本与识别的信任度。在实际使用时我发现识别信任度不是特别有用。无论识别对错,信任度基本在0.7左右,有些时候信任度较高,识别结果反而是错误的。
经过以上几步,就可以完成日文的OCR。但要让以上代码成功运行,还必须要在安装VC++运行时2012,否则会报错。
我使用以上方法对扫描图片进行测试,发现识别精确度还是比较高的,尤其在指定区域与PageSegMode参数后。但是日文字库也存在一些低级失误,如将数字“1”识别成了汉字“一”等。如果要想解决这个问题,必须要从头训练日文,这个工作量非常大!而这真的是Tesseract一个非常不智能的地方,应该支持在原有训练字库的基础上追加训练内容!或者在官网上提供Box文件和训练用Tif供开发者下载。
全部回答
支持一下感觉挺不错的
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
杨公营业部地址在哪,我要去那里办事
诞序的意思是什么啊?知道的请说下!
甲企业向乙企业提供价值3000万元商品,乙企业
由于经常写字导致右手中指变形,怎么办
孤堆营业部地址在什么地方,我要处理点事
那位大哥,大姐,知道碎布回收及碎布的分类,
血小板下降的原因
公路建设管理法规体系是梯形,分为()。A.一级
When you see this sign, you .A. can turn l
WOW流沙之鳞声望如何获得如何开启
电压力锅的阀门蒸饭时朝什么位置是正确的
朱集营业部地址在什么地方,我要处理点事
思子宫的意思是什么啊?知道的请说下!
怎样能实现自己的愿望
墨香宠物亲密度达到多少才能进阶?
推荐资讯
癖好的意思是什么啊?知道的请说下!
算卦吉凶是对于求测者而言吗?
本田是世界十大汽车吗
为什么鲜鱼煮熟了苦的
中国电信智慧家庭服务中心(西大街社区专营店)
陌陌争霸七本最强神阵
建筑主体结构分部工程验收,必须参加的单位有
柴油微耕机启动不了有几方面原因
【杜甫是什么诗人】杜甫是唐朝伟大的什么诗人
请大神帮忙看女士手相,34岁
纵放的意思是什么啊?知道的请说下!
天天快递(欧亚路金博大西门)地址好找么,我有
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?