如何完美提取PDF文档文字

答案:2 悬赏:70 手机版

解决时间 2021-11-10 08:00

提问者网友：疯孩纸
2021-11-09 13:01

如何完美提取PDF文档文字

最佳答案

五星知识达人网友：轻熟杀无赦
2021-11-09 13:29

要完美提取PDF文档文字，建议使用ABBYY finereader　OCR识别软件。
目前最新的版本是ABBYY finereader 12 professional 版，可以识别 100多种语言，还有部分计算机语言。有利器在手，我们当然要把它的强大功能尽可能地发挥出来，这里我就讲一下如何正确使用ABBYY finereader 将PDF 文件转换成可编辑的格式。工具/原料 ABBYY finereader 11 professional 步骤/方法首先我们要做的就是打开一个需要转换的 PDF 文件，然后看一下这个文件里面有几种语言，是不是有表格、图片等然后运行ABBYY finereader 11，点击欢迎界面“文档语言”下拉选择中的更多语言，弹出“语言编辑器”界面，我们设置好PDF 文件中所包含的几种语言。因为文件文件中有 C++语言的内容，而 ABBYY finereader 中正好也有 C++的选择，那么我们就毫不犹豫的打上勾。设置完毕，点击右下角的“确定”按键。回到任务界面，我们是想把PDF 转成可编辑的word 文件，所以我们点击中间的“文件（PDF/ 图片）到Microsoft Word”一项弹出文件选择窗口，选择需要转换的PDF 文件，注意打开窗口的左下角那几个选项，默认都是打勾的，如果不需要的话可以去掉勾，然后点击“打开”按键。 ABBYY finereader 开始加载文件，并且自动 OCR 识别处理。如果页数比较多的话，可能需要花费一些时间，需要耐心等待一下。由于自动识别会有一些错误，那么我就可以用手动工具进行修正。我们可以选择不同的工具来修正，比如表格被识别成了普通文字，中间没有线框了，那么我们选择“表格”工具，然后把文件中的表格的区域选出来，然后右键“读取区域”就能够手动识别成表格了。还有如果带有文字的图片被自动识别成了文字了，那么我们可以选择图片工具选出页面中的图片区域，然后在你识别本页面其他部分文字的时候，这个区域就会被识别成图片了。 “编辑图像”按键是用来预处理扫描页图片的，因为扫描页有时候会有倾斜、对比度不好、变形等问题，那么先对图像修正一下可以大幅度提高识别的准确率，调整完以后点击右上角的“退出图像编辑器”按键就可以回到上一界面。识别完毕以后，选择菜单来的“文件”---“将文档另存为”---“Microsoft Word 文档”（如果你需要保存为其他格式你可以自己选择）。弹出保存对话框，选择保存路径，如果需要保存完就打开文件的话，记得勾选下面的“保存后打开文档”选项，如果电脑配置不高的话不建议勾选此项，因为ABBYY finereader 本身比较耗内存，然后再打开word 的话电脑可能会比较卡。保存完文件，转换过程就基本结束了。我们打开保存好的word 文件，看看转换的效果怎么样。识别的区域基本上正常，中文英文、图像都可以识别出来，版面略微有些错位，不过还是含有部分错误，我们需要自己修改一下，但是这个已经可以大大降低我们的录入强度了。注意事项 OCR 识别是肯定会存在错误的，所以大家识别转换完成以后记得要和原文核对。设置语言种类的话，越少识别率越高，就是说如果文件只有中文的话，那么就设置中文一种语言，不要选择其他语言，这样识别速度也会提高。 ABBYY finereader 理论上可以转换非加密的任意PDF 文件，但是如果扫描件的分辨率或者清晰度比较差的话，那么是不能被正确识别转换的。

全部回答

1楼网友：归鹤鸣
2021-11-09 14:16

方法一：利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转WORD文档，也就是说利用WORD来完成该任务。方法如下：　　1.用Adobe Reader打开想转换的PDF文件，接下来选择“文件→打印”菜单，在打开的“打印”窗口中将“打印机”栏中的名称设置为“Microsoft Office Document Image Writer”，确认后将该PDF文件输出为MDI格式的虚拟打印文件。　　注:如果没有找到“Microsoft Office Document Image Writer”项，使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件，选中“Office 工具 Microsoft DRAW转换器”。　　2.运行“Microsoft Office Document Imaging”，并利用它来打开刚才保存的MDI文件，选择“工具→将文本发送到Word”菜单，在弹出的窗口中选中“在输出时保持图片版式不变”，确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”，不管它，确认即可。　　注:对PDF转DOC的识别率不是特别完美，转换后会丢失原来的排版格式，所以转换后还需要手工对其进行排版和校对工作。　　以上仅在word2003中可用，其他版本没有Microsoft Office Document Image Writer。方法二：利用第3方软件来实现下面的六款软件中，前三个适用于普通的PDF文件（里面内容可以用鼠标选中的），后三个适用于图片类或者是扫描件做成的PDF文件（通常网络上下载的书本都是这个形式的）。你要有针对性的选择合适的软件转换出来才有最好的效果。如何判断PDF文件是否加密：用adobe reader或者adobe acrobat 软件打开你的PDF文件，如果提示要输入密码，那么这种文件肯定是加密文件，是无法转换的。还有一种是能够打开的，打开以后在软件的标题栏文件名的后面有“（已加密）”字样的（如下图所示），也是加密的PDF文件，加的不是打开密码，是文件修改的权限密码，这种也是无法转换的，只有去除掉了权限以后才可以转换。重要：转换前请务必确认你的PDF文件没有加密加权限限制，否则转换会失败的，具体看本文最下面注意事项。 1.AnyBizSoft PDF Converter V2.5 推荐使用等级 ★★★★ AnyBizSoft PDF Converter 是一款PDF 转多种格式的软件，select部分是你要转换输出的格式，你要什么格式就选择什么格式，前提是你一定要安装微软的OFFICE办公软件。 add files按键就是添加你要转换的文件用的，可以批量的。 output setting部分就是输出设置部分，是设置文件输出保存位置的，可以是源pdf文件位置或你也可以自定义。最后那个大大的convert按键就是转换开始键了。这个软件对于中文字体的支持还是不错的，就是有时候版面会有点错乱。不过胜在支持多格式转换。而且转换速度比较快。 2.Solid Converter PDF V6/ V7 推荐使用等级 ★★★★☆ solid converter PDF v6是一个PDF转word的神器，支持PDF转换成word、excel、图片、html等等，当然这个软件还带有PDF的加水印、修改等功能。转换速度虽然比较慢，但是转换出来的效果是非常好的，版面维持的几乎不变，还有一项最好的功能就是能够转换部分直接复制是乱码的PDF。 3.e-Pdf pdf 2 word converter 2.5 推荐使用等级 ★★★ e-Pdf pdf 2 word converter 是一款功能比较单一的软件，只能是PDF转word。但那是这个软件的转换速度和版面的还原能力都是比较好的，而且有中文汉化版的便于操作。只需转换word格式的朋友推荐使用。 4.CAJviewer 7.0 推荐使用等级 ★★★☆ CAJviewer 7是中国知网的专用浏览器，也支持PDF格式的阅读，完整版本是带有OCR组件的（约37M左右）。打开PDF文件以后在工具栏上有一个放大镜下面打一个勾的上面还有一个字和A的那个图标工具就是OCR工具。选择这个工具然后拉框选择识别区域，稍等一会儿就会有文字识别结果对话框出来，那里面的文字就是识别提取出来的人，如果你要整个PDF转换，你可以在菜单栏文件---另存为文本就可以了。 5.ABBYY finereader v9 推荐使用等级 ★★★★★ ABBYY finereader v9是我见过的最强大的PDF（图片格式或者是扫描件）转word的软件。它是一款OCR软件，界面比较简洁明，9.0和以上版本有简体中文版的，支持100语言的识别，特别是混合多种语言识别效果也非常好。国内的OCR软件仅仅是对中文的识别比较好而已。而且，这款软件只要你设置好识别文件所用的语言然后打开PDF文件（支持直接打开的）然后其他的工作就交给软件了，识别完后文件------另存为word格式就可以了。而且版面的保持能力是我见过的OCR软件里面最好的一个，识别率也是最高的一个，就是转换识别的速度比较慢。只要PDF文件比较清晰，准确率基本可以达到95%以上（除了数学公式、计算式、化学式、分子式、三角函数等专业的内容之外），强力推荐大家使用。如果你要识别韩语PDF文件的话请使用10.0版本，9.0不支持韩语的识别的。 6.Readiris Corporate 12 推荐使用等级 ★★★★ Readiris Corporate 12也是一款OCR软件，同样支持100多种语言的识别，但是要识别亚洲语言还要额外安装亚洲语言词典才行。识别能力也是非常高的，就是版面的保持能力比ABBYY 的略差一筹，而且转换速度比较慢，对PDF文件的兼容性略差一点。识别等等都要比国内的OCR软件高出不少，也是一款不可多得的软件。总结：当然PDF转word的软件还有很多种，上面介绍的几个软件只是本人转换了上千个PDF文件在无数个转换软件中挑选出来的比较好的软件，特地总结一些经验大家共勉，免得大家走太多弯路。注意事项：因为PDF是可以加密加权限的，所以如果遇到已加密的PDF文件要先解密以后才可以转换的。对于可以打开阅读，但是限制了复制打印等功能的PDF文件，一般可以用PDF password remover 3或者PDF unlocker 去掉加密权限，然后再转换。（如果PDF password remover 3没有注册只支持解密3页内容）。

我要举报

如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！