西西河

主题:【求助】有谁用过OCR识别软件? -- 面壁

共:💬30 🌺15 新:
全看树展主题 · 分页 下页
家园 【求助】有谁用过OCR识别软件?

想把一个PDF扫描文件变成可编辑的txt文件就行(只要能英文字符识别就行)。网上搜到这个评论:

"注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2word,以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。 "

有谁用过OCR识别软件?有没有什么经验谈谈,多谢了。

家园 早已经相当成熟了,随便找一个都很好用

这类软件我10年前用的就很好。那个评论有点过头了。

家园 多谢了。我要有扫描仪,那个软件更适合?
家园 买扫描仪的时候通常就附赠送有OCR软件光盘啊

与驱动程序什么的在一起。

没有的话,随便下个载个试试,都不错的。

家园 推荐一个OCR软件,最新版的支持中英文识别

ABBYY FineReader 9.0 可为各类文档包括办公文档、资料、表格、杂志、书籍,甚至传真和数码图片提供高精度转换。采用先进的自适应文档识别技术(ADRT),Finereader不仅能够识别资料图像中的文本和版面格式,而且能够对多页文档进行整体分析,辨别文档整体逻辑结构。ABBYY FineReader 9.0的主要特性包括:

高准确度识别文字及其布局

资料逻辑结构和格式的再造

全面支持汉语

多语种文档识别

以结果为导向的界面

第二代数码相机光学文字识别

准确,快速,安全的PDF转换

即时截屏OCR

直接导出至各种应用程序

出色的识别率和版面还原

ABBYY FineReader 9.0综合了最高水平的识别精确性和格式保存的特征,即使对诸如传真那样的模糊和低质量图像也能精确识别。在9.0版本中,识别准确率提高了35%**, 尤其是对包含表格的文档、法律文件,多语言文档和数码相机捕获图像。由于使用了最新的自适应识别技术,在版面还原精度方面也提高了32%**.

文档逻辑结构和格式的重建

通过采用先进的自适应文档识别技术(ADRT),ABBYY FineReader 9.0对文档进行整体分析,而不是传统的逐页加工文档,能够准确重建其原有格式要素和最初的字体样式,从而节省您对文档的编辑时间。

通过将文档作为单一实体进行“观察”,软件能够识别文档结构的各个部分,包括标题、正文、专栏、表格、图形、页眉、页脚、脚注和页码等,并将其重建为易于编辑的Microsoft Office的相应格式,所有文档页面都能够维持相同的风格。FineReader 9.0同时亦可保留诸如法律文书里的包括行号、签名、盖章等要素。

全面支持汉语

新版ABBYY FineReader支持184种语言的识别,包括中文,日文,泰文和希伯来文,并对多语种混合文档提供最准确的结果(例如中文和英文的混合文档)。另外,新版本还包含了最新的校验工具以及图形选择界面,以便用户处理中文,日文,以及从右向左书写的希伯来文。

多语种文档识别

ABBYY FineReader 继续保持在OCR识别语言种类中的领先地位,支持184种语言的识别,包括拉丁文,西里尔文,希腊文,亚美尼亚文,程序脚本语言以及化学公式的识别。新版本增加了对中文,日文,泰文和希伯来文的识别。FineReader 9.0可自动侦测识别文档的语种以简化操作,同时允许用户针对多语种文档选择任意识别语种的组合。它还自带字典,可以针对38种语言进行拼写校验。在整合 Microsoft Word用户字典后,FineReader同样可以正确识别出用户自定义词组。

除此之外,ABBYY FineReader还支持条形码识别,包括PDF-417 2D条形码的识别,是需要对大量资料进行归档索引的公司的理想选择。

以结果为导向的界面

经过重新设计,ABBYY FineReader 9.0的以结果为导向的界面能够简化和缩短识别处理的过程,并自动将OCR结果的最佳优化方案高亮显示。软件主要功能的应用非常方便,不必遍寻下拉菜单。主要功能集中在一个对话框内,使得主要功能的实现更加容易。新界面使转换文件所需要点击鼠标的次数减少40%之多**.

ABBYY FineReader 9.0的界面针对最常用的转换功能而预先定义了快速任务,例如“扫描到PDF文档”,“扫描到Microsoft word文档”,“把PDF文件或图片转换为Microsoft Word”等。有了快速任务,您只需轻轻一击便可完成图片向文本文件的转换。您亦可使用自动化管理工具建立你自己的定制任务。

第二代数码相机OCR

FineReader是第一个可自动识别拍照文件,并且使用CameraOCR最新的自适应识别技术使照片识别达到最佳效果的OCR程序。因为有数码相机OCR,即使在您忙个不停的时候,也只需点击鼠标便可将迅速获取的任何文件转换成可编辑、可检索的格式。

数码相机OCR的使用使您能够轻松突破传统扫描设备在光学文字识别方面的限制:例如难以扫描的厚书,超大幅的广告招贴画等等。

准确、快速、安全的PDF转换

ABBYY FineReader 9.0是理想的PDF 生成和转换工具。 主要的PDF转换特性包括 :

生成可搜索的PDF文档 - FineReader将文字信息作为独立的层与图像隔离开来(文字层在图像层之下) ,方便之后的编辑处理。

生成加密的PDF文档 – ABBYY FineReader支持PDF安全设置并允许用户设置开放权限和访问密码,以防止和限制未授权用户对文件进行访问或其它操作。它同时也遵循最新的加密标准和访问权限保护。

适用于网络出版的PDF和标记的PDF - 所有用FineReader生成的PDF文件都为网络出版进行了优化。除此之外,您还可以利用ABBYY FineReader创建适合手持设备和屏幕阅读工具的PDF标记文件。

高效截屏OCR

ABBYY FineReader 9.0包括了可以即时OCR的ABBYY Screenshot Reader。 Screenshot Reader是一个简单易用的工具,它可以迅速截屏并转化为文本,便于您将网页上的图像、图表、flash、文件菜单、错误信息等立即捕获为文字。

当您想引用PDF或图片文件里的一下段文字的时候,截屏浏览器也是一个理想的“快速OCR”工具。 ABBYY Screenshot Reader是与ABBYY FineReader 9.0 专业版一起捆绑赠送给注册用户的软件。

直接导出至各种应用程序

当您识别和转换文档时, ABBYY FineReader 9.0可以将结果直接导出至您常用的应用程序中,包括Microsoft Word, Microsoft Excel, Microsoft PowerPoint和Adobe Acrobat/Reader。除此之外,识别出的文字可以被保持为多种文件形式, 包括PDF、 PDF/A、HTML、Microsoft Word XML、DOC/DOCX、RTF,XLS / XLSX、PPT、PPTX、DBF、CSV、TXT和LIT。

关键词(Tags): #FineReader(当生)#OCR(当生)
家园 多谢了,Abbyy就是太大了。

刚下载完毕,安装好以后1.16G!!!吼吼,巨无霸。

家园 acrobat pro就很好啊

我一直用acrobat pro里面的ocr,可以方便的把扫描版的pdf识别成searchable image,原始的显示效果不变,但是文字可以copy。

家园 到生产厂家的网站下载?
家园 英文的确实不错,中文我没有试过。
家园 是啊,我也一直用这个

而且附带有压缩文件的功效

家园 借贴问一句,有没有可把scan的文档变为纯PDF?

我来解释一下我的意图,假如我手头有一带表格和文字的word文档。一种方法是直接用pdf打印机把他打印成A.pdf(看上去与word的版面完全一致),另一种方法是先在纸面上打印出来,然后再扫描成B.pdf(实际上B.pdf是一个图像),那么有没有工具可以把B.pdf直接转换与成A.pdf一模一样的呢?谢谢

家园 其实我想问的就是怎么把copy件变成电子书,呵呵
家园 Acrobat Pro 直接就可以从扫描仪生成PDF。
家园 但是那个版面跟直接用虚拟打印机生成的是一样的吗?
家园 上面提到的这些软件都支持扫描仪的
全看树展主题 · 分页 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河