ABBYY FineReader Server
ABBYY FineReader Server专为大量文档转换而设计,可自动将大量文档转换为可搜索、可访问的数字资料库。
它这款基于服务器的 OCR 和 PDF 转换产品可将扫描和电子文档转换为 Microsoft Word 或其他数据格式,
以便搜索、长期保留、协作或进行其他处理。
关键特性
人工智能驱动的 OCR
快速、准确地提供 210 多种 语言(包括欧洲语言、阿拉伯语、中日韩语言等 )
条形码识别
借助人工智能进行检测并读取一维和二维数据 条形码可实现文件分离和/或添加元数据
基于服务器的架构
以最高效的方式使用所有可用硬件资源
文件类型和元数据
自动分配文件类型和属性; 允许根据需要手动创建元数据
根据业务量可弹性扩展
在短时间内转换大量文件
识别历史字体
支持英文、德文、法文、意大利文和西班 牙文的黑字、Schwabacher 和大多数其他 哥特字体
完整的 PDF 技术
压缩 PDF 文件,在保持质量的同时尽量减小文件 大小;支持 PDF/A (-1a、-1b.X) 和PDF/A(-2a、-2b.X)、-2a、-2b、-2u、-3a、-3b、-3u)、PDF/E、 PDF/UA;支持数字签名、水印和元数据移除
与现有系统集成
通过 XML ticket可与数字档案或企业内容管理系统轻松连接、基于 COM 的应用程序接口和网络服务应用程序接口 ,包括 REST API
支持多种格式
自动转换 PDF、JPEG、TIFF、Word、Excel、 OpenDocument 文本、PowerPoint、HTML 和其他 格式
文件分隔
根据页数、空白页、条形码页和/或脚本规则自动分离文档
与 SharePoint 集成
自动将 SharePoint 库中的文档转换为可搜索的 PDF 文件
审计报告
分析资料库,以确定文件类型和可搜索、不可搜索文件的数量;确定重复、大和过时的文件
适合任何基础设施、任何需求的部署模式
ABBYY FineReader Server 可自动转换文档,只需很少的用户干预。
它在后台运行,独立执行所有文档处理步骤-全天候或在预定义的时间。
快速实现投资回报率
FineReader Server 部署快速,维护简单,因此你可以更快地看到底线结果。
内容标准化
支持PDF-1.5、PDF-1.7、PDF-2.0、PDF/A等标准格式输出。将文件集转化为标准化、组织良好的数字图书馆。
简化文件处理
创建可轻松存储、快速分发到专用系统或在团队间共享的数字文档。
为非技术人员赋能
FineReader Server 不需要特殊培训或预备的知识就能启动转换程序。
使内容可访问、可搜索
企业用户可以快速搜索包含相关关键字的数字档案文件
按计划日程处理
根据需要全天候启用转换功能,或安排批量处理,以优化硬件资源的使用。
如何工作?
ABBYY FineReader Server从存储文件夹,多功能打印机,扫描仪 或电子邮件接收文档图像,并使用光学字符识别(OCR)技术自动 将它们转换为压缩的,可搜索的数字格式。
如果需要,系统可以手动纠正文本信息和/或向文档添加元数据( 可选)。该服务可以按计划运行,或者按计划批量处理文档,以优 化硬件资源的使用。生成的数字化文件可以保存到任意数量的存 储区域和/或传送到其它他应用程序。
工作流程
文档输入
FineReader Server 可接收来自扫描仪、共享网络文件夹、电子邮件和 Microsoft SharePoint 的文档输入。
扫描
FineReader Server 提供易于使用的扫描站界面,支持批量文件扫描。板载质量改进工具包 括图像预览和增强、手动编辑等。用户可以利用脚本命令,例如自动分割大页面或在双面扫 描后重新排序页面。
多种输入格式
图像格式
- TIFF / Multipage TIFF
- Compression methods: Uncompressed,
CCITT3, CCITT3FAX, CCITT4, PackBits,
JPEG, ZIP, LZW (8/24bits) - JPEG,JPEG2000
- JBIG2
- BMP
- GIF
- PNG
- WDP
- XPS
- PCX
Office文档格式
- DjVu
- DOC、DOCX、ODT
- XLS、XLSX、ODS
- PPT、PPTX、ODP
- txt、html、htm、rtf
电子邮件格式
- 邮件服务器支持的协议:IMAP、MAPI、 POP3,如 MS Exchange、Google® Mail、IBM® Domino 等
- 存储在文件系统中的邮件信息文件,如 MSG 和 EML 文件
自定义格式
可创建插件以扩展支持的格式列表,例如借 助 Autocad® 或其他软件将 CAD 文件转换为 PDF 文件
文件导入
FineReader Server 可自动从文档库和作为电子邮件附件发送的文件中检索先前扫描的图像 。导入的文档图像将 根据相应的优先级和可用的计算资源进行处理。
- 通过TWAIN、WIA、ISIS扫描
- 与所有网络扫描仪和多功能一体机集成
- 热文件夹观察(FTP或本地网络)
- 自动处理指定文件夹中的文件
- 抓取网络共享和SharePoint库
- 检测新添加的文件并转换为可搜索的格式
- 通过电子邮件输入(MicrosoftExchange、POP3、IMAP) • 与传真和电子邮件服务器集成并处理图像附件
文档处理
FineReader Server 通过自动识别和文档转换来处理文档图像,并具有可选的验证和 索引功能。
文件识别/OCR
FineReader Server 的 OCR 流程在专用工作站上自动运行、
处理站。FineReader Server 使用 ABBYY 的高精度 OCR 技术,支持广泛的功能以提高识别 准确性,包括
- 图像预处理(例如,分割书籍扫描的双页或清除背景噪音)
- 打印类型定义(普通文本、打字机、点阵、OCR-A、OCR-B、MICRE13b和哥特字体)
- 语言定义(自动识别200多种语言和旧字体的历史文本)
- 可跳过重复、大和过时的文件
根据文件的质量和结构,处理模式可设置为 “精度 “或 “速度”。为了大幅提高处理速度——例如,在紧迫的时间内处理大量文件——需要增加 可以增加处理站或更多的 CPU 内核。
FineReader Server 的计划处理功能使其能够根据预定义的时间表,在不同时间 处理不同类型的文档。
验证(可选)
在某些情况下,例如对书籍进行数字化处理时,必须对识别结果进行验证。FineReader Server 的集成验证站界面提供了校正结果的选项,可以校正所有文档,也可以只校正未达到预定识别准确率阈值的文档。
索引(可选)
如果需要,可以手动编制文档索引–使用索引编制功能。 或自动使用脚本。可导入索引字段值列表,并与第三方系统同步。
文件组装和导出
FineReader Server 可将处理过的页面组合成单个文档。文档可通过三种不同方式分离:
- 使用空白页或条形码页作为分隔符
- 根据每份文件的固定页数
- 根据脚本规则
将所需格式的组装文件传输到预定义的输出位置,例如网络文件夹、SharePoint 文档库和电子邮件
地址——或传递给通过 API 连接的其他应用程序。 还可根据文档属性应用脚本,将文 档 智能路由并传送到企业内容管理系统。 FineReader Server 支持多种输出格式,可同时创建多个输出文件。
FineReader 服务器可以抓取单个库,检测不可搜索的图像,并将其转换为可搜索的图像。 并将其转换为可搜索格式。Microsoft Word 文件、PowerPoint® 演示文稿或 Excel® 电 子表格等不需要处理的文件也可以移到输出库的相同位置。
多种输出格式
- PDF, PDF/A-1a, PDF/A-1b, PDF/-2a, PDF/A-2b,
PDF/A-2u, PDF/-3a, PDF/A-3b, PDF/A-3u, PDF/E,
PDF/UA - RTF
- DOC, DOCX
- XLS, XLSX
- TXT, CSV
- HTML
- TIFF
- JPEG, JPEG 2000
- PNG
- EPUB
- XML
- Alto XML
- FineReader internal format
(FineReader Engine-compatible) - JSON
最近更新
从转换的文件中移除元数据
PDF 和 Office 文档包含的元数据可能 包括敏感数据。保护这些数据至关重要
在审计工作流程中使用RegEx进行内容搜索
对于文档归档、迁移和电子发现方案,重要的是以了解资源库是否包含需要删除、保护或迁移的敏感或重要数据。
导出为 JSON
除了 XML、TXT 或 ALTO XML 之外,现在开发人员可以使用 JSON 作为 输出格式,获取包含文档结构和文本 的信息。
其它改进
当一个许可证过期或页面用完时,自动切换激活的许可证。 基于神经的 OCR技术欧洲语言网络。