公司动态

  • Home
  • 使用自动化智能文档处理解决方案优化数据 架构博客

使用自动化智能文档处理解决方案优化数据 架构博客

2026-01-27 13:10:26 320

优化数据:自动化智能文档处理解决方案

关键要点:在当今数据爆炸的时代,许多组织面临管理大量非结构化数据如电子邮件、PDF、图像和扫描文档等的挑战。使用传统的光学字符识别OCR技术提取关键信息已经不再高效。AWS 提供了一种自动化智能文档处理解决方案,结合了自然语言处理NLP引擎,帮助企业优化文档数据提取和管理,提高工作效率。通过采用这一解决方案,组织可以减少人工干预,提高文档处理效率并增强数据隐私保护。

客户文档管理挑战

不同领域的客户在文档管理方面面临如下挑战:

挑战描述提取准确性针对不同来源如手写文本、图像等的提取过程准确性差异显著。定制化能力不足现有的脚本和基于规则的解决方案无法满足客户特定的领域需求。无法综合反馈传统文档管理系统无法利用领域专家的反馈改进学习过程。数据隐私问题对个人身份信息PII的处理不够稳健或可定制,可能导致数据泄露。过程需人工干预需要大量人工干预才能完成整个处理流程。

自动化智能文档处理解决方案

为了应对主要的文档管理挑战,我们推出了一种自动化智能文档处理方案。该方案的核心是一个结合了以下内容的NLP引擎:

Amazon TextractAmazon ComprehendAmazon SageMaker基于正则表达式的自定义Python解析器

整个解决方案还利用了 AWS 的其他服务,如下图图1所示,展示了如何开发和运营一种具有成本效益和可扩展性的文档处理架构,从而有效地提取PDF、图像、扫描文档和Microsoft Excel工作簿等文档类型中的文本。

解决方案概述

让我们逐步探讨自动化智能文档处理解决方案:

用户通过自定义Web应用将文档上传到指定的Amazon S3存储桶。事件驱动的架构通过 Amazon S3 推送事件触发相应的AWS Lambda函数以开始文档预处理。Lambda 函数评估文档有效负载,利用Amazon Simple Queue Service实现异步处理,准备文档元数据,并将其存储在 Amazon DynamoDB,同时调用NLP引擎进行信息提取。NLP引擎利用 Amazon Textract 从多种来源提取文本,并根据文档元数据优化相应的 API 调用例如,表单、表格或PDF。Amazon Textract 的输出将作为输入,传递给 Amazon Comprehend,后者负责进行实体解析、基于行/段落的情感分析以及文档/段落分类。我们在 Amazon Comprehend 内部利用自定义分类器以提高准确性。Amazon Comprehend 还提供关键的API,在进一步使用前对 PII 数据进行掩码处理,解决数据隐私问题。此解决方案还提供每个 PII 实体的掩码规则配置。为了确保获取 Microsoft Excel 工作簿的数据能力,我们开发了一个自定义解析器,使用 Python 在 AWS Lambda 函数中运行。根据文档元数据,这个函数可以被调用。Amazon Comprehend 的输出数据将传递给部署在 Amazon SageMaker 上的机器学习模型,以满足客户配置的其他用例,补充整体处理过程,提供基于ML的推荐、预测和个性化服务。一旦NLP引擎完成处理,作业完成的通知事件将触发另一个 AWS Lambda 函数,更新相应Amazon SQS 队列中的状态。Lambda 后处理函数解析NLP引擎生成的内容,并将其存储在Amazon DynamoDB 和 Amazon S3 存储桶中。此步骤负责实现所需的数据增强、关键实体的验证和默认值的赋值,以创建可供展示/可视化层使用的数据结构。用户能够看到提取的信息,并在自定义用户界面(UI)中与原始文档提取进行比较。他们可以提供关于提取和实体解析准确性的反馈。从用户访问管理的角度,Amazon Cognito 提供授权和认证。

客户收益

自动化智能文档处理解决方案帮助客户:

利用自动化将整体文档管理效率提高5060,消除人工干预。将内部团队在行政活动上的参与减少高达70,使用集成的处理工作流。提高对关键合同义务的可见性,例如文档分类帮助将文档正确路由到相应的流程/团队和义务提取。利用基于UI的反馈机制,使内部领域专家/审查员可以查看和验证提取的信息,并提供反馈,为进一步模型训练提供依据。

从成本优化的角度,基于文档类型和所需信息,仅提交相应的 Amazon Textract API 调用例如,对于KYC文档如驾照或护照,不值得使用表单/表格基础的Textract API调用,而使用AnalyzeID API 是最有效的解决方案。

为最大化解决方案的收益,客户应在使用文档处理解决方案之前,花时间构建良好的分类法,以适应他们的具体用例或行业领域的要求。客户的分类法输入只突出相关的关键信息,并在所需的关键未被提取时采取相应的措施。

行业应用实例

如前所述,本文档处理解决方案可应用于多种行业。以下是一些实际案例。例如,它可以帮助保险行业专业人士加速理赔处理和客户KYC相关流程。通过从索赔文档提取关键实体,将其映射到客户定义的分类法,并与 Amazon SageMaker 模型集成以进行异常检测异常索赔,保险提供商可以改善索赔管理和客户满意度。

在医疗行业,该解决方案可以帮助处理医疗记录和报告,对关键的医疗实体进行提取以及客户数据掩码。

在银行行业,本解决方案能够自动化支票处理,并提取支票的关键实体,如付款人、收款人、日期和金额等。

结论

手动文档处理不仅消耗资源,且耗时且成本高昂。客户需要分配资源来处理大量文档,从而降低业务的敏捷性。员工被迫进行手动的“盯着对比”任务,这可能会降低工作士气,并阻止他们专注于更重要的工作。

使用自动化智能文档处理解决方案优化数据 架构博客

智能文档处理可以帮助企业克服这些挑战,自动化分类、提取和数据分析。这加速了决策周期,优化资源分配到高价值的任务,并降低了成本。

AWS AI 服务的预训练 API 可以快速对大量文档进行分类、提取和数据分析。这个解决方案还具有行业特定的功能,可以快速处理特定行业的专用文档。本文讨论了基础架构的核心,以加速任何特定文档处理用例的实施。

标签 数据架构 NLP

深根德拉谢卡瓦特

深根德拉是一名AWS全球能源业务单元的高级解决方案架构师,拥有超过15年的软件开发和解决方案架构经验。他热衷于设计和构建机器学习及相关数字技术解决方案,以帮助解决工业领域的客户需求,并加快客户迈向碳中和未来以及可持续环境的进程。

飞机telegreat中文版加速器

安尼鲁达萨提什姆哈塞

安尼鲁达是一名解决方案架构师,拥有12年的经验,其中5年专注于人工智能和机器学习领域。凭借扎实的Python编程背景,他专注于在AWS云基础设施上部署机器学习模型。在该角色中,他继续利用技能构建可扩展和安全的解决方案。

巴贾德普辛格

巴贾德普辛格在Wipro AI解决方案实践中领导AWS AI/ML中心的活动。他主导了多个客户项目,交付数据分析和AI解决方案,实施了多个利用Amazon AI服务的文档管理解决方案,并获得AWS AI/ML专业认证,同时撰写有关AI/ML服务和解决方案的技术博客。

塞纳卡阿里亚辛赫

塞纳卡阿里亚辛赫是AWS的高级合作伙伴解决方案架构师,负责与全球系统集成合作伙伴合作。在这个角色中,塞纳卡指导APJ地区的AWS合作伙伴设计和构建良好的架构解决方案,并支持他们的云迁移和应用现代化工作。

发表评论