CASO DE ÉXITO #AI #MachineLearning
Extracción de datos desestructurados y automatización

BRANDDOCS es una empresa global con sede en Nueva York y una fuerte presencia en Europa que se especializa en la orquestación y custodia de transacciones digitales seguras que incluyen identificación, firma, pagos y custodia electrónica.
Como Proveedor Cualificado de Servicios de Confianza y Tercero de Confianza a nivel mundial, proporciona a sus clientes el más alto grado de cobertura tecnológica, legal y de compliance en sus transacciones digitales seguras.
El reto de la gestión documental de datos desestructurados
Se estima que en torno al 70-80% de la información y el contenido que se generan en las empresas están desestructurados, es decir, su formato no es homogéneo y no está optimizado para una fácil y rápida clasificación.
Esta circunstancia dificulta su almacenamiento, tratamiento e, incluso, interpretabilidad dentro de las tablas de datos ya existentes y por parte de las distintas unidades de la organización. ¿Qué supone? Pérdida de información o datos importantes, reducción de la productividad y eficiencia en la gestión, complejidad en la digitalización…
La automatización de estos procesos utilizando tecnologías de inteligencia artificial y machine learning, impulsado por los entornos de computación en la nube pública, permiten reducir tiempo y recursos a esta tareas, frente a un aumento de la productividad y eficacia de resultados.
Branddocs quiere construir un sistema escalable de extracción automática e interpretación de información relevante de documentos bancarios y financieros. A través de este sistema se quiere dar respuesta a la necesidad de consolidación de grandes volúmenes de información proveniente de datos desestructurados como nóminas, extractos e informes contables.
Este sistema debe de contar con las siguientes características:
- Ser un repositorio de datos centralizado basado en un sistema de datos inteligente con capacidad de extracción de entidades definidas de documentos, así como la interpretación de las mismas para la posterior la activación de reglas de negocio.
- El sistema debe ser completamente escalable, flexible y modular para permitir la definición de distintos steps en un mismo workflow. Estos steps pueden ser peticiones a sistemas, base de datos y aprobaciones.
- Tener la capacidad de interpretación del dato, el cual se estructurará y estará disponible para su explotación y exportación; por ejemplo, mediante representación en dashboards de BI o su consumo mediante ficheros Excel.
En esta prueba de concepto nos centramos en la extracción de información de los documentos a partir del output de un OCR (Optical Character Recognition), para su posterior tratamiento y resumen para que finalmente sea liberada en el formato deseado.
Nos enfrentamos a varios tipos de documentos financieros y contables, como pueden ser nóminas, extractos bancarios, balances, cuentas de pérdidas y ganancias… Cada uno con diferentes formatos y terminología distinta, lo cual suponía un reto y un caso de uso diferente. Además, los documentos procesados tenían distintos formatos (pdf, png…).
Los servicios de AWS utilizados fueron los siguientes:
-
Amazon Textract como OCR para extraer el texto de las imágenes.
-
S3 como sistema de almacenamiento, tanto de los ficheros originales (imágenes) como los datos procesados (documentos de Excel).
-
Jupyter Notebooks de Sagemaker para realizar el procesamiento e interpretación de la información.

Keepler es una empresa boutique de servicios profesionales tecnológicos especializada en el diseño, construcción, despliegue y operaciones de soluciones software de Big Data y Machine Learning para grandes clientes. Utiliza metodologías Agile y Devops y los servicios nativos de la nube pública para la construcción de sofisticadas aplicaciones de negocio centradas en datos e integradas con diversas fuentes en modo batch y tiempo real. Es nivel Advanced Consulting Partner y cuenta con una plantilla técnica en la que el 90% de sus profesionales están certificados en AWS. Keepler actualmente trabaja para grandes clientes en diversos mercados, como servicios financieros, industria, energía, telecomunicaciones y media.