CASO DE ÉXITO #AI #MachineLearning 

Extracción de datos desestructurados y automatización

BRANDDOCS es una empresa global con sede en Nueva York y una fuerte presencia en Europa que se especializa en la orquestación y custodia de transacciones digitales seguras que incluyen identificación, firma, pagos y custodia electrónica.

Como Proveedor Cualificado de Servicios de Confianza y Tercero de Confianza a nivel mundial, proporciona a sus clientes el más alto grado de cobertura tecnológica, legal y de compliance en sus transacciones digitales seguras.

El reto de la gestión documental de datos desestructurados

Se estima que en torno al 70-80% de la información y el contenido que se generan en las empresas están desestructurados, es decir, su formato no es homogéneo y no está optimizado para  una fácil y rápida clasificación. 

Esta circunstancia dificulta su almacenamiento, tratamiento e, incluso, interpretabilidad dentro de las tablas de datos ya existentes y por parte de las distintas unidades de la organización. ¿Qué supone? Pérdida de información o datos importantes, reducción de la productividad y eficiencia en la gestión, complejidad en la digitalización… 

La automatización de estos procesos utilizando tecnologías de inteligencia artificial y machine learning, impulsado por los entornos de computación en la nube pública, permiten reducir tiempo y recursos a esta tareas, frente a un aumento de la productividad y eficacia de resultados. 

Solución en Amazon Web Services

Branddocs quiere construir un sistema escalable de extracción automática e interpretación de información relevante de documentos bancarios y financieros. A través de este sistema se quiere dar respuesta a la necesidad de consolidación de grandes volúmenes de información  proveniente de datos desestructurados como nóminas, extractos e informes contables.

Este sistema debe de contar con las siguientes características:  

  • Ser un repositorio de datos centralizado basado en un sistema de datos inteligente con capacidad de extracción de entidades definidas de documentos, así como la interpretación de las mismas para la posterior la activación de reglas de negocio.
  • El sistema debe ser completamente escalable, flexible y modular para permitir la definición de distintos steps en un mismo workflow. Estos steps pueden ser peticiones a sistemas, base de datos y aprobaciones.
  • Tener la capacidad de interpretación del dato, el cual se estructurará y estará disponible para su explotación y exportación; por ejemplo, mediante representación en dashboards de BI o su consumo mediante ficheros Excel.

En esta prueba de concepto nos centramos en la extracción de información de los documentos a partir del output de  un OCR (Optical Character Recognition), para su posterior tratamiento y resumen para que finalmente sea liberada en el formato deseado.

Nos enfrentamos a varios tipos de documentos financieros y contables, como pueden ser nóminas, extractos bancarios, balances, cuentas de pérdidas y ganancias… Cada uno con diferentes formatos y terminología distinta, lo cual  suponía un reto y un caso de uso diferente. Además, los documentos procesados tenían distintos formatos (pdf, png…).

  • Nóminas:

    El objetivo para las nóminas fue obtener información de ciertos campos clave, como el nombre de la empresa, el DNI del empleado, el líquido a percibir, la fecha… Y plasmarla en un fichero Excel.

  • Extractos bancarios:

    A partir de las entradas de este tipo de documentos, se necesitaba identificar cuáles de ellas se referían a préstamos, movimientos de tarjetas de crédito…  Para generar los totales y, además, calcular el saldo mínimo, medio y máximo de la cuenta en el período en cuestión.

  • Estados financieros:

    Son documentos que se elaboran a partir de los balances y las cuentas anuales. Para ello, teníamos palabras clave para cada entrada de estos, las cuales usamos para buscar coincidencias en los documentos. De esta manera, logramos tener los valores de dichas entradas, con las cuales hacemos cálculos para obtener los resultados deseados.

Los servicios de AWS utilizados fueron los siguientes:

  • Amazon Textract como OCR para extraer el texto de las imágenes.
  • S3 como sistema de almacenamiento, tanto de los ficheros originales (imágenes) como los datos procesados (documentos de Excel).
  • Jupyter Notebooks de Sagemaker para realizar el procesamiento e interpretación de la información. 
Beneficios
  • Esta funcionalidad permite automatizar un trabajo que, de tener que hacerlo manualmente, sería mucho más costoso y requeriría mucho más tiempo, y donde la probabilidad de error es grande.

  • Aporta la capacidad de tener los datos de estos documentos financieros almacenados de manera estructurada.

  • Al tener los datos estructurados, surge la posibilidad del análisis de estos a partir de dashboards, o incluso hacer predicciones mediante modelos de Machine Learning.

Keepler es una empresa boutique de servicios profesionales tecnológicos especializada en el diseño, construcción, despliegue y operaciones de soluciones software de Big Data y Machine Learning para grandes clientes. Utiliza metodologías Agile y Devops y los servicios nativos de la nube pública para la construcción de sofisticadas aplicaciones de negocio centradas en datos e integradas con diversas fuentes en modo batch y tiempo real. Es nivel Advanced Consulting Partner y cuenta con una plantilla técnica en la que el 90% de sus profesionales están certificados en AWS. Keepler actualmente trabaja para grandes clientes en diversos mercados, como servicios financieros, industria, energía, telecomunicaciones y media.

¿Hablamos?

Si quieres saber más o que desarrollemos una propuesta para tu caso de uso concreto, contáctanos y hablamos.