Big Data e IoT: Data Lake de fabricación en la nube

caso uso Big Data, IoT y cloud

El sector energético e industrial está en plena transformación de la mano de la industria 4.0 en la que el uso y extracción de valor de los datos tiene especial relevancia.

Cepsa es una compañía energética global que está abordando y liderando esta transformación digital en todas sus áreas y negocios, convirtiéndose en una empresa data driven. Se apoya en la analítica avanzada para tomar decisiones y ganar agilidad en sus formas de trabajo, generando valor añadido en todas sus actividades. Opera de manera integrada en todas las fases de la cadena de valor de los hidrocarburos, además de fabricar productos a partir de materias primas de origen vegetal y contar con presencia en el sector de las energías renovables.

Cuenta con más de 85 años de experiencia y un equipo de cerca de 10.000 profesionales, con excelencia técnica y capacidad de adaptación. Está presente en los cinco continentes a través de sus áreas de negocio de Exploración y Producción, Refino, Química, Comercialización, Gas y Electricidad, y Trading.

En este ecosistema industrial, los sistemas actuales de control e historificación de eventos han demostrado tener limitaciones importantes a la hora de integrar y analizar la información junto con datos ajenos a las propias plantas. Además, estos sistemas tienen unos modelos de licenciamiento cerrados que penalizan al cliente cuando quiere integrar información externa, como es el caso de datos de laboratorio, información meteorológica o de costes y precios.

Cepsa, AWS y Keepler

Con Keepler como integrador de las soluciones en la nube de Amazon Web Services (AWS), Cepsa ha construido un Data Lake en la nube que centraliza la información procedente de cientos de miles de sensores instalados en sus plantas de fabricación, integrando fuentes adicionales que enriquecen la información y permiten explotar los datos mediante procesos de analítica avanzada, visualización y herramientas de Business Intelligence.

Esto, facilitado además por la estandarización de protocolos de IoT, permite utilizar las plataformas actuales de control añadiendo funcionalidades de historificación ilimitada, reducción de costes, capacidad multivendor y con amplios recursos para la integración de datos externos y realizando sofisticados análisis sobre los mismos.

Data Lake Manufacturing

El Data Lake construido en Cepsa es capaz de ingestar, procesar y poner a disposición de los usuarios de la plataforma una media de dos mil señales por segundo en una primera fase, de forma rápida en un modelo Near-Real Time, así como persistir la información de un histórico de varios años con una proyección de crecimiento a nivel de petabytes.

La solución se basa completamente en el uso de servicios gestionados, con los que se consigue una implementación serverless fácil de mantener, robusta, segura y escalable. Los principales servicios AWS que utiliza son:

  • AWS IoT como broker central de mensajería MQTT.
  • AWS Greengrass para la integración con sensores on-premises vía MQTT y OPC-UA.
  • Amazon Kinesis para el procesamiento de información en Near Real Time.
  • Amazon S3 como repositorio principal de almacenamiento.
  • Amazon Athena para consultar el Data Lake mediante SQL.
  • AWS Lambda y AWS Fargate para ejecutar lógica de aplicación.
  • AWS Glue como herramienta de ETL y Catálogo de Datos.
  • AWS ElasticSearch como repositorio de datos indexados para series temporales.
  • Amazon DynamoDB como almacenamiento de metadatos.
  • AWS Database Migration Service para la migración y replicación de bases de datos on-premises.
Innovación a bajo coste

Uno de los principales beneficios de la nube pública de AWS son las ventajas del modelo de pago por uso, que ha permitido a Cepsa disponer de una solución tecnológica e innovadora sin necesidad de grandes inversiones iniciales y con un coste de experimentación muy bajo. Al tratarse de una solución implementada totalmente mediante servicios gestionados, el coste de operaciones también se ha visto muy reducido. Además, cuenta con un coste de almacenamiento de información en bruto tan bajo comparado con sistemas tradicionales, que permite pasar de una escala de millones a miles de euros.

Escalabilidad a largo plazo

Todas las piezas de la solución escalan horizontalmente, por lo que la integración de más sensores no supondrá, a futuro, un cuello de botella en la plataforma. Además, es un sistema abierto que permite integrar cualquier herramienta de explotación de la información que pueda desplegarse sobre AWS, facilitando la implementación de futuras innovaciones del proveedor cloud. El sistema de almacenamiento en S3 permite a Cepsa almacenar todos los valores emitidos por todos los sensores, actuales y futuros, sin tener que aplicar mecanismos de interpolación y aproximación a valores.

Alta seguridad

El sistema utiliza servicios de AWS como S3 y DynamoDB, que, por defecto, proporcionan alta disponibilidad y tolerancia a fallos. Utilizando el sistema de roles de IAM la solución se integra con el gestor de identidades corporativo de Cepsa, garantizando que el acceso a la información está protegido y controlado. Asimismo, la información se persiste cifrada aprovechando las capacidades de encriptación de S3. Todas estos niveles de seguridad proporcionan un entorno altamente seguro en todos sus servicios.

Imagen: Cepsa. Montse Zamorano.


Consulta el detalle de este caso de uso en Cepsa | Caso de uso Big Data e IoT


Compañía de software especializada en el diseño, construcción y operación de productos digitales de datos basados en plataformas cloud computing.

Port Relacionados

¿Qué opinas?

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.