El sector del transporte, especialmente el ferroviario, ha adoptado las normas de la industria 4.0 caracterizada por sistemas inteligentes y soluciones industriales basadas en Internet. El uso de nuevas tecnologías da lugar a mejoras en la calidad de los servicios y modelos de negocio, basados en las capacidades analíticas de los grandes datos y su potencial para transformar las plataformas actuales en una red de comunidades de colaboración que mueven el transporte de mercancías y pasajeros. La tendencia actual de automatización e intercambio de datos se dirige a la adopción de nuevas y emergentes tecnologías para alcanzar mayores niveles de eficacia y eficiencia.

CAF, AWS y Keepler

CAF, grupo multinacional con más de 100 años de experiencia ofreciendo sistemas integrales de transporte y referente en el sector ferroviario, ha iniciado en los últimos años el camino para convertirse en una empresa más digital y data-driven, debiendo, para ello, realizar cambios en sus procesos IT.

En este marco, CAF lanzó hace varios años una iniciativa denominada “Tren Digital”, que desembocó en la creación de la plataforma LeadMind.

LeadMind proporciona una nueva generación de trenes conectados y servicios más competitivos para los operadores y mantenedores de la industria ferroviaria a través de la recopilación, el almacenamiento, el procesamiento y el análisis avanzado para dar soporte a la toma de decisiones en tiempo real y avanzar hacia el mantenimiento basado en la condición / predictivo.

Características de LeadMind:

1. Proporciona un producto modular, abierto y escalable, personalizable según las necesidades del cliente.
2. Ofrece información en un formato amigable y una herramienta poderosa para facilitar el proceso de toma de decisiones.
3. Aumenta la eficiencia en la operación y el mantenimiento (reduce el LCC, mejora la disponibilidad de la flota y el análisis de la causa raíz, reduce las fallas repetidas…).
4. Elimina las cajas negras al mezclar todos los datos del ecosistema ferroviario.
5. Cumple con los estándares modernos de Ciberseguridad.

CAF, en su apuesta por LeadMind como plataforma abierta, modular, flexible, multi-proveedor y parametrizable, implementa y despliega la funcionalidad de Analítica de LeadMind en Amazon Web Services (AWS) particularmente personalizada para las necesidades de un proyecto concreto basado en una actualización completa de los sistemas de monitorización de un parque de trenes.

El objetivo de este reto tecnológico implica mejorar los tiempos de procesamiento de datos recibidos y aumentar la rapidez y eficacia del análisis. Se apuesta por llevar la arquitectura IT a la nube pública de AWS con la ayuda, como integrador tecnológico, de Keepler Data Tech, en busca de un impacto en dos áreas clave en la explotación de los datos: por un lado, ofrecer a los analistas de Business Intelligence mejor descripción y categorización de los datos; por otro, permitir a los científicos de datos la posibilidad de crear modelos de mantenimiento predictivo más eficaces.

Mantenimiento near-real time

El diseño de la funcionalidad de LeadMind propuesta por Keepler sobre AWS, es una solución integral que recibe los datos de los trenes y procesa la información para que se almacene adecuadamente en un Data Lake, incluyendo el escalado a un ilimitado número de vehículos en el futuro, con un procesamiento diario e ingestados cada cinco minutos en la plataforma Big Data.

Una vez almacenados en el Data Lake, los datos se explotan mediante tres vías:

  • Ejecución de consultas de una complejidad baja, con fines de análisis exploratorio de datos.
  • Almacenamiento de mayor temperatura que permite, de manera muy eficiente, la visualización de los datos en TIBCO Spotfire.
  • Disponibilización a un conjunto de Notebooks de Jupyter con capacidad de acceder tanto a los datos del Data Lake como a los datos en AWS Redshift, lo que permite a CAF desarrollar y probar nuevos modelos de mantenimiento predictivo para los trenes.

Los datos relativos a alarmas son procesados y almacenados en un Data Lake en near-real time, con un desfase máximo de cinco minutos, y generan alertas vía SMS/email a un conjunto de suscriptores. La plataforma, así mismo, envía notificaciones vía correo electrónico a determinados suscriptores en caso de que el proceso ETL falle parcial o totalmente al procesar cada archivo fuente.

Combinando los siguientes servicios de AWS se consigue una plataforma más ágil en la gestión de datos y escalable para necesidades futuras:

  • AWS S3 como repositorio principal de almacenamiento.
  • AWS Athena para consultar el Data Lake mediante SQL.
  • AWS Glue como herramienta de ETL y Catálogo de Datos.
  • AWS EC2 para los servicios de BI con TIBCO Spotfire.
  • AWS Glacier como backup de archivos antiguos.
  • AWS SageMaker para lanzar Notebooks iPython, usados por los científicos de datos de CAF para desarrollar nuevos modelos.
  • AWS Redshift cargado automáticamente con un subconjunto de datos procesados a partir de datos de origen, para optimizar los procesos Business Intelligence.
  • Amazon DynamoDB como almacenamiento de metadatos.
  • AWS RDS (con MySQL) para el almacenamiento de datos maestros que permitan hacer transformaciones de campos.
  • AWS Batch para la sincronización de FTP.
  • AWS Lambda para ejecutar lógica de aplicación de detección en el ETL y alarmas near-real time.
  • AWS SNS y AWS SES para procesar errores y notificaciones en near-real time.

Reducción de costes

El modelo de pago por uso de la nube y la implementación mediante servicios gestionados, permite a CAF desplegar una solución reduciendo considerablemente los costes de inversión. El coste de almacenamiento y procesamiento también es significativamente menor. Por ejemplo, el procesamiento de todo el histórico de datos presenta una reducción de tiempo de más del 90% respecto a las soluciones previas on-premise.

Evolución y escalado

Todas las piezas de la solución escalan horizontalmente, por lo que la integración de más sensores o el aumento de flota de trenes no supone un cuello de botella y permite un escalado ágil y automático. Además, se trata de un sistema abierto que permite integrar cualquier herramienta de explotación de la información que pueda desplegarse sobre AWS.

Imagen: unsplash | dan roizer


Consulta el detalle de este caso de uso en CAF | Caso de uso Big Data


Author