Procesamiento Hadoop en AWS mediante EMR

Amazon EMR es la mejor solución para el procesamiento masivo de datos mediante Hadoop o Spark en AWS. Es un servicio gestionado que permite desplegar fácilmente clusters de procesamiento de datos integrados con las soluciones de almacenamiento de alta fiabilidad y bajo coste de AWS. Permite usar múltiples versiones de Hadoop y Spark de cara a simplificar la migración de procesos previamente desarrollados en entornos on-premise. Keepler usa Amazon EMR para el tratamiento rápido de grandes cantidades de información en procesos de transformación y carga de datos, transformación de datos en entornos de Data Lake, cálculo de indicadores y de modelos matemáticos y estadísticos para machine learning.

¿Qué es Amazon EMR?

Amazon EMR es un servicio gestionado de AWS que permite crear y escalar clusters de Hadoop. Mediante EMR se pueden ejecutar aplicaciones basadas en Spark, Impala, Presto, Flik, Hive, Pig y HBase además de procesamiento MapReduce. Amazon EMR se integra con otros servicios de AWS que pueden ser utilizados como almacenes HDFS. Estos servicios son Amazon S3, Amazon Kinesis, Amazon Redshift y Amazon DynamoDB.

Facilidad de uso 

Un servicio gestionado que facilita la creación y gestión de clusters de servidores Hadoop sin necesidad de aprovisionar servidores manualmente.

Coste ajustado al uso 

Permite el uso de servidores transitorios y almacenamiento en servicios de bajo coste de AWS. El coste del servicio está asociado al uso del mismo y a las características de computación y almacenamiento requeridas.

Separación de Computación y Almacenamiento 

Permite ajustar la capacidad de procesamiento de forma independiente al almacenamiento, de esta forma los costes de escalado del servicio se ajustan a las necesidades concretas las cargas de trabajo que se ejecutan.

Seguridad

Se integra con los mecanismos de seguridad de AWS incluyendo redes privadas virtuales (VPC), uso de security groups para limitar el acceso a las máquinas de los clusters, encriptación de datos en los servicios de AWS de almacenamiento compatibles con EMR, como DynamoDB o S3.

Fiabilidad

Monitoriza el clúster constantemente, vuelve a probar las tareas con errores y sustituye de forma automática las instancias que tienen un rendimiento deficiente. Los clústeres de Amazon EMR tienen alta disponibilidad y realizan una conmutación por error automática en el caso de que se produzcan errores en un nodo.

Monitorización

Se integra con los servicios de monitorización y auditoría de AWS, lo que permite un control preciso de la salud y el rendimiento de los procesos así como una auditoría completa de los mismos.

¿Qué casos de uso se pueden abordar con AWS EMR?

BANKING
CROSS
Big Data
Cloud
CASO DE ÉXITO

Data lake de operaciones bancarias y dashboard

El banco digital quería tener una visión holística de los principales procesos, incluyendo el registro digital y el ciclo de vida de los principales productos, como hipotecas, préstamos, tarjetas de crédito, etc. La información es dispersa y los KPI operativos no están definidos. Amazon EMR se utilizó para agregar información de fuentes diversas y calcular KPIs complejos.

TELCO
CROSS
Big Data
Data Science
Cloud
CASO DE ÉXITO

Migración a la nube de entorno de exploración de datos

El entorno de exploración en un entorno on-premise de Cloudera tiene que ser mejorado para acomodar más datos y más usuarios. Amazon EMR se utilizó para migrar procesos Impala desde una plataforma Cloudera on-premise.

MEDIA
Big Data
Cloud
CASO DE ÉXITO

Plataforma visión 360 de cliente

El cliente dispone de una plataforma Big Data 360 en la que se han desplegado diferentes casos de uso (reporting y modelos de ciencia de datos) al que acceden diversas áreas de negocio y proyecto. Una vez realizado el despliegue, el cliente desea ahorrar costes en servicios de soporte y evolución de la plataforma. Amazon EMR se usó para optimización de la ingesta y transformación de datos de forma que se acelerase el procesamiento y se disponibilizasen los datos en un Data Warehouse basado en Redshift.

SERVICES
CROSS
Big Data
Cloud
CASO DE ÉXITO

Plataforma para venta de soluciones de datos 

El cliente dispone de una plataforma on-premise basada en tecnología de bases de datos relacional que no le permite escalar ni le da la flexibilidad para gestionar datos de diferentes tipos. Amazon EMR se usó para soportar procesos de datos que anteriormente estaban en un sistema de base de datos relacional on-premises. De esta forma se logró la optimización de procesos de transformación de datos mediante el uso de Spark, se mejoró el proceso de ingesta y procesamiento de datos y se aceleraron los cálculos de indicadores clave.

Beneficios del servicio EMR de AWS

Migración de Hadoop on-premise

Amazon EMR dispone de una gran cantidad de librerías populares de procesamiento de datos como Impala o Spark.

Procesamiento de datos en Data Lake

Amazon EMR es la mejor solución para tratar grandes candidades de datos en Data Lakes S3, ya sea para transformar a formatos de datos como parquet o para generar dataset de valor de negocio.

Cálculo de indicadores clave de negocio

Amazon EMR permite realizar cálculos de indicadores con múltiples ejes de análisis para asi descargar a la herramienta de business intelligence de hacer los cálculos en el momento de la visualización de datos.

Si quieres dar el paso a la nube pública de AWS, contáctanos y hablamos.