Procesamiento Hadoop en AWS mediante EMR
Amazon EMR es la mejor solución para el procesamiento masivo de datos mediante Hadoop o Spark en AWS. Es un servicio gestionado que permite desplegar fácilmente clusters de procesamiento de datos integrados con las soluciones de almacenamiento de alta fiabilidad y bajo coste de AWS. Permite usar múltiples versiones de Hadoop y Spark de cara a simplificar la migración de procesos previamente desarrollados en entornos on-premise. Keepler usa Amazon EMR para el tratamiento rápido de grandes cantidades de información en procesos de transformación y carga de datos, transformación de datos en entornos de Data Lake, cálculo de indicadores y de modelos matemáticos y estadísticos para machine learning.
Un servicio gestionado que facilita la creación y gestión de clusters de servidores Hadoop sin necesidad de aprovisionar servidores manualmente.
Permite el uso de servidores transitorios y almacenamiento en servicios de bajo coste de AWS. El coste del servicio está asociado al uso del mismo y a las características de computación y almacenamiento requeridas.
Permite ajustar la capacidad de procesamiento de forma independiente al almacenamiento, de esta forma los costes de escalado del servicio se ajustan a las necesidades concretas las cargas de trabajo que se ejecutan.
Se integra con los mecanismos de seguridad de AWS incluyendo redes privadas virtuales (VPC), uso de security groups para limitar el acceso a las máquinas de los clusters, encriptación de datos en los servicios de AWS de almacenamiento compatibles con EMR, como DynamoDB o S3.
Monitoriza el clúster constantemente, vuelve a probar las tareas con errores y sustituye de forma automática las instancias que tienen un rendimiento deficiente. Los clústeres de Amazon EMR tienen alta disponibilidad y realizan una conmutación por error automática en el caso de que se produzcan errores en un nodo.
Se integra con los servicios de monitorización y auditoría de AWS, lo que permite un control preciso de la salud y el rendimiento de los procesos así como una auditoría completa de los mismos.
¿Qué casos de uso se pueden abordar con AWS EMR?
Beneficios del servicio EMR de AWS
Migración de Hadoop on-premise
Amazon EMR dispone de una gran cantidad de librerías populares de procesamiento de datos como Impala o Spark.
Procesamiento de datos en Data Lake
Amazon EMR es la mejor solución para tratar grandes candidades de datos en Data Lakes S3, ya sea para transformar a formatos de datos como parquet o para generar dataset de valor de negocio.
Cálculo de indicadores clave de negocio
Amazon EMR permite realizar cálculos de indicadores con múltiples ejes de análisis para asi descargar a la herramienta de business intelligence de hacer los cálculos en el momento de la visualización de datos.