Como adelantamos en el artículo Calidad del dato: a backend approach, al crear productos o proyectos de datos es fundamental la calidad de los datos que se utilizan. Todo el potencial que puede tener un producto de datos queda reducido a lo buenos o malos que son los datos que se utilicen (y generen) en el mismo. En este artículo abordaremos la cuestión de la calidad del dato desde el prisma frontend.

Durante el ciclo de vida del proyecto de análisis de datos, y en paralelo con el equipo de backend que asegurará la consistencia y el formato del dato en origen, el equipo de frontend trabajará en la funcionalidad del proyecto a desarrollar y el desarrollo de nuevos KPIs que aporten valor a negocio en las cuatro etapas principales del análisis:

  1. Análisis exploratorio (EDA).
  2. Definición de la funcionalidad.
  3. Modelo de datos.
  4. Calidad del dato durante la implementación del producto.
Todo el potencial de un producto de datos queda reducido a lo buenos o malos que son los datos #datascience Clic para tuitear

1. Análisis exploratorio (EDA)

Mediante el Análisis Exploratorio (EDA), se evalúa la consistencia del dato en paralelo al trabajo de backend:

  • Evaluaremos las distribuciones y correlaciones de las variables en función de sus observaciones.
  • Buscaremos inconsistencias en el modelo. Ejemplificamos con tres escenarios sencillos que se podrían dar en el análisis de facturación de una multinacional:
    • Las facturas emitidas a clientes franceses que tienen asociada la unidad monetaria yen (Y) cuando debería ser euro (€).
    • Países y zonas (LATAM, EU, Asia) y veremos que Luxemburgo está asociado a la zona Asia.
    • Los literales de los países están en distintos idiomas y no son homogéneos: España – United States – Suomi – Danmark.
  • Daremos sentido al ejercicio propuesto por Negocio y definiremos nuevos KPIs y los distintos prismas (dimensiones) mediante los cuales desarrollaremos el proyecto y aportaremos valor extra al cliente.

Con este ejercicio disminuiremos y nos adelantaremos a futuras problemáticas, cambios o iteraciones sobre el modelo de datos, optimizando tiempos de desarrollo de proyecto y asegurando la calidad del dato desde el inicio del mismo.

Para ello, tomaremos como origen el DWH del cliente o ficheros con la información en bruto, siempre acompañada de documentación funcional en el caso de que nuestro análisis se realice sobre un datamart o fichero ya desarrollado o tratado por un tercero. Esta exploración se realizará de una manera rápida aprovechando la potencia de lenguajes de programación como R o Python a través de herramientas como R Studio o Jupyter.

2. Definición de la funcionalidad

Tras el estudio y análisis realizado en el punto anterior, debemos realizar una propuesta de visualización y su funcionalidad. Partimos de la premisa de que el proyecto a desarrollar se implementará en una herramienta de BI como Microstrategy, Power BI, Tableau, Qlik o Spotfire; mediante la cual el cliente analizará la información con dashboards, documentos o reportes. Deberemos buscar el equilibrio entre tres variables:

  • Visualmente atractivo.
  • La información de los componentes ha de ser sencilla de interpretar.
  • Amplia interactividad: Posibilidad de aplicar distintas ventanas temporales, existencia de múltiples selectores con los que segmentaremos la información (dimensiones/atributos), navegación interactiva (obtener detalle o información disgregada partiendo del dato agregados mediante drill down).

Esta fase deberá ser definida en conjunto con el equipo de backend a fin de determinar y estudiar la viabilidad del modelo de datos.

3. Modelo de datos

A continuación, debemos definir nuestro modelo. Durante la fase de EDA hemos estudiado las distintas variables de los datos en bruto que conformarán nuestro modelo de estrella, copo de nieve o tablón, siempre alineados con la propuesta funcional y garantizando:

  • Ser un modelo consistente y homogéneo: aseguramos la calidad del dato.
  • Escalable: prevenimos y aseguramos transparencia ante la inclusión de nuevas dimensiones o aperturas fruto del crecimiento de negocio facilitando el mantenimiento.
  • Eficaz y con alto rendimiento: optimizaremos tiempos de ejecución e interactividad en la herramienta de Business Intelligence.

Las sinergias, la comunicación, la transparencia y el trabajo en equipo (backend + frontend + cliente) son fundamentales en esta fase ya que van a ser la base de nuestro proyecto.

Aquí ya tenemos los cimientos de nuestro proyecto, ahora procederemos a implementarlo en la herramienta de BI.

4. Calidad del dato durante la implementación del producto

A medida que mapeamos las tablas, modelamos atributos, definimos hechos y creamos métricas en la herramienta de Business Intelligence, es importante revisar la coherencia y calidad del dato. No debemos perder de vista la fuente de los datos, contrastada en todo momento con:

  • El modelo de datos creado.
  • Las visualizaciones desarrolladas en nuestra herramienta de BI.
  • Coherencia de las mediciones. Es fundamental entender el Negocio de nuestro cliente, siendo un plus el bagaje y expertise que pueda tener el equipo de desarrollo en un área o sector concreto, participando previamente en proyectos de datos relacionados con banca, utilities, retail, energías o teleco.

Como puede desprenderse tanto del artículo con enfoque backend como en este que ofrece más visión front, y como cierre de este contenido sobre calidad del dato, me gustaría insistir en la importancia de la comunicación entre el equipo de backend, frontend y negocio a fin de ir revisando mediciones y la coherencia/consistencia del producto a medida que avanzamos con el desarrollo. Esta es la única forma de crear una base sólida y asegurarnos el éxito del proyecto, al menos desde el punto de vista de implementación tecnológica.

Imagen: pexels | rawpixel

Author

  • Marcos Sobrino

    Data Analyst en Keepler. “Engineer passionate about data and BI. As a Data Analyst, the part of my job that I like the most is being able to find the best way to analyze and display information. In the projects I am part of, I consider essential to form a team based on trust and good communication between specialists in different areas.”