Hoy en día aparece con más fuerza cada vez el término de Open Data pero, ¿a qué se refiere concretamente este término? La respuesta es clara y sencilla, según la Open Knowledge Foundation “son los datos que pueden ser utilizados, compartidos y reutilizados libremente por cualquier persona, en cualquier lugar y para cualquier propósito”.

Estos repositorios de datos abiertos provienen de diferentes fuentes, pero originalmente fueron impulsados por instituciones académicas cuyo principal objetivo era el de potenciar el campo de la investigación con el libre acceso a repositorios abiertos de datos. Más tarde, se unieron las administraciones gubernamentales las cuales han sido hasta la fecha las principales generadoras de este tipo de repositorios, con la participación desde pequeños ayuntamientos hasta grandes administraciones como la Unión Europea o el gobierno de los EEUU.

Aquí os dejamos unos enlaces a varias plataformas con datos abiertos:

Este auge en el Open Data ha influido en grandes compañías como Google, fomentado su uso y participando en su divulgación con la creación de herramientas de búsqueda para los mismos, como es el caso de Dataset Search.

A continuación responderemos a diferentes preguntas que nos darán una visión de lo que nos vamos a encontrar y lo que nos pueden ofrecer estos conjuntos de datos:

¿Cuales son las principales áreas sobre las que van a versar el Open Data?

Los temas sobre los que van a versar este tipo de datos van estrechamente relacionados con las entidades publicadoras de los mismos que en su mayoría serán organismos públicos, por lo tanto se enfocarán a las siguientes áreas temáticas:

  • Medio ambiente.
  • Sector público.
  • Economía.
  • Demografía.
  • Servicios públicos.
  • Transporte.

Aunque, más allá de estas áreas, vamos a encontrar multitud de ellas en las cuales encaminar nuestra búsqueda a diferentes niveles de detalle acorde con nuestras necesidades. Así mismo, teniendo en cuenta el crecimiento exponencial que ha registrado el Open Data en los últimos 5 años (en el caso de España el crecimiento ha aumentado en cerca del 1000%), nos permitirá en el futuro acceder a cualquier tipo de datos que tengamos en mente.

¿Qué formato de datos nos vamos a encontrar?

Uno de los puntos a destacar va a ser el formato en el que nos encontraremos los datos, que se englobará en los siguientes tres tipos:

  • Formatos estructurados (CSV, XLS, …).
  • Formatos semiestructurados (HTML, JSON, …).
  • Formatos sin estructurar (PDF).

Sin olvidarnos dentro de los formatos semiestructurados de los KMZ o KML, que nos permitirán mostrar nuestros datos en aplicaciones geográficas como Google Maps entre otras, que nos darán un valor añadido a nuestros análisis de datos.

¿Cuál es la mejor manera de integrar estos datos?

Lo primero que habrá que tener en cuenta a la hora de integrar este tipo de datos es si están previamente tratados o, como en su mayoría se tratan de raw data o datos en crudo, si necesitarán un tratamiento previo. De acuerdo con ello, siempre deberemos tener en cuenta la calidad de los datos que vamos a utilizar. Para ayudar con ello os animamos a leer entradas anteriores como Calidad del dato: a backend approach o Calidad del dato: a frontend approach en las que hablamos de ello en mayor detalle.

Además de lo anteriormente comentado habrá que tener en cuenta otros puntos para el correcto uso de estos datos.

  • La entidad publicadora.
  • La documentación presentada por la entidad publicadora.
  • La periodicidad de los datos, si tiene cabida en nuestro uso.
¿Qué tipo de uso podemos dar al Open Data en nuestros proyectos?

El uso del Open Data en nuestros proyectos puede ser de dos tipos:

  • Complementando la información que poseemos. Esto nos permitirá tener una visión más global de nuestros datos y nos dará un valor añadido a los mismos.
  • Formando la base de nuestro proyectos, como por ejemplo un potencial tipo de proyectos son los relacionados con Smart Cities, como se puede ver en el siguiente enlace Smart Cities Open Data projects.
#OpenData mundo abierto de posibilidades para complementar o iniciar nuestros proyectos de datos #DataScience Clic para tuitear

De una u otra manera, hablar de Open Data lleva implícito un mundo abierto de posibilidades para complementar nuestros proyectos o iniciar otros nuevos, ya que brinda una oportunidad única a la sociedad y al entorno empresarial de libre acceso a gran cantidad de datos, con el consiguiente valor que de ello se desprende. Todo ello a su vez fomenta un entorno colaborativo en nuestra sociedad, por lo cual os animamos a su uso, así como a la publicación de los resultados de su análisis.

Imagen: unsplash | franki chamaki

Author

  • Roberto Corral

    Data Analyst en Keepler. "Mathematician with a Master in Big Data and DataScience. I like to be able to generate solutions to support business areas and user training. I develop with Business Intelligence tools and I am certified in Microstrategy. I have knowledge and experience in DB, cloud environments and ETL tools. I adapt to work in teams in any environment.".