Utilizamos cookies propias y de terceros para mejorar nuestros servicios y mostrarle información relacionada con sus preferencias mediante el análisis de sus hábitos de navegación.
Si continúa navegando, consideramos que acepta su uso.
Más información Entendido

noticias Open Data

¿Líderes en Open Data?

Publicado el 26 de marzo de 2019

¿Líderes en Open Data?

La iniciativa “Open Data” consiste en poner a disposición del público interesado una serie de datos de las diversas administraciones de forma que se puedan obtener información y conclusiones de dichos datos por parte de cualquiera persona.

Quien en su vida académica o profesional haya tenido que lidiar con información analítica se puede ver tentado a acceder a la información que en este portal gubernamental (https://datos.gob.es/) se encuentra al alcance. Sin embargo, las sorpresas no tardan en surgir.

El portal datos.gob.es:

Para empezar, este portal no pasa de ser un contenedor de enlaces a los diversos organismos, sin que haya un esfuerzo normalizador en la estructura de los datos públicos. De la información por la que es posible filtrar entre los más de 21.343 conjuntos de datos (a fecha de Marzo de 2019), se puede filtrar por:

    Categoría: Medio Ambiente (4.013); Sector Público (3.963); Sociedad y Bienestar (3.300); Economía (2.973); Demografía (2.5.14); etc…
    Formato: CSV (10.666); XLS (7399); JSON (7.319); HTML (6.154); PDF (3.943); XLSX (2.791), etc. hasta completar 66 tipos diferentes de formatos, formando 61.003 conjuntos de datos (alguno se proporciona en más de un formato)
    Publicador: Los diferentes organismos de ámbito nacional, autonómico o local que publican los conjuntos de datos.
    Nivel de administración: El nivel de la administración mencionado.
    Frecuencia de actualización: Anual (2.608); Diario (737); Mensual (718); Trimestral (513) y un largo etcétera que incluye desde “1 minuto”, “continuo”, “cada 99 años” (sic) o cada “23 horas” (sic)
    Etiqueta: Etiquetas de calificación de la información entre los que destaca en segundo, tercer y cuarto lugar: “Estudio Cuantitativo”; “Estadística” o “Statistics”, lo que no aporta ninguna información.

Ambito:

Y es en estos filtros en donde nos vamos a basar para describir algunos de los problemas que nos podemos encontrar. Si comenzamos a intentar conseguir alguna información por categoría con el intento de poder realizar variables proporcionadas por varios organismos comienzan las dificultades. Existen organismos locales o autonómicos que destacan por la cantidad de información publicada de forma que nos aparecen en todas las categorías (como por ejemplo la C.A. del País Vasco, el Gobierno de Aragón o el Ayuntamiento de Málaga), lo que de por si no es malo, si no fuera porque el ámbito del análisis se ha de restringir al ámbito territorial de dichos organismos puesto que no existe un nivel homogéneo de compartición de datos entre sus pares. Algunas administraciones son muy proclives a proporcionar datos mientras que otras, o no lo hacen o prefieren compartirlo en portales específicos de su ámbito exclusivo. Este hecho no tiene que ver, en principio, con factores "políticos" y así por ejemplo no constan datos de la “Comunidad de Madrid”, mientras que el “Ayuntamiento de Madrid” publica en su propia web y en el nacional el mismo conjunto de datos.

Formato:

Si optamos por restringirnos al ámbito estatal, nos encontramos con 7.707 conjuntos de datos de los diversos organismos estatales. La mayoría de los problemas derivados del formato son comunes al análisis que podríamos haber hecho de verlo de forma global. En todo caso, nos encontramos con que el formato predominante es el HTML lo que indica que el portal nos dirige a una dirección web mediante la cual con un formulario podremos conseguir una u otra información, dependiendo del período elegido, la variable de estudio o el ámbito de la misma. Destaca también la abundancia de datos en PDF, los cuales en algunos casos no pasan de ser documentos o gráficos de los cuales es difícil obtener información cuantitativa de una forma sencilla.

Además con otros formatos, en principio menos problemáticos como el xls o xlsx, nos encontramos con hojas de cálculo formateadas para facilitar su lectura (varias filas de encabezados) más que su tratamiento.

Periodicidad:

En cuanto a la periodicidad, predomina la heterogeneidad. Más allá de la que sería esperable, existen periodos tan extraños como los “99 años” o “23 horas”. No sabemos qué pasa con la hora diaria que falta en este último caso.

Por otro lado, algunas fuentes de datos hacen referencia a un dato anual, mientras que no se especifica su periodicidad. Existe información que se proporcionó hace varios años (p.ej. 2012) y no se vuelve a publicar.

Carencias:

Por todo ello, la dificultad de acceso a una información homogénea en su formato de acceso, en su contenido, en su jerarquía, en su ámbito temporal o en su periodicidad, hace que se esté perdiendo una oportunidad única para disponer de una información que enriquezca cualquier análisis a realizar.

Oportunidades:

Siendo encomiable el trabajo conseguido recopilando la diversidad de información pública en este portal y convenciendo a los proveedores de esta información para que vean reflejado su labor aquí, sería preciso una labor de normalización que hiciera que la información pública en España fuera líder mundial indiscutible.

No obstante, este análisis se ha efectuado exclusivamente con la información disponible en España y no se ha comparado con otras iniciativas similares a nivel mundial.

El potencial, si esta información tuviera estas características, haría buena la frase de Rufus Pollock (fundador de la Open Knowledge Foundation):

“El mejor uso que pueda darse a tus datos se le ocurrirá a otra persona.”

Photo by Franki Chamaki on Unsplash.