¿Qué son los datos abiertos?

Datos Abiertos (Open Data) es una iniciativa que pretende poner a disposición del conjunto de la sociedad los datos que gestiona la administración pública en el desarrollo de sus funciones, de forma que estos estén disponibles para su redistribución, reutilización y aprovechamiento.

El objetivo de la apertura de datos es, además de impulsar la transparencia hacia los ciudadanos, posibilitar la creación de valor mediante el uso y reutilización de estos. Poner los datos a disposición de la sociedad hace que cualquier persona, empresa u organización pueda construir sobre ellos una nueva idea que genere nuevos datos, conocimientos o incluso creación de nuevos servicios que reporten beneficios económicos y/o sociales a los destinatarios finales.

Principios del Open Data - Decálogo

  1. Públicos: Se recomienda abrir todos los datos públicos.
  2. Detallados: Publicar los datos originales con el nivel de granularidad más detallado posible.
  3. Actualizado: Los datos deben ser puestos a disposición de los usuarios con la frecuencia necesaria para que los datos no pierdan su valor.
  4. Accesibles: Hay que hacer accesible los datos al mayor número de usuarios posible.
  5. Automatizados: Los datos deben ser procesados automáticamente.
  6. Sin registro:  Los datos deben estar disponibles para todos, sin necesidad de registro previo.
  7. Abiertos:  Se recomienda la utilización de formatos no propietarios.
  8. Libres:  Los datos deben ser de uso 100% libre para los usuarios.

¿Qué es un dataset (conjunto de datos)?

El término "dataset" o "conjunto de datos" hace referencia a la categorización de los datos públicos en catálogos de datos.

Los datos en bruto se organizan en "conjuntos de datos" o "datasets" para ser más fácilmente indexados y localizados. Por ello, se utilizan campos (metadatos) que definen el grupo de datos como la descripción, la frecuencia de actualización, el formato o la licencia de uso entre otros.

Formato de los datos abiertos

La información se publica en formatos de datos estructurados para facilitar que pueda ser utilizada de forma automática por los lenguajes de programación.

De esta manera, se intenta cumplir el objetivo de reutilizar al máximo la información publicada. Estos son los formatos más utilizados para publicar los datos:

  • CSV: valores separados por coma. Los ficheros CSV son un tipo de documento en formato abierto sencillo para representar datos en formato de tabla. Las columnas se separan por comas (o punto y coma) y las filas por saltos de línea.
  • TSV: valores separados por tabulaciones que es un formato de texto simple para almacenar datos en una estructura tabular y una forma de intercambiar información entre bases de datos. Cada registro de la tabla es una línea del archivo de texto. Cada valor de campo de un registro está separado del siguiente por un carácter de tabulación . El formato TSV es, por tanto, un tipo del formato de valores separados por comas más general que es ampliamente compatible, por lo que a menudo se usa en el intercambio de datos para mover datos tabulares entre diferentes programas.
  • JSON: formato ligero para el intercambio de datos basado en la notación literal de objetos de JavaScript. Su sintaxis es simple, por lo que facilita el tratamiento en los navegadores. Además, su concisión reduce el tamaño de flujo de datos entre cliente y servidor.
  • ODS: es un contenedor de datos activos, es decir operacionales que ayudan al soporte de decisiones y a la operación. Es un formato de archivo abierto y estándar para el almacenamiento de hojas de cálculo que muestra información en celdas organizadas en filas y columnas, y cada celda contiene datos o fórmulas, con referencias relativas o absolutas a otras celdas.
  • SHP: formato propietario estándar de datos espaciales (Sistemas de Información Geográficos), desarrollado por la compañía ESRI, que almacena tanto la geometría como la información alfanumérica. Este formato no está preparado para almacenar información topológica.
  • XLSX: formato propietario de Microsoft basado en XML que muestra la información en celdas organizadas en filas y columnas, y cada celda contiene datos o fórmulas, con referencias relativas o absolutas a otras celdas.
  • XML: metalenguaje extensible de etiquetas desarrollado por el W3C que permite definir lenguajes para diferentes necesidades. Es el estándar para el intercambio de información estructurada entre diferentes plataformas.