Metadatos y filtraciones de datos personales en los sitios web de los Gobiernos Autonómicos de España

Metadatos y filtraciones de datos personales

El siguiente estudio analiza la presencia de potenciales filtraciones de datos personales en las instituciones españolas, concretamente en los sitios web de los Gobiernos Autonómicos así como en el sitio web del Gobierno de España (La Moncloa). Los datos se han obtenido a partir del análisis de los metadatos que contienen los documentos alojados en cada sitio web. Los resultados del estudio exponen una comparativa entre los sitios web analizados y por Comunidades Autónomas, según el número y naturaleza de las filtraciones, evaluando así el cumplimiento (o incumplimiento) de las mismas respecto a las normativas aplicables en materia de privacidad y protección de datos. 

Palabras clave del estudio: protección de datos, metadatos, privacidad, datos personales, RGPD, Administraciones Públicas.

Índice de contenido

Introducción

Metodología

Resultados

Conclusiones

Introducción: Metadatos y filtraciones de datos personales

Para comprender la investigación del presente estudio es importante conocer qué son los metadatos. Un metadato es un dato que define y describe otros datos. El nombre proviene de la palabra griega “meta” (después de o más allá de) y por otro lado el vocablo latino “datum” (dato). Los metadatos son comúnmente llamados “datos sobre los datos” o “información sobre la información”.  

La principal función de los metadatos es facilitar la búsqueda de información relevante utilizando criterios de búsqueda, aunque también ayudan a organizar los documentos electrónicos, proveen la identificación digital y dan soporte a la gestión del ciclo de vida de los documentos. Existen diferentes tipos de metadatos según su aplicación (en el momento de escribir esto, en Suments Data llevamos identificadas 250.000 categorías de metadatos). Sin embargo, en el presente estudio hablamos principalmente de metadatos de gestión de documentos.

Metadatos de gestión de documentos: “Información estructurada o semiestructurada que hace posible la creación, gestión y uso de documentos a lo largo del tiempo en el contexto de su creación. Los metadatos de gestión de documentos sirven para identificar, autenticar y contextualizar documentos, y del mismo modo a las personas, los procesos y los sistemas que los crean, gestionan, mantienen y utilizan”.  

Real Decreto 4/2010, de 8 de enero1

Los metadatos presentan un reto respecto a la protección de datos personales y la seguridad de una organización

Cuando un documento es compartido y sale fuera de su dominio de seguridad, se conoce como fuga de información o fuga de datos. De esta forma, cualquier documento digital normal y corriente accesible en una página web (por ejemplo, un archivo en pdf o una fotografía) es susceptible de generar una fuga de informaciónAdemás, el impacto de una fuga de información puede ser aún más grave si se comunican datos personales identificables, lo que podría poner en peligro la seguridad de la organización o la privacidad de sus usuarios.

En última instancia, los metadatos revelan una gran cantidad de información: nos dicen de dónde provienen los datos, dónde residen en todos los diferentes sistemas, cómo se utilizan y quién los utiliza.  En este sentido, los metadatos presentan un reto respecto a la protección de datos personales y la seguridad de una organización.

Qué son los metadatos

Los metadatos y las normativas aplicables en materia de seguridad y protección de datos personales

Cuando los metadatos contienen datos personales, el tratamiento de los mismos debe ajustarse a una serie de normativas aplicables que regulan el uso de los datos personales para garantizar la privacidad de las personas y organizaciones. Algunos documentos y normativas destacadas son las siguientes:

Constitución Española

La protección de las personas físicas en relación con el tratamiento de datos personales es un derecho fundamental protegido por el artículo 18.4 de la Constitución española2 , en el que se establece que ” la ley limitará el uso de la informática para garantizar el honor y la intimidad personal y familiar de los ciudadanos y el pleno ejercicio de sus derechos” 

Reglamento General de Protección de Datos (RGPD)

El Reglamento (UE) 2016/679, General de Protección de Datos3  (en adelante, RGPD), es el reglamento europeo relativo a la protección de las personas físicas en lo que respecta al tratamiento de sus datos personales y a la libre circulación de estos datos. En la medida que un metadato contiene datos personales, la comunicación y acceso a estos datos debe regularse por esta normativa.

En el caso del RGPD, es importante destacar el concepto de “violación de la seguridad de los datos personales” (RGPD, artículo 4, apartado 12), que se define como “toda violación de la seguridad que ocasione la destrucción, pérdida o alteración accidental o ilícita de datos personales transmitidos, conservados o tratados de otra forma, así como la comunicación o acceso no autorizados a dichos datos” 

Ley Orgánica de Protección de Datos y Garantía de Derechos Digitales (LOPDGDD)

La Ley Orgánica de Protección de Datos y Garantía de Derechos Digitales (LOPDGDD)4 entró en vigor en España el 6 de diciembre de 2018, sustituyendo a la antigua Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal. El objetivo de la LOPDGDD es adaptar la legislación española a la normativa europea, definida por el Reglamento General de Protección de Datos (RGPD). En la medida que un metadato contiene datos personales, la comunicación y acceso a estos datos también debe regularse también por esta normativa de ámbito nacional.

Esquema Nacional de Seguridad en el ámbito de la Administración Electrónica

El Real Decreto 3/2010 de 8 de Eneroactualizado por el Real Decreto 951/2015, de 23 de octubre, por el que se regula el Esquema Nacional de Seguridad en el ámbito de la Administración Electrónica (en adelante, ENS) establece la política de seguridad en la utilización de medios electrónicos para lograr una protección adecuada de la información en el ámbito de las Administraciones Públicas (AAPP).  

El ENS establece una serie de medidas de seguridad en su Anexo II. Dentro de estas medidas de seguridad, definidas en el ENS como [mp], encontramos una medida relativa a la “Limpieza de documentos”, [mp.info.6]. Esta medida determina lo siguiente:

“En el proceso de limpieza de documentos, se retirará de estos toda la información adicional contenida en campos ocultos, metadatos, comentarios o revisiones anteriores, salvo cuando dicha información sea pertinente para el receptor del documento”.

“Limpieza de documentos”, [mp.info.6] – Esquema Nacional de Seguridad en el ámbito de la Administración Electrónica

Como se indica en la [mp.info.6], dicho proceso deberá aplicarse especialmente “cuando el documento se difunde ampliamente, como ocurre cuando se ofrece al público en un servidor web y otro tipo de repositorio de información”.  


En este contexto, el CCN-STIC, publicó la guía “La gestión segura de metadatos”6 con el objetivo de proporcionar una guía de buenas prácticas parar realizar la inspección y borrado tanto de metadatos como de otros datos ocultos asociados a los documentos electrónicos. Este documento forma parte del conjunto de normas desarrolladas por el CCN para la implementación del Esquema Nacional de Seguridad (CCN-STIC-800), siendo de aplicación obligatoria para el Sector Público y teniendo como objeto la protección de los servicios prestados a los ciudadanos y entre las diferentes administraciones. 


Metodología del estudio

El objetivo del estudio es analizar la presencia de metadatos en los sitios webs de cada Gobierno Autonómico y conocer su incidencia en las potenciales filtraciones de datos personales encontradas. De una forma comparativa, se evalúa la presencia de potenciales filtraciones en los sitios web de cada Comunidad Autónoma, para evaluar si existe cumplimiento de las normativas aplicables en materia de protección de datos, concretamente con el RGPD y con el concepto de “violación de la seguridad de los datos personales”, que se realiza cuando existe una comunicación o acceso no autorizado a dichos datos.

Sitios web analizados: El estudio ha considerado el análisis de los sitios web de cada uno de los Gobiernos Autonómicos de España (17), así como el sitio web de una administración pública a nivel estatal (La Moncloa). Finalmente, el análisis se ha podido ejecutar con éxito en 15 de las 17 administraciones autonómicas, así como en el sitio web estatal de La Moncloa. Los sitios web que no han podido ser analizados son los correspondientes a las administraciones de Cataluña y Navarra, ya que la seguridad de estos sitios web no ha permitido ejecutar el análisis.

Documentos analizados: Esta investigación ha considerado los metadatos presentes en 648.670 documentos, todos ellos alojados en la parte pública de cada sitio web.

Fecha de los análisis: Septiembre de 2021

Tecnología: El análisis se ha realizado con la tecnología Verics, herramienta para el análisis de metadatos. Verics realiza un análisis de los metadatos presentes en los documentos alojados en la parte pública de un sitio web, tanto en su dominio principal como en los subdominios correspondientes. Gracias al Machine learning o aprendizaje automático (método de análisis de datos que automatiza la construcción de modelos analíticos), los metadatos se clasifican según la naturaleza de la información que contienen y su impacto en relación al RGPD.

Datos extraídos del análisis. Verics compila en un informe los siguientes datos de cada sitio web:  

  • Número de documentos analizados 
  • Número de potenciales filtraciones encontradas. Entendemos por “potencial filtración” los metadatos que están relacionados con una etiqueta que identifica a personas físicas. Si se hace un tratamiento adecuado de estos metadatos, aquí aparecerán alias, seudónimos o nada.
  • Subdominios encontrados 
  • Ubicaciones de los servidores 
  • Distribución de las filtraciones según autor 
  • Distribución de las filtraciones según tipo de documento 
  • Distribución de filtraciones agrupadas por dominios 
  • Detalles de los datos: número de apariciones 
  • Detalles de los datos: muestra si esa filtración corresponde a un nombre, DNI, dirección de email, etc.
  • Severidad: muestra la interpretación de esos datos en función de la clasificación que describimos a continuación.

Clasificación de la severidad de las filtraciones: Para identificar los datos que se encuentran en cada dominio, Verics sigue el siguiente esquema de clasificación en función de la información que estos contengan: 

  • Filtraciones. Contienen datos personales y su difusión supone incumplimiento del RGPD. Pueden ser nombres y apellidos de personas físicas, direcciones de email personales, dígitos de DNI, nombres internos de usuarios, o números de telefono.
  • Datos Sensibles. Pueden suponer una brecha del RGPD en asociación con otros datos. Un ejemplo son las Coordenadas GPS o direcciones.
  • Estilo. Ofrecen información acerca de las herramientas de sofware que se han usado para la creación y/o manipulación de esos archivos. No suponen inclumplimiento del RGPD y no se han considerado en el estudio como potenciales filtraciones. Son información sobre herramientas ofimáticas y dispositivos utilizados como cámaras de fotos o modelos de impresoras.  

Tratamiento de los datos: Después del análisis, se han recopilado y tratado los datos para realizar una comparativa entre distintas Comunidades Autónomas, así como para obtener algunos indicadores y conclusiones de interés para el estudio, como el ratio entre el número de potenciales filtraciones encontradas y el número de documentos analizados.


Anonimización de los resultados: Siguiendo nuestro compromiso con la privacidad y la protección de datos, se ha utilizado la función de Verics para anonimizar los resultados del informe y así no mostrar ningún dato personal en los informes aquí publicados.

Resultados

La siguiente tabla muestra los resultados por cada una de las Comunidades Autónomas, dispuestas por orden alfabético, y añadiendo por último los resultados sobre el sitio web de la administración estatal de La Moncloa.

CCAAURLFiltracionesDocumentosRatioInforme
Andalucíahttps://www.juntadeandalucia.es128391361240,094Informe Andalucía
Aragónhttps://www.aragon.es2719309810,088Informe Aragón
Canariashttps://www.gobiernodecanarias.org1916248370,077Informe Canarias
Cantabriahttps://www.cantabria.es3373158070,213Informe Cantabria
Castilla y Leónhttp://www.jcyl.es4617500580,092Informe Castilla y León
Castilla-La Manchahttps://www.jccm.es5746540810,106Informe Castilla-La Mancha
Cataluñahttps://govern.cat
Ceutahttps://www.ceuta.es182469290,263Informe Ceuta
Comunidad de Madridhttps://www.comunidad.madrid2386173450,137Informe Madrid
Comunidad Valencianahttps://www.gva.es3377209990,161Informe Com. Valenciana
Extremadurahttp://www.juntaex.es7008169360,414Informe Extremadura
Galiciahttps://www.xunta.gal3897236880,164Informe Galicia
Islas Baleareshttps://www.caib.es7181372600,193Informe Baleares
La Riojahttps://web.larioja.org/ 16567881940,188Informe La Rioja
Melillahttps://www.melilla.es192224720,778Informe Melilla
Navarrahttps://www.navarra.es
País Vascohttps://www.euskadi.eus8048213240,377Informe País Vasco
Principado de Asturiashttps://www.asturias.es1779262700,068Informe Asturias
Región de Murciahttps://www.carm.es2348556680,042Informe Murcia
– La Moncloa (ESP)https://www.lamoncloa.gob.es/Paginas/index.aspx17956196970,911Informe La Moncloa

Comunidades Autónomas ordenadas según el número de potenciales filtraciones de datos personales encontradas

La Moncloa es la administración con el sitio web que presenta un mayor número de potenciales filtraciones (17.956). En el ámbito de los Gobiernos Autonómicos, La Rioja se sitúa como la administración con mayor número de potenciales filtraciones (16.567), seguida de Andalucía (12.839), País Vasco (8.048), Islas Baleares (7.181) y Extremadura (7.008).

Comunidades Autónomas ordenadas según el número de documentos analizados

Atendiendo al número de documentos del sitio web llama la atención el caso de Andalucía, que se sitúa en la primera posición con 136.124 documentos, una cantidad que cuadruplica la media de documentos por sitio web (32.433). Otros sitios web con elevado número de documentos son los de La Rioja (88.194), Región de Murcia (55.668), Castilla La-Mancha (54.081) y Castilla y León (50.058).

Comunidades Autónomas ordenadas según el ratio obtenido de la división entre el número de potenciales filtraciones y el número de documentos analizados

El ratio de potenciales filtraciones frente a documentos analizados es un indicador que sirve para evaluar la densidad de potenciales filtraciones dentro de un sitio web. Si atendemos a este parámetro, encontramos que el sitio web de La Moncloa vuelve a liderar la mala gestión de metadatos con un ratio de 0,912. Entre los Gobiernos Autonómicos, Melilla es la Comunidad Autónoma con peor ratio (0,778), seguida de Extremadura (0,414), País Vasco (0,377), Ceuta (0,263) y Cantabria (0,213).

Conclusiones del estudio

  • Los Gobiernos Autonómicos están incumpliendo el Reglamento General de Protección de Datos. Lo mismo ocurre también con el sitio web de La Moncloa. Todos los sitios web analizados presentan potenciales filtraciones, lo que, atendiendo a la naturaleza de las filtraciones, supone una "violación de datos personales" por el hecho de hacer una comunicación no autorizada de dichos datos y, de la misma forma, están permitiendo el acceso a los mismos por estar disponibles en la parte pública de un sitio web. Las potenciales filtraciones de datos personales encontradas contienen datos personales identificables como nombres y apellidos, direcciones de correo electrónico, nombres de usuario, números de teléfono y dígitos de DNI. Además, los metadatos analizados también presentan filtraciones de información sensible como coordenadas GPS y direcciones físicas.

  • Tampoco están cumpliendo con el Esquema Nacional de Seguridad en el ámbito de la Administración Electrónica, que obliga a realizar una "limpieza de documentos" para eliminar los metadatos antes de ser difundidos, donde también se hace hincapié en la importancia de esta limpieza de metadatos especialmente para documentos que serán publicados en entornos web.

  • No hay excusa para no cuidar de los metadatos. Las normativas antes mencionadas son conocidas por las Administraciones Públicas así como por los profesionales que gestionan el cumplimiento normativo de las mismas. Existen herramientas avanzadas de protección de datos que permiten el análisis de metadatos en sitios web, así como la limpieza de metadatos, ambas de ellas importantes para evitar las filtraciones de datos personales y garantizar el cumplimiento de normativas como el RGPD.

  • Elevado número de potenciales filtraciones encontradas, lo que muestra que los Gobiernos Autonómicos están haciendo una gestión nula o casi nula de sus metadatos. Esta pasividad ante los metadatos se manifiesta también al observar con detalle los informes de cada sitio web, donde se puede ver que muchas de las páginas web analizadas presentan filtraciones en todo tipo de archivos y condiciones, de forma que se descarta la posibilidad de tratarse de un caso aislado o un despiste, sino que se trata de un problema de desconocimiento y mala gestión generalizada.

  • No sólo importan los valores absolutos. Los sitios web con mayor número de documentos son los que tienen más probabilidad (a nivel estadístico) de tener un número elevado de filtraciones. Sin embargo, es importante considerar el ratio de filtraciones por documentos analizados, pues este parámetro nos muestra la densidad de filtraciones que existe en cada sitio web. Mientras que el número de potenciales filtraciones nos cuenta cómo es el alcance de las mismas, el ratio es el valor más preciso a la hora de evaluar la gestión que se hace de los metadatos en la administración. Por ejemplo, una administración puede tener un número elevado de filtraciones porque su sitio web tiene una gran cantidad de documentos publicados (esto puede ser debido a factores como la antigüedad del sitio web) pero si su ratio de filtraciones por documento es bajo, indica que tiene cierto control sobre los metadatos publicados.

  • Punto positivo en seguridad web para Cataluña y Navarra. Es importante destacar que dos de los sitios web considerados en el estudio, correspondientes a los Gobiernos Autónomicos de Cataluña y Navarra, ganan un punto positivo en seguridad web por el hecho de no poder ser analizados gracias a sus medidas de ciberseguridad, que no han permitido el escaner de la herramienta Verics para el análisis de metadatos. ¡Buen trabajo!.

  • La gran mayoría de potenciales filtraciones se encuentran en los metadatos de los documentos de tipo pdf, seguidos de los archivos de imagen jpg y png. No obstante, también se han encontrado filtraciones en otros ficheros de tipo doc, html, css, ppt o xlxs.

  • También se han encontrado rutas de directorios que, aunque no se consideran filtraciones de datos personales o información sensible, presentan un riesgo alto en materia de ciberseguridad, ya que esta información expone cómo se estructura la red interna de una organización.

Referencias

Referencias/Bibliografía: 

1 - Real Decreto 4/2010, de 8 de enero, por el que se regula el Esquema Nacional de Interoperabilidad en el ámbito de la Administración Electrónica.  Enlace: https://www.boe.es/eli/es/rd/2010/01/08/4/con 

2 - Constitución española (BOE núm.311, de 29 de diciembre de 1978). Enlace: https://www.boe.es/eli/es/c/1978/12/27/(1)/con  

3 - Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016, relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos y por el que se deroga la Directiva 95/46/CE (Reglamento general de protección de datos) Enlace: http://data.europa.eu/eli/reg/2016/679/oj  

4 - Ley Orgánica 3/2018, de 5 de diciembre, de Protección de Datos Personales y garantía de los derechos digitales. Enlace: https://www.boe.es/buscar/doc.php?id=BOE-A-2018-16673  

5 - Real Decreto 3/2010, de 8 de enero, por el que se regula el Esquema Nacional de Seguridad en el ámbito de la Administración Electrónica. Enlace: https://www.boe.es/eli/es/rd/2010/01/08/3  

6 - Guía CCN-STIC 835. Borrado de Metadatos, CCN-CERT (23/03/2017). Enlace: https://www.ccn-cert.cni.es/pdf/guias/series-ccn-stic/800-guia-esquema-nacional-de-seguridad/2031-ccn-stic-835-borrado-de-metadatos-en-el-marco-del-ens/file.html  

Share on facebook
Share on linkedin
Share on twitter
Share on email
Share on whatsapp
Share on telegram

Verics: Guía de usuario

En este artículo vamos a describir desde un punto de vista técnico Verics. Nos vamos a centrar en describir la tecnología en la que se