Verics- Agrupación por tipos de archivos

analisis de datos verics

Aquí puedes ver un vídeo explicativo con todos los detalles.

Introducción

En esta sección, hemos agrupado los datos que han aparecido en tus documentos según el tipo de archivo donde los hemos encontrado.

De esta manera, podemos tener una visión global sobre el volumen de información que estamos exponiendo en la web, además de ver como se distribuyen estos datos según los tipos de documentos que hemos analizado y poder identificar cuales son los canales de publicación mas afectados.


Volumen de los datos expuestos

Aquí te ofrecemos una visión general sobre el volumen de datos expuestos en los archivos del dominio web.

Para elaborar este gráfico, tomamos todos los datos que hemos analizado y los agrupamos por el tipo de archivo donde han aparecido.

El número que asociamos a cada tipo de documento, es la suma de los datos que hemos encontrado de las categorías:

  • Filtraciones: Suponen un incumplimiento de GDPR:
    • Nombres y apellidos de personas físicas
    • Emails personales
    • DNIs
  • Sensibles: Pueden suponer una brecha del reglamento en asociación con otros datos:
    • Coordenadas GPS
    • Direcciones
  • Estilo: Ofrecen información acerca de las herramientas de software, que se han usado para la creación y/o manipulación de esos archivos:
    • Herramientas ofimáticas
    • Cámaras de fotos
    • Modelos de impresoras y fotocopiadoras
    • ….

Distribución de los datos expuestos

A partir de la misma información que usamos para generar la visualización del volumen de datos expuestos, en este caso nos centramos en mostrar la distribución de la severidad de éstos en base al tipo de archivo que hemos analizado.

Con esta sub-agrupación, podemos identificar que canales de publicación son los que están ocasionando un mayor número de filtraciones que no cumplen con el RGPD.


Detalles de los datos

En la tabla te ofrecemos un resumen de los datos que hemos representado en los gráficos anteriores.

Aquí tienes la posibilidad de explorar los detalles que lo que hemos encontrado, compartirlo con tu cliente, realizar algún otro tipo de análisis, o simplemente guardarlos para tener tu propio historial de datos.


Interpretaciones

Según a que tipo de empresas o instituciones a las que pertenezcan los dominios que has analizado, se puede extraer mucha información solo con mirar a como se agrupan estas exposiciones de datos, y que tipos de documentos componen la web.

Aquí te dejamos algunos de los ejemplos más representativos.


Instituciones públicas

Se caracterizan por ser webs con una cantidad de documentos muy grande.

El número de documentos de aplicaciones ofimáticas (Libreoffice, Word, Excel, PowerPoint….) y PDFs en comparación con archivos, gráficos es muchísimo mayor dado como las administraciones suelen compartir la información.

Si no se cuidan los canales de publicación de documentos ofimáticos, éstos suelen presentar un elevado número de datos que suponen un incumplimiento de GDPR y normas de estilo. Sin embargo,como cabe esperar, no presentan información sobre coordenadas, direcciones, etc..

El origen de los documentos PDF es mucho mas variado. Esto es debido, a que la oferta de herramientas de publicación y generación de estos documentos, es múchisimo mayor que la oferta de herramientas ofimáticas. Esto hace que no haya un patrón claro en la naturaleza de los datos expuestos que podemos encontrar en documentos PDF.


Empresas grandes

Estas webs tambien presentan un número de documentos muy grande, pero el patrón en el tipo de archivos que encontramos es muy diferente.

A diferencia de las administraciones públicas, aquí hay muchos mas archivos de tipo:

  • PDF: Los canales de publicación de información suelen estar centralizados. De este modo, se controla que información que se incluye en los archivos que se hacen públicos es homogénea en todo el sitio web. La ventaja de esta aproximación es que, solamente hay “un único” punto de fallo a la hora de exponer datos y se tiene un control muy exhaustivo sobre los procesos de publicación. La desventaja es que si este punto falla, la exposición afecta a todo el sitio web (como el ejemplo de la gráfica)
  • Gráficos: (JPG, PNG…) En el entorno de las grandes empresas privadas, se invierte mucho más dinero en cuidar la imagen corporativa, y esto se refleja en la composición del tipo de archivos que componen la web.
  • HTML: Normalmente las estrategias de comunicación se apoyan en la creación de contenido en un blog propio, o en forma de ártículos dentro de su gestor de contenidos.

Empresas pequeñas

Estas webs son simplemente presenciales.

Secaracterizan por tener una tipología de tipos de archivos muy básica fomarda por:

  • Gráficos: (JPG, PNG…) Suelen obtenerse de bancos de imágenes. Los datos que clasificamos como filtraciones, están relacionados con los autores de estas fotografías. En estos contextos esto es deliberado ya que proporciona un elemento de publicidad muy económico para el autor.
  • HTML: El gigante de los gestores de contenidos para estas webs es WordPress, de modo que tiene sentido que estos archivos sean los predominantes contenedores de información en estas webs.

Aquí puedes ver un vídeo explicativo con todos los detalles.

Share on facebook
Share on linkedin
Share on twitter
Share on email
Share on whatsapp
Share on telegram

Verics: Guía de usuario

En este artículo vamos a describir desde un punto de vista técnico Verics. Nos vamos a centrar en describir la tecnología en la que se