Manual Técnico de Verics

  1. ¿Que es Verics?
  2. Ámbito de funcionamiento
  3. Sistemas de protección & Verics
  4. Troubleshooting
  5. Bugs conocidos
  6. ¿Te podemos echar una mano en alguna otra cosa?

¿Qué es Verics?

Verics es una araña web (o web crawler). Un robot que de manera sistemática explora el contenido de una página web a partir del dominio de ésta. Por ejemplo:

A partir del dominio de nuestra web, www.suments.com, Verics encontrará todos los archivos que sean públicos y accesibles desde éste. En nuestro caso encontraríamos a este encantador perrito entre otros.

Para nosotros es muy importante la privacidad y las medidas de seguridad que nuestros clientes utilizan en sus webs. Por ello, SIEMPRE se vamos a respetar todas las medidas que haya tomado la persona que administra la página web.

>> Puedes leer más detalles sobre como afectan las medidas de seguridad a un análisis <AQUÍ>


Ámbito de funcionamiento

Como todos sabemos, hay muchas tecnologías diferentes que permiten crean un entorno web. Según los requisitos de lo que vayamos a hacer, nos decantaremos por una tecnolgía u otra.

Desde el punto de vista del usuario humano esto suele ser transparente y no debe interferir en su experiencia de usuario. Para un robot como Verics es esencial conocer en que se basa.

Entendemos como entorno web un sitio web o una aplicación web. Un entorno web, se construye a partir de un framework. Dentro del desarrollo web, podemos encontrar un framework web o frameworks web progresivos. Un ejemplo para aclarar:

La página web www.suments.com es un sitio web basado en framework web CMS

El sitio donde puedes utilizar Verics, suite.suments.com, es una aplicación web basada en un framework web progresivo

¿Qué entornos web SI puedo analizar con Verics?

Cualquier entorno web basado en un framework web no progresivo. Joomla, Prestashop, WordPress, ….

>> Puedes leer más detalles sobre como afectan las medidas de seguridad a un análisis <AQUÍ>

¿Qué entornos web NO puedo analizar con Verics?

Un entorno web basado en un framework progesivo. React, Vue.js, Angular, …

>> Puedes leer más detalles sobre como afectan las medidas de seguridad a un análisis <AQUÍ>

¿Como se comporta con Top Level Domains?

Si tienes curiosidad, puedes encontrar más detalles sobre los TLDs aquí.

A la hora de analizar una web, el sistema va a limitar el ámbito de los documentos a todos los que se encuentren bajo el mismo dominio y TLD. Todos los subdominios que se encuentren bajo estos parámetros, serán analizados. Sin embargo, para evitar «descargar internet» y hacer una mini versión de Google, los enlaces que no cumplan esas condiciones, se consideran fuera del ámbito del análisis.

Por ejemplo, vamos a suponer que el objetivo es analizar la web: https://www.example.com. ¿Que va a pasar cuando se introducen diferentes webs inciales?

Dominio introducidoRedirecciónObjetivo
https://www.example.comNo hayhttps://www.example.com/
https://example.comNo hayhttps://example.com/
http://www.example.comNo hayhttp://www.example.com
http://example.comNo hayhttp://example.com
https://www.suments.comhttps://suments.comhttps://suments.com
https://suments.comNo hayhttps://suments.com
http://www.suments.comhttps://suments.comhttps://suments.com
https://www.suments.comhttps://suments.comhttps://suments.com

Hay que notar, que cada organización seguirá una politica propia respecto a las redirecciones que introduce. Mientras que en «example» han optado por no introducir ninguna, lo que puede inducir a distintas webs alojadas en cada sitio. En Suments hemos optado por centralizar el contenido en un solo sitio.

¿Por qué no segumos TLD diferentes al introducido?

Si el objetivo fuese analizar https://www.example.com, pero la web que se ha introducido es https://www.example.es. En ambos casos las webs son válidas y funcionan. No tenemos manera de saber si esa es la web que quieres analizar o no.

Por este motivo, recomendamos encarecidamente que se preste atención a que URLs se introducen en el sistema.


Sistemas de protección & Verics

Desde Suments Data, entendemos que las medidas de seguridad activas o pasivas que nuestros clientes implementan en sus webs son algo de vital importancia para los datos de su negocio. Por ese motivo, Verics está diseñado para respetar todas ellas.

Hay infinidad de sistemas de protección en entornos web. Cada uno de ellos pretende solucionar un problema diferente dentro del gran número de amenazas que hay. Todos estamos familiarizados con elementos como:

  • Captcha: El objetivo es distinguir entre un humano y un robot.
  • Login o autenticación: Tratan de verificar la identidad de un humano en concreto.
  • robots.txt (o estandar de exclusión de robots): Pretenden gestionar como van a interactuar con un entorno web las arañas.
  • y un larguísimo etc.

No todos los sistemas tienen el mismo impacto en los resultados de un análisis.

¿Cómo se refleja esto en un análisis?

Esto va a depender de como estés utilizando Verics. Hay dos sabores:

Verics aplicación web

Este caso no lo hemos visto en «el mundo real», aunque de modo teórico podría darse. Al ser un usuario humano quien introduce la URL, de manera intrínseca se está haciendo una comprobación sobre el dominio al cogerlo de la barra de direcciones del navegador.

>> El acceso a esta aplicación lo puedes encontrar <AQUÍ>

Verics API

En los sistemas automatizados que usan esta vía es más habitual el caso en el que se introduce una URL en la que ningún humano ha comprobado si existe un sistema de seguridad que pueda afectar al éxito del análisis.

>> La documentación de la API la puedes encontrar <AQUÍ>

En este caso, cuando se hace uso del servicio VAnalysisGetStatus para comprobar en que estado se encuentra, éste devolverá dentro del payload:

 "status":"error_domain",

Este error se da cuando Verics encuentra alguna de las siguientes causas:

  • La URL introducida tiene un formato incorrecto. (Puede
  • El dominio que se ha introducido para analizar ha caducado.
  • Hay un error en los DNSs
  • Se ha introducido la URL con protocolo «http» y ésta no tiene una redirección a «https»

>> En versiones posteriores se va a detallar cual de estos motivos es el que se ha encontrado para aportar más información.

¿Qué pasa si obtengo un código de error, pero la web es accesible desde el navegador?

Este apartado se trata con mayor extensión en la sección Troubleshooting.


Troubleshooting

En esta sección vamos a describir casos que no son obvios ni inmediatos.

Puedo acceder a la web, sin embargo obtengo un «error_domain»

Este caso puede darse por muchas circunstancias diferentes. Aquí resumimos los casos que nos hemos encontrado hasta ahora:

Protección contra ataques DDoS:

Hay muchos proveedores de sistemas para protegerse ante este tipo de ataques. Éste comprueba que el usuario que intenta acceder a la página web es un humano y no un robot como Verics.

Ante esta situación, el sitio web se cataloga como «error_domain» ya que ha sido bloqueado el acceso a éste.

Algunos productos disponibles en el mercado son:

>> Este fantástico artículo detalla estos sistemas de protección.

Filtros geográficos

Algunas webs utilizan este tipo de filtros para limitar el tráfico que venga de paises que no les interesa.

En nuestra experiencia, estos sistemas aparece en rarísimas ocasiones, pero se dan.

>> Este fantástico artículo detalla esta tecnología.


«Mis resultados son raros«

En algunas ocasiones los resultados que aparecen en el informe final parece que no concuerdan con el contenido que se puede ver en el navegador. Un caso típico es cuando navegamos en una página web rica en contenido y el análisis de Verics reporta que ha analizado un número muy pequeño de archivos. Por ejemplo:


Bugs conocidos

Aquí vamos a resumir los bugs conocidos que se han identificado mientras tengan

Layout en mi análisis detallado sin filtraciones

En la versión de la aplicación donde se accede a un informe detallado de una web en la que ésta no tiene ninguna filtración, hay un bug a la hora de visualizar los resultados.

Los resultados de los análisis son correctos, el error reside en la visualización de éstos.

¿Que se muestra?

¿Como debería mostrarse?


¿Te podemos echar una mano en alguna otra cosa?

Si todavía tienes alguna duda, o crees que algo no es suficientemente preciso, estaremos encantadísimos de atenderte como siempre en nuestro centro de soporte através de mail:

hola@suments.com

Compartir en facebook
Compartir en linkedin
Compartir en twitter
Compartir en email
Compartir en whatsapp
Compartir en telegram