Desde hace unos meses se ha venido produciendo un aumento inusual y artificial de tráfico de referencia en Google Analytics. Este tráfico se agrupa en un ramillete de dominios y subdominios, a veces con nombres descriptivos como best-seo-offer.com, y otras ocasiones bajo dominios más esquivos, jugando con la confusión de caracteres, como theguardlan.com. Recordamos que el tráfico de referencia es aquel que llega a una página web mediante un enlace situado en otra página.
En el caso de sitios webs con un volumen de tráfico medio o grande, estos valores pueden pasar desapercibidos, ya que las visitas proveniente de cada dominio no suelen superar las 50 o 100 sesiones diarias. Sin embargo, en páginas web con un tráfico pequeño y normalmente bien segmentado, la analítica queda parcialmente inservible, arruinada.
¿De dónde sale todo este spam?
El referral spam se basa en visitas que los robots y crawlers generan en nuestra web, pasando un valor de visita mediante link. Ejecutan su código y Google Analytics lo imputa como vista de referencia. De esta manera consiguen que Google las indexe y que el responsable de analítica de portal acabe clicando.
El objetivo que se persigue básicamente es promocional. La mayor parte de webs que se incluyen en estos valores de referencia son servicios pensados para webmasters que controlan la analítica del portal. Es decir, pequeñas empresas o freelances con recursos limitados y cuyo impacto sobre la analítica les va a despertar la curiosidad.
Crawler Referral Spam

Este tipo de crawlers hace una navegación por el sitio web y en muchos casos los indexa parcialmente. Por supuesto, ignora las declaraciones del robots.txt. Muchos de estos dominios de referencia son servicios SEO como semalt.com o best-seo-offer.com, otros ofrecen reclamos del tipo buttons-for-your-website.com o free-share-buttons.com, y más directamente la venta de tráfico como www.Get-Free-Traffic-Now.com o webmaster-traffic.com.
Ghost Referral Spam

Junto a este grupo, también existe dominios que redireccionan, como el caso de darodar.com, a otros portales como Aliexpress.com. La intención es conseguir clicks basados en la curiosidad. Este tipo de referral no incluye un trabajo activo sobre la web, es decir, no la indexa, ni hace ejecuciones sobre el contenido, pero igualmente desvirtúa nuestra analítica.
Detener los bots de spam
Fundamentalmente este tipo de spam se controla mediante filtros en Analytics, que pare eso están, así como vía .htaccess. También se pueden ejercer otro tipo de controles (bloquear países de origen de tráfico spam, etc.) pero es matar moscas a cañonazos en la mayor parte de casos.
.htaccess
El .htaccess es un archivo muy potente que establece el comportamiento de la web sobre el server. Por lo tanto es un archivo crucial y que debe estar siempre optimizado. Además deber tener un peso reducido para un procesado rápido. Según nuestro criterio no es lo más aconsejable.
Filtros en Analytics
Dentro de la cuenta de Google Analytics para la afectada hay que seguir los siguientes pasos:
1. Clicar en la pestaña «Administrador»
2. Localizar la columna «ver» y clicar en «Filtros».

3. Clica en «Nuevo filtro».
4. Configura correctamente la exclusión del host. Ver imagen siguiente:

Pero, he leído que se puede hacer de otras formas
Sí, y has leído bien. Pero no se consideran «buenas prácticas» ya que, si bien pueden filtrarse en buena medida este tráfico spam, pueden generar conflicto con otros valores a la larga. Un medida usual es crear sobre la propiedad del sitio una exclusión basada en dominio de referencia, por ejemplo.
¿Por qué es importante controlar este tráfico?
Existen varias razones por las que conviene controlar y filtrar el tráfico de referencia.
- Contaminación de datos: No sólo se trata de que tengamos un canal con información basura, sino que además estas visitas influirán sobre los porcentajes globales de atribución de tráfico web sobre canales. No sólo esto, este tipo de visitas generan sesiones con una duración de la visita de 0 segundos así como un rebote del 100%. Si pensamos en negocios con un número de visitas reducidos los valores globales no serán reales, no nos servirán para evaluar, sacar conclusiones y actuar en relación a ellos.
- La huella del spam: Los datos registrados quedarán guardados en el histórico de nuestra cuenta, y durante el período de contaminación y activación de filtros, ese canal de visitas será contabilizado con todas sus incongruencias. Cualquier comparación futura deberá tener en cuenta esta variación, de modo que tendremos un período de tiempo con valores erróneos.
- Datos en forma: Independientemente de la amplitud de datos registrados, tener visitas basadas en spambots romperá nuestro control sobre el sistema de datos. Es importante una revisión periódica de nuestros canales para comprobar que todos los datos se encuentran en forma, que los filtros, en su caso, actúan correctamente, y que todo está bajo control.
Resumiendo
Este tipo de acciones de generación de visitas artificiales debe servirnos para recordar que debemos tener nuestra analítica siempre al día. En este caso, no es lo suficientemente catastrófico para echarnos las manos a la cabeza, sino para poner los datos en orden y tomar conciencia que para para medir no sólo hay que tener las herramientas, sino que además deben estar bien afinadas.
Y ahora, ya puedes ir a revisar y poner en forma tu canal de referencia en Google Analytics.