Feb 122015
 
Artículo Administración de Servidores

Google Webmaster Tools ofrece una abundante información sobre el estado de un sitio web. Pero para integrar esta información en un sistema que permita, por ejemplo, generar alertas cuando se cumplan determinadas condiciones, es necesario disponer de un procedimiento que permita descargar esta información de manera automatizada.

En este artículo se presenta una utilidad escrita en PHP que implementa esta funcionalidad.

1. Descarga de la aplicación

La aplicación GWTData está disponible en github. Para descargarla, accedemos a la página:

https://github.com/eyecatchup/php-webmaster-tools-downloads

Desde allí podemos descargar un fichero zip “php-webmaster-tools-downloads-master.zip”. En su interior se encuentra el fichero “gwtdata.php”, que contiene la clase GWTdata.

2. script de descarga

Para descargar un informe de GWT, en el mismo directorio en el que se encuentra el fichero “gwtdata.php”, preparamos un script “descarga.php”, que utilizará la clase GWTdata:

Deberemos editar el script para introducir nuestro usuario y contraseña de acceso a GWT (líneas 4  5), y el sitio web (línea 8)

En la línea 13 se especifican los informes que deseamos descargar, en un array $tables. Actualmente, la librería no permite especificar más de dos informes en este array.

3. Habilitar el acceso a GWT desde aplicaciones menos seguras

Cuando probamos por primera vez a descargar un informe, puede ocurrir que el script finalice su ejecución con el mensaje “Login incorrecto”, a pesar de haber introducido el usuario y la contraseña correctas en las líneas 4 y 5. Esto puede deberse a que la cuenta tiene inhabilitado el acceso desde aplicaciones menos seguras, y sólo permite conectarse desde un navegador web con protocolo HTTPS. Si es así, Google nos enviará un mensaje de correo informándonos del intento de acceso:

Como vemos, en el propio mensaje explica cómo corregir el problema, accediendo a la configuración de seguridad de la cuenta en la url:

https://www.google.com/settings/security/lesssecureapps

enable-lesssecure-app

 

y seleccionando “Turn on”.

4. Informes descargables

4.1. TOP_PAGES

El fichero descargado se llama TOP_PAGES-website-YYYYmmDD-HHMMSS.csv, y contiene un informe en formato CSV, con la relación de las páginas del sitio web que han tenido un mayor número de accesos.

Ejemplo:

TOP_PAGES-blog.openalfa.com-20150212-191957.csv

4.2. TOP_QUERIES

Este informe en formato CSV contiene las búsquedas realizadas por los usuarios en Google para las que aparecieron páginas del sitio en los resultados de búsqueda, y el total de ocasiones en que se hizo click para acceder a ellas.

Ejemplo:

TOP_QUERIES-blog.openalfa.com-20150212-191957.csv

4.3. CONTENT_KEYWORDS

Este informe contiene una serie de registros con los siguientes campos:

  • Keyword – La palabra clave presente en el contenido del sitio
  • Occurences – El número de veces que aparece dicha palabra clave en el contenido del sitio
  • Variants encountered – La palabra clave en plural, sinónimos y otras variaciones encontradas, separadas por comas y encerradas entre comillas
  • Top URLs – Las URLs de las páginas en las que la palabra clave es más relevante. las urls están separadas por el carácter “:”, y la lista está encerrada entre corchetes cuadrados “[” y “]”

Ejemplo:

CONTENT_KEYWORDS-blog.openalfa.com-20150212-152943.csv

Nota: Aunque el registro que aparece en el ejemplo está en una única línea, aquí lo hemos dividido en varias para hacerlo más legible.

En el registro se indica que la palabra “blog”, en singular o en plural “blogs”, aparece 2448 veces en el contenido del sitio indexado por Google.

4.4. INTERNAL_LINKS

Este informe contiene la relación de páginas del sitio, con el número de enlaces hacia ellas desde otras páginas del sitio.

Ejemplo:

INTERNAL_LINKS-blog.openalfa.com-20150213-154247.csv

4.5. EXTERNAL_LINKS

Este informe contiene la relación de dominios desde los cuales se enlaza a páginas del sitio, indicando el número de enlaces encontrados en ellos, y el número de páginas del sitio enlazadas.

Ejemplo:

EXTERNAL_LINKS-blog.openalfa.com-20150213-154247.csv

En este ejemplo, en el primer registro vemos que hay 18 enlaces encontrados en páginas de blogspot.com, apuntando a 7 páginas distintas de nuestro sitio.

4.6. LATEST_BACKLINKS

En este informe se relacionan las urls de otros dominios en las que se han encontrado enlaces a páginas del sitio, indicando la fecha en la que fueron descubiertos.

Ejemplo:

LATEST_BACKLINKS-blog.openalfa.com-20150213-154247.csv

Descarga del  informe de errores de rastreo

Las primeras versiones de la clase GWTdata permitían también descargar el informe de errores de rastreo del sitio (CRAWL_ERRORS), pero el autor ha movido esta funcionalidad a un script específico, que se puede descargar desde:

https://github.com/eyecatchup/GWT_CrawlErrors-php

Artículos relacionados

Indice de artículos sobre programación en PHP

 Publicado por en 6:58 pm

 Deja un comentario

(requerido)

(requerido)