In questo semplice articolo vedremo come tracciare i passaggi del GoogleBot (lo spider con cui Google spiderizza le pagine web) all'interno del nostro sito.
Ad esempio potrebbe essere utile per creare una sorta di statistica dei passaggi dello spider di Big G oppure per creare delle landing-page formattate ad hoc (tecnica del cloacking, molto usata ma considerata scorretta dai motori di ricerca), per effettuare dei redirect, ecc.
Di seguito il codice:
if (strstr($_SERVER['HTTP_USER_AGENT'], "Googlebot" ) == true)
{
echo "Ciao GoogleBot!";
}
In realtà il codice visto sopra non è completo in quanto potrebbe essere facilmente aggirato mediante degli header costruiti ad hoc.Per verificare che il bot che accede al tuo server sia effettivamente Googlebot, esegui una ricerca DNS inversa, verificando che il nome sia presente nel dominio googlebot.com ... Ciò risulta utile se sei preoccupato che spammer o altri utenti malintenzionati accedano al tuo sito spacciandosi per Googlebot.
Per fare ciò sarà sufficiente aggiungere qualche riga di codice:
if (strstr($_SERVER['HTTP_USER_AGENT'], "Googlebot" ) == true)
{
// verifico l'host-name
$host = gethostbyaddr($_SERVER['REMOTE_ADDR']);
// verifico che l'host-name finisca con googlebot.com
if (substr($host, (strlen($host) - 13)) == "googlebot.com")
{
echo "Ciao GoogleBot!";
}else{
echo "sei un fake!";
}
}
Così facendo potremo essere sicuri dell'identità dello spider che sta scansionando le nostre pagine web.
| Corso Linux Guida completa al sistema open-source. A partire da 49 €. | |
| Corso MySQL Gestione del database open-source. A partire da 39 €. | |
| Corso PHP Corso completo per la creazione di siti Web dinamici. A partire da 49 €. |