Corsi on-line
Chiudi
Newsletter:
  • Seguici su Facebook
  • Seguici su Twitter
  • Seguici su Google+
  • Seguici via RSS
  • Seguici col tuo Smartphone

Il file robots.txt

Sino ad ora abbiamo visto cos'è l'indicizzazione, che differenze ci sono con il posizionamento e quali fattori sono in grado di influire (in senso positivo o negativo) su quest'ultimo aspetto.
Vediamo ora di accennare a due strumenti in grado di influire non sul posizionamento ma sull'indicizzazione del nostro sito: il file robots.txt e la sitemap.

Il file robots.txt è un semplicissimo file di testo che va inserito (qualora lo si vogli utilizzare) nella cartella di root del proprio un sito Web e serve ad indicare agli spider dei motori di ricerca alcune semplici direttive circa l'indicizzazione di determinati file o intere cartelle.

(L'articolo continua più sotto...)

Grazie al file robots.txt potremo, ad esempio, chiedere ad uno specifico spider (ad esempio Googlebot) di non scansionare determinate cartelle (ad esempio cartelle con file riservati che non vogliamo siano raggiungibili tramite Google) oppure addirittura precludere l'accesso al sito ad uno specifico spider (ci sonpo in giro molti robots piuttosto noiosi ed invasivi, magari di motori secondari ed inutili dal punto di vista del traffico in entrata).

Facciamo un esempio: immaginiamo che nel nostro sito ci siano file e cartelle che non ci interessano vengano indicizzate (come la cartella delle immagini, oppure la cartella del pannello di controllo, oppure il foglio di stile CSS o il file Javascript esterno); Grazie al file robots.txt possiamo impartire tutte queste istruzioni; vedia un esempio di formattazione:

User-agent: *
Disallow: /cartella_da_non_indicizzare/
Disallow: /file_da_non_indicizzare.html
Disallow: /cartella_da_indicizzare/file_da_non_indicizzare.html
Con la direttiva User-Agent possiamo indicare con chiarezza a quel spider ci riferiamo (per farlo è sufficiente scriverne il nome, ad es, Googlebot); nel nostro caso abbiamo utilizzato la wildcards (carattere asterisco) che indica "tutti gli spider"; le direttive che seguono, pertanto, dovranno essere considerate da tutti gli spider che passeranno sul sito!
La direttiva Disallow, invece (alla lettera "non consentire"), può essere ripetuta tante volte quanti sono i file e le cartelle da non far indicizzare allo spider. Come è possibile vedere nell'esempio, questa direttiva può riguardare un'intera cartella, un singolo file presente in una cartella (dove la cartella va indicizzata, ma quel singolo file no) o semplicemente un file.

Per meglio capire il funzionamento di questo file vediamo di seguito alcuni esempi:

Escludere tutti gli spider

Se lo desideriamo possiamo grazie al file robots.txt bloccare l'indicizzazione dell'intero sito (ad esempio perchè vogliamo che questo resti riservato a noi ed ai nostri pochi amici):

User-agent: *
Disallow: /
Escludere uno spider specifico

Oppure, cosa più frequente, possiamo semplicemente escludere uno specifico spider dall'accesso alle pagine del nostro sito:

User-agent: SpiderSgradito
Disallow: /
Ammettere un solo spider (ed escludere gli altri)

Supponiamo di voler indicizzare il nostro sito solo su Google:

User-agent: Googlebot
Disallow:

User-Agent: *
Disallow: /
Ammettere tutti gli spider (con accesso a tutto il sito)

Per consentire l'accesso a tutti gli spider senza restrizioni:

User-Agent: *
Disallow:
Soi noti che questa è l'impostazione di "default" che equivale, nella sostanza, a non caricare il file robots.txt.

Ovviamente quelli visti sopra sono solo dei semplici esempi, ma le combinazioni sono moltissime e spesso piuttosto utili; in ogni caso il consiglio è quello di NON utilizzare il file robots.txt se non si è sicui che questo sia necessario e che le impostazioni inserite siano corrette; se non siete sicuri di quello che state facendo sappiate che un errore potrebbe costare caro al vostro sito (il rischio è finire fuori dalle SERP!).

Corsi
Corso E-Commerce con ASPCorso E-Commerce con ASP
Creare da zero un sito di commercio elettronico con ASP. A soli 45 €.
Corso Web MarketingCorso Web Marketing
Promozione siti, motori di ricerca e Marketing. A partire da 39 €.
Sommario
Annunci

Mr.Webmaster

Pubblicità
Chi Siamo
Contattaci
Collabora
Note Legali
© 2003 - 2012 Mr.Webmaster - Il portale dei Webmaster Italiani - Tutti i diritti riservati | Powered by IKIweb Internet Media S.r.l. - PIVA 02848390122