Il file robots.txt
Sino ad ora abbiamo visto cos'è l'indicizzazione, che differenze ci sono con il posizionamento e quali fattori sono in grado di influire (in senso positivo o negativo) su quest'ultimo aspetto.
Vediamo ora di accennare a due strumenti in grado di influire non sul posizionamento ma sull'indicizzazione del nostro sito: il file robots.txt e la sitemap.
Il file robots.txt è un semplicissimo file di testo che va inserito (qualora lo si vogli utilizzare) nella cartella di root del proprio un sito Web e serve ad indicare agli spider dei motori di ricerca alcune semplici direttive circa l'indicizzazione di determinati file o intere cartelle.
Grazie al file robots.txt potremo, ad esempio, chiedere ad uno specifico spider (ad esempio Googlebot) di non scansionare determinate cartelle (ad esempio cartelle con file riservati che non vogliamo siano raggiungibili tramite Google) oppure addirittura precludere l'accesso al sito ad uno specifico spider (ci sonpo in giro molti robots piuttosto noiosi ed invasivi, magari di motori secondari ed inutili dal punto di vista del traffico in entrata).
Facciamo un esempio: immaginiamo che nel nostro sito ci siano file e cartelle che non ci interessano vengano indicizzate (come la cartella delle immagini, oppure la cartella del pannello di controllo, oppure il foglio di stile CSS o il file Javascript esterno); Grazie al file robots.txt possiamo impartire tutte queste istruzioni; vedia un esempio di formattazione:
User-agent: * Disallow: /cartella_da_non_indicizzare/ Disallow: /file_da_non_indicizzare.html Disallow: /cartella_da_indicizzare/file_da_non_indicizzare.htmlCon la direttiva User-Agent possiamo indicare con chiarezza a quel spider ci riferiamo (per farlo è sufficiente scriverne il nome, ad es, Googlebot); nel nostro caso abbiamo utilizzato la wildcards (carattere asterisco) che indica "tutti gli spider"; le direttive che seguono, pertanto, dovranno essere considerate da tutti gli spider che passeranno sul sito!
La direttiva Disallow, invece (alla lettera "non consentire"), può essere ripetuta tante volte quanti sono i file e le cartelle da non far indicizzare allo spider. Come è possibile vedere nell'esempio, questa direttiva può riguardare un'intera cartella, un singolo file presente in una cartella (dove la cartella va indicizzata, ma quel singolo file no) o semplicemente un file.
Per meglio capire il funzionamento di questo file vediamo di seguito alcuni esempi:
Escludere tutti gli spider
Se lo desideriamo possiamo grazie al file robots.txt bloccare l'indicizzazione dell'intero sito (ad esempio perchè vogliamo che questo resti riservato a noi ed ai nostri pochi amici):
User-agent: * Disallow: /Escludere uno spider specifico
Oppure, cosa più frequente, possiamo semplicemente escludere uno specifico spider dall'accesso alle pagine del nostro sito:
User-agent: SpiderSgradito Disallow: /Ammettere un solo spider (ed escludere gli altri)
Supponiamo di voler indicizzare il nostro sito solo su Google:
User-agent: Googlebot Disallow: User-Agent: * Disallow: /Ammettere tutti gli spider (con accesso a tutto il sito)
Per consentire l'accesso a tutti gli spider senza restrizioni:
User-Agent: * Disallow:Soi noti che questa è l'impostazione di "default" che equivale, nella sostanza, a non caricare il file robots.txt.
Ovviamente quelli visti sopra sono solo dei semplici esempi, ma le combinazioni sono moltissime e spesso piuttosto utili; in ogni caso il consiglio è quello di NON utilizzare il file robots.txt se non si è sicui che questo sia necessario e che le impostazioni inserite siano corrette; se non siete sicuri di quello che state facendo sappiate che un errore potrebbe costare caro al vostro sito (il rischio è finire fuori dalle SERP!).







