Per scrivere o modificare questo file è sufficiente un qualsiasi editor di testo e salvare il file con nome robots ed estensione .txt. La rfc che si occupa di definire come questo file deve essere scritto è
questa.
Sostanzialmente ogni riga un'istruzione, ogni istruzione abbiamo la possibilità di attribuire un valore ad un campo.
Per i commenti usare # seguito da uno spazio bianco.
I campi (
case insensitive) possono essere:
- User-agent
- Disallow
- Allow
- Comment
- Robot-version
Altri due campi possono estendere il file robots, ma non facendo parte dello standard non è garantito il funzionamento con tutti i crawler, e sono:
La prima riga di un file robot è quella che contiene il riferimento al motore che ci visita, User-agent; attribuendo valori di identificazione specifici o generici, identifichiamo a quale motore sono applicate le regole che seguono.
Abbiamo inoltre la possibilità di affinare la regola indicando anche la versione del robot.
- User-agent: * # regole applicate indistintamente a tutti i motori
- User-agent: google # regole applicate al motore di google
NB: da questo si potrebbe intendere che abbiamo la possibilità di impedire ai motori non graditi l'esplorazione del nostro sito: non è così.
Il file robot è da considerarsi come una specie di agevolazione che diamo al motore che ci vuol visitare, indicandogli le strade migliori per i nostri contenuti, ma non obbliga in alcun modo il motore a comportarsi come noi vogliamo. Spider alla caccia di indirizzi email per spam avranno comunque accesso alle nostre directory e files.
Per indicare al motore cosa gli è vietato si usa il campo Disallow, in questo modo:
- Disallow: / # Non indicizzare ciò che sta sotto la directory root, praticamente tutto il nostro sito.
- Disallow: /cgi-bin/ # Non indicizzare il contenuto della directory cgi-bin
- Disallow: /miofile.html # Non indicizzare il file "miofile.html" presente nella root.
Ciò che non è Disallowed è Allowed, ma se vogliamo "forzare" il motore ad una indicizzazione possiamo usare la stessa sintassi di Disallow per il campo Allow. E' utile se conosciamo che il nostro robot ha difficoltà nella lettura di alcuni standard, gli prepariamo una regola ad-hoc:
- User-agent: nome_robot
- Disallow: nome_file_che_non_interpreterebbe
- Allow: nome_file_sostitutivo
I rimanenti due campi solitamente si indicano nei meta-tag della pagina e servono a "gestire" la visita del motore, indicandogli la frequenza di visita delle pagine così da non sottrarre troppa banda e il momento giusto in cui compiere la visita, sempre per lo stesso motivo di cui sopra.
- Request-rate n/n # dove n/n sta a significare quante pagine / in che lasso di tempo
- Visit-time 0000-0000 # 0000-0000 è l'orario GMT espresso in hhmm-hhmm, quindi dalle ore-alle ore
Se possediamo un file xml contenente la mappa del nostro sito possiamo indicarla al robot in questo modo:
- Sitemap: nome_del_file.xml
Ricordare che ogni campo può contenere una ed una sola direttiva (valore), se abbiamo bisogno di applicare la regola a più agent dobbiamo ripetere l'intera riga.
Risorse online:
-
Robotstxt.org-
Extended Standard for Robot Exclusion-
Test del tuo file robots.txt-
Google strumenti per i webmaster