Clusit-Associazione Italiana per la Sicurezza Informatica
Il mio profilo su Linkedin
Il mio spazio su YouTube
Joomla Italia
Il mio profilo su vololibero.net
 
Album Picasa
 
Il file robots.txt PDF Stampa E-mail
Non solo Joomla
Mercoledì 25 Novembre 2009 11:42
robots txtIl file robots.txt indica al crawler che visita le nostre pagine, i percorsi da seguire o da non seguire durante la sua esplorazione finalizzata all'indicizzazione dei nostri contenuti nei motori di ricerca.
Sicuramente trovarci indicizzati dei contenuti appartenenti a cartelle di amministrazione non è una bella cosa.

Per scrivere o modificare questo file è sufficiente un qualsiasi editor di testo e salvare il file con nome robots ed estensione .txt. La rfc che si occupa di definire come questo file deve essere scritto è questa.
Sostanzialmente ogni riga un'istruzione, ogni istruzione abbiamo la possibilità di attribuire un valore ad un campo.
Per i commenti usare # seguito da uno spazio bianco.
I campi (case insensitive) possono essere:
  • User-agent
  • Disallow
  • Allow
  • Comment
  • Robot-version
Altri due campi possono estendere il file robots, ma non facendo parte dello standard non è garantito il funzionamento con tutti i crawler, e sono:
  • Request-rate
  • Visit-time
La prima riga di un file robot è quella che contiene il riferimento al motore che ci visita, User-agent; attribuendo valori di identificazione specifici o generici, identifichiamo a quale motore sono applicate le regole che seguono.
Abbiamo inoltre la possibilità di affinare la regola indicando anche la versione del robot.
  • User-agent: * # regole applicate indistintamente a tutti i motori
  • User-agent: google # regole applicate al motore di google
NB: da questo si potrebbe intendere che abbiamo la possibilità di impedire ai motori non graditi l'esplorazione del nostro sito: non è così.
Il file robot è da considerarsi come una specie di agevolazione che diamo al motore che ci vuol visitare, indicandogli le strade migliori per i nostri contenuti, ma non obbliga in alcun modo il motore a comportarsi come noi vogliamo. Spider alla caccia di indirizzi email per spam avranno comunque accesso alle nostre directory e files.

Per indicare al motore cosa gli è vietato si usa il campo Disallow, in questo modo:
  • Disallow: / # Non indicizzare ciò che sta sotto la directory root, praticamente tutto il nostro sito.
  • Disallow: /cgi-bin/ # Non indicizzare il contenuto della directory cgi-bin
  • Disallow: /miofile.html # Non indicizzare il file "miofile.html" presente nella root.
Ciò che non è Disallowed è Allowed, ma se vogliamo "forzare" il motore ad una indicizzazione possiamo usare la stessa sintassi di Disallow per il campo Allow. E' utile se conosciamo che il nostro robot ha difficoltà nella lettura di alcuni standard, gli prepariamo una regola ad-hoc:
  • User-agent: nome_robot
  • Disallow: nome_file_che_non_interpreterebbe
  • Allow: nome_file_sostitutivo
I rimanenti due campi solitamente si indicano nei meta-tag della pagina e servono a "gestire" la visita del motore, indicandogli la frequenza di visita delle pagine così da non sottrarre troppa banda e il momento giusto in cui compiere la visita, sempre per lo stesso motivo di cui sopra.
  • Request-rate n/n # dove n/n sta a significare quante pagine / in che lasso di tempo
  • Visit-time  0000-0000 # 0000-0000 è l'orario GMT espresso in hhmm-hhmm, quindi dalle ore-alle ore
Se possediamo un file xml contenente la mappa del nostro sito possiamo indicarla al robot in questo modo:
  • Sitemap: nome_del_file.xml
Ricordare che ogni campo può contenere una ed una sola direttiva (valore), se abbiamo bisogno di applicare la regola a più agent dobbiamo ripetere l'intera riga.

Risorse online
:
- Robotstxt.org
- Extended Standard for Robot Exclusion
- Test del tuo file robots.txt
- Google strumenti per i webmaster
 
 
Questo sito è dedicato alla mia ed altrui curiosità, come primordiale bisogno di conoscere, capire nella sua complessità ogni cosa. Questo sito è basato sul framework Joomla1.5.xx!. Ogni contenuto o script pubblicato è di libera consultazione e duplicazione purchè se ne citi la fonte. Clicca qui per votare