File Robots.txt

Il robots.txt è un file che serve per comunicare agli spider di motori di ricerca se indicizzare o non indicizzare alcuni file, pagine o cartelle del sito.

Come creare il robots.txt?
Per creare il file basta aprire il Blocco Note e salvare il file come robots.txt.

Cosa devo scrivere all'interno del robots.txt?
La procedura da seguire è molto semplice. All'interno del file ogni riga contiene un record.
La sintassi da seguire è:
:
Campo - spazio - due punti - spazio - valore

I principali campi che è possibile utilizzare sono due: User-Agent e Disallow.

User-Agent serve per definire a quale spider ci si rivolge. Ci si può rivolgere a tutti i crawler utilizzando l'asterisco *, oppure ai singoli robot dichiarandone il nome.

User-Agent: * # mi rivolgo a tutti gli spider
User-Agent: googlebot # mi rivolgo solo allo spider di Google
User-Agent: slurp # mi rivolgo solo allo spider di Yahoo


Disallow: serve per comunicare la pagina o la cartella che non si vuole fare indicizzare.

Disallow: * # comunico agli spider di non indicizzare neanche una pagina
Disallow: /pagina.html # comunico agli spider di non indicizzare la /pagina.html
Disallow: /sito/ # comunico agli spider di non indicizzare l'intera cartella /sito/
Disallow: /cartella/pagina.html

# comunico agli spider di non indicizzare la pagina pagina.html contenuta all'interno della /cartella/


Scopri tutti i nomi degli spider!

Dove devo pubblicare il file robots.txt?
Il file robots.txt va caricato online nella root del sito, cioè all'interno della cartella principale.
Ad esempio se il vostro sito ha url http://www.nomesito.it, il file robots.txt sarà raggiungibile a questo indirizzo: http://www.nomesito.it/robots.txt.

Una volta pubblicato online, potete quindi verificare all'indirizzo http://www.nomesito.it/robots.txt se avete caricato correttamente il file. In caso visualizziate una pagina di errore 404 (file non trovato), controllate di averlo caricato nella cartella giusta.

Voglio che non venga indicizzata nessuna pagina del mio sito su nessun motore di ricerca.

Utilizzo il file robots.txt contenente queste informazioni:

User-agent: *
Disallow: /


> Non voglio escludere nessuna pagina del mio sito dall'indicizzazione.

Utilizzo questa dicitura nel robots.txt:

User-agent: *
Disallow:

-Alcuni esempi:
Voglio che non venga indicizzata nessuna pagina del mio sito su Google ma che gli altri motori indicizzino correttamente il sito.

Nel file robots.txt mi rivolgo solo a googlebot:

User-agent: googlebot
Disallow: /


> Non voglio che i robot indicizzino i file .pdf presenti sul mio sito.

Nel file robots.txt scriverò:

User-agent: *
Disallow: /*.pdf$ # è richiesto il $ per dichiarare la fine del nome del file


> Voglio che le immagini con estensione .gif non vengano memorizzate da Google Images.

Utilizzo queste righe di codice nel robots.txt:

User-agent: googlebot-image
Disallow: /*.gif$


> Voglio bloccare l'indicizzazione dei file .xls presenti all'interno della cartella excel ma voglio indicizzare tutti quelli presenti in altre cartelle del sito.

Utilizzo questa dicitura nel robots.txt:

User-agent: *
Disallow: /excel/*.xls


> Il sito contiene pagine di varie estensioni: .php, .asp, .html. Come faccio a comunicare al bot di Google di indicizzare solo le pagine html?

Esistono 2 modi:

User-agent: googlebot
Allow: *.html$ # indicizzo solo le pagine .html
Disallow: / # e nient'altro


Oppure

User-agent: googlebot
Disallow: *.php$ # non indicizzo le pagine con estensione .php
Disallow: *.asp$ # non indicizzo le pagine con estensione .asp


> Voglio bloccare la cartella images del mio sito a tutti i bot a parte googlebot-image.

User-Agent: *
Disallow: /images/
User-Agent: googlebot-image
Allow: /images/


> A cosa serve il cancelletto # ?

Serve per inserire dei commenti che non vengono considerati dai motori di ricerca ma che possono essere utili per spiegare cosa stiamo dichiarando.

NB: l'utilizzo dell'asterisco (*) nel campo Disallow è riconosciuto da Google, Yahoo e Msn ma non è ritenuto un comando standard riconosciuto da ogni spider.

Alcuni Spider

Baiduspider ==> Baidu
FAST-WebCrawler ==>AlltheWeb
Feedfetcher-Google ==>I scrizione Feed Google
Googlebot ==> Google
Googlebot-Image ==>Google Images
Gigabot ==> Gigablast
Ia_archiver ==> Alexa - Wayback
Lycos_Spider ==> Lycos
MantraAgent ==> LookSmart
MediaPartners-Google ==> Google AdSense
Msnbot ==> MSN Search
Psbot ==> MSN PicSearch
Robozilla ==> DMOZ Checker
Scooter ==> AltaVista
Scrubby ==> Scrub The Web
Slurp ==> Inktomi
Tarantula ==> AltaVista
Teoma ==> Teoma
WebCrawler ==> WebCrawler
Yahoo-blogs ==> Yahoo Blogs
Yahoo-mmcrawler ==> Yahoo MM
ZyBorg ==> Wisenut

Back to Top