Logo

IL FILE ROBOTS.TXT


Lo standard per l' esclusione dei robot (Robots Exclusion Standard) è quel sistema che permette ai webmaster e agli amministratori di sistema di avere il controllo su quante e quali pagine web far scansire e prelevare dagli spider (e da quali spider).

Questi bot automatici effettuano un controllo preventivo per verificare la presenza di un file chiamato robots.txt che impedisce loro di accedere a determinate pagine o risorse. Tutti i robot affidabili rispettano le istruzioni scritte nel file.

Quindi, per escludere alcune pagine è sufficiente creare un normale file di testo e nominarlo robots.txt . All'interno verranno scritte delle istruzioni che possono impedire a tutti o alcuni spider la scansione di alcune o tutte le pagine del sito.
Una volta creato, il file robots.txt deve essere pubblicato nella directory principale del sito web .

Il file robots.txt utilizza due regole: User-agent e Disallow.
Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte . La sua sintassi è:
User-agent: [nome_dello_spider]                

Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent . La sintassi è:
Disallow: [nome_del_file_o_della_directory]                
Ecco dunque un esempio completo di file robots.txt che blocca del tutto Alexibot, impedisce a Google l'accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.
User-agent: Alexibot
Disallow: /
User-agent: googlebot Disallow: /password.html Disallow: /preferiti.html Disallow: /documenti/ Disallow: /database/
User-agent: * Disallow:

Disallow: / ---> blocco per l'intero sito

Disallow: /directory-personale/ ---> blocco della directory [directory-personale] e del relativo contenuto

Disallow: /file-personale.html ---> blocco della pagina [file-personale.html]

User-agent: Googlebot-Image
Disallow: /immagini/immagine-personale.jpg ---> rimuove l'immagine [immagine-personale.jpg] da Google Images

User-agent: Googlebot-Image
Disallow: / ---> rimuove tutte le immagine del sito da Google Images

Disallow: /*.mdb$ ---> blocco di tutti i file di tipo [mdb]

Disallow: /asp*/ ---> blocco di tutte le sottodirectory che iniziano con [asp]

Disallow: /*? ---> blocco di tutti gli URL che comprendono un punto interrogativo

Disallow: /*.doc$ ---> blocco di tutti gli URL che terminano con [.doc]


Fonte web: https://www.fdonet.com/programmazione/htmlcss/il-file-robots-txt.aspx