Robots TXT ovvero è un file che da istruzioni al motore di ricerca su ciò che può fare e ciò che non può fare.
E’ un semplice file di testo che ha lo scopo di informare i motori di ricerca (e altri strumenti simili) su come eseguire la scansione delle pagine.
Fa parte del protocollo di esclusione robot, un gruppo di standard web che regola il modo in cui i robot (crawler) eseguono la scansione, accedono ai siti e indicizzano il contenuto che forniscono agli utenti.
Svolge un ruolo essenziale dal punto di vista dell’ottimizzazione dei motori di ricerca (SEO) dato che indica come possono eseguire la scansione del sito al meglio.
Un utilizzo corretto impedisce di scansionare alcune parti del sito, di generare contenuti duplicati e fornisce utili consigli su come i crawler possono eseguire la scansione delle pagine e delle risorse in modo più efficiente.
È formato da una o più regole che agiscono su diversi fattori ed ognuna di queste permette di specificare se determinati user agent (software di scansione web) possono o meno eseguire la lettura di un sito o di alcune aree specifiche.
È importante crearlo sempre perché ad ogni accesso lo spider verifica l’esistenza di questo file per controllare se ci sono direttive di esclusione o di inclusione di cui deve tenere conto durante il processo di scansione.
I motori di ricerca in genere memorizzano nella cache il contenuto del robots.txt aggiornandola poi nelle visite successive per rilevare eventuali cambiamenti.
L’impiego del file robots.txt serve a:
- impedire l’accesso dei crawler a sezioni private del dominio
- bloccare l’accesso dei motori di ricerca a script di codice, index, utility o altre tipologie di codice
- bloccare l’indicizzazione di contenuti duplicati presenti all’interno del sito
- semplificare la scansione della sitemap XML