I robots.txt Google sono dei file di testo che possono essere inseriti nel proprio sito per indirizzare (o meglio, non indirizzare) i crawler dei motori di ricerca nella scansione dei contenuti del proprio sito.
Non tutti i motori di ricerca rispettano le direttive specificate nel proprio file robots.txt. Un motore di ricerca importante come Google, ma anche altri, ne tengono conto. Quindi, avere questo file all’interno del proprio sito è importante dal punto di vista della SEO, ovvero ottimizzazione per i motori di ricerca.
Creare il proprio robots.txt file è fattibile sia manualmente, sia tramite tool appositi. Nel primo caso, è importante farlo in maniera corretta e minuziosa, in modo da non avere problemi dal punto di vista SEO. In questo senso, esistono anche diversi strumenti per verificare la funzionalità del proprio file ed intervenire in caso di problematiche.
Vediamo insieme cos’è un Google robots.txt, a cosa serve e come crearlo.
Google robots.txt cos’è
Il robots txt google è un semplice file di testo, creato da webmaster e inserito nella cartella root del proprio sito. In questo file sono contenute una serie di istruzioni che comunicano ai vari motori di ricerca quali parti del nostro sito scansionare e quali no. Sei tu, proprietario del sito, ad utilizzare tali istruzioni per evitare la scansione di alcune parti del tuo sito web.
Nello specifico, il file robots è la versione implementata dello standard per l’esclusione dei robot (protocollo di esclusione robot, acronimato REP) e si rivolge ai crawler dei motori di ricerca. Questi ultimi effettuano regolarmente una verifica del google robots txt file, per sapere quali azioni possono compiere nella scansione. Queste istruzioni che vengono fornite al motore di ricerca prendono il nome di “direttive“.
Il file è formato da diverse regole in merito a diversi fattori. Ognuna di queste regole, consentendo o non consentendo delle azioni, decide se i cosiddetti user agent che effettuano la scansione, possono “leggere” alcune aree specifiche del sito o della pagina.
Possiamo quindi paragonare questo documento ad un vero e proprio codice di condotta. Che non sempre i bot seguono. Banalizzando, possiamo distinguere tra bot buoni e cattivi. I primi seguiranno le direttive del tuo file robot.txt, mentre i secondo potranno ignorare le regole che hai deciso per la scansione del tuo sito web.
Motori di ricerca che rispettano il file
Tra i vari motori di ricerca, quelli di cui abbiamo certezza che seguiranno le direttive all’interno del nostro file robots.txt sono i seguenti:
- Bing
- Yahoo
- Yandex
- Baidu
- DuckDuckgo
Ognuno di essi ha però formulato una documentazione specifica consultabile, in merito al modo migliore di creare un file robots.txt in base al motore specifico.
Differenze tra robots txt e meta tag
Il principale scopo del robots.txt google è quello di evitare un sovraccarico di richieste sul sito. Il documento viene letto dai crawler in vista di una migliore organizzazione della scansione del contenuto.
È importante specificare che non si tratta di escludere una pagina da Google. Questa azione può essere fatta bloccando l’indicizzazione, tramite il meta tag noindex o tramite l’utilizzo di una password che protegga la pagina presa in considerazione. In generale, sono i meta tag di google a suggerire, al motore di ricerca, informazioni rispetto alla scansione della singola pagina.
Dove trovare file robots.txt Google?
Innanzitutto è necessario specificare che la risposta a questa domanda varia, se si tratta dell’utente o del motore di ricerca.
Per l’utente infatti, per individuare il file, è sufficiente seguire l’indirizzo “www.dominio.it/robots.txt“. Si trova nella root del tuo portale.
Per essere trovato dai motori di ricerca, il tuo file robots.txt deve infatti essere stato inserito nella cosiddetta directory di primo livello del tuo sito web. I motori di ricerca sono molto puntigliosi da questo punto di vista, ad esempio, per essere trovato il file deve essere denominato “robots.txt” senza maiuscole o altro. Approfondiremo questo argomento nel paragrafo su come creare il proprio file robots.txt.
Come funziona e a cosa serve il file robots.txt Google?
Partiamo col dire che le funzioni principali del motore di ricerca sono di scansione del web nella ricerca di contenuti e di indicizzazione di quel contenuto che viene proposto agli utenti quando utilizzano la barra di ricerca.
Il processo di scansione dipende dai crawler. Il primo passaggio di questi ultimi, una volta arrivati sul tuo sito, è quello di cercare proprio il robot txt file. Come abbiamo detto, tramite il file robot.txt, puoi dare delle direttive e limitare l’attenzione dei crawler ai contenuti del tuo sito.
Ma come funziona, nella pratica, questo strumento? Tramite le tue indicazioni puoi ad esempio suggerire ad uno spider di non scansionare una determinata cartella o ad esempio:
- Pagine web. Puoi scegliere di utilizzare un robots google per gestire il traffico di scansione ed evitare il sovraccarico di richieste di crawler di google su una pagina web. Oppure per evitare la scansione di pagine che ritieni simili o non importanti all’interno del tuo sito. Come anticipato, ciò non nasconde la pagina dalla SERP. Ma se bloccata da un file robot.txt la pagina non avrà una descrizione. Inoltre, immagini, video o pdf (non HTML) saranno esclusi.
- File multimediali. Puoi gestire il traffico delle scansioni anche per evitare la visualizzazione di immagini, video, audio o altri file multimediali nei risultati del motore di ricerca. Ciò, però, non impedisce ad altri di ricollegarsi a questi file presenti nel tuo sito.
- File di risorse. Puoi bloccare, tramite robots.txt file determinati file di risorse, come immagini o script non importanti. Ad esempio se pensi che la pagina, in loro assenza, non subirà conseguenze significative. Sta a te intuire se bloccare la scansione di queste risorse rende difficile al crawler di Google, la comprensione delle tue pagine. Se ciò accade, infatti, Google non può garantire buoni risultati nel processo di analisi e ciò sminuirà la tua pagina.
Inoltre, permette di evitare la scansione in situazioni specifiche come nel caso di contenuti duplicati o di siti di staging degli addetti ai lavori. Oppure può ritardare la scansione per impedire che il server sia sovraccaricato da più crawler.
Il principale ruolo del file robots txt
Se ti stai chiedendo più approfonditamente a cosa serve il robots.txt google, possiamo dirti che questo file ha un ruolo essenziale dal punto di vista SEO di ottimizzazione per i motori di ricerca. Indirizza infatti i bot a svolgere al meglio la scansione, se sapientemente sfruttati. Restituendo di fatto “punteggi” più alti al tuo sito, in termini di SEO.
Ad esempio è comodo, per gli utenti del tuo sito, utilizzare un filtro per cercare rapidamente i tuoi prodotti o contenuti.
Questo filtro genera però delle pagine che duplicano i contenuti di altre pagine. Ciò confonde i motori di ricerca, perciò possiamo decidere di non permettere ai crawler la scansione, ottenendo i risultati migliori dal punto di vista SEO. In quanto facilitiamo sia agli utenti che ai motori di ricerca la fruizione del nostro sito.
I principali consigli, a livello SEO, che possiamo darvi sono i seguenti:
- Assicurarsi di non bloccare contenuti che vuoi siano scansionati, ad esempio tramite una scrittura errata
- Non usare questo file per nascondere dati sensibili nella SERP. Come detto, non è questo il modo per evitare l’indicizzazione delle pagine.
In sintesi, i motori di ricerca hanno un tempo limitato per scansionare i nostri contenuti. Questo tempo prende il nome di crawl budget. Possiamo far si questo tempo sia destinato in modo efficace, intervenendo con questa e altre strategie.
Ecco perché, in una buona consulenza SEO, dovresti ricevere dei consigli anche in merito a quest’ambito e a come compilare tale file per ottenere ottimi risultati.
Creare file robots.txt google
Riassumiamo ora quali sono i passaggi fondamentali affinché il tuo file robots.txt sia funzionante e vediamo nello specifico come creare robots txt.
Innanzitutto teniamo a mente:
- Il file va inserito nella root del proprio sito web
- È fondamentale prestare attenzione quando si apportano modifiche al robot txt file, affinché rimanga funzionante e impedisca la scansione in merito ai contenuti per cui vuoi davvero evitare la scansione
- I diversi motori di ricerca interpretano le direttive in modo diverso
Se il tuo sito non possiede questo tipo di file, è sufficiente aprire un doc.txt e iniziare a digitare le nostre direttive.
Come anticipato, la struttura di base per creare robots.txt è la seguente:
User-agent: [motore di ricerca] direttiva: [stringa URL da non scansionare]. In cui
- User agent. A quali motori di ricerca sono destinate le direttive
- Motore di ricerca. Indica le direttive rivolte a quei motori di ricerca
- Direttiva. Ad esempio, Disallow si usa per i contenuti da non scansionare
- Contenuto. Si tratta della cartella, ad esempio del nostro sito su WordPress, che non deve essere scansionata
Fattori da tenere in considerazione
Per la creazione di un file robots.txt seo ottimizzato, bisogna tenere inoltre in considerazione anche questi fattori che possono essere inseriti:
- Ogni direttiva va su una riga. Questo per evitare che i motori di ricerca si confondano durante l’analisi del file.
- Un solo gruppo di direttive per un motore di ricerca. Avere più gruppi di direttive per lo stesso User agent potrebbe confondere i crawler.
- Utilizzo del carattere jolly. L’asterisco. Viene utilizzato per assegnare direttive a tutti quanti gli user-agent, oppure per identificare URL che contengono determinati caratteri.
- Uso del carattere “$”. Serve ad indicare la fine di un URL. Quindi impedisce di scansionare tutti gli url che terminano in quel modo.
- Utilizzo dei commenti. Questi possono essere inseriti tramite il simbolo dell’hashtag (#). Servono principalmente per spiegare il file a sviluppatori o consulenti, mentre sono ignorati dai crawler.
- Ogni sottodominio deve avere un proprio file robots.txt. Infatti, le direttive si applicano solo a quello specifico dominio in cui il file è inserito.
- Evitare il caching. Stando a quanto dichiarato da Google, il file rimane in memoria nella cache per circa 24h. Questo è un dato da considerare quando si apportano modifiche. Ciò vale per Google, ma non è ancora chiaro come funzioni per gli altri motori di ricerche.
Infine, diciamo che al momento la massima dimensione di questo tipo di file per Google è di 500KB. Se si supera questa dimensione, alcune richieste saranno ignorate. Anche in questo caso, le disposizioni degli altri motori di ricerca non sono ancora chiare.
Direttive del file robots.txt google
Le direttive che diamo ai vari User agent possono essere tantissime, ma quelle sicuramente più utilizzate sono le seguenti:
- Disallow
- Allow
- Sitemap
- Crawl-delay
Approfondiamo insieme queste direttive.
Disallow
La direttiva Disallow è sicuramente la più comune ed è utilizzata per indicare ai motori di ricerca di non scansionare pagine, sezioni o file del tuo sito. Se non viene definito un percorso o se questo è scritto in maniera scorretta, ovviamente la direttiva viene ignorata dai crawler.
Se si vuole ad esempio bloccare una pagina, deve essere esplicitato il nome completo. Per ogni tipologia di contenuto che si vuole bloccare, ci sono delle specifiche di scrittura da seguire.
Come più volte ripetuto, questa direttiva non impedisce l’indicizzazione.
Allow
La direttiva Allow, che funziona ad esempio per Google, è utilizzata come forma di contrasto ad una Disallow. Deve essere anche in questo caso seguita dal percorso a cui si vogliono far accedere i motori di ricerca.
Utilizzandola in combinazione con la Disallow, è possibile indicare al motore di eseguire la scansione di contenuti (file, ad esempio) all’interno di un altro contenuto da non scansionare.
È facile confondersi e restituire ai crawler delle direttive contrastanti. In questo caso, alcuni motori di ricerca come Bing o Google prendono in considerazione la direttiva meno restrittiva, Allow. Altri invece quella più restrittiva, Disallow.
Sitemap
Oltre ad essere utile per indicare ai motori quali pagine non scansionare, il file robots.txt può essere anche usato, per alcuni motori, per specificare la posizione della cosiddetta Sitemap XML, tramite questa apposita direttiva. Questa deve essere inserita come URL assoluto. È consigliabile indicare la posizione anche se già segnalata tramite strumenti appositi come Google Search Console.
Crawl-delay
Lo scopo di questa direttiva è quella di evitare il sovraccarico dei server, nel caso in cui ci siano troppe richieste di scansione da parte dei crawler. Si indica quindi un ritardo nella scansione, ad esempio di qualche secondo, per evitare questo sovraccarico, che può avvenire per esempio se un sito ha molte pagine.
Si tratta però di una soluzione temporanea. Bisognerebbe risolvere alla base il problema di sovraccarico agendo sul proprio server. Inoltre, sono pochi i motori di ricerca che supportano questa funzione. Ad esempio, Google lo fa solo in maniera ufficiosa.
Atre direttive
Esistono poi altre direttive, poco supportate dai motori di ricerca, ma che possono comunque essere introdotte all’interno del proprio file robots.txt. Vediamone insieme alcune:
- Noindex. Si tratta di una direttiva non supportata ad esempio da google. Può essere inserita all’interno del file, ma spesso non è rispettata. Come detto in questo caso si fa riferimento ai meta tag robots.
- Nofollow. Anche questo tipo di direttiva non è supportata da Google, ma viene a volte inserita per indicare ai crawler di non seguire alcuni link o file. Ad esempio, dei link che menzioni nel tuo blog ma che non vuoi che il motore di ricerca segua. Anche in questo caso, la soluzione è quella di utilizzare degli attributi appositi per Google, come il rel = “nofollow”.
- Host. Supportata solo da Yandex, è una direttiva che consente di decidere se mostrare il sito con o sensa il “www”. Non sostituisce regole di reindirizzamento o di redirect 301.
Tool per la creazione di file robots.txt
Per modificare il proprio file robots.txt possiamo scegliere la strada manuale, di cui abbiamo appena parlato. Ma se non siamo pratici o vogliamo evitare di sbagliare, possiamo affidarci a dei plugin SEO. Yoast, ad esempio, che consente la modifica del file nel backend della piattaforma WordPress, se diciamo di realizzare il nostro sito su questa piattaforma.
Per creare un file robots.txt google o altri motori di ricerca, esistono diversi generatori che si possono trovare facilmente online. Ma esistono anche diversi strumenti che, oltre alla creazione e alla modifica, permettono anche la verifica e quindi il test dei file robots.txt. Il test, infatti, è un altro passaggio da non sottovalutare.
Test del file txt robots
Dopo la creazione o la modifica del tuo file robots.txt c’è ovviamente la necessità di testare il suo funzionamento. Lo strumento migliore in questo caso è sempre quello offerto dalla Search Console di Google.
Per utilizzarlo, è sufficiente andare sulla pagina apposita e scegliere il sito inserito nel servizio della Search Console.
Il tool apposito, mostra i comandi e permette di inserire la pagina che si vuole controllare. I risultati sono molto semplici: il colore verde indica che è tutto funzionante, mentre il rosso indica problematiche, ad esempio blocco dell’indicizzazione di uno specifico user agent.
Puoi testare un file robots.txt anche tramite il tuo stesso sito, con tool appositi messi a disposizione dalla piattaforma.
Questo era il nostro articolo su robots.txt Google.
Per ulteriori informazioni in merito, se hai bisogno di una consulenza con uno degli esperti SEO di Prodice, web agency di Milano, o per richiedere un preventivo per il tuo sito web, non esitare a contattarci tramite il form apposito presente nella sezione contatti del nostro sito.
Seo specialist e co-fondatore di Prodice SRL, Web Agency a Milano. Laureato in Giurisprudenza alla Statale di Milano, si occupa di web marketing dal 2013.
- Matteo Morandihttps://www.prodice.it/author/matteo-morandi/
- Matteo Morandihttps://www.prodice.it/author/matteo-morandi/
- Matteo Morandihttps://www.prodice.it/author/matteo-morandi/
- Matteo Morandihttps://www.prodice.it/author/matteo-morandi/