Come bloccare i contenuti di un sito ai motori di ricerca

bloccare-contenuti-ricercaI contenuti di un sito web rappresentano il patrimonio vero e proprio di qualsiasi portale e spesso si fa una gran fatica  a fare in modo che le pagine importanti del nostro sito vengano indicizzate correttamente e si posizionino poi al meglio all’interno dei motori di ricerca.

Per evitare di dover rimettere le mani più e più volte sul nostro sito è importante sin dall’inizio analizzare quali sono i contenuti che riteniamo utili ed importanti da far indicizzare ai motori di ricerca e quali invece sono contenuti privati o non idonei (come i contenuti duplicati) ad entrare nelle serp.

Per eseguire il processo di blocco delle pagine rispetto ai motori di ricerca esistono diversi metodi da tenere in considerazione ed applicare in fase di creazione dei contenuti.

Utilizzare il file Robots.txt

Il file robots.txt (protocollo di esclusione robot) è un file testuale che si trova nella root del sito e che serve a comunicare ai crawler dei motori di ricerca come comportarsi durante la scansione del sito. Nel file robots è possibile indicare ad uno o più crawler quali sono le pagine o le cartelle del nostro sito che non devono essere scansionate e quali no.
I comandi principali del file robots.txt sono:

  • Use-agent: serve a comunicare a quale spiders ci si sta rivolgendo, se a tutti (utilizzo dell’*) o solo ad alcuni motori di ricerca;
  • Allow: serve a comunicare allo spider cosa scansionare (inserendo / si dice allo spider di incizzare tutto il sito);
  • Disallow: serve a comunicare allo spider cosa non scansionare:
    • Un singolo file: inserendo il nome completo del file (es: Disallow: /test.html);
    • Una directory: inserendo il percorso della directory (es: Disallow: /privato/);
    • Tutti quei contenuti (*) con all’interno un nome specifico (es: Disallow: *privato)
    • Tutti quei file con un estensione ($) particolare (es: Disallow: *.pdf$)
Una pagina bloccata dal file robots.txt può comunque essere indicizzata se altri siti hanno link che rimandano alla pagina

Utilizzare il tag meta robots

Il tag meta robots va inserito all’interno del codice html di un sito (precisamente all’interno della sezione <head>) e serve ad indicare agli spiders quali regole seguire per la scansione di una determinata risorsa; la sintassi del meta robots è la seguente:

<meta name="robots" content="noindex, nofollow">

Anche nel tag meta robots è possibile specificare istruzioni diverse per crawler diversi.

Utilizzare l’intestazione HTTP X-Robots-Tag

Tramite l’intestazione HTTP è impossibile inviare ai Motori di Ricerca direttive specifiche indirizzate ai crawler (è una soluzione utile quando non si può utilizzare il tag meta robots come per documenti pdf o immagini).

La sintassi dell’HTTP header X-Robots-Tag per bloccare una risorsa è la seguente:

X-Robots-Tag: noindex, nofollow

Bloccare parametri dinamici del sito

Per alcune tipologie di siti che utilizzano sezioni dinamiche (es: e-commerce) può succedere che singole pagine web possano avere dei “duplicati” causati da parametri dinamici del sito (es: parametri di ordinamento di prezzo o paginazione). In questi casi vengono create più versioni della stessa pagina con diversi url e si va incontro così a problemi di indicizzazione.
Per evitare ciò è sufficiente utilizzare gli strumenti per webmaster messi a disposizione dai vari motori di ricerca:

  • In Google:
    • Collegarsi a Google Search Console ed andare in Scansione -> Parametri URL;
    • Cliccare su Configura i parametri degli URL e su Aggiungi parametro;
    • Scrivere il nome del parametro, selezionare il tipo di parametro e il suo funzionamento e cliccare su Salva.
  • In Bing :
    • Collegarsi al Bing Webmaster Tools e cliccare su Index -> Normalizzazione URL;
    • Cliccare su Aggiungi paramtro, scrivere il nome del parametro e inviare a Bing la richiesta.

Utilizzare una password

Un modo sicuro per evitare che un contenuto di un sito venga scansionato da un crawler è proteggere quel contenuto con una password. In questo modo Googlebot e tutti gli altri web crawler non saranno in grado di accedere al contenuto della cartelle e dei file protetti da password.

Nel caso in cui un contenuto (per errore) è stato scansionato, indicizzato ed è visibile sulle serp dei motori di ricerca non resta che procedere con una richiesta di rimozione.
Inserito in:
L'Autore

Stefano Salustri

Sono un Consulente in Marketing Digitale e Consulente SEO con oltre 10 anni di esperienza. Mi occupo di progettare e sviluppare strategie digitali per Piccole e Medie Imprese per aiutare le aziende ad ottenere il massimo ritorno dagli investimenti nei canali online. 📈

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *