Come bloccare i contenuti di un sito ai motori di ricerca

bloccare-contenuti-ricercaI contenuti di un sito web rappresentano il patrimonio vero e proprio di qualsiasi portale e spesso si fa una gran fatica  a fare in modo che le pagine importanti del nostro sito vengano indicizzate correttamente e si posizionino poi al meglio all’interno dei motori di ricerca.

Per evitare di dover rimettere le mani più e più volte sul nostro sito è importante sin dall’inizio analizzare quali sono i contenuti che riteniamo utili ed importanti da far indicizzare ai motori di ricerca e quali invece sono contenuti privati o non idonei (come i contenuti duplicati) ad entrare nelle serp.

Per eseguire il processo di blocco delle pagine rispetto ai motori di ricerca esistono diversi metodi da tenere in considerazione ed applicare in fase di creazione dei contenuti.

Utilizzare il file Robots.txt

Il file robots.txt è serve a comunicare agli spiders dei motori di ricerca come comportarsi in termini di analisi del sito. Nel file robots è possibile dire ad uno o più motori di ricerca quali sono le pagine o le directory del nostro sito che non devono essere analizzate, e quindi indicizzate.
I comandi principali del file robots.txt sono:

  • Use-agent: serve a comunicare a quale spiders ci si sta rivolgendo, se a tutti (utilizzo dell’*) o solo ad alcuni motori di ricerca;
  • Allow: serve a comunicare allo spider cosa scansionare (inserendo / si dice allo spider di incizzare tutto il sito);
  • Disallow: serve a comunicare allo spider cosa non scansionare:
    • Un singolo file: inserendo il nome completo del file (es: Disallow: /test.html);
    • Una directory: inserendo il percorso della directory (es: Disallow: /privato/);
    • Tutti quei contenuti (*) con all’interno un nome specifico (es: Disallow: *privato)
    • Tutti quei file con un estensione ($) particolare (es: Disallow: *.pdf$)

Utilizzare il tag <meta> robots

Il tag <meta> robots va inserito all’interno delle nostre pagine e serve ad indicare agli spiders come scansionare la pagina; la sintassi del meta robots è la seguente:
<meta name="robots" content="noindex, nofollow">.
Anche nel tag meta robots è possibile specificare il tipo di spider e il tipo di comportamento che lo spider deve avere nei confronti della pagina. Per ulteriori dettagli potete vedere la pagina di Robotstxt.org dedicata al meta robots.

Utilizzare l’HTTP header X-Robots-Tag nel web server

L’X-Robots-Tag serve per tutti quei contenuti non HTML-based come i documenti doc, pdf, etc..In questi casi, se non si utilizzano regole espresse nel Robots.txt, è possibile configurare l’HTTP header X-Robots-Tag rispetto a singoli url. La sintassi dell’HTTP header X-Robots-Tag è la seguente: X-Robots-Tag: noindex, nofollow.

Bloccare parametri dinamici del sito

Per alcune tipologie di siti che utilizzano sezioni dinamiche (es: e-commerce) può succedere che singole pagine web possano avere dei “duplicati” causati da parametri dinamici del sito (es: parametri di ordinamento di prezzo). In questi casi vengono create più versioni della stessa pagina con diversi url e si va incontro così a problemi di indicizzazione.
Per evitare ciò è sufficiente utilizzare gli strumenti per webmaster messi a disposizione dai vari motori di ricerca:

  • In Google:
  1. Collegari al Google Centro Webmaster ed entrare in Strumenti per webmaster; cliccare su Configurazione sito -> Parametri URL
  2. Cliccare su Configura i parametri degli URL e su Aggiungi parametro.
  3. Scrivere il nome del parametro, selezionare il tipo di parametro e il suo funzionamento e cliccare su Salva.
  • In Bing :
  1. Collegarsi al Bing Webmaster Tools e cliccare su Index -> Normalizzazione URL.
  2. Cliccare su Aggiungi paramtro, scrivere il nome del parametro e inviare a Bing la richiesta.

 

Per ulteriori informazioni rispetto alla configurazione delle regole per la scansione dei siti web potete fare riferimento al Centro per webmaster di Google.

Inserito in:

Lascia un commento

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Loading Facebook Comments ...