Contenuti duplicati e SEO

1 Febbraio 2012

by Stefano Salustri

with 12 commenti

Blog

Quando si parla di siti seo-friendly si vuole indicare quei siti web realizzati attraverso la creazione di elementi (layout, navigazione, contenuti) ottimizzati per essere “compresi” al meglio dai motori di ricerca.

Questo significa realizzare una struttura e dei contenuti che siano da una parte usabili per l’utente, dall’altra ottimizzati per i motori di ricerca, affinché il sito possa essere scansionato correttamente dagli spiders e indicizzato al meglio.

Uno dei problemi inerenti l’indicizzazione di un sito riguarda l’esistenza di contenuti duplicati, ovvero di pagine del sito uguali (e per uguali si intende una copia speculare di una pagina), raggiungibili da url diversi. L’esistenza di questi contenuti, anche se può sembrare un problema relativo, in realtà può portare a seri problemi SEO in quanto un motore di ricerca, trovando due identici contenuti, non sa come comportarsi e quale delle due versioni è più rilevante per la query cercata dall’utente.

Cosa comporta ciò? Quando il motore di ricerca trova due o più versioni dello stesso contenuto non riesce a distinguere tra l’originale e le copie, e quindi può non indicizzare o indicizzare in maniera non corretta le varie pagine.

Per evitare ciò è importante non permettere la creazione di pagine duplicate o altrimenti evitarne l’indicizzazione attraverso i metodi che vedremo sotto.

Quando si creano contenuti duplicati?

Partiamo dal fatto che un contenuto duplicato, come detto sopra, è rappresentato da due o più pagine identiche presenti in un sito raggiungibili però da url diversi.

La duplicazione di contenuti può avvenire per varie ragioni ed in vari casi, ad esempio:

versione con www e senza www (es: stessa pagina raggiungibile da www.esempio.com e esempio.com);
diversi protocolli (es: stessa pagina raggiungibile da http://www.esempio.com e https://www.esempio.com);
duplicati della home page (es: www.esempio.com e www.esempio.com/index.html);
parametri di sessione (es: www.esempio.com e www.esempio.com?sessione=1746);
parametri di ordinamento (es: www.esempio.com/hotel e www.esempio.com/hotel?prezzo-magg);
parametri di ricerca (es: www.esempio.com/search.php?categoria=hotel e www.esempio.com/search.php?categoria=hotel?prezzo=100);
path duplicate (es:www.esempio.com/bici-rosse e www.esempio.com/tag/bici-rosse);
paginazione (es: www.esempio.com/search.php?categoria=hotel e www.esempio.com/search.php?categoria=hotel?pagina=2);

Oltre alle ipotesi citate sopra esistono altre diverse possibilità in cui per diversi motivi è possibile incorrere alla creazione di pagine duplicate; a prescindere dal motivo, l’importante è, analizzando il sito, capire come e dove si sono create più versioni della stessa pagina.

Come trovare contenuti duplicati?

Esistono, per nostra fortuna, diversi strumenti e diversi metodi per analizzare l’eventuale esistenza di contenuti duplicati, eccone alcuni tra i più utilizzati:

Google Search Console (nella sezione Diagnostica -> suggerimenti HTML è possibile vedere se esitono title o meta descrizioni duplicate);
Operatore di ricerca site: (controllare tutte le pagine indicizzate tramite una ricerca site:esempio.com; A volte è Google stesso che ci avverte dell’esistenza di pagine simili che potrebbero essere contenuti duplicati;

Utilizzare tool come Seo Spider attraverso il quale è possibile vedere se esistono diverse versioni della stessa pagina.

Come risolvere il problema dei contenuti duplicati?

I contenuti duplicati, per la struttura stessa del sito che li crea, non devono essere rimossi, basta configurare i diversi contenuti affinché il motore di ricerca possa capire quali sono le versioni orginali della pagine e quali no.

Noindex, Nofollow: il file robots.txt ci viene in aiuto per indicare al motore di ricerca quali sono le sezioni del nostro sito che non devono essere scansionate, questo metodo è utile nel caso delle path duplicate (es: miosito.com/bici-rosse e miosito.com/categoria/bici-rosse);

Tag rel=canonical: impostare qual’è la versione canonica della pagina tramite il tag canonical (questa soluzione è utile in tutti i casi di parametri (es: www.esempio.com/hotel e www.esempio.com/hotel?prezzo-magg);

Tag rel=”next” and rel=”prev”: utile nei casi di contenuti duplicati per paginazione (es: www.esempio.com/search.php?categoria=hotel e www.esempio.com/search.php?categoria=hotel?pagina=2);

Redirect 301: reindirizzare la pagina duplicata alla versione originale (questo metodo può essere utile nei casi di cambiamenti strutturali del sito che hanno portato a modifiche permanenti degli url (es: miosito.com/blog/articolo-1 e miosito.com/blog/2012/11/articolo-1);

Utilizzare Google Search Console per impostare la versione di dominio preferito (Search Console -> Configurazione sito -> Impostazioni) (utile nel caso di stessa pagina raggiungibile da www.esempio.com e esempio.com);

Impostare il noindex per i parametri url che conosciamo e che provocano contenuti duplicati (sempre tramite Search Console -> Configurazione sito -> Parametri Url possiamo dire a Google quali sono ler pagine che utilizzano dei parametri che non devono essere indicizzate perché contenuti duplicati) (attenzione: utilizzare solo se si conosce l’esatta funzione del parametro).

Stefano Salustri

Sono un Consulente in Digital Marketing con oltre 10 anni di esperienza. Mi occupo di progettare e sviluppare strategie digitali per Piccole e Medie Imprese per aiutare le aziende ad ottenere il massimo ritorno dagli investimenti nei canali online.

Ti potrebbe interessare anche:

12 Risposte

Gianni Olivieri 27 Aprile 2016 at 16:33

Salve, articolo interessante. A proposito dei contenuti duplicati. Avrei una domanda riguardo la tecnica di proliferazione degli URL utilizzata da Magento (con il tag canonical). In pratica Magento nelle pagine di “categoria” per ogni combinazione di filtri crea un URL diretto. Ad esempio se visualizza la categoria scarpe avrò un URL miosito.it/scarpe, se filtro per scarpe donna avrò un URL miosito.it/scarpe/donna la pagina è “la stessa” ma con i contenuti filtrati. Questo a tutti gli effetti si traduce in contenuti duplicati. Per i siti e-commerce pare che Google apprezzi e premi questa tecnica di proliferazione, la stessa cosa la possiamo applicare anche ai siti non puramente ecommerce? Un catalogo senza carrello? O si rischia la penalizzazione?

Rispondi
- Stefano SalustriAuthor 29 Aprile 2016 at 10:05
  
  Ciao Gianni,
  un contenuto può essere ritenuto duplicato se lo stesso identico contenuto è raggiungibile da url diversi. Il caso più comune in abito ecommerce è l’ordinamento dei prodotti.
  Se gli stessi prodotti ordinati per prezzo generano un url e ordinati per voto ne generano un altro, quelle due urls rappresentano un contenuto duplicato.
  Nel tuo caso l’applicazione di un filtro sui prodotti genera un cambio dei prodotti visibili in pagina, per questo la pagine scarpe e la pagina scarpe/donna avranno all’interno prodotti diversi e quindi non duplicati.
  Potresti essere a rischio duplicazione solo nel caso in cui la pagina scarpe contenga solo scarpe da donna e quindi il filtro su scarpe donna non genera nessun cambiamento dei prodotti in pagina.
  Nel caso in cui le i filtri in pagina fossero gestiti con dei parametri, puoi utilizzare la Search Consolle per indicare a Google a cosa servono i parametri ed evitare quindi duplicazioni.
  Nel tuo caso, solo per situazioni a rischio (tipo quella che ti ho indicato sopra) il mio consiglio è lavorare con il tag canonical.
  
  Rispondi
Giuliano Tinta 21 Dicembre 2017 at 16:04

Buongiorno, ho un piccolo sito amatoriale che tratta del modellismo navale i wordpress.
Ho scritto diversi testi raggruppati in forum (bbpress) in modo che abbiano una sequenza ligica; tuttavia gli atrssi articoli sono stati duplicati (copia incolla puro!!!) in articoli in modo che siano raggiungibili anche attraverso il campo di ricerca aiax.
Per correggere l’errore del contenuto duplicato pensavo di inserire negli articoli il tag:
meta http-equiv ….
che mi rimanda direttamnete al corispondente testo del forum bbpress.
Crede che funzioni bene anche pe google e le presenza nelle serp?
Ringrazio
Giuliano

Rispondi
- Stefano SalustriAuthor 21 Dicembre 2017 at 16:33
  Ciao Giuliano,
  bisognerebbe analizzare il caso specifico. Il problema di duplicazione può sussistere nel caso in cui i risultati del form Ajax vengano indicizzati dal motore di ricerca e creino quindi una copia speculare dell’articolo originale raggiungibile da un url diverso dall’originale.
  
  Se fosse così potresti:
  - Bloccare tramite robots.txt (o altre tecniche) l’indicizzazione delle pagine di risultato del motore di ricerca interno del sito;
  - Utilizzare il Rel=”Canonical” sulla pagina del risultato del motore di ricerca con l’indicazione della versione canonica del contenuto.
  Stefano
  Rispondi
  - Giuliano Tinta 21 Dicembre 2017 at 20:23
    
    Grazie della risposta Stefano.
    Io uso il plugin bbPress (quale unico autore) per dare una cronologia logica a specifici argomenti (per esempio su come si costruisce una scialuppa) che sono suddivisi (e pubblicati) in circa 20 parti o risposte.
    Ogniuna di esse è stata duplucata con il copia e incolla creando un corrispettivo articolo o post in tutto uguale al forum ( cambiano le categorie i tag e poco altro).
    Il problema è che Google vede che nel sito ci sono moltissimi contenuti duplicati e questo mi penalizza nella Serp.
    Vorrei a questo punto cancellare il contnuto nel post e sostituitrlo con un tag:
    
    In questo modo cliccando sulla pagine dell’articolo si viene immediatamente dirottati sulla pagina della risposta del forum in modo (al momneto) traspatente per il visitatore.
    Ma quali efffetti si avranno sostituendo tutti gli articli duplicati con i rispetti ?
    Google considera ancora il contenuto duplicato?
    Grazie
    
    Rispondi
    - Stefano SalustriAuthor 22 Dicembre 2017 at 09:42
      
      Ciao Giuliano,
      Google considera duplicato un contenuto se esiste una versione identica (html) di una stessa pagina raggiungibile da due o più url differenti. Nel tuo caso più che la duplicazione (che si può riscontrare anche attraverso Search Console nella parte Aspetto della Ricerca -> Miglioramenti HTML – Title e Meta Descrizioni Duplicate) potresti trovarti in una situazione di cannibalizzazione dei contenuti.
      
      In entrambi i casi puoi comunque risolvere. La soluzione che hai proposto è una di quelle percorribili. Lato SEO il mio consiglio è di verificare quali sono le pagine duplicate, controllare quelle che ricevono maggiore traffico ed hanno ranking più alto, segnarti tutte le url e una volta fatta la modifica procedere una redirect 301 da contenuto obsoleto a contenuto “canonico”.
      
      In questo modo dovresti minimizzare la perdita di traffico da organico. Quantifica comunque tutto tramite un’analisi capillare con Google Analytics.
      
      Stefano
      
      Rispondi
Matt 7 Febbraio 2018 at 16:29

Quando Search Console segna come duplicato un url con suffisso html ed uno senza, esempio:
https://www.miosito.it/regolamento.html
https://www.miosito.it/regolamento

Questo per tutte le pagine del sito.

Come conviene agire?
Il rel canonical non è applicabile, la pagina è una sola nella realtà.
il redirect manuale 301 è impensabile se le pagine sono oltre 5000

Il CMS (Joomla) è già impostato su non mostrare il suffisso html e tutti gli urls vengono automaticamente visualizzati senza html

Google lo capirà da solo che non è un contenuto duplicato?

Rispondi
- Stefano SalustriAuthor 7 Febbraio 2018 at 19:34
  
  Ciao Matt,
  se Google vede le 2 risorse (con suffisso html e non) come duplicati è perché ci sono due identiche versioni della sessa pagina che rispondono ad url diversi.
  
  Questa situazione è abbastanza comune sia per i casi di pagine con suffisso / senza suffisso, sia per url con parametri e senza, sia per versione del sito con o senza www.
  
  Per risolvere tali situazioni il metodo migliore è utilizzare il rel=”canonical”. Se nel tuo caso questa procedura non è applicabile l’alternativa potrebbe essere quella di una regola di redirect massiva dagli url con suffisso .html verso url senza suffisso.
  
  Per farlo potresti utilizzare una regola da impostare nel file .htaccess simile a questa:
  
  RewriteCond %{THE_REQUEST} \.html
  RewriteRule ^(.*)\.html$ /$1 [R=301,L]
  
  In pratica la regola sopra indica di reindirizzare qualsiasi pagina che termina con .html verso la relativa versione senza suffisso.
  
  Rispondi
Daniele 15 Febbraio 2018 at 11:17

ciao, anche a me Google segnala “Pagina duplicata senza tag canonical” la index.html di un sito web con protocollo https.

Come risolvere il problema?

Rispondi
- Stefano SalustriAuthor 15 Febbraio 2018 at 16:12
  
  Ciao Daniele,
  se la tua home page è raggiungibile sia da http://www.tuosito.it che da http://www.tuosito.it/index.html dovresti decidere quale delle due versioni rendere canonica. Il mio consiglio è di inserire, all’interno della versione /index.html il seguente elemento .
  
  In aggiunta alla seguente informazione potresti anche effettuare un reindirizzamento 301 dalla pagina con /index.html alla versione /.
  
  Rispondi
Giuseppe 24 Luglio 2018 at 15:02

Buongiorno, ma per quanto riguarda la homepage come si può fare?
Wordpress crea in automatico page1/page2 ect e google mi segna tutto come descrizione duplicata.

Si puo risolvere questo problema?

Grazie mille

Rispondi
- Stefano SalustriAuthor 25 Luglio 2018 at 06:46
  
  Buongiorno Giuseppe,
  Wordpress di default imposta un sistema di paginazione per permettere agli utenti di navigare attraverso i post. Se nel tuo sito come Home Page hai impostato gli ultimi articoli è normale che ci sia una paginazione.
  
  Se invece hai impostato una pagina statica solitamente non dovrebbe esserci una paginazione (verifica le impostazioni del tuo tema ed eventualmente contatta lo sviluppatore).
  
  Quello che ti consiglio di fare è verificare è se all’interno di url diversi (es: page1 / page2 etc.. compaiono gli stessi contenuti o contenuti diversi).
  
  Nel caso di contenuti diversi, quindi paginati, puoi utilizzare gli accorgimenti indicati da Google (https://support.google.com/webmasters/answer/1663744?hl=it) per indicare al motore di ricerca che si tratta di paginazione ed in linea di massima puoi ignorare la segnalazione di titoli e meta descrizioni duplicate.
  
  Nel caso di stesso contenuto raggiungibile da url diversi (es: pagina statica con paginazione) devi cercare il problema e risolverlo alla fonte dopodiché la cosa migliore è verificare quante sono le homepage indicizzate e reindirizzarle tutte verso la home page canonica (con un redirect 301).
  
  Rispondi

Stefano Salustri