Sito web clonato: scopri cosa fare per proteggerti

Navigando in rete ti sei imbattuto nella copia esatta del tuo sito web? Hai speso giorni, mesi o forse anni di lavoro a creare contenuti originali e adesso qualcuno li ha copiati a tua insaputa? Quello che ti è capitato, in realtà, è molto meno infrequente di quanto tu possa pensare: il tuo sito web è stato clonato così come capita ogni giorno a migliaia di altri blogger e webmaster nel mondo!

Ma perché succede? Chi ha colanto il tuo sito web? E per quale motivo? In questo articolo cercheremo di rispondere a queste e altre domande.

Web Scraping: cos'è e come funziona?

Lo scraping è una tecnica utilizzata nell'ambito della SEO Black Hat per rubare i contenuti di altri siti web in modo automatizzato: attraverso appositi software o script, è possibile copiare l'intero contenuto di un sito web al fine di crearne una copia esatta!

Continua dopo la pubblicità...

In pratica questi sistemi funzionano esattamente come un browser web che, in modo del tutto automatico, sfoglia tutte le pagine del sito vittima copiandone il codice sorgente HTML, fogli di stile CSS, script Javascript, immagini e quant'altro. Al termine della procedura, l'attaccante si ritroverà con una copia esatta del sito target da poter utilizzare per i propri fini.

Per effettuare lo scraping dei contenuti di un sito web può essere sufficiente uno script PHP come spiegato dettagliatamente in questo articolo.

Perché hanno clonato il mio sito web?

Ma per quale motivo qualcuno dovrebbe clonare il nostro sito web? Le motivazioni che possono spingere qualcuno ad effettuare una simile operazione possono essere molteplici, tuttavia, spesso, questa attività è finalizzata principalmente ad influenzare i risultati di ricerca ed avere quindi una ricaduta nell'ambito della SEO.

Lo scopo dell'attaccante sarà quello di guadagnare visibilità su Google posizionando i contenuti rubati all'interno dei risultati di ricerca, ottenendo così il duplice vantaggio di 1) generare traffico per sé e 2) al contempo creare un danno al sito originale.

Il rischio per il sito vittima della clonazione, infatti, è quello di subire un declassamento nei risultati di ricerca potendo, persino, venire scavalcato del sito copia che, attraverso strategie di posizionamento "aggressive", potrebbe apprire (agli occhi di Google) prioritario rispetto al sito originale!

Riassumendo, le finalità di un simile attacco sono due:

  • generare traffico web in modo fraudolento (ad esempio al fine di diffondere virus o spam di vario tipo);
  • danneggiare il sito clonato al fine di diminuire la sua reputazione e visibilità nei risultati di ricerca.

Chi ha clonato il mio sito web?

Difficile, se non impossibile rispondere a questa domanda. Solitamente chi effettua attacchi di questo tipo lo fa adottando una serie di precauzioni che impediscono alla vittima di risalire alla reale identità dell'attaccante:

  • i contenuti vengono copiati attraverso script automatici che agiscono attraverso dei Proxy oppure sfruttando sistemi compromessi: anche identificando gli IP degli agenti è difficile risalire alla reale identità di chi ha pianificato l'attacco!
  • una volta copiati, i contenuti, opportunamente modificati, vengono caricati all'interno di domini e spazi web di sogetti solitamenti ignari, anch'essi vittime di violazioni di sicurezza che hanno consentito all'artefice dell'attacco di caricare i contenuti rubati all'interno dei loro siti web!

Come è facile intuire in uno scenario del genere, tipico in situazioni di clonazione di contenuti, risalire alla reale identità dell'artefice dell'attacco è un'impresa veramente ardua e richiederebbe indagini talmente complesse da essere, nella pratica, difficilmente realizzabili.

Scopri se il tuo sito web è stato clonato

Identificare le eventuali copie in Rete del nostro sito web non è semplice e molto spesso, purtroppo, ci si accorge di attacchi di questo genere quando è troppo tardi, quando cioè l'attaccante ha raggiunto il suo scopo. Solitamente, infatti, l'esistenza di cloni viene scoperta per puro caso quando, effettuando una qualche ricerca in rete, ci si accorge he il proprio sito web è stato scavalcato da un sito pressoché identico.

Identificare cloni, infatti non è una cosa semplice. Se l'attaccante ha svolto bene il proprio lavoro, infatti, avrà opportunamente modificato le pagine web copiate eliminando tutti i nostri link così come ogni altro riferimento che potrebbe comportare la scoperta dell'esistenza del clone. Nel dettaglio l'attaccante effettuerà una serie di modifiche ai contenuti copiati, cioè:

  • tutti i link interni verranno modificati ed i riferimenti al dominio originale verranno sostituiti con quelli al nuovo dominio in modo da evitare che il dominio clone compaia tra i referer del sito originale;
  • i richiami a immagini, file CSS e Javascript verranno modificati opportunamanete in modo da non poter essere intercettati tra i referrer del sito originale;
  • eventuali script di terze parti (ad es. Google Analytics o AdSense) verranno rimossi o opportunamente modificati in modo da non lasciare tracce negli account della vittima.

Così facendo la vittima potrà accorgersi dell'accaduto solo quando è troppo tardi, quando cioè Google avrà già indicizzato il sito clone a discapito di quello originale. Ma come difendersi da situazioni di questo genere?.

Fortunatamente esistono degli strumenti che possono aiutare nell'identificare precocemente questo tipo di problematiche. Vediamoli nel dettaglio.

  • Google Alerts: questo strumento integrato in Google ti consente di effettuare ricerche in Rete per vedere se i tuoi contenuti si trovano su siti differenti rispetto al tuo dominio. Per iniziare, vai su Google Alert, copia e incolla una parte di uno dei tuoi contenuti più popolari nella query di ricerca (metti la frase tra virgolete per cercare una corrispondenza esatta) e inserisci la tua email in modo che Google possa inviarti via email i risultati della ricerca. Puoi regolare le impostazioni in Google Alert per avvisarti su base giornaliera, settimanale o in tempo reale.
    E' consigliabile attivare questo strumento a tutela dei contenuti principali del sito web: per siti molto grandi è bene, quindi, fare una selezione preliminare per identificare i contenuti più importanti da monitorare.
  • Strumenti Antiplagio per il testo: esistono in rete dei servizi ad hoc che consentono di identificare eventuali copie dei contenuti del nostro sito web. Tra gli strumenti di questo tipo segnaliamo CopyScape, Plagium e DupliChecker.
  • Strumenti a tutela delle immagini: oltre ai testi, anche le immagini del nostro sito possono essere vittima di copie non autorizzate. Anche in questo caso fortunatamente esistono strumenti che consentono di effettuare ricerche in rete, in modo automatico e veloce, per identificare gli autori di eventuali violazioni. Tra questi servizi segnaliamo TinEye e Berify.

Cosa fare se il tuo sito è stato clonato

Una volta identificato il problema vediamo come porre in atto le opportune contromisure.

  • Identificare l'indirizzo IP dello scraper: attraverso un'analisi dei file di log del vostro sito web è possibile identificare l'indirizzo IP dell'attaccante o meglio dello strumento che questi utilizza per effettuare la copia dei vostri contenuti. Una volta identificato l'indirizzi IP sarà possibile bannarlo ed impedire che effettui nuovamente lo scraping di altri contenuti (scopri come bannare un indirizzo IP attraverso htaccess). Nello schema tipico di attacco gli indirizzi IP possono essere più di uno, ma con un po' di pazienza potrete identificarli e bannarli uno ad uno.
  • Contattare il titolare del dominio utilizzato per ripubblicare i contenuti copiati: come detto, solitamente, i contenuti copiati vengono ripubblicati all'interno di siti web a loro volta violati. In situazioni come questa potreste contattare il titolare del sito web, spiegargli la situazione e chiedergli di intervenire per risolverla (nella home-page del dominio solitamente sono presenti indicazioni per contattare il titolare, in mancanza può essere utilizzato un servizio di WHOIS come questo).
  • Contattare l'hosting provider del sito copia: potete provare a contattare l'indirizzo di abuse del hosting provider che ospita le pagine web clonate (attraverso un servizio online come questo potete risalire all'indirizzo IP di un qualsiasi hostname e identificare l'hosting provider).
  • Avvisare Google dei contenuti copiati: Google raccoglie segnalazioni di pagine web e contenuti clonnati attraverso un apposito modulo per la richiesta di rimozione contenuti raggiungibile a questa pagina. La segnalazione va compilata in modo completo e scrupoloso dichiarando, contestualmente, di essere i detentori del copyright violato.

I commenti degli utenti

I commenti sono sottoposti alle linee guida di moderazione e prima di essere visibili devono essere approvati da un moderatore.