Comment Google sait quels sites vous contrôlez

Big Google is watching you

Il est évident que Google analyse un nombre très vaste de critères et facteurs pour déterminer le positionnement des sites internet. Mais qu’est-ce que Google peut savoir concrètement sur nous en tant que webmaster ou administrateur de sites internet ? Comment utilise-t-il cette information et quel impact cela peut-il avoir pour le référencement naturel?

Sans aller jusqu’à Big Brother (quoique…), Big Google sait un tas de choses impressionnantes sur vos sites internet, sur vous en tant qu’internaute et donc sur vous en tant qu’administrateur de sites. Cela n’est pas forcément un problème mais quand on parle de référencement naturel on se doit de prendre des précautions dans certaines situations…

En effet, lorsque l’on possède plusieurs sites internet, il y a de nombreux éléments qui peuvent être communs (empreinte ou footprint dans le jargon) et qui seront donc des indicateurs d’une potentielle relation. Plus il y aura de points communs, et plus cela donnera un signal fort. Cela peut donc avoir un impact sur votre référencement naturel si par exemple vous faites des liens entre vos sites. Ces liens pourraient voir leur valeur diminuée si Google pense qu’il s’agit d’une même entité, et cela peut être encore plus délicat dans le cas de réseaux de sites importants, même légitimes.
Dans d’autres cas, cela peut avoir un effet positif pour votre référencement si jamais vous avez un site avec une bonne notoriété et que vous lancez par exemple une version dans une autre langue, auquel cas il est important que Google comprenne qu’il s’agit du même site et donc qu’il peut lui attribuer un niveau de confiance supérieur.

Si vous possédez donc plusieurs sites internet voici une liste non exhaustive d’éléments qui peuvent indiquer à Google qu’il s’agit de la même personne ou entreprise derrière.

1. WHOIS

Il s’agit des informations publiques concernant l’enregistrement des noms de domaine. Sachez qu’il est possible d’enregistrer des noms de domaine de façon anonyme, mais sinon s’il y a le même propriétaire pour 2 noms de domaine…pas besoin de chercher beaucoup plus loin. Google n’est pas registrar depuis des années (et vend maintenant des noms de domaine) pour rien 😉

2. Adresse IP

Les sites ayant la même adresse IP peuvent, dans une certaine mesure, être considérés comme appartenant à la même entreprise. Notamment s’il n’y a pas beaucoup de sites utilisant cette même adresse (jusqu’à quelques dizaines). En effet, dans le cas d’un hébergement mutualisé avec des centaines voire des milliers de sites sur la même adresse IP, on se doute qu’ils ne pourront pas tous appartenir au même propriétaire.

flagfox

Voici une extension Firefox assez sympa: FlagFox, celle-ci affichera un petit drapeau dans la barre d’adresse en fonction du pays de l’IP mais elle vous permettra aussi de récupérer facilement l’adresse IP du site que vous visitez ainsi que diverses informations.

Adresse IP avec le même bloc C

Une adresse IP (en version 4 car la version 6 qui se propage petit à petit est différente) est composée de 4 nombres entre 1 et 255 et a le format suivant AAA.BBB.CCC.DDD

Deux adresses IP ayant le même bloc C signifie qu’elles partagent les même chiffres pour “AAA.BBB.CCC”. Donc l’adresse 173.194.41.152 a le même bloc C que l’adresse 173.194.41.153 (adresses de google).
Une adresse IP différente mais appartenant au même bloc C qu’une autre adresseIP peut aussi être considérée comme appartenant au même propriétaire car les adresses sont souvent vendues par bloc.

bingUne astuce pour chercher les sites utilisant la même adresse IP, utilisez la commande “IP:” dans Bing suivi de l’adresse IP que vous souhaitez inspecter.

 

 

3. Serveur DNS

Même idée que pour l’adresse IP, si plusieurs sites partagent le même serveur DNS et que celui-ci ne gère pas beaucoup de sites, alors il peut y avoir un lien entre ces sites. Pour ceux utilisant les hébergements classiques des registrars de non de domaine, aucun soucis à se faire car des millieurs de sites les utilisent.

4. Compte Google Analytics

Les sites utilisant le même compte ou sous-compte Google Analytics peuvent être reliés.

spyonweb
Voici un site permettant de chercher tous les sites utilisants le même code Google Analytics, serveur DNS ou adresse IP: http://spyonweb.com/

Outre Google Analytics, les autres outils de statistiques peuvent aussi vendre la mèche s’ils utilisent le même code, donc faire quand même attention si vous utilisez http://piwik.org/ par exemple.

5. Compte Google Webmaster tools

Avoir tous vos sites dans le même compte Google Webmaster tools n’est probablement pas une bonne idée… Par contre si vous avez plusieurs sites dans des thématiques complètement différentes et qu’il n’y a aucun lien entre les sites, cela ne pose à priori pas de problème.

6. Compte Google AdSense / publicité / affiliation

Si vous partagez le même compte Adsense ou le même code d’affilié à travers plusieurs sites, le message sera assez clair qu’ils vous appartiennent tous.

7. Code source des sites

Si vous utilisez la même “coquille” pour plusieurs de vos sites cela peut aussi être détecté. Il y a par exemple des développeurs qui laissent des commentaires uniques dans le code source et cela sera donc commun à vos sites. Là encore si vous utilisez un template wordpress déjà en place sur des centaines de sites, cela n’aura pas le même effet.

CSS/JS

Même idée avec des sites un peu différents, si vous partagez des fichiers CSS ou JS, cela peut être un indicateur

La plateforme

Cela est déjà plus difficile à prendre en compte mais disons que pour les filous qui développent des réseaux de sites, il serait une bonne idée de ne pas toujours utiliser le même CMS.

8. Contenu

Si vous utilisez du contenu identique sur plusieurs sites, cela peut aussi être une indication. Par exemple la page contact avec le même numéro de téléphone, la même adresse, ou encore les mêmes mentions légales ou CGV…

Duplication de texte

En plus d’être un frein au référencement, si en plus vous utilisez du contenu identique sur plusieurs de vos sites, comme des descriptions produits, cela peut être assez flagrant.
Voici 2 outils vous permettant de vérifier la duplication de contenus entre vos sites mais également avec n’importe quels autres sites sur internet:

copyscapeplagium

 

 

Duplication d’image

Vous pouvez aussi vérifier si vous partagez des images entre vos sites ou avec d’autres sites sur internet, voici 2 outils très efficaces:
1. Google image avec l’option de “rechercher par image”

google-imagerecherche-par-image

2. Le site tineye.com

9. Liens

Les liens entre vos sites sont une connexion apparente. Quelques liens sont généralement légitimes, mais souvent le problème est que les sites ont des liens dans le footer, ce qui implique que toutes les pages ont un lien vers les autres sites. Dans ce genre de situation, cela semble déjà beaucoup moins légitime, et avoir des centaines de liens entre vos sites est un signal assez fort.
Un autre exemple souvent rencontré est lorsque vous avez un blog sur un autre nom de domaine. Dans ce cas la majorité de vos articles auront un lien vers votre site et cela sera facilement détecté par Google. C’est pour cela que l’on recommande d’avoir le blog dans un dossier sur le nom de domaine du site principal. Un sous-nom de domaine serait en partie comme un autre site.

Profil de liens

Mais que dire si vous n’avez qu’un seul site ? Cela ne vous concerne pas ? Et bien en fait si… Car ce même principe de connexion entre sites s’applique à vous lorsque vous faites du netlinking. Vous rédigez un article de qualité, vous trouvez un site dans votre thématique pour le publier et votre article est accepté. Sauf que le site en question fait parti d’un réseau de sites…et il peut potentiellement être impacté par Google Penguin ou par sa future mise à jour. Il s’agit donc de quelque chose qui concerne potentiellement tout le monde.

10. hreflang

Le link rel=”alternate” hreflang permet d’informer Google des différentes versions de votre site en fonction de la langue et du pays ciblé. Cela est très utile et souvent oublié.

11. Social

Les signaux sociaux, comme vos +1 sur Google+ peuvent également donner de nombreuses indications. Si vous faites principalement des +1 de quelques sites il y a des chances que vous soyez en charge de ces sites.

Authorship

Techniquement le plus grand “link scheme” de la planète, l’authorship de Google relie votre site à votre compte Google+. Si vous utilisez le même authorship sur plusieurs sites, vous êtes clairement identifié comme étant l’auteur de ces sites. L’authorship peut aussi être utilisé que sur une page s’il s’agit d’un article que vous avez publié sur un blog par exemple, mais dans ce cas, est-ce que le lien qui pointe vers votre site aura autant de valeur si le tag n’était pas présent ?

12. Historique de navigation

historiqueNous rentrons un peu plus en mode “parano”, mais si vous êtes connecté à votre compte Google (et même lorsque vous ne l’êtes pas), Google garde un historique de vos navigations. Si vous visitez souvent les mêmes sites, il y a peut-être un lien ? En lui-même cet indicateur n’est pas le plus fragrant, mais c’est souvent l’accumulation d’indicateurs qui fait la différence.

13. Mouchards

Google Toolbar

google-toolbar

La barre d’outils de Google est considérée par beaucoup comme un gros mouchard de votre activité sur Internet. L’utiliser lorsque vous naviguez sur vos sites, ou mieux dans l’administration de vos sites, est encore une fois un fort indicateur de connexion entre les sites.

Google Chrome

Le navigateur de Google est aussi connu pour donner des informations de navigation et de recherche à Google.

Google DNS

Google fournit aussi un service de DNS. Si vous l’utilisez (car vous trouvez qu’il fonctionne mieux que ceux de votre FAI), vous donnez également des informations sur votre navigation.

Google Fonts

google-fontsGoogle propose également un service de polices d’écriture que vous pouvez utiliser directement sur votre site internet. De nombreux webmasters ou créateurs de site/thèmes l’utilisent. Dans la plupart des cas, cela peut augmenter la rapidité de votre site et soulager le serveur faisant l’hébergement du site puisque cela requêtera directement les serveurs de Google. Mais si une Google font est utilisée dans l’administration de plusieurs de vos sites, Google peut se rendre compte que la même adresse IP télécharge la police d’écriture pour des administrations de sites différents.

Pensez-vous à d’autres éléments qui pourraient indiquer à Google que vous contrôler plusieurs sites ?

 

Comment utiliser «Google Trends» pour améliorer votre référencement ?

Pour continuer à grandir et à prospérer, il est essentiel pour une société d’être en évolution permanente. Se tenir au courant de l’actualité dans son domaine d’activité, analyser et décrypter les tendances (« trends » en anglais), qu’elles soient locales, nichées ou...

Google Search Console : analysez et optimisez facilement vos performances SEO

Pour mesurer vos performances SEO et optimiser le référencement de votre site Internet, la Search Console de Google est un outil indispensable. Découvrez notre “guide ultime” sur le sujet.

SEMrush : analyse des fonctionnalités SEO, SEA, Contenu

SEMrush, ses fonctionnalités décortiquées Que vous gériez un ou plusieurs sites, il devient de plus en plus complexe au fil des années de se démarquer et d'obtenir du trafic. Pour vous y aider, il apparaît essentiel d'utiliser des outils efficaces et complets tel que...

Analysez vos textes, optimisez le champ lexical et sémantique avec 1.fr

A l’heure actuelle, le référencement se présente plus que jamais comme un levier indispensable à travailler pour augmenter la notoriété, le trafic et les conversions de votre site. Si nous savons depuis de nombreuses années que les backlinks et les optimisations...

7 Commentaires

  1. François-Olivier

    Moi je pense à Android et tous les services Google qui y tournent, qui doivent être de fantastiques mouchards.

    • Yannick

      C’est une bonne remarque, on peut effectivement se poser la question des données récupérées par Android. Lorsqu’il est question d’historique de navigation, il est vrai que l’on est en permanence connecté à son compte Google sous Android et ce dernier peut facilement agréger les données des utilisateurs en provenance de plusieurs appareils différents. Je n’ai pas trouvé d’information concernant l’utilisation des applications installées par Android mais cela ne serait pas difficile à imaginer.

  2. Akabia

    C’est tout de même difficile de ne pas se faire repérer lorsque l’on a un réseau. Pour rester anonyme face à Google cela demande une très grosse organisation et du temps.

    Vous ne parlez pas de Gmail, est-ce que à votre avis, Google analyse vos emails pour savoir si vous contrôlez un réseau de site ? (Oui on devient vite parano !)

    • Yannick

      Effectivement on peut vite devenir parano, mais je ne pense pas que Google analyse les emails Gmail pour cela. Imaginez le volume d’emails à analyser et le coût en ressources serveurs que cela représente… Par contre le fait qu’il y ait une association entre des enregistrements de comptes avec des emails rattachés entre eux, là pourquoi pas. Par exemple si vous avez des comptes Google Analytics distincts sur des adresses emails différentes mais que toutes ces adresses sont gérées dans le même compte Google Apps…on peut se poser la question.

  3. Julien

    La paranoïa n’est de mise que si vous cherchez à faire un réseau de sites de mauvaise qualité, c’est à dire qui se poussent entre eux sans chercher à avoir une quelconque légitimité individuelle. Si, au contraire, vous souhaitez faire du référencement de qualité, alors vous allez chercher à “pousser” chacun des sites de la linkwheel de façon à en faire une autorité autonome. Et dans ce cas, inutile de chercher à brouiller les traces puisque votre site présente un réel intérêt pour l’internaute.

  4. Ann

    Ola,
    un article très complet, une preuve de plus qu’il est vraiment difficile de planquer son réseau.

    Je rebondis sur le com’ de Akabia, puisque via un tweet ce matin, on a la preuve que Big G lit les mails, malgré la volumétrie : undernews.fr/reseau-securite/google-denonce-un-pedophile-utilisant-gmail.html.

    #cqfd

  5. Le Corrigeur

    Voilà un bel article comme on aimerait en trouver plus souvent. Personnellement, je pense qu’il faut différencier le réseau artificiel qui ne propose rien de véritablement différent d’un site satellitaire à l’autre et dont on comprend bien que son propriétaire n’a cherché qu’à poser un lien vers le site amiral, et d’autre part le vrai réseau où chaque site satellitaire possède une thématique propre.
    Un cas d’école fut le réseau de sites pornographiques Carpediem où l’activité du webmestre consistait essentiellement à créer tous les jours de nombreuses vitrines n’ayant qu’un seul objectif : occuper la toile et renvoyer vers le site payant. Cela ne peut plus fonctionner.
    Inversement, si chaque site secondaire complète le site principal, cela ne peut au contraire que renforcer l’impact de l’ensemble. À voir ce que va donner le nouvel algorithme de Google de juin 2015.