Calendrier

« mai 2007
lunmarmerjeuvensamdim
123456
78910111213
14151617181920
21222324252627
28293031

l'actualité du web, des technologies et aussi quelques bons tutoriaux ;-)

Le spamdexing : attention, jeu dangereux...

Le spamdexing est une activité qui consiste à tromper les moteurs de recherche afin d'améliorer le référencement naturel d'un site.

Le principe est simple : arriver à faire figurer abusivement un site en première position, en détournant les règles de classement des moteurs.

De nombreuses techniques de spamdexing existent :

Le spamdexing "à l'ancienne"
Cette catégorie regroupe toutes les vieilles astuces consistant à truffer les pages d'un site de mots clés invisibles pour le visiteur :
  • balises meta remplies de mots-clés pas nécessairement pertinents
  • listes de mots clés dissimulées en texte blanc sur fond blanc (texte invisible)
Il faut savoir que pour les moteurs, les listes de mots clés sont désormais complètement inefficaces (elles ne passent pas le filtre des moteurs d'analyse sémantique), et vous font courir des risques de blacklistage. A éviter, donc.

Le spamdexing par le NO
Ce type de spamdexing utilise les balises d'accessibilité (NO FRAME, NO SCRIPT, NO EMBED, etc.). Il s'agit de balises HTML utilisées par les navigateurs qui ne gèrent pas certaines fonctions comme les frames ou le javascript (ce qui est le cas des robots). Ainsi, tout lien mis entre ces balises est visité par le robot (tout en restant invisible pour le visiteur lambda, équipé d'un navigateur moderne).

Si ce types de balises peut avoir un sens (dans le cas d'un site avec cadres, pour le rendre crawlable), leur utilisation doit être raisonnée. S'il s'agit de fermes de liens masqués, les conséquences peuvent être funestes. A utiliser avec discernement donc.

Le cloacking
Le cloacking consiste à délivrer une version spécifique d'un site pour un moteur de recherche. La détection du robot peut se faire en récupérant le User-agent dans les en-têtes HTTP, mais cette méthode présente des risques et peut amener à un blacklistage très rapidement. Voici un exemple de script php très simple cloackant une page pour Googlebot.

[php] <php $trouve=strpos($_SERVER["HTTP_USER_AGENT"],"Googlebot");
if($trouve!==false){
// le visiteur est Googlebot, lui présenter la page cloakée
?>
<html>
... contenu de la page cloackée...
</html>
<?php
}
else{
// le visiteur n'est pas googlebot, lui présenter la page "standard"
?>
<html>
... page HTML "standard"...
</html>
<?php
}
?>

La méthode la plus fiable consiste à identifier le robot par son adress IP. On parle alors d'IP Cloacking. Mais maintenir la liste des nombreuses IP utilisées par les robots est une tâche fastidieuse.

Le cloacking est véritablement de la triche, puisque le moteur référence des pages pour un contenu différent de celui que verront les internautes. Il est d'ailleurs souvent déceptif pour les visiteurs, qui ne trouvent pas ce qu'ils cherchaient.

Le spamdexing par pages satellites
La création de pages satellites consiste à créer des dizaines, voire des milliers pages, afin d'augmenter le potentiel d'un site sur les moteurs de recherche. Cette pratique n'est pas à proprement parler du spam si elle est appliquée correctement : par exemple, faire des déclinaisons d'une page d'accueil par régions et grandes villes n'est pas condamnable, si toutefois la page reste cohérente avec le site.

On passe au vrai spamdexing lorsque ces pages satellites sont trompeuses (contenu illégitime) ou concues uniquement pour le référencement (listes de mots clés).

Le blog spamming
Dans la conquête de backlinks, les spameurs ont vite compris l'intérêt du phénomène des blogs. En effet, les plateformes de blog sont optimisées pour le référencement et toute personne qui poste un commentaire peut y joindre son url. Cette url, une fois publiée, devient un lien en dur, valable pour le référencement. Certains petits malins ont donc développé des scripts capables de poster des dizaines de commentaires inoffensifs ("Très intéressant", "Tout à fait d'accord avec toi") sur des milliers de blogs, générant ainsi des centaines de backlinks. En effet, un commentaire inoffensif n'a que peu de chance d'être supprimé par l'auteur du blog...

Le spamdexing de sitemap
Sur google sitemaps, il est possible de télécharger un fichier XML afin d'aider le robot de Google à indexer votre site en lui en indiquant l'arborescence de vos pages. Il est très simple d'enrichir ce fichier d'urls pas nécessairement accesibles pour vos visiteurs.

Le spamdexing reste une activité à haut risque, et doit inciter à la méfiance. Chaque décision doit être soigneusement pesée avec toujours en tête un souci de cohérence thématique. Certains sites très connu ont des centaines de milliers de pages satellites sans rencontrer de problème (essayez de taper rencontres loup dans Google et vous pourrez découvrir une page satellite d'un célèbre site de rencontres). C'est normal, car elles sont pertinentes : elles répondent à la question de l'internaute.

L'utilisation raisonnée de certaines de ces techniques peut donc apporter des résultats. Mais attention : en cas de blacklistage, vous n'aurez plus que vos yeux pour pleurer.

Introduction aux techniques de référencement naturel

Avant d'aborder en détails tous les aspects du référencement naturel sur les moteurs de recherche, il est important de faire un point sur les principaux aspects techniques et rédactionnels à prendre en compte. Le comportement de robots des moteurs de recherche (au premier rang dequels Googlebot et Inktomi Slurp) n'a cessé d'évoluer ces dernières années, notament pour lutter contre le spamdexing.

Car les spamers n'ont cessé d'améliorer leurs techniques (que nous évoqueront dans d'autres articles) : pages satellites, balises cachées, etc.

Pour contrer ces pratiques, les moteurs ont tout simplement révisé leur façon d'indexer les pages en donnant toujours plus d'importance au contenu.

Ainsi, aujourd'hui il est quasiment inutile de remplir ses balises meta-keywords, elles ne sont plus prises en compte par les principaux robots...

Voici les grands critères retenus aujourd'hui :

La pertinence du contenu
Les moteurs ont toujours axé leur analyse des pages sur la sémantique, mais cette approche semble désormais constituer un élément essentiel. Ainsi, une liste de mots clés à la suite aura un indice bien moins important qu'une page avec les mêmes mots clés répartis dans du texte pertinent... En gros, faites des phrases !

Le balisage
Les moteurs accordent une importance fondamentale aux balises et arguments descriptif (title, alt...). Ainsi, vos images doivent reprendre leur légende en argument "alt=". Le header de la page doit avoir des liens vers les principales rubriques avec la balise "link".

De même, le titre de la page doit reprendre le titre principal de la page, associé au nom du site. Ceci est d'ailleurs essentiel, puisque c'est ce qui apparaitra en premier dans les résultats du moteur de recherche :

Exemples de résultats Google

L'url rewriting
L'url est désormais prise en compte de manière très forte par les moteurs. Ainsi, un lien de type index.php?id=xxx n'a aucune signification. L'url rewriting (opéré au niveau du serveur web par le biais d'un fichier .htaccess) permet de rendre les url plus complètes, en y ajoutant différents paramètres, comme le titre de la page par exemple. Ainsi, une url de type /index/xxx/titre_de_la_page sera retranscrite par le serveur en index.php?id=xxx, mais pour le moteur de recherche, la page prendra une toute autre signification.

Le backlinking
Le backlinking (liens externes pointant vers votre page) est le critère déterminant dans la détermination de votre PageRank. Cette notion vaut autant pour Yahoo et MSN que pour Google. L'échelle de valeur de vos backlinks prend en compte deux paramètres : le page rank de la page liant vers vous et la similarité des thématiques sur les deux pages (mots clés communs).

Il est très important de savoir que les moteurs ne raisonnent pas par site, mais bien par page. Par exemple, vous pouvez avoir un PR5 sur une page de votre site et un PR2 sur votre page d'accueil.

Pour les délais de mises à jour des index des moteurs, il faut distinguer le crawl quotidien des robots, qui alimentent l'index en permanence, et les périodes de mise à jour du PageRank (appellées Google Dance chez Google), qui interviennent tous les 100 jours environ. Cela signifie que votre site sera peut être indexé et visible tout de suite, alors que votre pagerank restera à 0 (c'est le cas pour Web Interdit, lancé mi-décembre, mais déjà premier sur un mot comme "Tyoogle" dans Google).

Ces différents paramètres sont très bien pris en compte par les plateformes de blog, et notament celle que nous utilisons : dotclear. Regardez la source de cette page et vous aurez une vue assez claire de ce qu'il faut faire pour rencontrer le succès en référencement naturel.

Votre site n'a pas de contenu rédactionnel ? Alors il faudra en créer : lexique de termes dans votre secteur d'activité, guide, blog annexe... Sans contenu, vous êtes nécessairement voué aux limbes des moteurs de recherche.

Tyoogle = Google, puissance 2

En utilisation quotidienne, google est déjà puissant... Mais saviez vous que certaines syntaxes avancées permettent de trouver beaucoup plus (et surtout beaucoup mieux) ?

En effet, il est possible d'indiquer à google de ne chercher que certains types de fichiers. Il est également possible de lui demander de n'afficher que des répertoires "ouverts" au dowload. Les possibilités sont infinies, comme le montre ce tutorial.

Par exemple, la requête suivante :
?intitle:index.of? -inurl:htm -inurl:html intitle:"index of" "Last modified" mozart -filetype:html -filetype:htm -filetype:php -filetype:asp -posts -filetype:doc -wiki -lyrics -filetype:pdf -ringtone m4a|mp3|wma
a pour but de chercher tout fichier musical dont le nom contient "Mozart" dans un dossier non protégé (on les trouve grâce à l'Index of, typique des serveurs sous linux).

Mais si cette syntaxe vous rebute, pas de problème : Tyoogle a été inventé pour vous. Sélectionnez votre critère de recherche et affinez vos options avec une interface compréhensible.