Soutenir Vision du Web dans son partage de logiciels et de ressources libres

Ce mineur crée de la monnaie numérique Monero pour soutenir Vision du web.
Merci de désactiver votre bloqueur de publicité.
Aucune publicité ne sera affichée.
Le mineur utilise les ressources de votre machine pour créer gratuitement de la monnaie numérique.
Le montant des donations pour Vision du web est de 0.071354278389991 Monero.

Accueil SEO

De Wiki. Analyse, Communication, Développement, Hacking.
Aller à : navigation, rechercher
Naviguer sur le wiki : Accueil du wiki - Administrateur - Développeur - Intégrateur - Marketing - Multimédia - Objectifs - We make Hack
Naviguer sur le site : Accueil du site - Les annuaires - Les éditoriaux - Le forum - Les outils - Les projets
 
Consulter le sommaire de cette page en étant déconnecté du réseau : Télécharger le sommaire en PDF

Sommaire

Accueil SEO

Référencement

Le Lundi 3 septembre 2001, 'Nomade' a lancé ses deux premières offres de référencement payant.
Depuis la fin de l'année 2001, la plupart des acteurs de l'internet ont franchis le pas pour le référencement payant, seul modèle économique rentable.
Depuis 2009, avec l'arrivée de la Blockchain, du Bitcoin et de nouveaux Altcoins, de nouveaux modèles sont proposés qui utilisent les monnaies numériques.
Référencement - Liste des moteurs de recherche.
Référencement - Scripts automatiques.
Google Adwords
Achat de mot clé pour diffuser une annonce.
https://adwords.google.com/home/

Principaux outils de Référencement et de SEO

Google My Business

Pour confirmer la création de la fiche gratuite, il est nécessaire de valider les informations relatives à votre établissement.
Ko.png Attirez de nouveaux clients grâce à votre fiche Google gratuite : https://www.google.fr/intl/fr/business/

GHSTools

Liens officiels

Booster votre référencement avec GHSTools : http://www.ghstools.fr
Le forum de GHSTools : http://www.ghstools.fr/forum

Robot-administrateur-systeme.png

Complément

Vidéo de présentation de GHSTools : https://youtu.be/FgJvpgIGdpU
Utiliser GHSTools : http://www.ghstools.fr/interface/connexion.php?redirect=http://www.ghstools.fr/interface/contribuer.php
Prise en main de l'outil GHSTools - Le principe du Grey Hat SEO Tools : http://www.grey-hat-seo.com/principe-grey-hat-seo-tools
Tous les tutoriels pour GHSTools : http://ghstools.fr/forum/viewtopic.php?f=36&t=660
Ajouter des tutoriels sur le Blog de grey-hat-seo.com : http://www.grey-hat-seo.com/manuel-ghs-tools/aider-a-completer-animer-blog-forum
Gestion des catchall : http://www.grey-hat-seo.com/manuel-ghs-tools/gestion-des-catchall
Installer l'extension de GHSTools pour chrome : https://chrome.google.com/webstore/detail/ghs-tools-extension/ilighcklmpifhlkkmmogapkfknnpimdl?hl=fr
Télécharger le code source de l'extension : Fichier:Source-extension-chrome-ghstools.zip
Trouver des plans Backlink : http://referencement-progressif.com/liste_spots/connexion.php?redirect=http://referencement-progressif.com/liste_spots/spots.php
Aider à déterminer la langue des plans backlink : http://www.grey-hat-seo.com/manuel-ghs-tools/nous-aider-a-determiner-la-langue-des-plans-backlink

API Scraper GHSTools

L'API pour scraper le HTML d'un site :
Appelez cette url en changeant l'url de fin de chaîne :
http://www.analyse-referencement.fr/api_html_site.html?url=http://www.ghstools.fr
L'API pour scraper le HTML des SERPs Google :
Appelez cette url en changeant le mot de fin de chaîne
Vérifier le bon fonctionnement de cette API...
http://www.analyse-referencement.fr/api_serp_google.html?key=référencement
Site officiel : www.analyse-referencement.fr/settings.html

Gtmetrix

Site officiel : https://gtmetrix.com

Webrankinfo

Créer et utiliser un bookmarklet : http://www.webrankinfo.com/dossiers/outils/bookmarklets
De nombreux tutoriels spécialisés : http://www.webrankinfo.com/dossiers/outils
Site officiel : http://www.webrankinfo.com

Yooda

Site officiel : https://www.yooda.com
Blog : http://blog.yooda.com
Statistiques Yooda à l'aide de son compte utilisateur : https://insight.yooda.com

Majestic

Explorateur des liens entre les domaines.
Site officiel : https://fr.majestic.com

SEO Tools pour Excel

Source : http://seotoolsforexcel.com
Source : https://seotoolsforexcel.com/connectors/

Quicksprout

Source : https://www.quicksprout.com

Website Penality Indicator

Todo.png

Source : https://feinternational.com/website-penalty-indicator/

Answer the public

Todo.png

Source : http://answerthepublic.com

Broken Link Check

Todo.png

Source : http://www.brokenlinkcheck.com

Check My Link extension pour Chrome

Todo.png

Source : https://chrome.google.com/webstore/detail/check-my-links/ojkcdipcgfaekbeaelaapakgnjflfglf?hl=en-GB

Email auto extractor

Todo.png

Source : https://chrome.google.com/webstore/detail/email-auto-extractor/blkpobilpealkkcibgcgfmflneafkkah

Campagne de mail avec Google Sheets et Gmail

Todo.png

Source : https://chrome.google.com/webstore/detail/yet-another-mail-merge/mgmgmhkohaenhokbdnlpcljckbhpbmef

MobiReady

Un outil gratuit pour les développeurs, les concepteurs et les spécialistes du marketing pour tester les performances des sites Web sur les appareils mobiles.
Site officiel : https://ready.mobi/#914150-tipf

Similar Content Prospecting Tool

Todo.png

Source : https://skyrocket.digital/tools/similar-content-prospecting-tool/

Semrush

Todo.png

Source : https://fr.semrush.com

Screamingfrog

Todo.png

Source : https://www.screamingfrog.co.uk/seo-spider/

Gephi

tar -zvxf gephi-0.9.2-linux.tar.gz
cd gephi-0.9.2/
ls
cd bin
/home/seo/gephi-0.9.2/bin# ./gephi
libEGL warning: DRI2: failed to authenticate
Source : https://gephi.org
Pourquoi et comment utiliser Gephi en SEO ?
Source : www.seomix.fr/pourquoi-comment-utiliser-gephi-seo/
Si java manque, installer Java sur Linux.
Télécharger le paquet tar.gz depuis le site officiel de Java.
Décompresser dans le dossier /gephi-0.9.2/bin/
Lancer Gephi en indiquant le paquet de Java ajouté dans le dossier /gephi-0.9.2/bin/ : ./gephi --jdkhome jre

Extraire les données d'un site avec Javascript

Todo.png

Source : http://blog.cremedelacreme.io/2017/02/07/donnees-site-code-javascript-digital/

Importer du contenu et des images

Todo.png

Source : https://www.import.io

Ouvrir plusieurs URL en une fois

Todo.png

Source : http://quickurlopener.com

Youroutreach

Todo.png

Influenceur automatique.

Source : https://youroutreach.com

Scrapebox

Logiciel payant pour optimiser votre SE0.
Le site officiel : http://www.scrapebox.com
Quelques tutoriels : www.papilouve.com/tuto-scrapebox-soft-seo-black-hat/
Quelques vidéos : http://www.jeromeweb.net/seo/2826-tutos-scrapebox-logiciel-seo
La liste des footprints est triée par type de CMS : www.seoxis.com/scrapebox-liste-de-119-footprints-page-scanner/

Seo-systeme

SEO Systeme vous propose un audit gratuit pour votre site internet basé sur le logiciel SEO Myrankingmetrics (https://myrankingmetrics.com).
Site officiel : https://www.seo-systeme.fr - https://www.helperiance.fr
Contacter SEO Systeme pour en savoir d'avantage.

Connaître le nombre de Backlinks

Urltrends

https://www.urltrends.com/rank/visionduweb.eu
Pages Indexed → 1,870
Back Links → 21,900

Monitorbacklinks

https://checker.monitorbacklinks.com/seo-tools/free-backlink-checker/visionduweb.eu

Analyser les erreurs d'un site

SEO Site Checkup

Source : https://seositecheckup.com

Analyser les liens brisés

Outils en ligne

http://www.brokenlinkcheck.com/broken-links.php
http://validator.w3.org/checklink
https://www.deadlinkchecker.com
https://www.drlinkcheck.com

Outils

SEO - SiteSpy.
SEO - Content Spinning.
SEO - Optimiser les fichiers - Optimiser les articles et les mots clés.

Méthodes

Scraping Spinning Morphing

Ok-ko.png Automatiser la présence d'un site avec des robots et le Scraping - Spinning - Morphing : http://t0ni0.blogspot.fr/2011/02/scraping-spinning-morphing.html

Obfuscation

Ok-ko.png L'obfuscation permet par exemple de ne pas valoriser certains liens externes : https://www.410-gone.fr/seo/optimisation-on-site/maillage-interne/cocon-semantique/obfuscation.html

Black Hat SEO

Le Black Hat SEO est une stratégie de référencement naturel (SEO) qui permet d’optimiser un contenu pour les moteurs de recherche dans le but de les placer en 1ère position sur la SERP de Google.
Le but est d’obtenir un meilleur positionnement sans respecter les normes et les recommandations des moteurs de recherche.
L’expression s’oppose à la notion de White Hat SEO.

User agent cloaking

Technique permettant d’afficher sur une même page un contenu pour les moteurs de recherche (Sur-optimisé en mots-clés par exemple.) ou un contenu pour les internautes humains (Plus agréable à lire.).
Il suffit d’identifier le robot grâce à sa signature User Agent.

Contenus cachés

Le contenu caché pour les internautes est visible pour les robots.
Ils lisent dans le HTML et le CSS les textes sur fond de même couleur, texte derrière une image, police de 0, lien sur des caractères invisibles...

Keyword stuffing

Accumulation de mots clés.

Contenu détourné et Duplicate content

Le contenu provient de plusieurs sources.
Le contenu est copié d’un autre site internet.
Tester si vos pages contiennent du contenu dupliqué avec CopyScape : https://www.copyscape.com/duplicate-content/

Redirections trompeuses

Redirections trompeuses grâce à l’utilisation de pages satellites.

Achat de liens dofollow ou échange de liens excessifs

.

Pirater un autre site web pour utiliser sa notoriété, son trafic

.

Autres techniques Black SEO

Attribut nofollow, Background spoofing, Captcha breaking, Content spinning, DMCA Google, Ferme de liens, NDD expiré, Negative SEO, Netlinking black hat, NSEO, Obfuscation de lien, PBN, Plateforme d’achat de liens, Référencement négatif, Réseau de blogs privés, Réseau de sites, Scraping de contenu, Spam de commentaires, Splog, Spun, Taux de similarité, Vente de liens ou backlinks

Conséquences

Le Black Hat SEO fonctionne ! Cela veut dire plus de trafic !
D'autres sites légitimes avec des réponses plus pertinentes ne seront plus dans les premiers résultats de la SERP.
Avec la mise en place de techniques SEO peu éthiques, un site web va progresser rapidement sur les premiers résultats de la SERP et donc en visibilité.
Cependant, cette position ne sera pas pérenne. Les moteurs de recherche ne référenceront plus votre site internet. Votre site web n’aura plus aucun intérêt.

Les moteurs de recherche luttent contre les Black Hats SEO

Les algorithmes comme Google Panda et Google Penguin servent à identifier le contenu légitime d'un contenu Black Hat.
Google Panda : http://www.penalites-referencement.com/google-panda/
Google Penguin : http://www.penalites-referencement.com/google-pingouin/

White Hat SEO

Le White Hat SEO est une stratégie digitale qui apporte des résultats sur le long terme.
Optimiser le référencement d’un site internet prend du temps.
Les recommandations de Google mettent en avant des critères essentiels pour un bon référencement : balise meta title, balise meta description, rédaction web, optimisation sémantique, content marketing, SMO, outils de référencement, temps de chargement...

Les balises meta

SEO - Liste des balises META.

Indexation avec les robots

Un duo pour optimiser votre indexation

Fonctionnement d'un moteur de recherche

Un moteur de recherche utilise un grand nombre de serveurs appelés robots, crawlers ou spiders.
Ils sont chargés de parcourir la toile pour suivre les liens des millions de pages Web et indexent le contenu dans de gigantesques bases de données.
Aucun moteur de recherche ne peut parcourir la totalité des pages présentes sur internet en une journée.
Ce processus prend généralement plusieurs semaines. Chaque moteur adopte une stratégie pour déterminer la fréquence de la mise à jour des contenus.
Une fois que les robots auront indexés le contenu de votre site, une recherche sur un moteur retournera une liste de liens vers différents contenu dont celui de vos pages.
Cette proposition de résultats est appelée SERP pour Search Engine Result Pages en anglais et présente une liste de liens adaptés aux mots clés de votre recherche.

Utiliser la balise meta name robots avec le fichier robots.txt

Le 30 juin 1994 naissait le fichier robots.txt, un fichier texte au format ASCII écrit par convention en minuscules et au pluriel.
Il se trouve à la racine du site et est utilisé pour exclure certains contenus lors de l'indexation par les robots de référencement de sites web.
De nombreux outils de référencement ont besoin du fichier robots.txt pour accélérer les traitements des pages qui peuvent ou ne peuvent pas être indexées.
Pour autoriser un contenu a être indexé.
Pour éviter l'indexation de pages, d'images, de contenu en double.
Pour supprimer l'indexation d'une page avec une balise meta name robots.
Pour supprimer l'indexation des copies et des extraits mis en cache avec une balise meta name robots.
Pour supprimer l'indexation sur un site web entier ou une partie d'un site web avec une balise meta name robots.

Protéger un contenu de données sensibles

Pour protéger un contenu sensible, les robots ne suffisent pas.
Il est nécessaire de mettre en place d'autres solutions : La protection par mot de passe, le chiffrement des données...

La balise meta name robots

La balise meta name robots peut permettre de bloquer l'indexation de contenu.
Vous ne pouvez le faire que pour les urls et pas pour les répertoires.
Index = indexation
follow = suivre les liens du contenu
No follow = ne pas suivre les liens du contenu
No index = ne pas indexer
Si le site est en construction, il est préférable de bloquer immédiatement et totalement toute indexation du site web par les moteurs de recherche.
Ajouter dans chaque page à exclure la balise HTML META : <meta name="robots" content="noindex">
Une fois le site web finalisé depuis plusieurs jours ou semaines et que les pages et les menus fonctionnent, mettre en place le fichier robots.txt

Le fichier robots.txt

La directive User-Agent

User-Agent permet de préciser le robot concerné par les directives.

Autoriser l'indexation de votre site par les robots

# Insérer uniquement les deux lignes suivantes dans votre fichier robots.txt.
# La directive User-argent avec pour valeur l'étoile sélectionne tous les robots.
User-Agent: *
Disallow:

Interdire l'indexation de votre site par les robots

# Les robots standards d'indexation de contenu sont tous interdits avec la commande Disallow /.
User-agent: *
Disallow: /

Interdire uniquement les mauvais robots

Un robot malveillant sert par exemple à collecter des adresses e-mail pour envoyer des spams ou rechercher des formulaires pour publier des liens et de la publicité.
Les robots malveillants pourront toujours accéder au contenu de votre site malgré la commande Disallow /.
Si le mauvais robot obéit à /robots.txt et que vous connaissez son nom de User-Agent alors vous pouvez créer une section dans votre /robotst.txt pour l'exclure spécifiquement.
Mais presque tous les mauvais robots ignorent /robots.txt ce qui rend cette méthode d'exclusion inutile.
Si le mauvais robot fonctionne à partir d'une seule adresse IP, vous pouvez bloquer son accès à votre serveur Web via la configuration du serveur ou avec un pare-feu réseau.
Si les le robot fonctionne avec de nombreuses adresses IP différentes alors cela devient plus difficile.
Utiliser des règles de pare-feu pour bloquer l'accès aux adresses IP qui établissent de nombreuses connexions.
Cette méthode peut permettre de bloquer les mauvais robots mais risque tout de même de bloquer les bons robots d'indexation.

Ne pas indexer le duplicata content

Le contenu présent en double pénalise le site internet.
Configurer le bot pour ne pas indexer les pages quand l'url contient le paramètre ?tmpl=component.
Interdire les pages finissant par ?tmpl=component avec la ligne suivante dans le fichier robots.txt :
## Vérifier si il s'agit de la bonne règle, avec ?tmpl=component placé à la fin de l'adresse.
## Que se passe t'il si ?tmpl=component n'est pas placé à la fin de l'adresse ?
## Disallow: /*?tmpl=component
Disallow: /?tmpl=component&type=raw

Exclure des pages de l'indexation

# Ne pas faire apparaître certaines pages dans la page de résultat des moteurs de recherche.
# Disallow: /repertoire/chemin/page.html
# Disallow: /repertoire/chemin/page2.html
# Disallow: /repertoire/chemin/page3.html

Exclure le fichier robots.txt de l'indexation

# Ne pas faire apparaître le fichier robots.txt dans la page de résultats des moteurs de recherche.
Disallow: /robots.txt

Exclure un dossier de l'indexation

# Exclure toutes les pages d'un dossier et les sous-dossiers de l'indexation.
User-Agent: *    
Disallow: /dossier/

Indiquer le chemin du fichier sitemap

Le fichier robots.txt peut être utilisé pour préciser l'emplacement du fichier sitemap.xml si celui-ci n'est pas situé à la racine du site.
Tous les principaux moteurs de recherche prennent en charge le protocole Sitemap Auto-Discovery, notamment Google, Yahoo, Live Search et Ask.
# À ajouter à la fin du fichier robots.txt.
Sitemap: /sitemap.xml
ou
Sitemap: https://www.visionduweb.eu/sitemap.xml

Créer son sitemap

Utiliser un site en ligne
Source : https://www.freesitemapgenerator.com
Utiliser un logiciel
G Mapper : http://g-mapper.co.uk
Utiliser le script Sitemap-e
Sitemap-e
Sitemap-e will generate a basic XML, HTML sitemap and Robots.txt for your website.
COPYRIGHT AND LICENCE
Copyright (C) 2013 Alex Best
This program is free software; you can redistribute it and/or modify it under the same terms as Perl itself.

Script sur Github : https://github.com/thenationofalex/Sitemap-e
Wiki : https://github.com/thenationofalex/Sitemap-e/wiki
###################################
# Installation sur Debian 9 Stretch
Installer perl
Installer avec synaptic : libwww-mechanize-perl // DateTime pour Perl // libio-tee-perl

#############
# Utilisation
# Utiliser le script avec la commande suivante :
perl sitemap-e.pl https://www.domain.com

Patienter. L'écriture dans le fichier sitemap.xml est lente mais le fichier est bien écrit.
Autres scripts crawler pour générer un sitemap.xml
Ko.png A tester : https://github.com/Haikson/sitemap-generator
Ko.png A tester : https://gist.github.com/fotan/8f8de2728ffa62d5e52bf5d01e80fb36
Ko.png A tester : https://sourceforge.net/projects/goog-sitemapgen/
Ko.png A tester : http://toncar.cz/opensource/sitemap_gen.html
Ko.png A tester : https://pytonsitemapgen.codeplex.com/
Ko.png A tester : https://github.com/0xF1/python-sitemap-generator
Ko.png A tester : https://sourceforge.net/projects/goog-sitemapgen/files/sitemapgen/1.4/
Ko.png A tester (php) : https://www.plop.at/en/xml-sitemap.html
Ko.png A tester (php) : https://www.xml-sitemaps.com/standalone-google-sitemap-generator.html

Soumettre votre fichier sitemap.xml aux moteurs de recherche

Utiliser les consoles webmaster spécifiques à chaque moteur de recherche pour faire indexer votre site internet.
Il est préférable que la première inscription soit paramétrée par un humain.
Le fichier sitemap.xml pourra être actualisé automatiquement par la suite.
Utiliser un script pour faire un ping sur chaque moteur de recherche ...
Utiliser une tâche cron pour répéter l'action régulièrement ...
Google
Console webmaster - Google Webmasters : https://www.google.com/webmasters/tools/home?hl=fr
Soumission de sitemap et de mises à jour de sitemap : Depuis les paramètres de configuration du site.
Google accepte la soumission d'un sitemap par un ping de l'URL du sitemap. Il faut faire : http://www.google.com/webmasters/sitemaps/ping?sitemap=https://www.visionduweb.eu/sitemap.xml
En savoir plus sur le rapport de couverture de l'index : https://support.google.com/webmasters/answer/7440203?hl=fr
Bing
Bing Webmaster Center : http://www.bing.com/webmaster/
Toolbox Bing : https://www.bing.com/toolbox/webmaster/
Il faut être inscrit à Windows Live ID : https://account.live.com
Soumission de sitemap et de mises à jour de sitemap : Configurer mon site > Plan du site
Bing accepte la soumission d'un sitemap par un ping de l'URL du sitemap. Il faut faire : http://www.bing.com/webmaster/ping.aspx?siteMap=https://www.visionduweb.eu/sitemap.xml
Yandex
Yandex Webmaster Console : http://webmaster.yandex.com/addurl.xml
Soumission de sitemap et de mises à jour de sitemap : Voir les options en ligne de la console.
Yandex accepte la soumission d'un sitemap par un ping de l'URL du sitemap. Il faut faire : https://webmaster.yandex.com/sitemaptest.xml?addr=https://www.visionduweb.eu/sitemap.xml
Demande de réindexation : https://webmaster.yandex.com/site/http:assiste.com:80/indexing/reindex/
Yahoo
Yahoo Webmaster Center : http://developer.yahoo.com/wsregapp/
Soumission de sitemap et de mises à jour de sitemap : Il faut obtenir d’abord un App Id. Voir les options en ligne de la console.
Yahoo accepte la soumission d'un sitemap par un ping de l'URL du sitemap.
Yahoo ne semble plus accepter la soumission d'un sitemap par un ping de l'URL du sitemap.
Il faut faire : http : // search.yahooapis . com/SiteExplorerService/V1/updateNotification?appid=idapp&url= https://www.visionduweb.eu/sitemap.xml
Ko.png A tester avec votre paramètre App ID => appid=votre-yahoo-id
Et votre propre URL vers le sitemap de votre site => &url= https://www.visionduweb.eu/sitemap.xml
Le site semble être soumis à Yahoo lorsqu'il est soumis au moteur Bing.
ASK
ASK.com : submissions . ask . com/ping?sitemap= https://www.visionduweb.eu/sitemap.xml
Le lien ne fonctionne pas !
Lire d'anciennes informations, 2004, sur les outils de ASK : https://www.webrankinfo.com/forum/t/solutions-informations-ask-jeeves.42866/
Moreover
Comme pour le précédent le moteur de recherche moreover.com peut vous apporter quelques visites.
Voici la ligne de commande pour lui soumettre votre fichier sitemap : api . moreover . com/ping?u= https://www.visionduweb.eu/sitemap.xml
Le lien ne fonctionne pas !
Autres moteurs avec soumission par sitemap
Source : https://assiste.com/Webmaster_Soumission_d_un_sitemap.html

Liste de robots

Le robot Googlebot de Google

Googlebot est le robot spécialisé pour la recherche sur le web. Il explore les pages à partir de l'index Web et de l'index des actualités.
Les pages bloquées par disallows avec le fichier robots.txt peuvent toujours figurer dans l'index de Google.
Elles apparaîtrons  dans les résultats de la recherche, en particulier, si d'autres sites ont créés un lien.
Un classement élevé est peu probable puisque le robot de Google n'a pas l'autorisation de visiter cette page.
Pour ne pas ajouter la page à l'index d'un moteur de recherche, même si d'autres sites l'ont liés, utiliser la balise meta name robots noindex.
La page ne doit pas être interdite depuis le fichier robots.txt ce qui permet aux robots de reconnaître la balise meta name robots noindex et de supprimer l'url de l'index.
# Google utilise plusieurs robots (user-agents) différents.
# Les autres robots de Google respectent les règles définies pour Googlebot.
# Autoriser les robots Googlebot mais bloquer l'accès à tous les autres robots.
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
# Ne pas autoriser les robots Googlebot à visiter le contenu du site.
# Le blocage de Googlebot bloque tous les robots commençant par "Googlebot".
User-agent: Googlebot
Disallow: /
Note sur l'ordre des directives
Le GoogleBot impose de placer les Allow avant les Disallow.
Ce n'est pas forcement le cas pour tout les bots, certains ne comprennent même pas les Allow.
Si vous avez besoin d’être référencé correctement sur un autre bot, il faudra dupliquer et adapter les règles pour le robot concerné.
Autres robots de Google
Des règles supplémentaires peuvent être définies pour les robots spécifiques suivants :
Googlebot : Le spider de crawl et d’indexation pour desktop et mobiles.
Googlebot-Image : Permet de référencer les images dans Google Images.
Googlebot-Mobile : Permet les pages pour mobile.
Googlebot-News	: Pour les sites d’actualités.
Googlebot-Video : Pour configurer l’affichage des vidéos dans la SERP.
Mediapartners-Google : Explore les pages pour déterminer le contenu AdSense, explore uniquement les sites si les annonces AdSense sont diffusées.
Adsbot-Google : Explore pour mesurer la qualité de la page de destination AdWords, explore uniquement les sites qui utilisent Google AdWords pour faire de la publicité.

Le robot bingbot

User-agent: bingbot
Autres règles spécifiques à ce bot.

Autres robots connus

User-Agent: msnbot
User-Agent: AhrefsBot
User-Agent: Baiduspider
User-Agent: MJ12bot
User-Agent: proximic
User-Agent: ScoutJet
User-Agent: Scooter (Alta Vista)
User-Agent: ArchitextSpider (Excite)
User-Agent: Slurp (HotBot)
User-Agent: InfoSeek Sidewinder (InfoSeek)
User-Agent: T-Rex (Lycos)
User-Agent: Echo (Voilà)
Règles de configuration pour un bot
Crawl-delay
Certains sites Web peuvent rencontrer des volumes élevés de trafic et souhaiter ralentir les moteurs de recherche pour disposer de plus de ressources serveur et pouvoir répondre aux demandes du trafic.
Le délai d'exploration est une directive spéciale reconnue par Yahoo, Live Search et Ask qui indique à un robot d'exploration le nombre de secondes d'attente entre les pages d'exploration.
User-agent: msnbot
Crawl-delay: 5
Pattern matching ou correspondance de modèle
À ce stade, la correspondance de modèle semble être utilisable par les trois majors: Google, Yahoo et Live Search.
Bloquer l'accès à tous les sous-répertoires commençant par "private" en utilisant le caractère générique astérisque.
User-agent: Googlebot
Disallow: /private*/
Faire correspondre la fin de la chaîne en utilisant le signe dollar ($). Par exemple, pour bloquer les URL qui se terminent par .asp
User-agent: Googlebot
Disallow: /*.asp$
Bloquer l'accès à toutes les URL qui incluent un point d'interrogation, utiliser simplement le point d'interrogation. Pas besoin de l'échapper ou de le précéder d'une barre oblique inverse.
User-agent: *
Disallow: /*?*
Autoriser les robots à explorer tous les fichiers d'un type spécifique, par exemple, pour les images.
User-agent: *
Allow: /*.js*
Allow: /*.css*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*
Exclure toutes les URL contenant ? et son paramètre dynamique pour garantir que les robots n'explorent pas les pages dupliquées.
Inclure les URL qui se terminent par un "?".
User-agent: Slurp
Disallow: /*? # Bloquer les url qui contiennent un ?
Allow: /*?$ # Autoriser les url qui finissent par ?
Allow
La directive Allow ne semble être prise en charge que par Google, Yahoo et Ask et permet d'identifier des répertoires ou des pages qui sont autorisés pour l'exploration.
Pour autoriser Googlebot à accéder uniquement au répertoire "google":
# Noter que d'après mes lectures, la directive Allow devrait être placée en première position, suivie par la ou les commandes Disallow.
User-agent: Googlebot
Disallow: /
Allow: /google/
Noindex
Noindex au lieu de Disallow
Généralement, la directive noindex est incluse dans une balise meta robots.
Cependant, Google a pris en charge Noindex pendant de nombreuses années dans Robots.txt, de la même façon qu'un webmaster utiliserait Disallow.
Google autorise donc une directive Noindex dans le fichier robots.txt et supprime complètement toutes les URL de site correspondantes de Google.
John Meuller de Google recommande de ne pas utiliser noindex dans le fichier robots.txt.
User-agent: Googlebot
Disallow: /page-uno/
Noindex: /page-uno/
Conflits entre le fichier robots.txt et la balise meta name robots
Si le fichier robots.txt et les instructions meta tag des robots sont en conflit pour une page, les robots suivent les instructions les plus restrictives.
Si vous bloquez une page avec le fichier robots.txt, les bots ne liront jamais les meta tags de robots sur la page.
Si vous autorisez une page avec le fichier robots.txt mais que vous l'empêchez d'être indexé à l'aide de meta name robots, Googlebot accédera à la page, lira la balise meta et n'indexera pas la page.
Note de Sécurité
Le fichier robots.txt n'est pas un réglage de sécurité.
Il sert uniquement a renseigner les robots d'indexation (googlebot, ...).
Par contre il y a fort à parier que des Bots malveillants liront aussi ce fichiers robots.txt.
Il est donc vivement recommandé de ne pas insérer d'informations trop explicites comme interdire le référencement d'un fichier de mots de passe.
# Astuce pour interdire le référencement d'un fichier sensible.
# Cette ligne interdit l’accès à toutes les adresses commençant par /abcd/fichier_top.
# Elle ne permet pas de découvrir le nom du fichier interdit qui s’appellerait /abcd/fichier_top_secret_dont_le_nom_est_123456.html.
# Permet de ne pas dévoiler les adresses exactes interdites à l’accès en utilisant des adresses longues et en n’indiquant que le début des adresses interdites.
# Disallow: /abcd/fichier_top

Le fichier robots.txt pour Joomla

# ----------- Autoriser les robots -----------
User-agent: *
# ----------- Autoriser l'indexation des images -----------
Allow: /*.js*
Allow: /*.css*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*
# Autoriser le fichier sitemap ( yandex.com affichait que Indexing the specified URL is forbidden in robots.txt )
# Les DNS de cloudflare peuvent peut être aussi interférer.
Allow: /sitemap.xml
# ----------- Si nécessaire, autoriser un dossier ou un fichier manuellement pour Google Webmaster Tools. -----------
# ----------- La norme de Google recommande d'appliquer en premier les règles autorisées, suivies des règles non autorisées. -----------
# ----------- Google Webmaster Tools indique le chargement de la page comme "Partiel" si des fichiers css et js nécessaires sont bloqués avec une instruction comme par exemple Disallow: /templates/ -----------
# ----------- Quel est alors le risque de voir les fichiers css du site accessibles dans les SERP du moteur de recherche ? -----------
# ----------- Autoriser l'accès aux templates -----------
Allow: /templates/*/css/*.css$
Allow: /templates/*/js/*.js$
# ----------- Autoriser l'accès aux composants -----------
Allow: /components/*/js/jquery/*.js?*
Allow: /components/*/js/*.js?*
# ----------- Autoriser l'accès aux liens de weblinks -----------
Allow: /components/weblinks/*
# ----------- Autoriser l'accès aux modules -----------
Allow: /modules/*/css/*.css$
Allow: /modules/*/css/font/*.ttf$
# ----------- Autoriser l'accès au module slideshowck -----------
Allow: /modules/mod_slideshowck*
# ----------- Autoriser l'accès aux plugins -----------
Allow: /plugins/system/*/css/*.css$
Allow: /plugins/system/*/js/*.js$
Allow: /plugins/system/*/css/*.css?*
Allow: /plugins/system/*/js/*.js?*
# ----------- Autoriser l'accès au wiki ou autres dossiers complémentaires -----------
Allow: /wiki/*
# ----------- D'autres dossiers peuvent être à interdire au référencement automatique comme par exemple celui du composant Jdownload. -----------
# ----------- Cela n'empêche pas l'accès direct aux fichiers, si l'accès direct est possible. -----------
# ----------- Autant conserver l'indexation si l'objectif est de partager du contenu. -----------
# Allow: /jdownloads/
# ----------- Autoriser l'indexation de toutes les pages contenant un "?". -----------
# ----------- Être prudent avec ce type de paramétrages lorsqu'il est utilisé pour interdire l'indexation du contenu dupliqué avec les adresses url non réécrites. -----------
Allow: /*?*
# ----------- Ne pas indexer le fichier robots.txt -----------
Disallow: /robots.txt
# ----------- Ne pas indexer la page erreur 404 -----------
Disallow: /index.php?option=com_content&view=article&id=183
# ----------- Ne pas indexer la page de login / inscription -----------
Disallow: /utilisateur/connexion
Disallow: /utilisateur/connexion?view=registration
# ----------- Ne pas indexer le duplicata content -----------
Disallow: /?tmpl=component&type=raw
# ----------- Ne pas indexer les fichiers du CMS -----------
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
# ----------- Ne pas indexer les dossiers images et media -----------
# ----------- Indexation possible par défaut avec la nouvelle version du CMS -----------
# ----------- Comment les images privées avec des droits spécifiques restent protégées ? A vérifier ! -----------
# Disallow: /images/
# Disallow: /media/
# ----------- Spécifier l'emplacement du fichier sitemap.xml -----------
Sitemap: https://www.visionduweb.eu/sitemap.xml

Mise à jour de Joomla et modification du fichier robots.txt

Suite à une mise à jour de Joomla, le nouveau fichier robots.txt proposé est nommé robots.txt.dist.
Vérifier son contenu et renommer le fichier robots.txt.dist en robots.txt si nécessaire.

Valider la syntaxe du fichier robots.txt

Utiliser un générateur de fichier robots.txt : https://www.internetmarketingninjas.com/seo-tools/robots-txt-generator/
Tester la présence du fichier robots.txt et détecter les erreurs sur le fichier robots.txt : https://seositecheckup.com/tools/robotstxt-test
Cloudflare empêche la lecture du fichier robots.txt avec Browsershots. Ce n'est donc pas forcément le fichier robots.txt qui est mal codé.

Consoles des moteurs de recherche

Console Google
Google Webmaster Central.
Tester le fichier robots.txt dans Google Webmaster Tools : https://www.google.com/webmasters/tools
Il ne vérifie pas si les ressources bloquées sont  cruciales ou non pour votre site.
Utiliser alors l'outil "Explorer comme Google"
Exploration > Outils de test du fichier robots.txt
Google précise sur cette page les fichiers bloqués par votre fichier robots.txt.
Tester si le site est adapté aux mobiles (Mobile Friendly) : https://search.google.com/test/mobile-friendly?utm_source=mft&utm_medium=redirect&utm_campaign=mft-redirect
# Une erreur est affichée :
# https://www.visionduweb.eu/components/com_uddeim/templates/default/css/uddemodule.css	Feuille de style	Googlebot est bloqué par le fichier robots.txt
# Vérifier si le dossier templates est autorisé dans la version de production !

Todo.png

Console Live Search
Live Search Webmaster Center.
Console Yahoo
Yahoo Site Explorer.

Ressources complémentaires

Ok-ko.png Source : https://www.sitemaps.org/fr
Ok-ko.png Source : https://www.yakaferci.com/robotstxt/
Ok-ko.png Source : http://www.rankspirit.com/frobots.php
Ok-ko.png Source : http://www.yapasdequoi.com/seo/3783-les-petites-subtilites-du-fichier-robots-txt-qui-peuvent-faire-mal.html
Ok-ko.png Source : https://craym.eu/tutoriels/referencement/fichier_robot_txt.html
Ok-ko.png Source : https://alphadesign.fr/joomla/checklist-seo-pour-joomla-referencement-joomla/robots-txt.html
Ok-ko.png Source : http://www.commentcamarche.net/faq/10609-robots-txt-un-fichier-important
Ok-ko.png Source : https://www.fred-net.fr/blog/joomla/joomla-et-le-fichier-robots
Ok-ko.png Source : http://robots-txt.com
Ok-ko.png Source : http://robots-txt.com/ressources/
Ok-ko.png Source : http://robots-txt.com/sitemaps/
Ok-ko.png Source : https://moz.com/learn/seo/robotstxt
Ok-ko.png Source : http://www.robotstxt.org/robotstxt.html
Ok-ko.png Source : http://www.annuaire-info.com/robots-txt/
Ok-ko.png Source : https://developers.google.com/search/reference/robots_txt
Ok-ko.png Source : https://support.google.com/webmasters/answer/6062608?hl=fr&ref_topic=6061961&rd=1
Ok-ko.png Source : http://www.grey-hat-seo.com/manuel-ghs-tools/verifier-presence-fichier-robots-txt-vos-sites
Ok-ko.png Source : Le fichier robots.txt pour WordPress : https://wpformation.com/robots-txt-wordpress/
Ok-ko.png Source : Bibliographie - Lien vers Vision du web pour le fichier robots.txt : https://fr.wikipedia.org/wiki/Protocole_d%27exclusion_des_robots

humans.txt

Internet pour les humans.txt.

Redirection 301

Quand plusieurs URL différentes permettent d'atteindre un site, selon Google, il est préférable d'utiliser 301 Redirect pour cibler vers une seule URL de référence, l'URL préférée (canonique).
Exemple avec http://visionduweb.fr/forum, http://visionduweb.user.fr, ou http://www.visionduweb.com, choisir une de ces URL comme votre destination préférée (canonique).
Utiliser une redirection 301 pour envoyer le trafic des autres URL à votre URL préférée.
Utiliser également les outils pour webmasters pour définir votre domaine préféré.

Cloaking: l'arme absolue du référencement ?

Réussir son cloaking nécessite une bonne connaissance des moteurs de recherche, des robots, de leurs user-agents et adresses IP.
Voir aussi à utiliser les wild-cards.
Le traitement de logs.

Scripts pour le SEO

Scripts SEO : http://scripts-seo.com

Éviter le déclassement de son site

Les frames - Les liens brisés - Les liens issus d'une programmation en JavaScript. 
Les images avec une zone cliquable.
Les images ou animation flash.
Les zones en travaux.
Toutes les techniques de fraude comme la répétition de mots-clés cachés, appelées spamdexing, sont connues des moteurs de recherche.
Les sites qui utilisent cette astuce sont généralement déclassés dans les résultats ou mis sur une liste noire.

Les 10 derniers articles sur le SEO depuis le site WebRankInfo

Comment s’inscrire sur Search Console et déclarer son site web

Avoir un compte Search Console (ex- Webmaster Tools) est aujourd'hui largement recommandé pour bien suivre son référencement Google. Voici un tuto avec vidéo qui explique comment déclarer...
Olivier Duffez 2018-11-20 12:55:09
Parts de marché des moteurs de recherche en novembre 2018 (France, USA, monde)
Google domine le monde dans la plupart des pays, mais quelles sont les parts de marché des moteurs de recherche en France et dans le monde ? Ce dossier vous fournit les derniers chiffres connus.Ce...
Olivier Duffez 2018-11-19 20:32:00
Prix d’un audit SEO avec My Ranking Metrics
Votre site (ou ceux de vos clients) mérite(nt) un excellent référencement ! Profitez donc des prix réduits offerts par la plateforme My Ranking Metrics pour réaliser des audits RM Tech très a...
Olivier Duffez 2018-11-17 11:02:50
Découvrez le score SEO des pages de votre site
Chaque audit RM Tech (associé à Google Analytics) fournit le score Pages Actives qui mesure la performance moyenne SEO des pages d'un site. Découvrez comment et à quoi ça vous sert.Cet art...
Olivier Duffez 2018-11-07 15:46:24
Liste des startups rachetées par Google
Parmi toutes les acquisitions de Google, une bonne partie étaient des startups. Voici la liste complète des startups rachetées par Google, avec tous les détails, mise à jour en permanence par...
Olivier Duffez 2018-11-03 10:58:01
Les horreurs du SEO #seohorrorstories #horreursduseo #fails
A l'occasion d'Halloween, découvrez les pires horreurs du SEO, c'est-à-dire des exemples concrets où les stratégies de référencement sont très mauvaises. En voici une sélection...
Olivier Duffez 2018-10-30 09:50:46
Acquisitions de Google : 186 entreprises et brevets rachetés
Voici une liste de 186 sociétés et brevets rachetés par Google depuis 2001. Elle est mise à jour constamment afin d'aider à comprendre la stratégie globale de Google. Ces derniers mois ...
Olivier Duffez 2018-10-22 09:20:51
Vous pouvez remonter après une chute SEO ! 2 exemples
Vous n'arrivez plus à remonter votre trafic de référencement naturel ? Même après une énorme chute, c'est encore possible comme le prouvent ces 2 exemples concrets à découvrir en vi...
Olivier Duffez 2018-10-18 07:31:44
Formation référencement naturel à Paris par Ranking Metrics (audit inclus)
Découvrez le programme de la prochaine formation SEO à Paris organisée par Ranking Metrics. Les formateurs, experts SEO, expliqueront en détails la méthodologie d'optimisation du référe...
Olivier Duffez 2018-10-11 15:55:47
SEO : comment anticiper les updates Google (et en profiter) ?
Google modifie très souvent son algorithme, parfois avec des impacts violents sur votre trafic. Voici la méthode que j'utilise pour mes clients permettant d'anticiper au mieux ces updates...

Olivier Duffez 2018-10-03 10:23:48

Bibliographie

Ok.png Comment envoyer automatiquement son sitemap a Google Yahoo et Bing après une mise à jour : https://supersonique.net/pu/comment-envoyer-automatiquement-son-sitemap-a-google-yahoo-et-bing-apres-une-maj/
Ok.png Webmaster Soumission d'un sitemap : http://assiste.com/Webmaster_Soumission_d_un_sitemap.html

Tutoriels complémentaires

SEO pour votre site, sur Google : http://www.commentcamarche.net/contents/1267-referencement-naturel-seo-guide-pratique-complet
30 problèmes SEO et les outils pour corriger : https://moz.com/blog/30-seo-problems-the-tools-to-solve-them-part-1-of-2
30 problèmes SEO et les outils pour corriger : https://moz.com/blog/30-seo-problems-the-tools-to-solve-them-part-2
Critères les plus importants dans le SEO selon 140 référenceurs : http://www.journaldunet.com/solutions/seo-referencement/1195455-seo-les-criteres-les-plus-importants-selon-140-referenceurs/
Les 50 meilleurs outils SEO gratuits : https://www.drujokweb.fr/blog/les-meilleurs-outils-webmarketing-et-outils-seo-gratuits/
Autres lectures sur le SEO : https://www.redacteur.com/blog/10-conseils-pour-rediger-du-contenu-seo/
Le SEO est mort, vive le SEO : https://www.abondance.com/actualites/20180306-19015-seo-mort-video-seo.html
Des outils SEO pour améliorer votre référencement naturel : http://www.eskimoz.fr/outil-seo/
Tous les outils de Laurent Bourrelly : http://www.laurentbourrelly.com/outils-seo.php

NAVIGATION

PARTICIPER ET PARTAGER

Vous êtes sur le wiki de Vision du Web.
Les pages présentées sur le wiki évoluent tous les jours.
Certaines recherches sont peu abouties et incluent des erreurs.
Pour participer sur le wiki, créer un compte utilisateur en haut à droite.
La recherche interne du wiki permet de trouver le contenu qui vous intéresse.
Identifiez-vous pour poser vos questions sur la page de discussion de VisionDuWeb.
Améliorer le contenu des pages en faisant des propositions depuis l'onglet discussion.
Pour écrire en Markdown : Éditeur - Générateur de tableau 1 - Générateur de tableau 2.
Les informations du wiki ne doivent pas servir à nuire à autrui ou à un système informatique.
De nombreux outils gratuits sont listés et disponibles dans la boîte à outils de Vision du web.
D'autres pages du wiki peuvent correspondre à vos attentes. La liste de toutes les pages du wiki.

VALORISER LE WIKI

Valoriser le contenu partagé sur le wiki avec un don en monnaie numérique :
AEON - Bitcoins (BTC) - Bitcoins Cash - Bitcoins Gold - Bitcore (BTX) - Blackcoins - Bytecoins - Clams - Dash - Monero - Dogecoins - Ethereum - Ethereum Classique - Litecoins - Potcoins - Solarcoins - Zcash

OBTENIR DE LA MONNAIE NUMERIQUE

Obtenir gratuitement de la monnaie numérique :
Gagner des Altcoins - Miner des Altcoins.
Miroir PlanetHoster du 1er Novembre 2018.