Soutenir Vision du Web dans son partage de logiciels et de ressources libres

Ce mineur crée de la monnaie numérique Monero pour soutenir Vision du web.
Merci de désactiver votre bloqueur de publicité.
Aucune publicité ne sera affichée.
Le mineur utilise les ressources de votre machine pour créer gratuitement de la monnaie numérique.
Le montant des donations pour Vision du web est de 0.054239181691234 Monero.

Accueil SEO : Différence entre versions

De Wiki. Analyse, Communication, Développement, Hacking.
Aller à : navigation, rechercher
m (.)
 
m (Ressources complémentaires)
Ligne 666 : Ligne 666 :
 
  [[Fichier:ok-ko.png]] Source : https://support.google.com/webmasters/answer/6062608?hl=fr&ref_topic=6061961&rd=1
 
  [[Fichier:ok-ko.png]] Source : https://support.google.com/webmasters/answer/6062608?hl=fr&ref_topic=6061961&rd=1
 
  [[Fichier:ok-ko.png]] Source : http://www.grey-hat-seo.com/manuel-ghs-tools/verifier-presence-fichier-robots-txt-vos-sites
 
  [[Fichier:ok-ko.png]] Source : http://www.grey-hat-seo.com/manuel-ghs-tools/verifier-presence-fichier-robots-txt-vos-sites
[[Fichier:ok-ko.png]] Source : https://opensourcewebdev.fr/robots-txt-configuration-validation-fichier-robots-txt-sitempas-xml/
 
 
  [[Fichier:ok-ko.png]] Source : Le fichier robots.txt pour WordPress : https://wpformation.com/robots-txt-wordpress/
 
  [[Fichier:ok-ko.png]] Source : Le fichier robots.txt pour WordPress : https://wpformation.com/robots-txt-wordpress/
 
  [[Fichier:ok-ko.png]] Source : Bibliographie - Lien vers Vision du web pour le fichier robots.txt : https://fr.wikipedia.org/wiki/Protocole_d%27exclusion_des_robots
 
  [[Fichier:ok-ko.png]] Source : Bibliographie - Lien vers Vision du web pour le fichier robots.txt : https://fr.wikipedia.org/wiki/Protocole_d%27exclusion_des_robots

Version du 13 juin 2018 à 15:30

Naviguer sur le site : Accueil du site - Les annuaires - Les éditoriaux - Le forum - Les outils - Les projets

Sommaire

Accueil SEO

Principaux outils de Référencement et de SEO

Google My Business

Todo.png

Ko.png Attirez de nouveaux clients grâce à votre fiche Google gratuite : https://www.google.fr/intl/fr/business/

Google Sheets

Todo.png

Un tutoriel de qualité, la crème de la crème :

Ko.png Collecter les données d'un site en 30 secondes avec Google Sheets : http://blog.cremedelacreme.io/2017/05/04/digital-collecter-donnees-tips/

GHSTools

Liens officiels

Boostez votre référencement avec GHSTools : http://www.ghstools.fr
Le forum de GHSTools : http://www.ghstools.fr/forum
Interface de connexion à l'outil GHSTools : http://www.ghstools.fr/interface/connexion.php

Complément

Vidéo de présentation de GHSTools : https://youtu.be/FgJvpgIGdpU
Utiliser GHSTools : http://www.ghstools.fr/interface/connexion.php?redirect=http://www.ghstools.fr/interface/contribuer.php
Prise en main de l'outil GHSTools - Le principe du Grey Hat SEO Tools : http://www.grey-hat-seo.com/principe-grey-hat-seo-tools
Tous les tutoriels pour GHSTools : http://ghstools.fr/forum/viewtopic.php?f=36&t=660
Ajouter des tutoriels sur le Blog de grey-hat-seo.com : http://www.grey-hat-seo.com/manuel-ghs-tools/aider-a-completer-animer-blog-forum
Gestion des catchall : http://www.grey-hat-seo.com/manuel-ghs-tools/gestion-des-catchall
Installer l'extension de GHSTools pour chrome : https://chrome.google.com/webstore/detail/ghs-tools-extension/ilighcklmpifhlkkmmogapkfknnpimdl?hl=fr
Télécharger le code source de l'extension : Fichier:Source-extension-chrome-ghstools.zip
Trouver des plans Backlink : http://referencement-progressif.com/liste_spots/connexion.php?redirect=http://referencement-progressif.com/liste_spots/spots.php
Aider à déterminer la langue des plans backlink : http://www.grey-hat-seo.com/manuel-ghs-tools/nous-aider-a-determiner-la-langue-des-plans-backlink

Lire les logs d'accès

Ce n'est pas facile de lire les logs, je vous propose donc de le faire plus facilement avec GHS Tools.
Prenez le fichier "access_log" de votre site et placez le à la racine du site puis renommez le en "log_ghs.txt".

Robot-administrateur-systeme.png

API Scraper GHSTools

L'API pour scraper le HTML d'un site :
Appelez cette url en changeant l'url de fin de chaîne :
http://www.analyse-referencement.fr/api_html_site.html?url=http://www.ghstools.fr
L'API pour scraper le HTML des SERPs Google :
Appelez cette url en changeant le mot de fin de chaîne
Vérifier le bon fonctionnement de cette API...
http://www.analyse-referencement.fr/api_serp_google.html?key=référencement
Site officiel : www.analyse-referencement.fr/settings.html

Webrankinfo

Site officiel : http://www.webrankinfo.com

De nombreux tutoriels spécialisés : http://www.webrankinfo.com/dossiers/outils

Créer et utiliser un bookmarklet : http://www.webrankinfo.com/dossiers/outils/bookmarklets

Yooda

Site officiel : https://www.yooda.com
Blog : http://blog.yooda.com
Statistiques Yooda à l'aide de son compte utilisateur : https://insight.yooda.com

Majestic

Explorateur des liens entre les domaines.

Site officiel : https://fr.majestic.com

SEO Tools pour Excel

Source : http://seotoolsforexcel.com

Quicksprout

Todo.png

Source : https://www.quicksprout.com

Varvy

Todo.png

Source : https://varvy.com/https://varvy.com/

Website Penality Indicator

Todo.png

Source : https://feinternational.com/website-penalty-indicator/

Answer the public

Todo.png

Source : http://answerthepublic.com

Broken Link Check

Todo.png

Source : http://www.brokenlinkcheck.com

Check My Link extension pour Chrome

Todo.png

Source : https://chrome.google.com/webstore/detail/check-my-links/ojkcdipcgfaekbeaelaapakgnjflfglf?hl=en-GB

Email auto extractor

Todo.png

Source : https://chrome.google.com/webstore/detail/email-auto-extractor/blkpobilpealkkcibgcgfmflneafkkah

Campagne de mail avec Google Sheets et Gmail

Todo.png

Source : https://chrome.google.com/webstore/detail/yet-another-mail-merge/mgmgmhkohaenhokbdnlpcljckbhpbmef

Similar Content Prospecting Tool

Todo.png

Source : https://skyrocket.digital/tools/similar-content-prospecting-tool/

Semrush

Todo.png

Source : https://fr.semrush.com

Screamingfrog

Todo.png

Source : https://www.screamingfrog.co.uk/seo-spider/

Gephi

tar -zvxf gephi-0.9.2-linux.tar.gz
cd gephi-0.9.2/
ls
cd bin
/home/seo/gephi-0.9.2/bin# ./gephi
libEGL warning: DRI2: failed to authenticate
Source : https://gephi.org
Pourquoi et comment utiliser Gephi en SEO ?
Source : www.seomix.fr/pourquoi-comment-utiliser-gephi-seo/
Si java manque, installer Java sur Linux.
Télécharger le paquet tar.gz depuis le site officiel de Java.
Décompresser dans le dossier /gephi-0.9.2/bin/
Lancer Gephi en indiquant le paquet de Java ajouté dans le dossier /gephi-0.9.2/bin/ : ./gephi --jdkhome jre

Extraire les données d'un site avec Javascript

Todo.png

Source : http://blog.cremedelacreme.io/2017/02/07/donnees-site-code-javascript-digital/

Importer du contenu et des images

Todo.png

Source : https://www.import.io

Ouvrir plusieurs URL en une fois

Todo.png

Source : http://quickurlopener.com

Youroutreach

Todo.png

Influenceur automatique.

Source : https://youroutreach.com

Scrapebox

Logiciel payant pour optimiser votre SE0
Quelques tutoriels : www.papilouve.com/tuto-scrapebox-soft-seo-black-hat/
La liste des footprints est triée par type de CMS : www.seoxis.com/scrapebox-liste-de-119-footprints-page-scanner/

Analyser les erreurs d'un site

SEO Site Checkup

Source : https://seositecheckup.com

Analyser les liens brisés

Outils en ligne

http://www.brokenlinkcheck.com/broken-links.php
http://validator.w3.org/checklink
https://www.deadlinkchecker.com
https://www.drlinkcheck.com

Outils

SEO - SiteSpy.
SEO - Content Spinning.
SEO - Optimiser les fichiers - Optimiser les articles et les mots clés.

Méthodes

Ok-ko.png Automatiser la présence d'un site avec des robots et le Scraping - Spinning - Morphing : http://t0ni0.blogspot.fr/2011/02/scraping-spinning-morphing.html
Ok-ko.png L'obfuscation permet par exemple de ne pas valoriser certains liens externes : https://www.410-gone.fr/seo/optimisation-on-site/maillage-interne/cocon-semantique/obfuscation.html

Les balises meta

SEO - Liste des balises META.

Indexation avec les robots

Un duo pour optimiser votre indexation

Fonctionnement d'un moteur de recherche

Un moteur de recherche utilise un grand nombre de serveurs appelés robots, crawlers ou spiders.
Ils sont chargés de parcourir la toile pour suivre les liens des millions de pages Web et indexent le contenu dans de gigantesques bases de données.
Aucun moteur de recherche ne peut parcourir la totalité des pages présentes sur internet en une journée.
Ce processus prend généralement plusieurs semaines. Chaque moteur adopte une stratégie pour déterminer la fréquence de la mise à jour des contenus.
Une fois que les robots auront indexés le contenu de votre site, une recherche sur un moteur retournera une liste de liens vers différents contenu dont celui de vos pages.
Cette proposition de résultats est appelée SERP pour Search Engine Result Pages en anglais et présente une liste de liens adaptés aux mots clés de votre recherche.

Utiliser la balise meta name robots avec le fichier robots.txt

Le 30 juin 1994 naissait le fichier robots.txt, un fichier texte au format ASCII écrit par convention en minuscules et au pluriel.
Il se trouve à la racine du site et est utilisé pour exclure certains contenus lors de l'indexation par les robots de référencement de sites web.
De nombreux outils de référencement ont besoin du fichier robots.txt pour accélérer les traitements des pages qui peuvent ou ne peuvent pas être indexées.
Pour autoriser un contenu a être indexé.
Pour éviter l'indexation de pages, d'images, de contenu en double.
Pour supprimer l'indexation d'une page avec une balise meta name robots.
Pour supprimer l'indexation des copies et des extraits mis en cache avec une balise meta name robots.
Pour supprimer l'indexation sur un site web entier ou une partie d'un site web avec une balise meta name robots.

Protéger un contenu de données sensibles

Pour protéger un contenu sensible, les robots ne suffisent pas.
Il est nécessaire de mettre en place d'autres solutions : La protection par mot de passe, le chiffrement des données...

La balise meta name robots

La balise meta name robots peut permettre de bloquer l'indexation de contenu.
Vous ne pouvez le faire que pour les urls et pas pour les répertoires.
Index = indexation
follow = suivre les liens du contenu
No follow = ne pas suivre les liens du contenu
No index = ne pas indexer
Si le site est en construction, il est préférable de bloquer immédiatement et totalement toute indexation du site web par les moteurs de recherche.
Ajouter dans chaque page à exclure la balise HTML META : <meta name="robots" content="noindex">
Une fois le site web finalisé depuis plusieurs jours ou semaines et que les pages et les menus fonctionnent, mettre en place le fichier robots.txt

Le fichier robots.txt

La directive User-Agent

User-Agent permet de préciser le robot concerné par les directives.

Autoriser l'indexation de votre site par les robots

# Insérer uniquement les deux lignes suivantes dans votre fichier robots.txt.
# La directive User-argent avec pour valeur l'étoile sélectionne tous les robots.
User-Agent: *
Disallow:

Interdire l'indexation de votre site par les robots

# Les robots standards d'indexation de contenu sont tous interdits avec la commande Disallow /.
User-agent: *
Disallow: /

Interdire uniquement les mauvais robots

Un robot malveillant sert par exemple à collecter des adresses e-mail pour envoyer des spams ou rechercher des formulaires pour publier des liens et de la publicité.
Les robots malveillants pourront toujours accéder au contenu de votre site malgré la commande Disallow /.
Si le mauvais robot obéit à /robots.txt et que vous connaissez son nom de User-Agent alors vous pouvez créer une section dans votre /robotst.txt pour l'exclure spécifiquement.
Mais presque tous les mauvais robots ignorent /robots.txt ce qui rend cette méthode d'exclusion inutile.
Si le mauvais robot fonctionne à partir d'une seule adresse IP, vous pouvez bloquer son accès à votre serveur Web via la configuration du serveur ou avec un pare-feu réseau.
Si les le robot fonctionne avec de nombreuses adresses IP différentes alors cela devient plus difficile.
Utiliser des règles de pare-feu pour bloquer l'accès aux adresses IP qui établissent de nombreuses connexions.
Cette méthode peut permettre de bloquer les mauvais robots mais risque tout de même de bloquer les bons robots d'indexation.

Ne pas indexer le duplicata content

Le contenu présent en double pénalise le site internet.
Configurer le bot pour ne pas indexer les pages quand l'url contient le paramètre ?tmpl=component.
Interdire les pages finissant par ?tmpl=component avec la ligne suivante dans le fichier robots.txt :
## Vérifier si il s'agit de la bonne règle, avec ?tmpl=component placé à la fin de l'adresse.
## Que se passe t'il si ?tmpl=component n'est pas placé à la fin de l'adresse ?
## Disallow: /*?tmpl=component
Disallow: /?tmpl=component&type=raw

Exclure des pages de l'indexation

# Ne pas faire apparaître certaines pages dans la page de résultat des moteurs de recherche.
# Disallow: /repertoire/chemin/page.html
# Disallow: /repertoire/chemin/page2.html
# Disallow: /repertoire/chemin/page3.html

Exclure le fichier robots.txt de l'indexation

# Ne pas faire apparaître le fichier robots.txt dans la page de résultats des moteurs de recherche.
Disallow: /robots.txt

Exclure un dossier de l'indexation

# Exclure toutes les pages d'un dossier et les sous-dossiers de l'indexation.
User-Agent: *    
Disallow: /dossier/

Indiquer le chemin du fichier sitemap

Le fichier robots.txt peut être utilisé pour préciser l'emplacement du fichier sitemap.xml si celui-ci n'est pas situé à la racine du site.
Tous les principaux moteurs de recherche prennent en charge le protocole Sitemap Auto-Discovery, notamment Google, Yahoo, Live Search et Ask.
# À ajouter à la fin du fichier robots.txt.
Sitemap: /sitemap.xml
ou
Sitemap: https://www.visionduweb.eu/sitemap.xml

Créer son sitemap

Utiliser un site en ligne
Source : www.freesitemapgenerator.com
Utiliser un logiciel
.
Utiliser le script Sitemap-e
Sitemap-e
Sitemap-e will generate a basic XML, HTML sitemap and Robots.txt for your website.
COPYRIGHT AND LICENCE
Copyright (C) 2013 Alex Best
This program is free software; you can redistribute it and/or modify it under the same terms as Perl itself.

Script sur Github : https://github.com/thenationofalex/Sitemap-e
Wiki : https://github.com/thenationofalex/Sitemap-e/wiki
###################################
# Installation sur Debian 9 Stretch
Installer perl
Installer avec synaptic : libwww-mechanize-perl // DateTime pour Perl // libio-tee-perl

#############
# Utilisation
# Utiliser le script avec la commande suivante :
perl sitemap-e.pl https://www.domain.com

Patienter. L'écriture dans le fichier sitemap.xml est lente mais le fichier est bien écrit.
Autres scripts crawler pour générer un sitemap.xml
Ko.png A tester : https://github.com/Haikson/sitemap-generator
Ko.png A tester : https://gist.github.com/fotan/8f8de2728ffa62d5e52bf5d01e80fb36
Ko.png A tester : https://sourceforge.net/projects/goog-sitemapgen/
Ko.png A tester : http://toncar.cz/opensource/sitemap_gen.html
Ko.png A tester : https://pytonsitemapgen.codeplex.com/
Ko.png A tester : https://github.com/0xF1/python-sitemap-generator
Ko.png A tester : https://sourceforge.net/projects/goog-sitemapgen/files/sitemapgen/1.4/
Ko.png A tester (php) : https://www.plop.at/en/xml-sitemap.html
Ko.png A tester (php) : https://www.xml-sitemaps.com/standalone-google-sitemap-generator.html

Soumettre votre fichier sitemap.xml aux moteurs de recherche

Utiliser les consoles webmaster spécifiques à chaque moteur de recherche pour faire indexer votre site internet.
Il est préférable que la première inscription soit paramétrée par un humain.
Le fichier sitemap.xml pourra être actualisé automatiquement par la suite.
Utiliser un script pour faire un ping sur chaque moteur de recherche ...
Utiliser une tâche cron pour répéter l'action régulièrement ...
Google
Console webmaster - Google Webmasters : https://www.google.com/webmasters/tools/home?hl=fr
Soumission de sitemap et de mises à jour de sitemap : Depuis les paramètres de configuration du site.
Google accepte la soumission d'un sitemap par un ping de l'URL du sitemap. Il faut faire : http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.domain.com/sitemap.xml
Par exemple :
http://www.google.com/webmasters/sitemaps/ping?sitemap=http://assiste.com/sitemap.xml
http://www.google.com/webmasters/sitemaps/ping?sitemap=http://assiste.free.fr/sitemap.xml
http://www.google.com/webmasters/sitemaps/ping?sitemap=http://assiste.com.free.fr/sitemap.xml
Bing
Bing Webmaster Center : http://www.bing.com/webmaster/
Toolbox Bing : https://www.bing.com/toolbox/webmaster/
Il faut être inscrit à Windows Live ID : https://account.live.com
Soumission de sitemap et de mises à jour de sitemap : Configurer mon site > Plan du site
Bing accepte la soumission d'un sitemap par un ping de l'URL du sitemap. Il faut faire : http://www.bing.com/webmaster/ping.aspx?siteMap=[adresse de votre sitemap]
Par exemple :
http://www.bing.com/webmaster/ping.aspx?siteMap=http://assiste.com/sitemap.xml
http://www.bing.com/webmaster/ping.aspx?siteMap=http://assiste.free.fr/sitemap.xml
http://www.bing.com/webmaster/ping.aspx?siteMap=http://assiste.com.free.fr/sitemap.xml
Yandex
Yandex Webmaster Console : http://webmaster.yandex.com/addurl.xml
Soumission de sitemap et de mises à jour de sitemap : Voir les options en ligne de la console.
Yandex accepte la soumission d'un sitemap par un ping de l'URL du sitemap. Il faut faire : https://webmaster.yandex.com/sitemaptest.xml?addr=http://assiste.com/sitemap.xml
Demande de réindexation : https://webmaster.yandex.com/site/http:assiste.com:80/indexing/reindex/
Yahoo
Yahoo Webmaster Center : http://developer.yahoo.com/wsregapp/
Soumission de sitemap et de mises à jour de sitemap : Il faut obtenir d’abord un App Id. Voir les options en ligne de la console.
Yahoo accepte la soumission d'un sitemap par un ping de l'URL du sitemap. Il faut faire : http://search.yahooapis.com/SiteExplorerService/V1/updateNotification?appid=idapp&url=http://www.mon-site-web.com/sitemap.xml
Votre paramètre App ID => appid=votre-yahoo-id
Et votre propre URL vers le sitemap de votre site => &url=http://www.mon-site-web.com/sitemap.xml
ASK
ASK.com : http://submissions.ask.com/ping?sitemap=http://www.mon-site-web.com/sitemap.xml
Le lien ne fonctionne pas !
Lire d'anciennes informations, 2004, sur les outils de ASK : https://www.webrankinfo.com/forum/t/solutions-informations-ask-jeeves.42866/
Moreover
Comme pour le précédent le moteur de recherche moreover.com peut vous apporter quelques visites.
Voici la ligne de commande pour lui soumettre votre fichier sitemap : http://api.moreover.com/ping?u=http://www.votre-site-web.com/sitemap.xml
Le lien ne fonctionne pas !

Liste de robots

Le robot Googlebot de Google

Googlebot est le robot spécialisé pour la recherche sur le web. Il explore les pages à partir de l'index Web et de l'index des actualités.
Les pages bloquées par disallows avec le fichier robots.txt peuvent toujours figurer dans l'index de Google.
Elles apparaîtrons  dans les résultats de la recherche, en particulier, si d'autres sites ont créés un lien.
Un classement élevé est peu probable puisque le robot de Google n'a pas l'autorisation de visiter cette page.
Pour ne pas ajouter la page à l'index d'un moteur de recherche, même si d'autres sites l'ont liés, utiliser la balise meta name robots noindex.
La page ne doit pas être interdite depuis le fichier robots.txt ce qui permet aux robots de reconnaître la balise meta name robots noindex et de supprimer l'url de l'index.
# Google utilise plusieurs robots (user-agents) différents.
# Les autres robots de Google respectent les règles définies pour Googlebot.
# Autoriser les robots Googlebot mais bloquer l'accès à tous les autres robots.
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
# Ne pas autoriser les robots Googlebot à visiter le contenu du site.
# Le blocage de Googlebot bloque tous les robots commençant par "Googlebot".
User-agent: Googlebot
Disallow: /
Note sur l'ordre des directives
Le GoogleBot impose de placer les Allow avant les Disallow.
Ce n'est pas forcement le cas pour tout les bots, certains ne comprennent même pas les Allow.
Si vous avez besoin d’être référencé correctement sur un autre bot, il faudra dupliquer et adapter les règles pour le robot concerné.
Autres robots de Google
Des règles supplémentaires peuvent être définies pour les robots spécifiques suivants :
Googlebot : Le spider de crawl et d’indexation pour desktop et mobiles.
Googlebot-Image : Permet de référencer les images dans Google Images.
Googlebot-Mobile : Permet les pages pour mobile.
Googlebot-News	: Pour les sites d’actualités.
Googlebot-Video : Pour configurer l’affichage des vidéos dans la SERP.
Mediapartners-Google : Explore les pages pour déterminer le contenu AdSense, explore uniquement les sites si les annonces AdSense sont diffusées.
Adsbot-Google : Explore pour mesurer la qualité de la page de destination AdWords, explore uniquement les sites qui utilisent Google AdWords pour faire de la publicité.

Le robot bingbot

User-agent: bingbot
Autres règles spécifiques à ce bot.

Autres robots connus

User-Agent: msnbot
User-Agent: AhrefsBot
User-Agent: Baiduspider
User-Agent: MJ12bot
User-Agent: proximic
User-Agent: ScoutJet
User-Agent: Scooter (Alta Vista)
User-Agent: ArchitextSpider (Excite)
User-Agent: Slurp (HotBot)
User-Agent: InfoSeek Sidewinder (InfoSeek)
User-Agent: T-Rex (Lycos)
User-Agent: Echo (Voilà)
Règles de configuration pour un bot
Crawl-delay
Certains sites Web peuvent rencontrer des volumes élevés de trafic et souhaiter ralentir les moteurs de recherche pour disposer de plus de ressources serveur et pouvoir répondre aux demandes du trafic.
Le délai d'exploration est une directive spéciale reconnue par Yahoo, Live Search et Ask qui indique à un robot d'exploration le nombre de secondes d'attente entre les pages d'exploration.
User-agent: msnbot
Crawl-delay: 5
Pattern matching ou correspondance de modèle
À ce stade, la correspondance de modèle semble être utilisable par les trois majors: Google, Yahoo et Live Search.
Bloquer l'accès à tous les sous-répertoires commençant par "private" en utilisant le caractère générique astérisque.
User-agent: Googlebot
Disallow: /private*/
Faire correspondre la fin de la chaîne en utilisant le signe dollar ($). Par exemple, pour bloquer les URL qui se terminent par .asp
User-agent: Googlebot
Disallow: /*.asp$
Bloquer l'accès à toutes les URL qui incluent un point d'interrogation, utiliser simplement le point d'interrogation. Pas besoin de l'échapper ou de le précéder d'une barre oblique inverse.
User-agent: *
Disallow: /*?*
Autoriser les robots à explorer tous les fichiers d'un type spécifique, par exemple, pour les images.
User-agent: *
Allow: /*.js*
Allow: /*.css*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*
Exclure toutes les URL contenant ? et son paramètre dynamique pour garantir que les robots n'explorent pas les pages dupliquées.
Inclure les URL qui se terminent par un "?".
User-agent: Slurp
Disallow: /*? # Bloquer les url qui contiennent un ?
Allow: /*?$ # Autoriser les url qui finissent par ?
Allow
La directive Allow ne semble être prise en charge que par Google, Yahoo et Ask et permet d'identifier des répertoires ou des pages qui sont autorisés pour l'exploration.
Pour autoriser Googlebot à accéder uniquement au répertoire "google":
# Noter que d'après mes lectures, la directive Allow devrait être placée en première position, suivie par la ou les commandes Disallow.
User-agent: Googlebot
Disallow: /
Allow: /google/
Noindex
Noindex au lieu de Disallow
Généralement, la directive noindex est incluse dans une balise meta robots.
Cependant, Google a pris en charge Noindex pendant de nombreuses années dans Robots.txt, de la même façon qu'un webmaster utiliserait Disallow.
Google autorise donc une directive Noindex dans le fichier robots.txt et supprime complètement toutes les URL de site correspondantes de Google.
John Meuller de Google recommande de ne pas utiliser noindex dans le fichier robots.txt.
User-agent: Googlebot
Disallow: /page-uno/
Noindex: /page-uno/
Conflits entre le fichier robots.txt et la balise meta name robots
Si le fichier robots.txt et les instructions meta tag des robots sont en conflit pour une page, les robots suivent les instructions les plus restrictives.
Si vous bloquez une page avec le fichier robots.txt, les bots ne liront jamais les meta tags de robots sur la page.
Si vous autorisez une page avec le fichier robots.txt mais que vous l'empêchez d'être indexé à l'aide de meta name robots, Googlebot accédera à la page, lira la balise meta et n'indexera pas la page.
Note de Sécurité
Le fichier robots.txt n'est pas un réglage de sécurité.
Il sert uniquement a renseigner les robots d'indexation (googlebot, ...).
Par contre il y a fort à parier que des Bots malveillants liront aussi ce fichiers robots.txt.
Il est donc vivement recommandé de ne pas insérer d'informations trop explicites comme interdire le référencement d'un fichier de mots de passe.
# Astuce pour interdire le référencement d'un fichier sensible.
# Cette ligne interdit l’accès à toutes les adresses commençant par /abcd/fichier_top.
# Elle ne permet pas de découvrir le nom du fichier interdit qui s’appellerait /abcd/fichier_top_secret_dont_le_nom_est_123456.html.
# Permet de ne pas dévoiler les adresses exactes interdites à l’accès en utilisant des adresses longues et en n’indiquant que le début des adresses interdites.
# Disallow: /abcd/fichier_top

Le fichier robots.txt pour Joomla

# ----------- Autoriser les robots -----------
User-agent: *
# ----------- Autoriser l'indexation des images -----------
Allow: /*.js*
Allow: /*.css*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*
# Autoriser le fichier sitemap ( yandex.com affichait que Indexing the specified URL is forbidden in robots.txt )
# Les DNS de cloudflare peuvent peut être aussi interférer.
Allow: /sitemap.xml
# ----------- Si nécessaire, autoriser un dossier ou un fichier manuellement pour Google Webmaster Tools. -----------
# ----------- La norme de Google recommande d'appliquer en premier les règles autorisées, suivies des règles non autorisées. -----------
# ----------- Google Webmaster Tools indique le chargement de la page comme "Partiel" si des fichiers css et js nécessaires sont bloqués avec une instruction comme par exemple Disallow: /templates/ -----------
# ----------- Quel est alors le risque de voir les fichiers css du site accessibles dans les SERP du moteur de recherche ? -----------
# ----------- Autoriser l'accès aux templates -----------
Allow: /templates/*/css/*.css$
Allow: /templates/*/js/*.js$
# ----------- Autoriser l'accès aux composants -----------
Allow: /components/*/js/jquery/*.js?*
Allow: /components/*/js/*.js?*
# ----------- Autoriser l'accès aux liens de weblinks -----------
Allow: /components/weblinks/*
# ----------- Autoriser l'accès aux modules -----------
Allow: /modules/*/css/*.css$
Allow: /modules/*/css/font/*.ttf$
# ----------- Autoriser l'accès au module slideshowck -----------
Allow: /modules/mod_slideshowck*
# ----------- Autoriser l'accès aux plugins -----------
Allow: /plugins/system/*/css/*.css$
Allow: /plugins/system/*/js/*.js$
Allow: /plugins/system/*/css/*.css?*
Allow: /plugins/system/*/js/*.js?*
# ----------- Autoriser l'accès au wiki ou autres dossiers complémentaires -----------
Allow: /wiki/*
# ----------- D'autres dossiers peuvent être à interdire au référencement automatique comme par exemple celui du composant Jdownload. -----------
# ----------- Cela n'empêche pas l'accès direct aux fichiers, si l'accès direct est possible. -----------
# ----------- Autant conserver l'indexation si l'objectif est de partager du contenu. -----------
# Allow: /jdownloads/
# ----------- Autoriser l'indexation de toutes les pages contenant un "?". -----------
# ----------- Être prudent avec ce type de paramétrages lorsqu'il est utilisé pour interdire l'indexation du contenu dupliqué avec les adresses url non réécrites. -----------
Allow: /*?*
# ----------- Ne pas indexer le fichier robots.txt -----------
Disallow: /robots.txt
# ----------- Ne pas indexer la page erreur 404 -----------
Disallow: /index.php?option=com_content&view=article&id=183
# ----------- Ne pas indexer la page de login / inscription -----------
Disallow: /utilisateur/connexion
Disallow: /utilisateur/connexion?view=registration
# ----------- Ne pas indexer le duplicata content -----------
Disallow: /?tmpl=component&type=raw
# ----------- Ne pas indexer les fichiers du CMS -----------
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
# ----------- Ne pas indexer les dossiers images et media -----------
# ----------- Indexation possible par défaut avec la nouvelle version du CMS -----------
# ----------- Comment les images privées avec des droits spécifiques restent protégées ? A vérifier ! -----------
# Disallow: /images/
# Disallow: /media/
# ----------- Spécifier l'emplacement du fichier sitemap.xml -----------
Sitemap: https://www.visionduweb.eu/sitemap.xml

Mise à jour de Joomla et modification du fichier robots.txt

Suite à une mise à jour de Joomla, le nouveau fichier robots.txt proposé est nommé robots.txt.dist.
Vérifier son contenu et renommer le fichier robots.txt.dist en robots.txt si nécessaire.

Valider la syntaxe du fichier robots.txt

Utiliser un générateur de fichier robots.txt : https://www.internetmarketingninjas.com/seo-tools/robots-txt-generator/
Tester la présence du fichier robots.txt et détecter les erreurs sur le fichier robots.txt : https://seositecheckup.com/tools/robotstxt-test
Cloudflare empêche la lecture du fichier robots.txt avec Browsershots. Ce n'est donc pas forcément le fichier robots.txt qui est mal codé.

Consoles des moteurs de recherche

Console Google
Google Webmaster Central.
Tester le fichier robots.txt dans Google Webmaster Tools : https://www.google.com/webmasters/tools
Il ne vérifie pas si les ressources bloquées sont  cruciales ou non pour votre site.
Utiliser alors l'outil "Explorer comme Google"
Exploration > Outils de test du fichier robots.txt
Google précise sur cette page les fichiers bloqués par votre fichier robots.txt.
Tester si le site est adapté aux mobiles (Mobile Friendly) : https://search.google.com/test/mobile-friendly?utm_source=mft&utm_medium=redirect&utm_campaign=mft-redirect
# Une erreur est affichée :
# https://www.visionduweb.eu/components/com_uddeim/templates/default/css/uddemodule.css	Feuille de style	Googlebot est bloqué par le fichier robots.txt
# Vérifier si le dossier templates est autorisé dans la version de production !

Todo.png

Console Live Search
Live Search Webmaster Center.
Console Yahoo
Yahoo Site Explorer.

Ressources complémentaires

Ok-ko.png Source : https://www.sitemaps.org/fr
Ok-ko.png Source : https://www.yakaferci.com/robotstxt/
Ok-ko.png Source : http://www.rankspirit.com/frobots.php
Ok-ko.png Source : http://www.yapasdequoi.com/seo/3783-les-petites-subtilites-du-fichier-robots-txt-qui-peuvent-faire-mal.html
Ok-ko.png Source : https://craym.eu/tutoriels/referencement/fichier_robot_txt.html
Ok-ko.png Source : https://alphadesign.fr/joomla/checklist-seo-pour-joomla-referencement-joomla/robots-txt.html
Ok-ko.png Source : http://www.commentcamarche.net/faq/10609-robots-txt-un-fichier-important
Ok-ko.png Source : https://www.fred-net.fr/blog/joomla/joomla-et-le-fichier-robots
Ok-ko.png Source : http://robots-txt.com
Ok-ko.png Source : http://robots-txt.com/ressources/
Ok-ko.png Source : http://robots-txt.com/sitemaps/
Ok-ko.png Source : https://moz.com/learn/seo/robotstxt
Ok-ko.png Source : http://www.robotstxt.org/robotstxt.html
Ok-ko.png Source : http://www.annuaire-info.com/robots-txt/
Ok-ko.png Source : https://developers.google.com/search/reference/robots_txt
Ok-ko.png Source : https://support.google.com/webmasters/answer/6062608?hl=fr&ref_topic=6061961&rd=1
Ok-ko.png Source : http://www.grey-hat-seo.com/manuel-ghs-tools/verifier-presence-fichier-robots-txt-vos-sites
Ok-ko.png Source : Le fichier robots.txt pour WordPress : https://wpformation.com/robots-txt-wordpress/
Ok-ko.png Source : Bibliographie - Lien vers Vision du web pour le fichier robots.txt : https://fr.wikipedia.org/wiki/Protocole_d%27exclusion_des_robots

humans.txt

Internet pour les humans.txt.

Cloaking: l'arme absolue du référencement ?

Réussir son cloaking nécessite une bonne connaissance des moteurs de recherche, des robots, de leurs user-agents et adresses IP.
Voir aussi à utiliser les wild-cards.
Le traitement de logs.

Scripts pour le SEO

Scripts SEO : http://scripts-seo.com

Éviter le déclassement de son site

Les frames - Les liens brisés - Les liens issus d'une programmation en JavaScript. 
Les images avec une zone cliquable.
Les images ou animation flash.
Les zones en travaux.
Toutes les techniques de fraude comme la répétition de mots-clés cachés, appelées spamdexing, sont connues des moteurs de recherche.
Les sites qui utilisent cette astuce sont généralement déclassés dans les résultats ou mis sur une liste noire.

Les 10 derniers articles sur le SEO depuis le site WebRankInfo

Problèmes SEO les + fréquents trouvés sur les sites dont le référencement baisse

Ces derniers mois, Google a fait de nombreux changements dans son algorithme. J'ai étudié 43 sites ayant connu des baisses du référencement naturel à ce moment : voici les principales erre...
Olivier Duffez 2018-06-15 12:23:23
Comment récupérer les pages actives sur 1 an sans échantillonnage Analytics
La méthode SEO d'analyse des Pages Actives sur 1 an nécessite de récupérer des données fiables, notamment sans échantillonnage Google Analytics. Cette vidéo explique pourquoi c'est u...
Olivier Duffez 2018-06-12 14:05:52
Méthode SEO : analyse des pages actives sur 1 an
Début 2018, Google a fait de nombreux changements dans son algorithme. J'ai étudié 43 sites ayant connu des baisses du référencement naturel à ce moment et j'ai découvert une particu...
Olivier Duffez 2018-06-06 16:10:44
Comment il a sauvé son site qui avait perdu 90% de trafic SEO
En baisse continue depuis 1 an, son trafic SEO Google était presque à zéro après plusieurs mises à jour de l'algo. Découvrez comment il est remonté en effectuant un gros nettoyage du sit...
Olivier Duffez 2018-05-18 06:05:35
Les 12 types de balises meta et leur impact en référencement (SEO)
Est-ce que Google tient compte de toutes les balises meta ? C'est sans doute un classique mais cette fois la réponse vient de Google directement... L'occasion de revenir sur chaque balise...
Olivier Duffez 2018-05-17 08:19:56
Balise meta description : les meilleurs conseils SEO !
Les balises meta description n'ont pas souvent la cote, car elles n'ont officiellement aucun impact en positionnement sur Google. Vous auriez pourtant tort de les négliger ! Voici un doss...
Olivier Duffez 2018-05-17 08:05:31
Obtenez un très bon référencement Google en 5 étapes
Le référencement naturel de votre site stagne ou pire, régresse ? Ou bien il n'a jamais décollé ? Suivez ces étapes pour retrouver une meilleure visibilité sur Google dans les résultats...
Olivier Duffez 2018-05-03 08:29:17
Tous les résultats financiers de Google détaillés (avril 2018)
Découvrez tous les détails des derniers résultats financiers de Google (et Alphabet Inc.) : chiffres à jour, graphiques, évolutions sur le chiffre d'affaires, les bénéfices, la part d&#3...
Olivier Duffez 2018-05-02 09:15:31
Parts de marché des moteurs de recherche en mai 2018 (France, USA, monde)
Google domine le monde dans la plupart des pays, mais quelles sont les parts de marché des moteurs de recherche en France et dans le monde ? Ce dossier vous fournit les derniers chiffres connus.Ce...
Olivier Duffez 2018-05-01 10:00:00
Formation référencement naturel à Paris par Ranking Metrics (audit inclus)
Découvrez le programme de la prochaine formation SEO à Paris organisée par Ranking Metrics. Les formateurs, experts SEO, expliqueront en détails la méthodologie d'optimisation du référe...

Olivier Duffez 2018-04-30 13:05:47

Bibliographie

Ok.png Comment envoyer automatiquement son sitemap a Google Yahoo et Bing après une mise à jour : https://supersonique.net/pu/comment-envoyer-automatiquement-son-sitemap-a-google-yahoo-et-bing-apres-une-maj/
Ok.png Webmaster Soumission d'un sitemap : http://assiste.com/Webmaster_Soumission_d_un_sitemap.html

Tutoriels complémentaires

SEO pour votre site, sur Google : http://www.commentcamarche.net/contents/1267-referencement-naturel-seo-guide-pratique-complet
30 problèmes SEO et les outils pour corriger : https://moz.com/blog/30-seo-problems-the-tools-to-solve-them-part-1-of-2
30 problèmes SEO et les outils pour corriger : https://moz.com/blog/30-seo-problems-the-tools-to-solve-them-part-2
Critères les plus importants dans le SEO selon 140 référenceurs : http://www.journaldunet.com/solutions/seo-referencement/1195455-seo-les-criteres-les-plus-importants-selon-140-referenceurs/
Les 50 meilleurs outils SEO gratuits : https://www.drujokweb.fr/blog/les-meilleurs-outils-webmarketing-et-outils-seo-gratuits/
Autres lectures sur le SEO : https://www.redacteur.com/blog/10-conseils-pour-rediger-du-contenu-seo/
Le SEO est mort, vive le SEO : https://www.abondance.com/actualites/20180306-19015-seo-mort-video-seo.html
Des outils SEO pour améliorer votre référencement naturel : http://www.eskimoz.fr/outil-seo/

NAVIGATION

COMPRENDRE LA BLOCKCHAIN PAR LA PRATIQUE

Obtenir gratuitement de la cryptomonnaie sur internet : https://www.visionduweb.eu/forum/bitcoin/1597-gagner-des-bitcoins-miner-des-bitcoins

PARTICIPER ET PARTAGER

Vous êtes sur le HackerSpace de Vision du Web.
Les pages présentées sur le wiki évoluent tous les jours.
Certaines recherches sont peu abouties et incluent des erreurs.
Pour participer sur le wiki, créer un compte utilisateur en haut à droite.
Pourquoi utiliser GNU/Linux ? Y'a moins bien, mais, c'est beaucoup plus cher.
GNU/Linux, hackerspace, opensource, logiciels libres et transition écologique.
La recherche interne du wiki permet de trouver le contenu qui vous intéresse.
Les informations présentes sur cette page sont issues d'une recherche personnelle.
Identifiez-vous pour poser vos questions sur la page de discussion de VisionDuWeb.
Améliorer le contenu des pages en faisant des propositions depuis l'onglet discussion.
Pour écrire en Markdown : Éditeur - Générateur de tableau 1 - Générateur de tableau 2.
Vous pouvez partager les articles du wiki avec l'ensemble de la communauté des internautes.
Les recherches sur la sécurité servent à administrer et protéger votre système informatique.
Les informations du wiki ne doivent pas servir à nuire à autrui ou à un système informatique.
De nombreux outils gratuits sont listés et disponibles dans la boîte à outils de Vision du web.
D'autres pages du wiki peuvent correspondre à vos attentes. La liste de toutes les pages du wiki.

SOUTENIR VISIONDUWEB

Soutenir Vision du web avec des Bitcoins : 33ZsupGQr1rUmwj62HadcZ55hsGJajD9wN
Soutenir Vision du web avec des Bitcoins Cash : 15q5xAVFGpMbqgKsr8uhXymTv7kLfke7hq
Soutenir Vision du web avec des Bitcoins Gold : GNcVseSdiEGRzKYwZWeCbGGg1sZ6Nax172
Soutenir Vision du web avec des Bitcore (BTX) : 1Ks9FDF4FVauAHBCpBFKySiSmD8LaQhqDH
Soutenir Vision du web avec des Blackcoins : BKYBEhQGm9ExrYoWzbvmHA491sK2ArxFM6
Soutenir Vision du web avec des Bytecoins : 241LTEY5L3CSTN2afYf97obxGp4ahUYnq5jDwx5b15NQDothce8fpUeKA32X5SrJuDPBgXTsSmQRoAbCzcDvM2d2Pe9w6AY
Soutenir Vision du web avec des Clams : xMF9u1evuiN2zzEjg2KhgeYPcCLU84Ki5T
Soutenir Vision du web avec des Dash : Xd4vJFnWy27be8cLGSiXVYzP6nKFbdHATU
Soutenir Vision du web avec des Monero : 469EK3yr8JbNe3Gf1rXHD81zcHT7o1hTsDxqvWtxunnaTDLVNiXQ2NyWbwaVe4vUMveKAzAiA4j8xgUi29TpKXpm413rpYt
Soutenir Vision du web avec des Dogecoins : A64jhqCgsUyrUCPte6fV3BcG2Y7daH13Ym
Soutenir Vision du web avec des Ethereum : 0x0E4D6B7A1F88A56A1A66bf408c72FAE3d104D632
Soutenir Vision du web avec des Ethereum Classique : 0x633d83a4ab31e63d76d01edb660ecca4498ef8fa
Soutenir Vision du web avec des Litecoins : 3LKigW6TCS5MvXrZFGh8VMEtZf6MtE86iz
Soutenir Vision du web avec des Potcoins : PUYvjeJ3n2frypgD5yd95yNnwoztnZL5P3
Soutenir Vision du web avec des Solarcoins : 8aYbMcAL68U8f3c3o5pEKUKeWxx48gU1eq
Soutenir Vision du web avec des Zcash : t1Tkiv7nTt9Gwwui9ifsBdp37dTnRG7oYHp