Structure technique dédiée — Expertise web & mobile — Basée en France
Guide technique · Trafic & sécurité

Bots & robots web : comprendre, détecter et bloquer le trafic automatisé

Une part majeure du trafic internet n'est pas humaine : crawlers, outils de surveillance, scrapers ou attaques automatisées frappent vos pages en continu. Distinguer les bots utiles des comportements abusifs permet de mieux sécuriser votre site, protéger vos données et préserver les ressources serveur.

Ce guide pose les bases : définition d'un bot, typologie détaillée et repères pour comprendre ce qui se passe derrière vos logs et votre analytics.

User-Agent · Logs · Trafic automatisé

~50 % du trafic web estimé non humain

  • Légitimes — moteurs de recherche, monitoring, previews sociaux, RSS
  • Malveillants — scraping agressif, brute force, DDoS, spam, scans
  • Zone grise — SEO, comparateurs, IA, automatisation perso

Trois repères pour cadrer le sujet

1
Volume

Une grande partie des requêtes HTTP vers les sites publics provient de programmes, pas de navigateurs « classiques ».

2
Hétérogénéité

Les bots vont du crawler indispensable au scraper concurrentiel, en passant par la surveillance ou l'attaque.

3
Lecture

User-Agent, journaux serveur et outils d'analytics aident à identifier qui consomme vos ressources.

C'est quoi un bot ?

Un robot logiciel exécute des tâches sur le réseau sans intervention humaine : indexation, surveillance, collecte de données ou attaque.

Un bot (diminutif de « robot ») est un programme informatique qui exécute des tâches automatisées sur internet, sans intervention humaine. Imaginez un employé infatigable qui visite des milliers de pages web à la seconde, remplit des formulaires ou collecte des données — sauf que c'est du code, pas un humain.

Analogie : imaginez que votre site web soit un magasin.

Les bots sont des visiteurs… mais pas comme les autres :

  • certains sont des inspecteurs officiels (comme Google)
  • certains observent vos prix ou vos produits
  • certains testent vos portes et vos serrures
  • d'autres essaient carrément d'entrer sans permission

Vous ne les voyez pas, mais ils sont bien là.

Chiffre clé : on estime qu'environ 50 % du trafic mondial sur le web est généré par des bots, pas par des humains. Autrement dit : une grande partie des « visiteurs » de votre site… ne sont pas des personnes réelles.

Important à comprendre : tous les bots ne sont pas un problème, il existe :

  • des bots utiles (moteurs de recherche, monitoring)
  • des bots neutres
  • des bots problématiques ou malveillants

L’enjeu n’est pas de les supprimer, mais de :

  • les comprendre
  • les identifier
  • savoir lesquels accepter ou bloquer

Les différents types de bots

Trois grandes familles : utiles pour l'écosystème web, orientés abus, ou situés dans une zone grise selon l'usage et votre politique d'exposition.

Les bots légitimes

Les bots légitimes sont des programmes automatisés utiles au bon fonctionnement d’internet. Ils ne cherchent pas à nuire à votre site et, dans la plupart des cas, vous avez intérêt à les laisser passer.

Les crawlers de moteurs de recherche

Rôle : explorer et indexer les pages web pour les rendre trouvables dans les résultats de recherche.

Origine : grandes entreprises technologiques.

Exemples :

  • Googlebot (Google) — le plus actif au monde
  • Bingbot (Microsoft)
  • Yandexbot (moteur russe)
  • Baiduspider (moteur chinois)

Fonctionnement : le bot arrive sur votre page d'accueil, lit le HTML, suit les liens internes, puis passe au site suivant. Il envoie tout au moteur de recherche qui décide de vous afficher (ou non) dans ses résultats.

Concrètement pour vous : sans ces bots, votre site n’existe pas sur Google.

User-Agent typique : Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Les bots de monitoring et uptime

Rôle : vérifier que votre site est en ligne et fonctionne correctement (temps de réponse, erreurs).

Origine : services de surveillance.

Exemples : Pingdom, UptimeRobot, New Relic, Datadog.

Fonctionnement : ils envoient des requêtes HTTP à intervalles réguliers (toutes les 30 secondes par exemple) et vérifient que le serveur répond un code 200 OK. Sinon, ils envoient une alerte.

Concrètement pour vous : sans ces bots, vous ne sauriez pas si votre site est en ligne et fonctionne correctement.

Les bots de sécurité

Rôle : scanner les sites pour détecter des vulnérabilités connues et prévenir les propriétaires.

Origine : entreprises de cybersécurité, organismes publics.

Exemples : Qualys, Mozilla Observatory, Have I Been Pwned (vérification de fuites de données).

Fonctionnement : Ces bots testent votre site : • configuration HTTPS • en-têtes de sécurité • failles connues • exposition de données sensibles Ils génèrent ensuite un rapport avec des recommandations.

Concrètement pour vous : ils vous aident à corriger des failles avant qu’un attaquant ne les exploite.

Les bots de réseaux sociaux

Rôle : générer les aperçus (previews) quand quelqu'un partage un lien.

Exemples :

  • Twitterbot : génère la carte d'aperçu quand vous collez un lien sur X/Twitter.
  • FacebookExternalHit : fait la même chose pour Facebook.
  • LinkedInBot : idem pour LinkedIn.

Fonctionnement : quand un lien est partagé, le bot visite la page, lit les balises Open Graph (og:title, og:image, etc.) et génère un aperçu visuel.

Concrètement pour vous : sans ces bots, vos partages ne seraient pas visibles sur les réseaux sociaux.

Les bots de flux RSS et agrégateurs

Rôle : récupérer les derniers articles publiés sur un site pour les afficher dans un lecteur RSS.

Exemples : Feedly, Inoreader.

Fonctionnement : Ils consultent régulièrement votre flux RSS pour détecter : Ils consultent régulièrement votre flux RSS pour détecter : • nouveaux articles • mises à jour Puis les affichent dans des applications de lecture.

Concrètement pour vous : ils permettent à certains utilisateurs de suivre vos contenus sans passer par votre site.

Les bots d’archivage du web

Rôle : conserver des copies de pages web dans le temps.

Exemples : Internet Archive (Wayback Machine)

Les bots malveillants

Ceux-là n'ont aucune bonne intention. Ils cherchent à voler, casser ou exploiter.

Les bots de scraping agressif

Rôle : copier tout le contenu de votre site (textes, images, prix, fiches produits) pour le réutiliser ailleurs.

Origine : concurrents, revendeurs, sites de comparaison malhonnêtes.

Exemple concret : un concurrent copie tous les prix de votre boutique en ligne toutes les heures pour s'aligner automatiquement.

Fonctionnement : le bot parcourt toutes vos pages, extrait le HTML, puis un script analyse le contenu (parsing) pour en tirer les données utiles.

Les bots de brute force / credential stuffing

Rôle : deviner des mots de passe en essayant des milliers de combinaisons.

Origine : hackers, groupes cybercriminels.

Deux variantes :

  • Brute force : essaie toutes les combinaisons possibles (aaa, aab, aac…). Lent mais exhaustif.
  • Credential stuffing : utilise des listes de couples email/mot de passe volés lors de fuites de données. Beaucoup plus efficace car les gens réutilisent souvent le même mot de passe.

Exemple concret : un bot teste 10 000 combinaisons login/mot de passe par minute sur votre page /wp-admin WordPress.

Analogie : le brute force, c'est comme essayer toutes les clés d'un trousseau géant. Le credential stuffing, c'est comme utiliser une clé volée chez un voisin en espérant qu'elle ouvre aussi votre porte.

Les bots DDoS (Distributed Denial of Service)

Rôle : noyer votre serveur sous un flot massif de requêtes pour le rendre inaccessible.

Origine : hackers, hacktivistes, concurrents, parfois des États.

Fonctionnement : des milliers (voire millions) de machines infectées (un « botnet ») envoient toutes en même temps des requêtes vers votre serveur. Celui-ci sature et tombe.

Exemple concret : le botnet Mirai (2016) a utilisé des caméras et objets connectés piratés pour lancer une attaque DDoS massive contre Dyn DNS, rendant inaccessibles Twitter, Netflix, Reddit et d'autres services.

Analogie : c'est comme si 10 000 personnes essayaient d'entrer en même temps dans un petit magasin — personne ne peut plus bouger, et les vrais clients ne peuvent plus entrer.

Les bots de spam

Rôle : publier des messages indésirables (publicité, liens malveillants) dans les commentaires, forums et formulaires.

Origine : spammeurs professionnels, réseaux de marketing noir.

Exemple concret : des centaines de commentaires automatiques sous vos articles de blog du type « Achetez des Viagra en ligne !! » avec des liens douteux.

Les bots de vulnerability scanning

Rôle : scanner votre site pour trouver des failles exploitables (injections SQL, XSS, fichiers de configuration exposés).

Origine : hackers en phase de reconnaissance.

Fonctionnement : le bot teste automatiquement des centaines de chemins connus (/wp-config.php, /.env, /admin, /phpmyadmin) et des charges utiles d'attaque sur les formulaires.

Exemple dans les logs :

GET /wp-login.php 404
GET /.env 404
GET /admin/config.yml 404
GET /phpmyadmin/ 404

Les bots de clic frauduleux (click fraud)

Rôle : cliquer artificiellement sur des publicités pour épuiser le budget publicitaire d'un concurrent ou gonfler les revenus d'un éditeur malhonnête.

Origine : concurrents, réseaux de fraude organisée.

Les bots semi-légitimes

Ces bots ne sont pas intrinsèquement mauvais. Ils ont souvent un objectif légitime mais pas forcément dans votre intérêt. C’est donc une catégorie à part : ils peuvent être utiles, neutres ou problématiques selon le contexte.

Les bots SEO

Rôle : analyser le référencement d'un site (liens, mots-clés, structure, performances).

Origine : entreprises d'outils SEO.

Exemples :

  • Ahrefs (AhrefsBot)
  • Semrush (SemrushBot)
  • Moz (DotBot)
  • Screaming Frog

Fonctionnement : Ces bots parcourent votre site comme le ferait Google : • ils explorent vos pages • analysent vos liens • évaluent votre structure pour produire des données SEO… utilisées par leurs clients.

Le problème : ils peuvent générer beaucoup de trafic et consommer des ressources serveur sans que le propriétaire l'ait demandé, surtout quand c'est un concurrent qui scanne votre site.

Les bots de comparaison de prix

Rôle : collecter les prix de différents sites pour alimenter des comparateurs.

Exemples :

  • Google Shopping
  • Idealo
  • des agrégateurs de billets d'avion

Fonctionnement : Ces bots visitent régulièrement vos pages produits pour : • récupérer les prix • vérifier la disponibilité • mettre à jour les données

Le problème : • vos prix deviennent ultra visibles et comparables • cela peut déclencher une guerre des prix • vos données peuvent être réutilisées par des concurrents

Sans que vous ayez donné votre accord explicite

Concrètement pour vous : • utile pour la visibilité • mais potentiellement dangereux pour vos marges

à gérer au cas par cas

Les bots d'IA / LLM

Rôle : collecter du contenu web pour entraîner des modèles d'intelligence artificielle.

Exemples :

  • GPTBot (OpenAI)
  • ClaudeBot (Anthropic)
  • CCBot (Common Crawl)

Fonctionnement : Ces bots parcourent le web pour :

  • lire vos contenus
  • les intégrer dans des bases de données
  • entraîner des modèles capables de générer du texte

Le débat : c’est aujourd’hui un sujet majeur

  • votre contenu peut être utilisé sans rémunération
  • il peut être “réutilisé” indirectement par des IA
  • certains éditeurs refusent ce fonctionnement

Concrètement pour vous : • perte potentielle de valeur de votre contenu • absence de contrôle sur l’usage • impact possible sur votre trafic futur

C'est un choix stratégique :

Les bots d'automatisation personnelle

Rôle : automatiser des tâches répétitives (poster sur les réseaux sociaux, envoyer des messages, remplir des formulaires).

Exemples :

  • scripts Python avec Selenium
  • outils comme Zapier
  • Make (ex-Integromat)

Fonctionnement : Ces bots simulent des actions humaines :

  • remplir des formulaires
  • envoyer des messages
  • naviguer sur un site

Ils sont souvent utilisés pour :

  • gagner du temps
  • automatiser des workflows

Le problème : tout dépend de l’usage

  • certains usages sont légitimes
  • d’autres peuvent devenir abusifs (spam, scraping, faux comptes)

et peuvent violer :

  • les conditions d’utilisation
  • ou saturer certains services

Les techniques utilisées par les bots

Au-delà des intentions (indexation, collecte, attaque), les automates s'appuient sur un ensemble de méthodes techniques — des plus simples aux stratégies d'évasion avancées.

Techniques de base

Cinq approches courantes pour explorer un site, en extraire des données ou tester ses entrées.

Technique Description Exemple
Crawling Suivre les liens d'un site pour en découvrir toutes les pages. Googlebot qui explore votre site de lien en lien.
Scraping Extraire des données précises d'une page (prix, e-mails, textes). Un script BeautifulSoup qui lit les prix sur Amazon.
Fuzzing Tester des entrées aléatoires ou anormales pour trouver des bugs. Envoyer ' OR 1=1 -- dans un champ de login (injection SQL).
Credential stuffing Tester des identifiants volés en masse. Utiliser une liste d'un million de couples login / mot de passe.
Enumeration Tester l'existence de ressources (utilisateurs, fichiers, répertoires). Tester /user/1, /user/2, /user/3

Techniques d'évasion avancées

Les bots modernes sont de plus en plus difficiles à détecter. Voici comment ils se cachent.

Rotation d'identité

  • Rotation de User-Agent : le bot change son identité à chaque requête (se fait passer pour Chrome, Firefox, Safari, un iPhone…).
  • Rotation d'adresses IP : le bot utilise des proxies résidentiels (de vraies IP de particuliers) pour paraître légitime. Des services comme Bright Data ou Oxylabs vendent l'accès à des millions d'IP résidentielles.

Simulation de comportement humain

  • Navigateurs headless : des navigateurs réels (Chrome, Firefox) pilotés par du code, sans interface graphique. Ils exécutent le JavaScript, gèrent les cookies et rendent les pages comme un navigateur classique.

    Outils : Puppeteer (Node.js), Playwright (Microsoft), Selenium.

  • Mouvements de souris aléatoires : les bots avancés simulent des déplacements de souris, des clics aléatoires, du défilement, des pauses… pour tromper les systèmes anti-bot.
  • Résolution de CAPTCHA : des services comme 2Captcha ou Anti-Captcha emploient de vrais humains (payés quelques centimes) pour résoudre les CAPTCHA en temps réel.

Infrastructure distribuée

  • Botnets : réseaux de milliers de machines infectées (PC, caméras, routeurs) contrôlées à distance. Chaque machine envoie peu de requêtes, ce qui rend le trafic difficile à distinguer du trafic légitime.
  • VPN et Tor : les bots passent par des VPN ou le réseau Tor pour masquer leur origine.
  • Cloud functions : utilisation de Lambda (AWS), Cloud Functions (Google) ou Azure Functions pour lancer de nombreuses requêtes depuis des IP cloud différentes.

Analogie : c'est comme un cambrioleur qui change de déguisement, de voiture et d'itinéraire à chaque passage. Très dur à attraper.

Les risques concrets pour votre site

Le trafic automatisé abusif ne se limite pas aux logs : sécurité, performance, données et référencement peuvent être affectés — parfois sans que l'effet soit visible immédiatement.

1 Risques de sécurité

  • Vol de comptes via brute force ou credential stuffing.
  • Exploitation de failles découvertes par les scanners automatisés.
  • Injection de contenu malveillant (spam, liens vers des sites de phishing).
  • Prise de contrôle du serveur si une faille critique est trouvée.

2 Risques de performance

  • Surcharge du serveur : les bots qui envoient des centaines de requêtes par seconde consomment bande passante, CPU et mémoire.
  • Ralentissement pour les vrais utilisateurs : si le serveur est saturé par les bots, les visiteurs humains subissent des temps de chargement plus longs.
  • Coûts serveur gonflés : plus de trafic implique plus de ressources consommées — et souvent une facture cloud plus élevée.

3 Risques pour les données

  • Vol de contenu : articles, images, fiches produits copiés et réutilisés sans autorisation.
  • Scraping de données personnelles : adresses e-mail, numéros de téléphone collectés sur votre site pour du spam ou la revente.
  • Fuite de données : exposition d'un fichier de configuration (.env), sauvegarde de base de données accessible, etc.

4 Risques SEO

  • Contenu dupliqué : si un bot copie votre contenu et le publie ailleurs, les moteurs peuvent vous pénaliser pour duplication — parfois avant le copieur.
  • Crawl budget gaspillé : Google alloue un budget d'exploration limité à chaque site. Des bots inutiles peuvent le consommer et réduire la fréquence de passage de Googlebot sur vos pages importantes.
  • Liens de spam : les bots qui postent des liens dans les commentaires peuvent nuire à la réputation SEO de votre site.

Comment détecter les bots

Les journaux serveur, les habitudes de navigation et quelques contrôles techniques permettent de repérer une part importante du trafic automatisé — avant même d'investir dans un outil dédié.

Analyse des logs serveur

Vos logs (fichiers comme access.log sur Apache ou Nginx) contiennent une mine d'informations. Voici quoi chercher.

Exemple de ligne de log :

203.0.113.42 - - [29/Mar/2026:10:15:32 +0000] "GET /wp-login.php HTTP/1.1" 200 4523 "-" "Mozilla/5.0 (compatible; evil-bot/1.0)"

Ce que cette ligne révèle : l'IP 203.0.113.42, à 10 h 15, a demandé la page de connexion WordPress, en s'identifiant comme evil-bot.

Signaux d'alerte dans les logs

  • Des centaines de requêtes depuis la même IP en quelques secondes.
  • Des requêtes vers des pages qui n'existent pas (séries de 404).
  • Des User-Agents vides, incohérents ou connus comme bots.
  • Des requêtes à des heures inhabituelles (3 h du matin, toutes les 2 secondes).
  • Des accès répétés à robots.txt suivis d'un crawl massif.

Patterns de trafic suspects

  • Régularité mécanique : un humain navigue de façon irrégulière (pause, clic, lecture). Un bot envoie souvent des requêtes à intervalle fixe (par exemple toutes les 0,5 seconde exactement).
  • Pas de ressources associées : un navigateur réel charge le HTML, puis le CSS, le JavaScript, les images. Un bot simple ne récupère parfois que le HTML.
  • Pas de cookies ni de sessions : un bot basique ne gère pas les cookies, alors qu'un navigateur les renvoie en général systématiquement.
  • Taux de rebond à 100 % : le bot visite une seule page et repart, sans enchaîner sur d'autres pages.
  • Aucune interaction JavaScript : un client qui n'exécute pas le JS ne déclenchera pas les événements onload, onclick, etc.

Signatures techniques

Vérification du User-Agent : un client qui prétend être Googlebot mais dont l'IP n'appartient pas à Google est suspect. Vous pouvez le contrôler avec un reverse DNS :

host 66.249.66.1
# Résultat attendu : crawl-66-249-66-1.googlebot.com
  • Empreinte TLS (JA3 / JA4) : chaque client TLS a une empreinte liée à la façon dont il négocie la connexion chiffrée. Les bots ont souvent des empreintes différentes des navigateurs grand public.
  • Analyse du JavaScript : injecter du JS discret qui détecte un moteur de rendu crédible, une souris, un écran, etc. — toujours dans le respect du RGPD et de l'information utilisateur.
  • Pots de miel (honeypots) : placer des liens invisibles au rendu (par exemple via display: none en CSS) que seuls certains crawlers suivent. Un humain ne « clique » en principe pas sur un lien qu'il ne voit pas.

Comment se protéger efficacement

De la configuration serveur aux pare-feux applicatifs, les mesures se cumulent : plus votre surface d'exposition est maîtrisée, plus le trafic abusif coûte cher à l'attaquant.

Les bases — configuration serveur

Le fichier robots.txt

C'est un fichier texte placé à la racine de votre site qui indique aux bots ce qu'ils ont le droit de visiter. Attention : les bots malveillants peuvent l'ignorer. C'est une convention, pas une barrière de sécurité.

# Autoriser Googlebot
User-agent: Googlebot
Allow: /

# Bloquer un bot SEO
User-agent: AhrefsBot
Disallow: /

# Bloquer tous les bots sauf Google
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Rate limiting (limitation de débit)

Limiter le nombre de requêtes qu'une même IP peut envoyer sur une fenêtre de temps donnée.

# Exemple Nginx : max 10 requêtes/seconde par IP
limit_req_zone $binary_remote_addr zone=antibots:10m rate=10r/s;

server {
    location / {
        limit_req zone=antibots burst=20 nodelay;
    }
}

Analogie : c'est comme un videur à l'entrée d'un club qui ne laisse entrer qu'un certain nombre de personnes par minute.

Blocage par IP et géolocalisation

  • Bloquer les IP réputées malveillantes (listes noires publiques).
  • Bloquer des plages d'IP de pays depuis lesquels vous n'attendez pas de visiteurs légitimes.
  • Bloquer les IP de centres de données : les bots utilisent souvent des serveurs cloud plutôt que des connexions résidentielles.

Solutions intermédiaires

CAPTCHA

  • reCAPTCHA (Google) : la case « Je ne suis pas un robot » ou les grilles d'images.
  • hCaptcha : alternative souvent présentée comme plus respectueuse de la vie privée.
  • Turnstile (Cloudflare) : mécanisme discret qui vérifie en arrière-plan sans friction visible pour l'utilisateur.

Les CAPTCHA sont utiles sur les formulaires sensibles (connexion, inscription, commentaires) mais ne protègent pas le scraping des pages publiques.

Tokens anti-CSRF et honeypots dans les formulaires

  • Ajouter un champ caché dans vos formulaires : un humain ne le remplit généralement pas ; un bot basique, si.
  • Utiliser des jetons uniques par session pour limiter les soumissions automatiques.

Exemple de champ honeypot (HTML)

<!-- Champ honeypot invisible -->
<input type="text" name="website" style="display:none" tabindex="-1" autocomplete="off">
<!-- Si ce champ est rempli, c'est probablement un bot -->

Solutions avancées

WAF — Web Application Firewall

Un WAF analyse le trafic HTTP en temps réel et peut bloquer les requêtes suspectes avant qu'elles n'atteignent votre application.

WAF couramment cités

  • Cloudflare : offre gratuite avec protection anti-bot et DDoS, très répandue.
  • AWS WAF : adapté aux charges hébergées sur Amazon Web Services.
  • Sucuri : souvent associé à l'écosystème WordPress.
  • ModSecurity : WAF open source installable sur Apache ou Nginx.

Solutions anti-bot spécialisées

Pour les sites à fort trafic ou à forte valeur (e-commerce, billetterie, ventes limitées) :

  • Cloudflare Bot Management : analyse comportementale, empreinte TLS, apprentissage automatique.
  • Akamai Bot Manager : offre orientée entreprise.
  • DataDome : détection en temps réel avec IA.
  • HUMAN (ex-PerimeterX) : ciblage des bots avancés.

Ces solutions combinent en général plusieurs signaux : empreinte navigateur, comportement de la souris, analyse JavaScript, réputation IP et modèles prédictifs.

Authentification renforcée

  • MFA (authentification multi-facteurs) : même si un mot de passe est compromis, un second facteur (SMS, application d'authentification) reste exigé.
  • Limitation des tentatives de connexion : verrouiller ou ralentir un compte ou une IP après plusieurs échecs.

4 Tableau récapitulatif des protections

Menace Protection recommandée Difficulté
Crawling excessif robots.txt + rate limiting Facile
Scraping WAF + détection JS + CAPTCHA Moyen
Brute force / credential stuffing Rate limiting + MFA + blocage IP Moyen
DDoS CDN / WAF (ex. Cloudflare) + offre anti-DDoS de l'hébergeur Moyen à élevé
Spam de formulaires Honeypots + CAPTCHA + tokens CSRF Facile
Scan de vulnérabilités WAF + mises à jour + réduction de la fuite d'informations (versions) Moyen
Bots SEO non désirés robots.txt + filtrage User-Agent Facile
Bots d'IA (GPTBot, etc.) robots.txt (respecté par les principaux crawlers d'IA) Facile

Réduire le trafic abusif et sécuriser votre site

Filtrage, durcissement, supervision des logs et bonnes pratiques d'hébergement : nous accompagnons les équipes pour limiter l'impact des bots malveillants et des attaques automatisées.