Comment les IA choisissent leurs sources : ce que tout site doit savoir
ChatGPT, Gemini et Perplexity ne citent pas les sites au hasard. Voici les critères techniques qui font la différence.
Les IA génératives ne citent pas les sites au hasard
Une idée reçue circule parfois : les IA comme ChatGPT ou Perplexity citeraient leurs sources de manière aléatoire, ou simplement en fonction de la popularité des sites. La réalité est plus nuancée. Si les algorithmes exacts ne sont pas publics, les observations convergent vers un ensemble de critères techniques et sémantiques qui favorisent certains sites.
Comprendre ces critères est le point de départ de toute stratégie GEO efficace.
Critère 1 : La structuration des données
Les IA qui crawlent le web (notamment Perplexity et le mode Search de ChatGPT) accordent une attention particulière aux données structurées. Un site qui déclare clairement son activité, sa localisation et ses services via Schema.org JSON-LD est beaucoup plus facilement interprétable qu'un site qui présente ces informations uniquement en texte brut.
Pourquoi ? Parce que le JSON-LD est un format non ambigu. "Boulangerie artisanale à Lyon, spécialisée dans les pains au levain" peut s'interpréter de plusieurs façons. Un schéma LocalBusiness avec serviceType: "Boulangerie artisanale" et addressLocality: "Lyon" est, lui, parfaitement explicite.
Critère 2 : L'accessibilité technique du contenu
Un site dont le contenu principal est rendu uniquement via JavaScript côté client pose des difficultés aux crawlers IA. Les informations essentielles — nom de l'entreprise, services, contact — doivent être présentes dans le HTML statique, accessible sans exécution de scripts.
Le fichier robots.txt est également scruté. Certains sites bloquent involontairement les crawlers IA. Vérifier que votre robots.txt n'interdit pas les principaux user-agents IA est une action simple et souvent négligée.
Critère 3 : La cohérence et la fraîcheur des informations
Les IA apprennent à détecter les incohérences. Si vos horaires sur votre site diffèrent de ceux dans votre schéma Schema.org, si votre adresse a changé mais n'est mise à jour que partiellement, ou si vos services listés ne correspondent pas à ce que décrivent vos pages, ces signaux négatifs réduisent la fiabilité perçue de votre source.
La fraîcheur joue également un rôle. Un site dont le contenu n'a pas été mis à jour depuis plusieurs années est considéré comme moins fiable, toutes choses étant égales par ailleurs.
Critère 4 : La clarté sémantique du contenu
Les IA génératives cherchent des réponses à des questions. Un contenu qui répond directement à une question spécifique — "Comment fonctionne l'installation d'une pompe à chaleur ?" ou "Quel est le délai moyen pour obtenir un devis de maçonnerie ?" — est plus facilement exploitable comme source qu'un contenu générique.
Les pages FAQ structurées sont particulièrement appréciées. Elles concentrent des réponses claires sur des sujets précis, dans un format que les IA peuvent directement citer.
Critère 5 : Le fichier llms.txt
Le llms.txt est un standard émergent — à la croisée du robots.txt (qui guide les crawlers) et du README (qui explique un projet). Il fournit aux agents IA une présentation synthétique et structurée de votre site : qui vous êtes, ce que vous faites, quelles sont les pages importantes.
Son adoption est encore limitée, ce qui représente un avantage pour les sites qui l'implémentent dès maintenant. Certains agents IA consultent ce fichier en priorité lors de l'analyse d'un site.
Critère 6 : Les signaux de réputation externe
Pour les moteurs IA qui agrègent des données du web en temps réel (comme Perplexity), la réputation externe joue un rôle. Les avis sur des plateformes tierces (Google My Business, Trustpilot), les mentions sur des sites de référence dans votre secteur, et les liens entrants de qualité contribuent à la crédibilité perçue.
Ces signaux sont analogues aux backlinks du SEO, mais leur poids relatif semble moins dominant qu'en SEO classique face aux critères de structuration.
Ce que ces critères impliquent pour une PME
La bonne nouvelle est que la plupart de ces critères sont accessibles à toute PME, indépendamment de sa taille ou de son budget. La structuration Schema.org, le llms.txt, la mise à jour du robots.txt et la cohérence des informations sont des actions techniques ciblées qui peuvent être réalisées en quelques jours.
Comment Agentable évalue et améliore ces critères
Agentable mesure précisément chacun de ces critères lors de l'audit GEO et produit un score sur 100. Pour chaque lacune identifiée, l'offre Fix génère les fichiers correctifs nécessaires : Schema.org complet, llms.txt personnalisé, méta-tags optimisés. L'objectif est de rendre votre site techniquement irréprochable aux yeux des moteurs IA.
Conclusion
Les IA génératives ne citent pas les sites au hasard. Elles suivent — implicitement ou explicitement — des critères techniques et sémantiques que les PME peuvent influencer. Comprendre ces critères et agir sur les plus accessibles est la démarche centrale du GEO. Plus vous attendez, plus vos concurrents ont de chances de prendre cette place dans les réponses IA avant vous.