Comment le test a été monté
Le point de départ : 12 mois d'articles de blog et de scripts vidéo de l'équipe marketing d'Ahrefs chargés dans un projet ChatGPT, avec des instructions générées par ChatGPT lui-même à partir du contexte fourni. L'idée était de laisser l'IA comprendre le style, le ton et les conventions de l'équipe avant de lui demander de produire.
Les sources d'input : les mises à jour produit récupérées directement depuis Slack, copiées-collées dans le projet. Pas de rédaction humaine préalable, pas de brief éditorial. L'IA devait transformer des notes internes brutes en contenu publiable.
Le critère de succès était clair dès le départ : si le CMO ne peut pas distinguer le contenu IA du contenu humain, ou si la qualité est suffisamment proche pour justifier le gain de temps, le test est réussi. Si l'écart de qualité est trop visible, c'est un échec.
Test 1 : l'article de blog
Le premier draft avait des erreurs simples. Après une session de feedback avec un membre de l'équipe produit marketing, deux axes d'amélioration sont ressortis : moins de jargon technique, plus d'exemples concrets pour les fonctionnalités difficiles à comprendre. Instructions mises à jour, nouvelle génération, et le résultat était nettement meilleur.
Mais un problème est apparu en testant un deuxième article : les nouvelles instructions ont cassé les paramètres précédents. Le formatage a disparu, les placeholders d'images ont sauté, la structure s'est désorganisée. Plusieurs heures ont été perdues à déboguer les instructions avant de trouver une solution : télécharger le document du premier article, le réimporter, et demander à ChatGPT de générer le script à partir de ce fichier plutôt que de sa mémoire de session. C'est exactement le type de problème que l'architecture relationnelle résout : documenter les dépendances pour éviter les effets de bord.
Résultat final : deux versions présentées au CMO à l'aveugle. Il a identifié la version IA immédiatement sur la première tentative ("ça sonne IA tout de suite"), mais a été beaucoup plus hésitant sur la deuxième version améliorée ("c'est nettement meilleur, ça ressemble à nos vraies mises à jour").
Test 2 : le script vidéo
Le script vidéo a donné le résultat le plus surprenant du test. Les deux versions ont été présentées au CMO sous forme audio. Sa réaction sur la première version IA : "c'est nous, je n'ai pas besoin d'aller plus loin." Sur la version humaine : "maintenant je ne suis plus sûr."
Après réécoute des deux, son verdict a changé. La version IA utilisait des formulations comme "one-click presets" qui sonnaient comme du copywriting maison. Mais la version humaine transmettait l'information de façon plus directe, sans détour, avec une efficacité que la version IA n'atteignait pas complètement.
Son diagnostic : la version IA ne connaît pas vraiment le produit. Elle ne sait que ce qu'on lui a dit. Elle manque du contexte réel sur comment Ahrefs est utilisé au quotidien, ce qui crée des formulations soit trop complexes, soit trop génériques, sans le registre intermédiaire qu'adopte naturellement quelqu'un qui connaît à la fois le produit et ses utilisateurs.
Test 3 : la newsletter
Pour la newsletter, une approche différente a été choisie : créer un template avec le format exact attendu, puis remplir ce template avec le contenu du blog déjà généré. Le résultat était plus propre structurellement.
Mais le CMO a repéré un problème de fond dès les premières lignes : la newsletter présentait la vidéo produit au lieu de présenter le produit lui-même. "Notre newsletter doit vendre le produit, pas pitcher la vidéo." Un glissement d'objectif que l'IA n'avait pas anticipé parce qu'elle n'avait pas la compréhension de ce que la newsletter est censée accomplir.
Son évaluation finale : 60 %, pas 70 %. En dessous du seuil d'acceptabilité pour un envoi à des dizaines de milliers d'abonnés.
Le verdict du CMO
Question directe : est-ce un succès ? Réponse directe : non.
Mais avec une nuance importante. Selon l'estimation de l'équipe, les trois tâches représentent environ une semaine de travail humain. L'IA les a produites en 3 minutes. Le CMO reconnaît que si on peut passer de 60 % à 80-90 %, le contenu devient publiable. Et avec une intervention humaine ciblée sur les points faibles identifiés, ce seuil est atteignable.
Ce qui ne passe pas : l'IA ne sait pas communiquer avec intention. Elle produit du contenu sans objectif éditorial clair. Parfois trop technique, parfois trop générique, jamais avec la conscience précise de ce qu'on veut que le lecteur comprenne ou fasse après avoir lu. C'est exactement ce que le travail d'un bon product marketer implique.
Ce que le test révèle vraiment
Le test d'Ahrefs illustre un problème structurel dans l'utilisation de l'IA pour du contenu marketing B2B : l'IA ne peut travailler qu'avec ce qu'on lui donne. Si on ne lui fournit pas le contexte produit réel, la connaissance des utilisateurs, les conventions éditoriales non écrites et l'intention derrière chaque format, elle produit du contenu techniquement correct mais éditoralement vide.
Le gain de temps est réel et massif. Une semaine de travail en 3 minutes, c'est un rapport qui ne peut pas être ignoré. Mais ce gain ne se matérialise en valeur publiable qu'avec une couche humaine de révision ciblée, pas de relecture générale.
La leçon pratique : l'IA est efficace sur la structure et le volume, pas sur la connaissance produit et l'intention éditoriale. Pour les équipes marketing qui veulent en tirer de la valeur, le bon modèle n'est pas "l'IA remplace le marketer" mais "l'IA produit un premier jet que le marketer corrige sur les points précis où la connaissance produit est indispensable". Les 5 automatisations IA par département détaillent d'autres cas où cette approche hybride fonctionne.
Et le CMO sceptique au départ l'a reconnu lui-même : si on pousse le résultat à 80-90 %, il serait à l'aise pour publier. Le travail n'est pas de prouver que l'IA peut tout faire. C'est de trouver où elle s'arrête et ce que l'humain doit apporter à partir de là.


