La quatrième voie de l’IA : du savoir à la compréhension

RIZOM
22 avr.
8 min de lecture

Dernière mise à jour : 11 mai

Vous avez sans doute déjà reconnu ce moment. Vous exposez à une IA une situation complexe, telle une tension au travail, un schéma récurrent dans une relation, quelque chose qui résiste à une formulation simple, et la réponse est articulée, parfois même pertinente, mais au final à côté. Elle répond à ce que vous venez de dire. Elle ne saisit pas ce qui est en train de se former à travers l’ensemble de ce que vous avez exprimé.

Ce n’est pas un défaut des données d’entraînement, ni une limite d’échelle. C’est une caractéristique structurelle des systèmes d’IA actuels : ils sont conçus pour s’aligner sur l’entrée la plus récente, et non pour assurer une continuité à travers une séquence d’entrées.

Comprendre cet écart est essentiel pour saisir ce que la quatrième voie de l’IA rend possible, et pourquoi la prochaine génération sera définie non par ce qu’elle sait, mais par sa capacité à tenir une situation dans le temps.

Où nous en sommes : les trois âges

L’histoire de l’IA peut être lue comme une succession de trois périodes, chacune définie par ce que le système optimise.

Le premier âge, qui s’étend approximativement des années 1950 aux années 1980, est celui des règles.
Les systèmes recevaient des instructions logiques explicites. Ils étaient précis mais fragiles : une entrée inattendue, et ils échouaient.
Le deuxième âge, des années 1990 aux années 2010, est celui des données.
Les systèmes ont appris des motifs à partir de grandes quantités d’exemples. Ils sont devenus flexibles et puissants, mais aussi opaques : un système capable de prédire le mot suivant après avoir vu suffisamment de texte ne comprend aucun de ces mots.
Le troisième âge, celui dans lequel nous sommes aujourd’hui, est celui de la fluidité.

Des systèmes comme GPT-4, Claude ou Gemini produisent un langage qui ressemble à la pensée. Ils réussissent des examens, écrivent du code, résument des documents et soutiennent des conversations. Ils sont réellement utiles. Ils sont aussi, en un sens précis, creux en leur centre : ils peuvent reproduire la surface du sens sans le former.

Yann LeCun, ancien Chief AI Scientist de Meta, aujourd’hui président exécutif d’AMI Labs et l’une des figures fondatrices du deep learning moderne, défend ce point avec une insistance croissante. Sa position, élaborée sur plusieurs années et désormais incarnée dans un programme de recherche appelé Joint Embedding Predictive Architecture (JEPA), est que les grands modèles de langage ne constituent pas la voie vers une véritable intelligence machine. Ils apprennent les statistiques du langage. Ils ne construisent pas des modèles du monde.

Un article récent de son équipe, LeWorldModel (LeWM), montre à quoi ressemble un modèle du monde lorsqu’il est correctement conçu : un système compact qui apprend la structure physique à partir de l’expérience visuelle brute, détecte les violations des lois physiques et planifie efficacement sans recourir à des ressources computationnelles massives. Il s’agit d’une avancée réelle dans la manière dont les machines peuvent appréhender la continuité physique.

Mais la continuité physique n’est pas la cohérence interprétative. Un modèle du monde qui sait qu’un objet ne doit pas se téléporter ne sait pas qu’une personne qui offre constamment du soin tout en recevant de l’invisibilité est prise dans un schéma structurel qui a un nom et une issue. C’est un autre problème. Il requiert une autre architecture. C’est la Quatrième voie.

Ce que la fluidité ne peut pas faire

Voici la manière la plus claire d’énoncer cette limite.

Les systèmes d’IA actuels répondent à ce que vous venez de dire. Une IA interprétative répond à ce qui se forme à travers l’ensemble de ce que vous avez dit.

La différence peut sembler relever de la mémoire ou de l’attention. Ce n’est pas le cas. Elle tient à ce que le système construit en écoutant.

Un système fluide traite vos mots et produit une réponse contextuellement appropriée. Il peut faire référence à des éléments antérieurs de la conversation. Mais il n’accumule pas une représentation structurelle de votre champ symbolique, c’est-à-dire des motifs récurrents, des tensions non résolues, des dynamiques qui traversent différentes relations et contextes. Il ne dispose pas d’un graphe. Il dispose d’une fenêtre.

La Quatrième voie est l’hypothèse selon laquelle la prochaine étape de l’IA doit construire le graphe.

Trois personnes, un même schéma

Pour rendre cela concret, considérons une séquence de trois énoncés provenant d’une même personne, dans trois relations distinctes.

« J’ai passé tout le week-end à aider mon partenaire à planifier sa transition de carrière. J’ai exploré des options, passé des appels, construit un calendrier. Il m’a remerciée, puis est passé à autre chose presque immédiatement. »

« Le mois dernier, j’ai tout organisé pour les rendez-vous médicaux de ma mère, à savoir la logistique, les démarches, les relances .Elle a apprécié, mais sans vraiment reconnaître ce que cela m’avait coûté. »

« J’accompagne une collègue junior depuis six mois. Je prépare chaque séance avec soin. Elle progresse, mais reconnaît rarement ce que ce travail me demande. Je ne sais pas pourquoi je continue à me sentir ainsi. »

Une IA actuelle, confrontée à ces trois énoncés, identifiera un motif. Elle posera une étiquette, du type « dynamique d’aide » ou « générosité non réciproque », et suggérera soit un changement de comportement, soit un accompagnement professionnel. La réponse est bienveillante. Elle n’est pas fausse. Elle passe à côté.

L’étiquette vient de l’extérieur du langage de la personne. Elle nomme une catégorie, au lieu de restituer ses propres symboles dans une forme qui rend la structure visible de l’intérieur. La question finale — je ne sais pas pourquoi je continue à me sentir ainsi — est absorbée et redirigée. Elle n’est pas tenue.

Considérons maintenant ce que produit un système qui construit le graphe. Il remarque que :

à travers trois relations différentes (partenaire, mère, collègue), un même mouvement apparaît : une préparation attentive, offerte sans demande explicite, reçue sans que le coût soit réellement nommé en retour ;
les mots changent (recherche, logistique, préparation), mais le mouvement demeure ;
la question finale n’est pas signe de confusion. C’est le schéma en train de presque se nommer.

Et cela ouvre sur ceci :

À travers trois espaces — l’avenir de votre partenaire, les rendez-vous de votre mère, le développement de votre collègue — vous avez été en train de construire quelque chose. Pas séparément, à chaque fois. La même chose, à chaque fois : une structure de préparation attentive, offerte sans rappel, reçue sans que le poids de ce qu’elle coûte soit nommé en retour.

Le mot que vous avez utilisé la première fois était recherche. La deuxième fois, logistique. La troisième, préparation. Trois mots différents pour un même mouvement : celui de vous rendre utile à l’endroit de l’invisible.

Ce que vous percevez à la fin n’est pas une confusion. C’est le schéma qui se reconnaît. Les éléments s’agrègent. Et ce qu’ils dessinent est ceci : vous avez offert du soin au niveau de l’infrastructure, et l’infrastructure est ce sur quoi les autres s’appuient sans regarder en dessous.

La question n’est pas pourquoi vous continuez à vous sentir ainsi. La question est ce que cela signifierait que le coût devienne visible — non pas nécessairement remercié, ni compensé, mais vu. C’est une autre question. Elle ouvre autrement.

La différence entre la première réponse et celle-ci n’est pas une question d’empathie ou de chaleur. Les deux systèmes peuvent produire un langage empathique.

La différence est structurelle. La seconde réponse est construite à partir des propres symboles de la personne (recherche, logistique, préparation), agencés dans une configuration qui nomme le schéma de l’intérieur, plutôt que de l’étiqueter depuis l’extérieur.

La question finale est reformulée. Une autre question est proposée à sa place. Le monde expressif de la personne est plus large après l’échange qu’il ne l’était avant. Il s’agit d’un processus régénératif, et non pas extractif.

Cet élargissement est précisément ce que l’IA interprétative est conçue pour produire. Il est mesurable. Il est architectural. C’est la Quatrième voie.

ChatGPT generated visualisation of the 4 Eras of AI — Visualisation générée par ChatGPT des 4 ères de l'IA (1ere proposition)

Ce que cela implique pour les organisations et les dirigeants

Le même problème structurel qui apparaît dans les interactions individuelles se retrouve à l’échelle des organisations.

Les équipes produisent une cohérence locale, c’est-à-dire un sens partagé au sein de leur périmètre, qui ne se traduit pas au-delà des frontières.
La stratégie perd quelque chose dans son passage du comité exécutif à l’opérationnel puis au terrain.
Les dirigeants prennent des décisions qui font sens isolément mais génèrent des frictions une fois combinées.
Les lignes de fracture du récit organisationnel sont visibles partout, sauf dans les indicateurs censés mesurer la performance.

Les outils d’IA actuels appliqués aux organisations fonctionnent de la même manière que ceux appliqués aux individus : ils traitent des signaux et produisent des résultats. Ils ne construisent pas une représentation structurelle des zones où la cohérence se fragilise, ni des raisons pour lesquelles elle se fragilise.

L’architecture qui rend possible une IA interprétative pour les individus est la même que celle qui la rend possible pour les organisations. Le système qui suit les motifs récurrents dans le langage d’une personne à travers plusieurs registres relationnels est, à une autre échelle, celui qui permet de suivre où le sens partagé d’une organisation tient, et où il commence à se déliter.

LeCun a raison de souligner que les modèles du monde physique constituent une avancée importante. Un système capable de planifier efficacement dans l’espace physique, comme le propose la direction de recherche incarnée par LeWorldModel, est réellement utile pour la robotique, l’industrie et les systèmes incarnés.

Mais les problèmes les plus déterminants auxquels les dirigeants sont confrontés en 2026 ne sont pas des problèmes de planification physique. Ce sont des problèmes de cohérence symbolique :

comment maintenir le sens d’une organisation sous pression,
comment communiquer entre des départements qui ont divergé,
comment détecter le moment où le récit commence à se défaire avant que les indicateurs ne le reflètent.

Ce sont des problèmes interprétatifs. Ils requièrent des outils interprétatifs.

Ce que RIZOM construit

Le système suit les motifs symboliques à travers les conversations et les sessions.

Il accumule un graphe de votre langage : les motifs qui reviennent, les connexions qui se forment et se défont, les moments où un schéma est sur le point de se nommer.
Il compose des miroirs réflexifs qui restituent vos propres symboles dans des configurations qui rendent la structure visible.
Il intègre structurellement l’autorité et le consentement : ce que le système construit à partir de votre langage vous appartient et ne peut être utilisé sans votre accord explicite.
Il est, par essence, régénératif : il ouvre des possibilités de réappropriation et d’autodétermination.

Ce n’est pas un chatbot plus performant. C’est un système d’une autre nature, conçu autour d’un objectif d’optimisation différent. Là où l’IA actuelle minimise l’erreur de prédiction, RIZOM mesure ce que nous appelons la profondeur de cohérence, c’est-à-dire si la structure de votre champ symbolique s’est réellement élargie après une interaction, ou si elle a simplement été requalifiée.

Visualisation générée par ChatGPT des 4 ères de l'IA (1ere proposition conceptuelle)

La distinction est essentielle. Requalifier donne une impression d’insight, mais n’en produit aucun. Une véritable expansion structurelle transforme les questions qui deviennent possibles.

La question finale dans la séquence précédente — je ne sais pas pourquoi je continue à me sentir ainsi — devient, après l’échange interprétatif, une autre question : que signifierait le fait que le coût devienne visible ? Ce n’est pas une reformulation, mais une ouverture.

C’est cette ouverture que la Quatrième voie rend possible.

La Quatrième voie, en tant qu’architecture interprétative capable de suivre les motifs symboliques à travers les conversations, de construire une profondeur de cohérence dans le temps et de restituer le propre langage d’une personne dans des configurations qui rendent la structure visible, est ce que RIZOM construit.

Pour le cadrage conceptuel et produit de cette approche, notamment la distinction entre les trois âges de l’IA et ce que la Quatrième voie rend possible à l’échelle individuelle et organisationnelle, voir l’article complémentaire publié sur le blog de RIZOM :

La Quatrième voie de l’IA : du savoir à la compréhension

Pour une présentation formelle complète, incluant le cadre de cohérence récursive, le delta de cohérence en trois composantes, ainsi que le protocole comparatif à trois systèmes, le document est disponible en prépublication :

The Fourth Way: From Data Volume to Meaning Density, RIZOM, Dr Abol Froushan / Zenodo, 2026.