Principes Théoriques des Arbres de Connaissances®

Le concept des " Arbres de Connaissances " a été élaboré en novembre et décembre 1991. Les principes sous-jacents à cette élaboration sont à la fois mathématiques, philosophiques et sociologiques. Il n’y a aucune raison de penser que l’une de ces trois dimensions a été plus importante que les deux autres. Chaque évolution dans l’une a permis ou suscité des avancées dans les autres. Face au développement de plus en plus sophistiqué des techniques d’analyse de données, notre démarche met en avant la nécessité d’une technique de synthèse de données pour faire émerger de la connaissance, du sens, d’un ensemble d’informations complexes. Cette démarche, qui vise à instrumentaliser la maîtrise de la complexité, nécessite l’implication de l’utilisateur (théorie moderne de l’observateur). A l’opposé d’une démarche analytique, cherchant à dévoiler les arcanes d’une complication extrême, qui tente de privilégier l’indépendance du résultat par rapport au manipulateur (théorie classique de l’objectivité).

Nous ne nous intéresserons dans ce texte qu’aux principes mathématiques qui permettent, à partir d’un ensemble pléthorique d’informations, d’en établir une synthèse et de la représenter sous la forme de cartes. S’il fallait à tout prix rattacher ces principes à un cadre théorique préexistant nous pourrions dire qu’aux nuances près on se situe dans le cadre de la théorie de l’agrégation des préférences individuelles ou théorie de l’utilité collective.

Le problème

Les solutions mathématiques sous-jacentes aux algorithmes proposés par TriVium dans Gingo sont liées au problème très général suivant.

  • Soit un ensemble de brevets (des variables) et un ensemble d’individus (sous-ensembles ordonnés de brevets). Notre concept d’individu s’apparente à celui construit par G.Simondon.
  • Existe-t-il une relation d’ordre sur les brevets qui ne contrarie pas l’ordre des listes ?
  • Si non, comment minimaliser l’affaiblissement des informations contenues dans les listes pour obtenir un ordre sur l’ensemble des brevets ?

L’approche développée par TriVium est une réponse à ce problème. L’ "espace solution" de la synthèse des informations liées aux individus peut être appelée " cinécarte ", celle que propose TriVium s’appelle " Arbres de Connaissances".

À la fin du XVIII ème, Condorcet dans ses études de mathématiques sociales (e. g. in : " sur la manière de connaître le vœu de la pluralité dans les élections " ou " Essai sur l’application de l’analyse à la probabilité des décisions rendues à la pluralité des voix "), se trouve confronté au problème de la construction de l’opinion générale à partir des opinions individuelles. On comprend facilement que l’ensemble des individus correspond à une collection d’opinions particulières et que l’Arbre de Connaissances ne serait rien d’autre que l’opinion générale recherchée. Si le problème trouve une solution pour deux personnes, au delà on se trouve confronté à des situations paradoxales. En 1951 Arrow dans " Social choice and individual values " prouve l’impossibilité de résoudre, sans autre information, le problème de Condorcet.

Statistique

Déjà Condorcet avait entrevu que pour " construire " l’opinion générale à partir des opinions particulières, il fallait admettre un principe extérieur qui résoudrait les situations de conflits entre les opinions, (c’est comme cela qu’il fonde le principe majoritaire). Il en fait par ailleurs une critique assez fine en démontrant qu’il faudrait, en fait, multiplier les procédures de choix pour résoudre son problème. D’autres approches seront proposées par la suite s’appuyant sur des techniques statistiques de plus en plus sophistiquées (qui peuvent servir à beaucoup d’autres choses) comme l’analyse factorielle de correspondance, l’analyse en composante principale, l’analyse des correspondances multiples, l’analyse factorielle multiple, l’analyse factorielle relationnelle, etc. Toutes ces méthodes demandent une bonne maîtrise des techniques mathématiques et un important travail de préparation des données doit être effectué : pondération, choix des groupements, typologie des variables, des individus, des modalités… Il est aussi nécessaire pour interpréter les résultats de bien maîtriser l’inertie des axes et le sens des facteurs, les formules de transition entre les nuages, les situations significatives (hiérarchies, effet Gutman, etc)… Dans tous les cas les résultats ne peuvent s’obtenir sans expertise pointue et sans une numérisation importante des données qui permettra, entre autre, de définir une métrique sur l’ensemble des informations de départ. Dans ce type d’approche (numérisation a priori) la proximité n’est rien d’autre que l’application de cette métrique.

Théorie des jeux

On pourrait aussi chercher dans la théorie des jeux l’origine des techniques mathématiques des Arbres de Connaissances. Même si un Arbre de Connaissances peut en quelque sorte apparaître comme un arbre de jeu, les techniques utilisées en théorie des jeux (algèbre linéaire, analyse mathématique, programmation linéaire, optimisation, probabilité, etc) sont très différentes de celles des Arbres de Connaissances. Par ailleurs un Arbre de Connaissances n’a rien à voir avec un " arbre de jeu ", dans la mesure où même si nous identifions à des joueurs chacun des individus, nous ne serions toujours pas dans une situation analogue puisque nous ne nous situons pas dans une situation où les joueurs jouent tour à tour, mais bien au contraire tous ensemble (à l’instar des musiciens d’un orchestre…). Soulignons au passage que les Arbres de Connaissances n’ont rien à faire des approches probabilistes dans la mesure où, par définition, ces approches ont tendance à écraser les événements rares par rapport aux plus probables alors que ce qui intéresse particulièrement les Arbres de Connaissances c’est de faire apparaître les signaux faibles qui sont le plus souvent liés à des événements rares, porteurs de sens.

Une approche originale : ni statistique, ni probabiliste

Les approches préconisées par TriVium tournent le dos aux méthodes que nous avons esquissées. A l’instar d’approches scientifiques contemporaines qui renoncent à expliquer les phénomènes par la connaissance des trajectoires précises des éléments qui y participent, nous ne cherchons pas à obtenir une solution par synthèse des causes associées au devenir de chaque information. Il s’agit pour les Arbres de Connaissances d’exprimer l’opinion générale d’un collectif d’agents, ceux (virtuels ou réels) qui expriment les listes ordonnées. Pour cela nous avons choisi d’élaborer cette synthèse en ne prenant en compte aucun individu particulier mais en les examinant tous ensemble, et en nous intéressant aux étapes successives de cette expression collective. Il s’agit d’une approche systémique où tout événement est impliqué dans l’ensemble du système. Chaque élément est partie inséparable du complexe et non pas un pôle bien défini lié inextricablement à un réseau d’autres pôles. C’est la raison pour laquelle toute variation sur les informations de départ est susceptible d’agir sur l’ensemble de la solution. Ainsi à la moindre mutation dans le système d’information le calcul de la synthèse sera intégralement refait. On comprendra donc l’importance de ne pas faire dépendre ce calcul d’un quelconque paramètrage et d’être assuré de sa promptitude.

Cette logique, où l’inférence propositionnelle est dissoute, dont nous ne connaissons pas d’équivalent en mathématique nous pourrions l’appeler " logique quantique " en assimilant chaque individu à une " possibilité " d’induction. Autrement dit, nous ne cherchons pas une solution qui expliciterait avec certitude quels sont les liens de dépendance entre les brevets, grâce à une analyse des individus. Par contre nous établissons avec précision une solution stable (c’est-à-dire invariante avec le lieu et le temps) qui définit sans contestation possible l’état des liens entre des sous-ensembles de brevets (couches) qui doivent être les plus petits possibles. La "logique quantique" à laquelle nous faisons allusion, par analogie avec la physique du même nom, ne cherche pas les effets des éléments particuliers (les particules), mais celui d’ensembles (les paquets de particules) dont on peut connaître avec précision le comportement alors même que l’on a admis le principe d’incertitude sur les éléments.

Puisque nous restons sur des ensembles finis, le langage d’expression peut être indifféremment celui des hypergraphes, celui de la topologie, celui des structures d’ordre. L’espace solution, par son existence même (et non l’inverse), établit une proximité qui permet de répondre rapidement aux interrogations du type " quels sont les n plus proches de… ? ", c’est donc un espace topologique sans métrique a priori, même s’il est possible a posteriori d’en établir une, puisque la topologie sera bien évidemment séparée. Sous cet aspect et à cause du mode récurrent d’élaboration de la solution, nous pourrions aussi appeler cette technique " topologie récursive ", puisque la topologie de l’espace solution se construit récursivement. C’est d’ailleurs cette récursivité qui a garanti la possibilité d’une solution informatique.

Principe d’optimisation

En fait ce que nous recherchons à travers l’élaboration de cet espace topologique c’est l’exhibition d’une forme qui donne un sens le plus en accord possible avec l’ensemble des informations présentes dans l’ensemble des individus. En clair cela signifie que la projection de chaque individu dans l’Arbre de Connaissances, doit permettre de retrouver au mieux les informations supportées par les individus. C’est ce principe que l’algorithme doit respecter pour générer " l’espace solution ".

En refusant toute métrique ou pondération comme condition à l’élaboration de la solution, la théorie des " cinécartes " permet de réagir très vite à toute modification de l’ensemble des informations de départ. D’une certaine manière la finalité de la représentation est de respecter le principe suivant : des opinions " proches " (c’est-à-dire peu divergentes), doivent avoir des représentations " proches " (au sens induit par la topologie) dans l’espace solution (l’Arbre de Connaissances). Cependant cette notion de proximité est plus puissante que celle habituellement admise. En effet elle permet de se faire une idée des rapports entre deux expressions, en intégrant les rapports entre toutes les autres expressions (référentiel contextualisé ou " relativiste "), et non pas sur l’unique examen de la distance entre ces deux expressions (référentiel absolu).

Il est bien évident que pour respecter le principe d’optimisation, les couches doivent être les plus nombreuses possibles et donc être minimales (par exemple s’il n’y avait aucune contradiction entre les individus, les couches se réduiraient chacune à un seul élément, et l’Arbre de Connaissances serait topologiquement équivalent à un bâton : ensemble de points totalement ordonné).

Des théorèmes originaux prouvent que les couches forment une partition de l’ensemble des brevets, que les liens entre les composantes connexes contenues dans les couches forment une arborescence, que les individus induisent une structure fine sur les couches, que l’ensemble de ces informations peut être représenté en une image 2D, topologiquement équivalente à un arbre.

Commentaires

La structure d’arbre n’est donc pas une finalité qui conditionne le traitement de l’information par les algorithmes, elle est la résultante du traitement par l’algorithme qui cherche à produire une forme qui contrarie le moins possible les formes particulières et triviales (des bâtons) induites par les individus. En aucun cas la forme " arbre " détermine le fonctionnement de l’algorithme. De plus cette forme n’induit pas qu’il existe une structure arborescente entre les brevets puisque dans certaines composantes connexes de couches peuvent figurer plusieurs brevets qui entre eux ne sont pas structurés de manière arborescente.

D’autres théorèmes permettent de réduire la complexité des calculs à la linéarité en fonction du nombre d’individus, et en n*log(n), n étant le nombre de brevets. Un algorithme de type totalement différent gère les positions de chaque brevet afin de générer la représentation. La même formule permet bien évidemment de resituer en " temps réel " chaque brevet à la moindre variation du système d’informations.

Bien évidemment aucun élément statistique ne participe à la structuration de la représentation. Il est par contre possible d’exprimer le quantitatif, en particulier à travers la " coloration " que peuvent prendre chaque élément de la représentation.

Pour conclure, il faut souligner que l’existence d’Arbres de Connaissances liés à des systèmes d’information différents, conduit à l’étude systématique d’une structure sur l’ensemble des " Arbres de Connaissances ", où peuvent être définies des opérations : somme, différence, dualité… Par exemple le concept très riche de dualité, omniprésent en analyse de données, trouve ici toute sa richesse et sa souplesse dans la mesure où les liens entre brevets et les individus peuvent parfaitement s’inverser. Ainsi, par exemple, est-il parfaitement indifférent de faire l’Arbre de Connaissances des produits sur lesquels un certains nombre d’individus ont exprimé leur préférence que de faire celui des individus qui ont exprimé leur préférence à propos d’un certain nombre de produits.

Si l’information statistique ne participe pas à l’élaboration de l’arbre, cela ne signifie pas qu’elle soit absente de la représentation. Toutes les informations statistiques sont directement accessibles, de surcroît elles sont rendues visibles par des effets de coloration des éléments de la représentation. L’analogie avec la cartographie est ici parfaite. La forme d’une carte ne dit rien du relief du territoire (que la coloration peut représenter), elle n’informe que sur le rapport à un certain niveau (généralement celui de la mer). Pour les arbres l’analogue de ce niveau sera le degré de contraintes appliquées à la structuration.

Comme cela est facilement visible cet algorithme soumet les informations à deux phases de structuration :

  • 1. l’identification des couches grâce au principe de " génération "
  • 2. l’identification des composantes connexes de couches grâce au principe de " connexité ".

Ces deux principes appliqués dans toutes leur " pureté " mathématiques peuvent très bien ne faire apparaître que des structures triviales ou totalement disparates au cas où les informations seraient ou fortement répétitives ou totalement contradictoires. Dans ce cas il est tout à fait possible d’affaiblir les contraintes imposées par l’un ou l’autre des principes, en introduisant les paramètres dans l’algorithme (fonction modulateur). Auquel cas il est possible d’obtenir une forme plus lisible, donc de faire émerger un sens plus explicite. Mais ceci est obtenu au prix d’une marge d’incertitude plus importante sur la façon dont l’algorithme respecte l’information qu’il traite. Cette marge d’incertitude est numérisée ; on peut donc affirmer que les outils de réglage de l’algorithme permettent de mesurer le delta d’erreur qui existe entre une forme qui donne sens à un ensemble d’informations et cet ensemble d’informations lui-même.

La notion d’incertitude est fondamentale pour comprendre la démarche scientifique et la pratique des " Arbres de Connaissances ". En effet la contrainte pour obtenir une solution non triviale c’est que certains brevets soient partagés par certains individus. Une identification totalement précise d’un brevet associé à un individu, nous conduirait à le concevoir tout à fait discernable (principe des indiscernables de Leibniz). La croyance dans le fait qu’une connaissance peut-être extraite à partir d’un ensemble d’informations, implique la possibilité d’élaborer du sens à partir de ce système d’information, donc d’admettre le partage de certains brevets, donc d’accepter un principe d’incertitude sur les déterminations des caractéristiques des brevets. Pour donner un exemple on ne peut élaborer de la connaissance sur les compétences qu’en admettant que l’identification absolument exacte de la compétence chez une personne n’a strictement aucun sens !

Quelques avantages de notre approche

La préparation des données peut être limitée au minimum dans la mesure où il n’est absolument pas nécessaire de pondérer les variables caractérisant les individus.

La dualité (individu/variable) est très facile à activer, puisque l’absence de pondération dispense des calculs de transposition.

La contextualisation ne pose aucun problème, puisqu’elle est par définition l’espace même de représentation de la solution : c’est-à-dire l’Arbre de Connaissances. En effet il n’y a pas d’espace (affine) préalable à la représentation de la synthèse ; il n’y a donc aucun référentiel absolu dans lequel viendrait se positionner des axes particuliers. L’espace topologique des variables est le produit des interactions entre tous les individus, il ne préexiste à aucun d’entre eux et varie avec chaque variation. Cela rend totalement vide de sens la notion de distance entre deux individus indépendamment des autres. Une fois de plus la contextualisation se fonde sur l’abandon de l’idée préconçue d’un référentiel absolu. Espace et individu se définissent, s’influencent mutuellement, structurellement cela n’est pas loin de ressembler à de la relativité.

L’absence totale de métrique préalable, permet aux signaux faibles (statistiquement rares, mais structurellement cohérents) de ne pas disparaître devant les signaux massivement répétés. Ainsi des phénomènes très rares peuvent apparaître très visiblement dans la représentation s’ils ne sont pas réductibles à des phénomènes plus massifs.

L’existence d’un espace établi topologiquement et non métriquement, n’empêche absolument pas de faire émerger une métrique de cet espace, les calculs sur les proximités sont alors possibles. De même l’espace pourra parfaitement supporter (rendre visibles) toutes les informations statistiques sur les variables. En particulier tout ce qui a trait aux logiques d’usage ; d’où la possibilité d’intégrer en temps réel les effets de l’exploitation du système d’informations par les utilisateurs. C’est ce qui permet de mesurer les implications et d’intégrer l’observateur dans le système lui-même.

La rapidité de visualisation de la synthèse d’un système d’information (environ 5 secondes pour un système d’information d’1 Mo sur un pentium 90) permet de faire de l’interprétation en simulant en permanence des évolutions dans le système d’information. On peut ainsi en quelques minutes simuler par dizaines les conséquences d’hypothèses de transformation du système d’information.

La rapidité de réaction de l’instrument aux variations du système, est ce qui permet la maîtrise de la complexité ; sans elle, il n’y aurait pas de moyen de réagir dans un temps suffisant à l’évolution constante de la réalité qui nous environne.

Il est bien clair que ce niveau de performance peut être atteint grâce au progrès des systèmes informatiques, mais plus encore grâce à l’extrême simplicité de la structure des données entrantes et la faible complexité de l’algorithmique implémentée.

mercredi 9 octobre 1996, par Michel Authier


Suivre la vie du site RSS 2.0 | Mentions Légales | Crédits | Conditions d'utilisation | Les auteurs | réalisé avec Spip