Vérité incertaine – Vérité approximative

Introduction

1Longtemps la logique a délaissé l’incertain, le vague et l’incohérent. Qu’on prenne par exemple le traité de logique de Scipion Dupleix [1] (1603) et on verra que la place qui y est faite aux syllogismes incertains est réduite (cf. son chapitre XVIII au livre 5 « De l’enthymème ») [2]. Cependant quand Boole [3] et De Morgan [4] au milieu du xix^e siècle fondent la logique moderne, ils accordent une place importante au raisonnement probabiliste, à côté de leurs travaux sur le calcul propositionnel. Ainsi la seconde moitié du livre célèbre de Boole sur les « Lois de la pensée » est-elle entièrement consacrée aux probabilités dans le raisonnement.

2Les développements de la logique formelle au xx^e siècle ont été pour leur plus grande part motivés par des questions touchant aux fondements des mathématiques, ou à la formalisation de l’idée de démonstration (à partir d’énoncés mathématiques), malgré diverses tentatives de dépassement de la logique classique (logique intuitionniste, logiques modales, logiques multivalentes, …). Et des travaux de Boole et De Morgan, on ne retiendra que leurs contributions aux développements des premiers éléments d’un calcul algébrique pour le raisonnement symbolique, oubliant leur intérêt pour la formalisation des syllogismes (qui faisait entre autres appel aux probabilités). Ce n’est que depuis environ vingt-cinq ans que les préoccupations de l’intelligence artificielle pour représenter et mécaniser le raisonnement humain ont conduit à différentes propositions de nouveaux calculs logiques ayant tous pour but la modélisation de raisonnements de « sens commun ». Ainsi, avec l’arrivée des ordinateurs, c’est l’ambition de stocker des connaissances et le besoin de raisonner à partir d’elles sur la base d’informations incomplètes, incertaines, vagues ou incohérentes et de mécaniser ces raisonnements qui ont conduit les chercheurs en intelligence artificielle à tenter de développer de nouveaux outils logiques répondant à ces objectifs.

3Soulignons que cette recherche est motivée par le fait que les connaissances et les informations disponibles, même émanant d’experts, sont dans beaucoup de problèmes souvent empreintes d’incertitude, et que l’information dont on dispose sur les cas auxquels on veut appliquer la connaissance experte est le plus souvent incomplète. Cette situation n’est peut-être pas sans analogie avec la situation de la physique où la réalité est aussi incertaine [5]. Cette situation se rencontre aussi en économie dans une perspective de décision. Ces motivations sont très différentes de celles qui ont conduit aux développements de la logique formelle dans la première moitié du xx^e siècle, à partir de la problématique du fondement des mathématiques. D’où parfois des incompréhensions entre chercheurs en intelligence artificielle et logiciens des mathématiques. Le propos de l’intelligence artificielle dans sa mouvance logique rejoint au contraire celui des philosophes de la connaissance, et notamment les premiers d’entre eux qui, tel Aristote, cherchaient à comprendre les formes du raisonnement humain.

4La logique classique ne permet pas, par exemple, de manipuler des règles pouvant présenter des exceptions et d’en tirer parti quand l’information est trop incomplète pour savoir si on est ou non dans une situation exceptionnelle ; elle ne permet pas de raisonner aisément avec des prémisses incertaines, des croyances acceptées (on a davantage confiance en un énoncé qu’en son contraire), ou avec des propriétés graduelles (qui peuvent être satisfaites à différents degrés) ; elle devient totalement inopérante en cas d’incohérence de la base de connaissances. Nous verrons dans la suite que, d’un point de vue sémantique, les différentes problématiques du raisonnement considérées mettent en jeu des relations d’ordre entre les interprétations ou entre des énoncés notamment, ou encore des relations de similarité entre les interprétations. On est ainsi amené à distinguer entre des vérités incertaines (parce qu’elles pourront être éventuellement remises en cause à l’arrivée de nouvelles informations, ou encore parce qu’elles sont fondées sur des prémisses acceptées mais incertaines, voire sur des prémisses en conflit avec d’autres informations) et des vérités approximatives (reflétant des propriétés graduelles incomplètement satisfaites, ou des énoncés, à strictement parler faux mais qui légèrement modifiés deviennent vrais).

5Même si dans les deux cas on a recours à des calculs logiques à plusieurs valeurs, il convient, comme le faisait déjà De Finetti [6], de soigneusement distinguer entre des attitudes de doute, dues à un manque d’information, quant à des propositions qui ne peuvent être que vraies ou fausses (on parlera alors de vérités incertaines), et le besoin de condenser un ensemble structuré de propositions binaires dans une seule entité logique susceptible de recevoir des valeurs de vérité autres que le vrai et le faux (on en verra deux exemples dans la suite dont celui des vérités approximatives induites par la prise en compte de propriétés graduelles).

6Si la question des énoncés vagues appartient depuis longtemps à la philosophie de la logique [7], le problème du raisonnement à partir d’informations incomplètes ou incertaines et l’évaluation de la vérité des énoncés en référence à l’information disponible a peu encore retenu l’attention des philosophes, semble-t-il [8]. Ces recherches conduisent à une vision de la vérité qui est plus locale [9] en ce qu’elle est relative à un état de connaissance, voire à une partie cohérente d’une base de connaissances globalement incohérente.

7Différents types de raisonnement sont successivement considérés dans cet article. La deuxième section traite du raisonnement à partir de prémisses incertaines ou vagues. Pour ce faire, cette section introduit des éléments de la théorie des possibilités, qui seront également nécessaires à la section suivante. Le raisonnement par défaut qui applique des règles présentant des exceptions à des situations incomplètement connues fait l’objet de la troisième section. La quatrième section aborde le problème du raisonnement à partir de différentes sources d’information partiellement incohérentes, tandis que la cinquième section s’intéresse aux énoncés comportant des prédicats graduels et aux raisonnements interpolatifs ou basés sur la similarité. Dans chaque section, on indique quels types de calculs logiques et de machineries déductives peuvent être proposés pour formaliser ces raisonnements de manière rigoureuse.

Informations incertaines – informations vagues

La situation en logique classique

8En logique classique – nous nous restreindrons au calcul propositionnel pour la simplicité de l’exposé –, une proposition p est associée à un ensemble d’interprétations, noté [p], qui rendent la proposition vraie ; ce sont les modèles de p. Une interprétation correspond à un état du monde, ou une situation donnée, dans laquelle on peut attribuer à chaque proposition son degré de vérité. On s’intéresse ici à représenter des états de connaissance d’un agent relativement à l’état réel du monde. Un état de connaissance est décrit par une base de connaissances K constituée d’un ensemble de propositions {p₁, …, p_n} considérées comme vraies par l’agent. On associe à K l’ensemble de ses modèles, c’est-à-dire les interprétations communes à tous les [p_i], soit [K] = [p₁] ?… ? [p_n] ; la machinerie inférentielle de la logique classique permet alors de conclure q si et seulement si on a, au plan sémantique, [K] ? [q], c’est-à-dire que q est vrai pour toute interprétation compatible avec la base de connaissances K. En particulier, si K est incohérent, c’est-à-dire [K] = Ø, n’importe quelle proposition peut être déduite. Par ailleurs, on peut bien entendu toujours déduire de la base K les propositions qui la constituent ; en effet, ? i, [K] ? [p_i].

9La formalisation qui vient d’être décrite correspond à un état de connaissances où toutes les propositions contenues dans K sont également certaines et où toutes les interprétations qui appartiennent à [K] sont également plausibles. Relativement à l’état de connaissance K, notons qu’une proposition q, non explicitement dans K, peut être vraie ([K] ? [q]), ou fausse ([K] ? figure im1 , où la barre de surlignage indique la complémentation), ou encore être dans un état de vérité inconnu si [K] ? [q] ? Ø et [K] ? figure im2 ? Ø. Ce dernier état ne correspond pas cependant à une troisième valeur de vérité ; en effet il n’est pas « vérifonctionnel » [10] puisque par exemple il est possible que la valeur de vérité de q (et donc de ¬q puisque [¬q] = figure im3 soit inconnue, alors que q ? ¬q est bien sûr toujours une tautologie, et est donc toujours vraie (en effet ? K, [K] ? [q ? ¬q] = [q] ? figure im4 ). Alors que la valeur de vérité (vrai ou faux) d’une formule logique propositionnelle se calcule à partir des valeurs de vérité des formules élémentaires qui la composent, on ne peut pas conclure si la valeur de vérité de q ? r, par exemple, est inconnue ou non, simplement à partir du fait que les valeurs de vérité de q et de r sont inconnues. Quand la valeur de vérité de q est inconnue, on est dans un état d’incertitude (non quantifié) quant à q, compte tenu de l’information disponible représentée par [K].

Ordonner les interprétations selon leur plausibilité

10Quand la situation de vérité inconnue peut se produire, l’état de connaissance décrit par K est dit « incomplet » ; un état de connaissance complet correspond au cas où K n’a qu’un seul modèle et où donc toute proposition q peut être établie soit comme vraie, soit comme fausse à partir de K. Il est possible d’affiner la description des états de connaissance incomplets en introduisant une relation d’ordre entre les états possibles du monde. Comme on va le voir, cet ordre entre les interprétations induit un ordre sur les propositions dans K. Réciproquement, à partir d’un ordre sur les propositions, il sera possible de définir un ordre associé sur les interprétations.

11Soit ? l’ensemble, supposé fini pour la simplicité de l’exposé, des interprétations possibles considérées. Supposons tout d’abord les interprétations ? classées par l’agent selon leur niveau de plausibilité ?(?) (plusieurs interprétations peuvent avoir le même niveau de plausibilité). Ceci peut être codé en utilisant l’échelle [0, 1] (ou une échelle totalement ordonnée éventuellement finie) avec les conventions suivantes ?(?) = 0 signifie que ? est impossible, qu’en aucun cas ce n’est un état possible du monde, tandis que ?(?) = 1 correspond aux états les plus plausibles. On suppose par convention qu’il existe au moins un ? tel que ?(?) = 1, c’est-à-dire qu’au moins un état du monde est complètement possible. Si toutes les interprétations sont complètement possibles (? ?, ?(?) = 1), alors l’agent est dans une situation d’ignorance totale. Au contraire, si une seule interprétation est possible, l’agent est dans un état de connaissance complète. À partir de ?, on définit une fonction de possibilité ?, telle que

13Ainsi la proposition q est d’autant moins surprenante pour l’agent, que ?(q) est grand, c’est-à-dire qu’il existe au moins une interprétation plausible qui la rende vraie. ?(q) estime à quel point il existe un modèle de q qui est plausible, c’est-à-dire à quel point q est cohérent avec l’état plus ou moins plausible du monde. Une fonction duale N, dite de nécessité, est associée à II :

15La relation N(q) = 1 – ?(¬q) peut être vue comme une contrepartie valuée de la dualité entre le possible et le nécessaire en logique modale. N(q) estime à quel point toutes les interprétations qui rendent q faux sont peu plausibles. N(q) exprime donc à quel point q est certain étant donné l’ordre sur la plausibilité des interprétations, exprimé par ?. N(q) > 0 équivaut à ?(¬q) < 1, ce qui signifie que ¬q n’est pas complètement possible, ou encore que q est vraie dans toutes les situations les plus plausibles, c’est-à-dire que l’agent s’attend à ce que normalement q soit vraie. N(q) > 0 correspond donc à l’idée d’acceptation de q par l’agent. Celui-ci refusera d’autant plus de remettre en cause q que N(q) est grand. Il est facile de vérifier que ? et N sont compositionnels pour la disjonction et la conjonction respectivement, c’est-à-dire

17Ce qui exprime que la proposition q ? r est d’autant moins surprenante que q est possible ou r est possible et que, par ailleurs, la proposition q ? r est acceptée dès que q et que r le sont. Par contre ? (q ? r) (resp. N(q ? r)) n’est pas une fonction de ?(q) et de ?(r) (resp. N(q) et N(r)). En effet on doit aussi avoir N(q ? ¬q) = 1 alors que N(q) et N(¬q) ne sont contraintes que par la relation min(N(q), N(¬q)) = 0. Cela signifie que l’agent ne peut à la fois accepter q et ¬q, mais il peut n’accepter ni l’un ni l’autre. La tautologie q ? ¬q est certainement vraie même si on ne sait rien de la vérité ou de la fausseté de q, et par suite, N(q) et ?(q) ne peuvent donc pas être assimilés à des degrés de vérité vérifonctionnels. Dans le cas particulier, où ? n’est autre que la fonction caractéristique d’un ensemble tel que [K], on retrouve la situation déjà décrite.

Bases de connaissances stratifiées

18On vient de voir comment à partir d’un ordre de plausibilité sur les interprétations on pouvait associer un degré de certitude ou d’acceptation N(q) à une proposition q. Observons que, comme on a ?(q ? ¬q) = 1 = max(?(q), ?(¬q)), on doit avoir ?(q) = 1 dès que N(q) > 0 (et donc N(q) = 0 dès que ?(q) < 1), c’est-à-dire qu’une proposition doit être d’abord totalement possible avant d’être tant soit peu acceptée. Considérons maintenant une base de connaissances K organisée en couches K_i, i = 1, n telles que K= K₁ ?…? K_i ?…? K_n, où toutes les propositions contenues dans K_i sont supposées avoir le même niveau de certitude ?_i avec la convention que ?₁ = 1 >… > ?_i >… > ?_n > 0. Une telle stratification de la base de connaissances permet de distinguer entre les informations complètement certaines (qui sont dans K₁) et d’autres dont l’acceptation est de moins en moins affirmée (ou, si l’on préfère, de moins en moins enracinée). Chaque proposition est ainsi associée à un niveau d’acceptation ?_i La logique qui permet d’inférer à partir de formules pondérées de la sorte est appelée « logique possibiliste » [11]. La stratification qui ordonne les propositions selon leur « enracinement épistémique », pour citer Gärdenfors [12], induit un ordre sur les interprétations comme on va le voir. En effet, interprétons sémantiquement l’appartenance de p à K_i comme N(p) ? ?_i, cela signifie encore que ?(¬p) ? 1 – ?_i [13] et que donc toute interprétation ? ?[¬p] est au plus plausible au degré 1 – ?_i, c’est-à-dire que

20On peut faire ce raisonnement pour la conjonction des. propositions de K_i. On obtient donc pour toute couche i : ? ? ? figure im9 , ?(?) ? 1 – ?_i, tandis que ? ? ? [k_i], ?(?) ? 1 (puisqu’il n’y a pas de contrainte) et ce pour tout i. Soit [K_i; ?_i] l’ensemble dont la fonction caractéristique vaut 1 si ? ? [K_i] et 1 – ?_i si ? ? figure im10 ; puisque cette fonction caractéristique prend des valeurs autres que 1 ou 0, il s’agit à strictement parler d’un ensemble flou [14]. Cela correspond à saturer les contraintes exprimées par les inégalités ci-dessus et à allouer aux interprétations les plus grands degrés de plausibilité en accord avec les contraintes. C’est le principe dit de minimum de spécificité qui exprime qu’on ne doit pas rendre l’information plus précise ou plus certaine qu’elle n’est en abaissant arbitrairement le niveau de plausibilité des interprétations. À partir des ensembles flous [K_i ; ?_i] on construit, par intersection, l’ensemble flou [K^*] des interprétations plus ou moins plausibles au sens de K

22où l’intersection est définie en prenant le minimum des degrés d’appartenance aux ensembles flous [K_i ; ?_i], interprétation par interprétation. Ce résultat correspond encore à l’application du principe de minimum de spécificité aux contraintes correspondant à l’ensemble des couches. Il est facile d’établir que la fonction caractéristique de [K^*] est normalisée (il existe au moins une interprétation qui appartient à [K^*] avec le degré 1), si et seulement si [K] = [K₁] ?… ? [K_i] ?… ? [K_n] ? Ø, c’est-à-dire si la base de connaissances, abstraction faite des niveaux de certitude, est cohérente. On a donc associé à une base stratifiée un ordre de plausibilité sur les interprétations. Si les formules de la base K sont logiquement indépendantes, on peut vérifier que ? p ? [K_i] N^*(p) = ?_i où N^* est la fonction de nécessité associée à ?, la fonction caractéristique de [K^*]. [K^*] représente bien la sémantique de la base stratifiée. Il a de plus été établi [15] un théorème de correction et de complétude pour la logique possibiliste par rapport à la sémantique qu’on vient de décrire. Ce théorème dit en substance que q peut Être déduit au sens classique de K avec un niveau de certitude au moins égal à ß (obtenu comme le plus petit des niveaux de certitude des propositions apparaissant dans la preuve de q) si et seulement si on a N^*(q) ? ß.

Informations vagues

23On vient de voir qu’un ordre sur la plausibilité des interprétations possibles était naturellement induit par la stratification d’une base de connaissances selon différents niveaux d’acceptation ou de certitude. Un tel ordre peut également être induit par la spécification d’informations comportant des prédicats vagues. Ainsi l’information « Jean est grand » pourra être représentée, selon la proposition de Zadeh [16], par une fonction ? qui exprimera que ? est une valeur d’autant plus plausible de la taille de Jean que ? est une grande taille. L’information vague « Jean est grand » ne peut donc être représentée en pratique que si dans le contexte dans lequel on se trouve on peut convenir de ce que « grand » veut dire : c’est-à-dire expliciter quelles sont les valeurs ? complètement incompatibles avec l’idée de grand (dans ce contexte) qui seront impossibles pour la taille de Jean et donc telles que ?(?) = 0 ; quelles sont les valeurs ? complètement compatibles, typiques de cette idée de « grand », qui seront totalement possibles pour la taille de Jean et donc telles que ?(?) = 1 ; les autres interprétations recevront alors des valeurs intermédiaires entre 0 et 1 d’autant plus proches de 1 que la taille est grande. Dans l’exemple où la taille est définie sur un référentiel continu, on pourra justifier une transition linéaire entre les valeurs impossibles et les valeurs typiques, si on ne dispose pas dans ce contexte de raisons permettant d’attribuer différemment les niveaux de plausibilité. Il convient en effet d’insister sur l’absence de modèle universel et absolu de l’idée de « grand » ; le sens précis de tels prédicats dépend du contexte et de celui qui les utilise.

24On peut montrer que la fonction ? peut toujours être formellement représentée par une famille de sous-ensembles emboîtés les uns dans les autres auxquels sont attachés des degrés reflétant à quel point il est certain que, dans notre exemple, la valeur de la taille de Jean appartienne à ce sous-ensemble. La certitude est d’autant plus grande que les valeurs des interprétations en dehors de ce sous-ensemble sont toutes peu plausibles. Ainsi l’information « Jean est grand » permet de dire qu’on est totalement certain que la valeur de la taille de Jean appartient à l’ensemble des interprétations ? telles que ?(?) est non nul, et de manière plus générale que l’ensemble {?, ?(?) ? ?} contient la valeur de la taille de Jean avec une certitude égale à 1 – ?, et ce pour tout ?. De cette manière, on voit qu’une information vague équivaut à une famille d’informations incertaines, emboîtées puisque {?, ?(?) ? ?} ? {?, ?(?) ? ß} dès que ß ? ?, les informations les plus certaines correspondant aux ensembles les plus grands. Cette famille pourra être éventuellement finie en particulier si l’ensemble des interprétations considérées est fini (ce sera le cas dans notre exemple, si on ne distingue qu’entre les différentes valeurs possibles de taille humaine exprimables en centimètres par exemple).

Vérité incertaine

25Á partir d’une fonction ordonnant les interprétations possibles du monde considéré selon leur niveau de plausibilité, que cette fonction soit induite par une stratification d’une base de connaissances classique comme on l’a vu dans la section traitant des bases de connaissances stratifiées ou par la représentation d’informations exprimées à l’aide de prédicats vagues comme on vient de le voir, on est en mesure d’évaluer à quel point il est possible et à quel point il est certain qu’un énoncé q (correspondant à une proposition classique) soit vrai (ou soit faux). Si ?(q) = N(q) = 1, la proposition q est vraie, cela correspond au cas où [q] ? {?, ?(?) > 0} ; si ?(q) = N(q) = 0, elle est fausse (cela correspond au cas où [q] ? {?, ?(?) = 0}. Dans tous les autres cas, la vérité (ou la fausseté) de q est incertaine, mais elle n’est pas totalement inconnue, au sens où l’ordre sur les interprétations permet d’évaluer s’il est quelque peu certain que q soit vrai (N(q) ? ? > 0, ? (q) = 1 ? ? ? > 0, [q] ? {?, ?(?) > 1 – ? }) ou que q soit faux (N(q) = 0, ?(q) ? ß) < 1 ? ? ß < 1, [q] ? {?, ?(?) ? ß}).

26Comme il a déjà été dit, ?(q) et N(q) ne sont pas des degrés de vérité, car ils ne sont pas vérifonctionnels par rapport à tous les connecteurs logiques. En cela la situation est la même qu’avec une approche probabiliste de l’incertain. Dans ce dernier cas, on dispose d’une fonction de probabilité p sur les interprétations, à partir de laquelle on peut calculer la probabilité d’un énoncé q, comme Prob(q) = ?{p(?) | ? ?[q]} (la somme devant être remplacée par une intégrale si le nombre d’interprétations n’est pas fini). En effet, il est bien connu que la probabilité n’est vérifonctionnelle que pour la négation (Prob(¬q) = 1 – Prob(q)). On peut d’ailleurs montrer de manière générale qu’on ne peut pas avoir un calcul de l’incertain complètement vérifonctionnel pour des propositions booléennes (qui ne peuvent être que vraies ou fausses), si on utilise une échelle de niveaux d’incertitude, totalement ordonnée, à plus de deux niveaux. Notons enfin que le cadre probabiliste de l’incertain requiert d’une part, à la différence des possibilités, une échelle d’incertitude plus qu’ordinale (puisqu’on doit effectuer des sommes et des produits sur les degrés), et ne permet pas d’autre part de distinguer entre l’absence totale de certitude que q soit vrai et la certitude que q soit faux puisque Prob(q) = 0 équivaut à Prob(¬q) = 1, alors que N(q) = 0 n’implique rien sur la valeur de N(¬q) (on a seulement N(¬q) = 1 ? N (p) = 0.

Raisonner avec des règles à exceptions

Représentation possibiliste des règles

27On peut être amené à inférer des conclusions incertaines sans pour autant être en mesure d’évaluer l’incertitude de ces conclusions. C’est le cas du raisonnement par défaut à partir de règles pouvant présenter des exceptions, mais qui sont applicables à des situations incomplètement connues. Les recherches en intelligence artificielle depuis plus de vingt ans sur les logiques dites « non monotones » ont mis en avant le problème posé par l’usage dans une même base de connaissances de règles telles que « les oiseaux volent », « les pingouins sont des oiseaux » et « les pingouins ne volent pas » [17], qui conduisent à une incohérence dès qu’elles sont appliquées ensemble à un pingouin. Pourtant une règle telle que « les oiseaux volent », même si elle est sujette à de nombreuses exceptions (pingouins, autruches, …), est néanmoins utile quand on ne dispose que de l’information – incomplète – qu’on a affaire à un oiseau, pour conclure, au moins provisoirement, qu’il vole, quitte à revenir ultérieurement sur cette conclusion si on apprend qu’il s’agit d’un pingouin (d’où l’aspect « non monotone » de l’inférence à formaliser) [18].

28L’incertitude attachée à une règle du type « généralement si p, alors q » ne peut pas toujours être quantifiée. Il peut cependant être naturel de l’interpréter en exprimant qu’il est strictement plus plausible de se trouver dans une situation où p ? q est vrai plutôt que dans une situation où p ? ¬q est vrai. En termes de fonction de possibilité, ceci peut s’écrire sous la forme de la contrainte

30On peut voir que cette contrainte sur la fonction de possibilité représentant l’information disponible est équivalente à dire que tous les modèles les plus plausibles de p sont parmi les modèles de q (puisque ?(p) = max(?(p ? q), ?(p ? ¬q)) et que donc la contrainte entraîne ?(p) = ?(p ? q)). Cela correspond à la sémantique de l’inférence préférentielle d’abord proposée par Shoham [19] pour les logiques non monotones où on peut inférer « préférablement » q à partir de p, si les modèles « préférés » de p sont tous des interprétations qui rendent q vrai. La contrainte ci-dessus peut aussi être vue comme l’expression d’une « croyance acceptée » au sens défini plus haut. En effet accepter q (au sens d’une fonction g évaluant la confiance) suppose qu’on a une plus grande confiance en q qu’en ¬q, c’est-à-dire que l’on a g(q) > g(¬q). La condition ?(q) > ?(¬q), qui équivaut à N(q) > N(¬q) (et donc N(q) > 0) exprime bien qu’on accepte q. La contrainte représentant la règle par défaut « généralement si p alors q » revient à conditionner la contrainte N(q) > N(¬q) par la proposition p et exprime donc, en termes de fonction de possibilité, l’acceptation de q dans le contexte où p est vrai. Elle correspond d’ailleurs à une notion de possibilité conditionnelle ?(q|p) selon laquelle ?(p ? q) > ?(p ? ¬q) équivaut à N(q|p) = 1 – ?(¬q|p) > 0 [20]. Comme l’ont souligné différents auteurs, notamment Gärdenfors et Cohen [21], un ensemble de croyances acceptées doit être fermé pour la déduction classique :

–) si on accepte q, on accepte aussi r si q implique r ([q] ? [r]) ;
–) si on accepte q et si on accepte r, on doit accepter q ? r.

32Ces deux conditions sont satisfaites par les fonctions de possibilité (et par les fonctions de nécessité duales) ; mais la deuxième condition n’est pas satisfaite par la plupart des mesures de probabilité (en effet Prob(q) > Prob(¬q) ? Prob(q) > 1/2, et on peut avoir Prob(q) > 1/2, Prob(r) > 1/2 et Prob(q ? r) < 1/2 simultanément). Il convient encore que ces deux conditions, exprimant la fermeture de la notion d’acceptation pour la déduction, restent satisfaites quand on conditionne par un contexte p ; c’est le cas pour les fonctions de possibilité.

33Appliquer une base de règles par défaut « généralement si p_i, alors q_i; » (i= 1, n) à une situation particulière décrite par une proposition p, revient à déduire, dans le contexte p, une proposition q à l’aide de connaissances génériques constituées par les règles. C’est-à-dire qu’à partir des inégalités ?(p_i ? q_i) > ?(p_i ? ¬q_i) pour i=l, n il faut établir l’inégalité ?(p ? q) > ?(p ? ¬q), ce qui exprimera que dans le contexte p on a généralement q. Quand on modifiera le contexte p en un contexte p’ plus particulier (par exemple on apprend qu’on a affaire à un pingouin et non plus simplement à un oiseau), la conclusion q’ qu’on pourra établir à partir de la même base de règles par défaut sera éventuellement en contradiction avec la conclusion q obtenue précédemment. Deux types d’inférence peuvent être considérés dans ce cadre : on peut

soit s’intéresser aux conclusions obtenues à partir de la plus grande des fonctions de possibilité qui satisfait l’ensemble des n contraintes ?(p_i ? q_i) > ?(p_i ? q_i) représentant la base de règles, c’est la solution qui satisfait le principe de minimum de spécificité ; on peut dans ce cas utiliser la machinerie inférentielle de la logique possibiliste [22] puisque cette fonction de possibilité est associée à une fonction ? codant un ordre de plausibilité (ou encore, puisqu’il s’agit ici d’une connaissance générique, un ordre de plus ou moins grande normalité) entre les interprétations ;
soit ne considérer que les conclusions, correspondant à des inégalités ?(p ? q) > ?(p ? ¬q), qui sont dérivables quelle que soit la fonction de possibilité satisfaisant aux n contraintes ?(p_i ? q_i) > ?(p_i ? ¬q_i). Il est clair que ce mode d’inférence, plus prudent, conduira à moins de conclusions.

Dans le cas où il n’existe aucune solution ? au système de contraintes ?(p_i ? q_i) > ?(p_i ? ¬q_i) pour i = l, n, cela signifie que la base de règles est en elle-même incohérente au sens où il existera nécessairement des contextes conduisant à des contradictions même en tenant compte de la possibilité pour les règles d’avoir des exceptions. C’est le cas par exemple si on a à la fois ?(p_i ? q_i) > ?(p_i ? ¬q_i) et ?(p_j ? q_j) > ?(p_j ? ¬q_j) pour p_j = p_i et q_j = ¬q_i, ce qui correspond aux deux règles contradictoires « généralement si p_i alors q_i » et « généralement si p_i alors ¬q_i ».

Représentation en termes d’objet conditionnel

34Le second type d’inférence peut également être formalisé en termes d’« objets conditionnels » ou événements conditionnels. Il s’agit d’une entité algébrique, qui peut être vue comme la contrepartie logique d’une probabilité conditionnelle, pouvant présenter trois valeurs de vérité. L’objet conditionnel q|p, qui code une règle à exceptions de la forme « généralement, si p alors q » prend la valeur de vérité « Vrai » si p et q sont vrais, la valeur « Faux » si p est vrai et si q est faux, et enfin la valeur de vérité « Inapplicable » dès que p est faux (que q soit vrai ou faux). De Finetti [23] a été le premier à considérer de telles entités et a développé l’esquisse d’un calcul logique pour elles. On peut notamment définir une relation de conséquence logique qui dans la perspective des règles par défaut peut s’interpréter de la façon suivante : s|r est une conséquence de q|p si et seulement si les exemples de q|p (qui rendent vrai p ? q) sont des exemples de s|r, et les contre-exemples de s|r (qui rendent vrai r ? ¬s) sont des contre-exemples de q|p. Cette relation de conséquence peut s’interpréter simplement à l’aide des trois valeurs de vérité, en exprimant que la valeur de vérité de s|r est toujours au moins aussi grande que celle de q|p (au sens d’un ordre Faux < Inapplicable < Vrai ). Ce n’est que récemment que plusieurs chercheurs ont redécouvert indépendamment l’intérêt des objets conditionnels et que plusieurs calculs logiques ont été proposés [24]. L’un d’entre eux, basé sur la relation de conséquence déjà introduite et sur la conjonction (où p ? q = ¬ p ? q)

36permet de formaliser le second type d’inférence mentionné plus haut. Cette conjonction signifie intuitivement que si on dispose des « règles » q|p et s|r, leur ensemble n’est applicable que si au moins l’une est applicable (c’est-à-dire si p ? r est vrai), et qu’alors l’ensemble des deux objets conditionnels n’est vrai que si on n’est pas en présence d’exceptions de l’une des règles (c’est-à-dire que ni p ? ¬q ni r ? ¬s ne sont faux). Cette conjonction peut s’exprimer de manière vérifonctionnelle en termes des trois valeurs de vérité que peuvent prendre les objets conditionnels. Il s’agit là d’un exemple d’un calcul logique où on a condensé en une seule entité des propositions intrinsèquement binaires. L’inférence à partir d’une base de règles par défaut, écrites sous la forme q_i|p_i pour i = l, n, d’un nouvel objet conditionnel q|p est définie comme l’existence d’un sous-ensemble de la base de « règles » dont la conjonction (l’opération & est clairement associative) a pour conséquence logique (au sens introduit ci-avant) l’objet q|p. Par convention, on conviendra que ce sous-ensemble peut être vide si q|p est une « tautologie conditionnelle » (c’est-à-dire si ¬p ? q est toujours vrai) et que dans ce cas l’objet q|p peut toujours être inféré. On peut montrer [25] que ceci est strictement équivalent au second type d’inférence à partir d’un système de contraintes possibilistes de type inégalité [26].

37Si on considère l’exemple des pingouins où on dispose de la base d’objets conditionnels {v|o, ¬v|p, o|p} (avec v = voler, o = oiseau, p = pingouin), on peut en déduire que ¬v|p & o|p = (¬v ? o) | p qui a pour conséquence logique (au sens définie ci-avant) ¬v|p ainsi que ¬v| o ? p, c’est-à-dire qu’on obtient bien que les pingouins ne volent pas (généralement) tout comme les oiseaux qui sont des pingouins, tandis qu’on peut bien entendu déduire de la base v|o, c’est-à-dire que les oiseaux volent. Cette approche reste cependant très prudente dans ses conclusions, car elle ne permet pas de déduire de la base ci-dessus que les oiseaux rouges volent, par exemple. En effet, on peut montrer qu’il est impossible de déduire v | (o ? r) (r = rouge) tout comme d’ailleurs ¬v | (o ? r), v | (o ? ¬r), … La conclusion que les oiseaux rouges volent pourra cependant être obtenue avec la première approche qui correspond à l’utilisation de la plus grande fonction de possibilité compatible avec les contraintes. En effet dans ce cas l’ordre de plausibilité sur les interprétations est le même que r soit vrai ou faux ou inconnu (puisque r n’intervient explicitement dans aucune contrainte).

38Plusieurs auteurs, en particulier Lehmann et Magidor [27], Gärdenfors et Makinson [28], ont proposé une série de formalisations de l’inférence « non monotone » pour le raisonnement par défaut sous forme de postulats que doit satisfaire une relation de conséquence logique non monotone (en affaiblissant les propriétés habituelles d’une relation de conséquence logique), tandis que Pearl [29], reprenant des idées de la logique probabiliste infinitésimale d’Adams [30], a développé une procédure algorithmique pour le raisonnement par défaut. De ces différents travaux émerge un consensus autour de deux types d’inférences plausibles à partir d’une base de règles par défaut, l’une étant plus aventureuse que l’autre.

39Ces deux types d’inférence ont été montrés respectivement équivalents des deux inférences définies plus haut en termes de fonctions de possibilité [31]. Benferhat, Dubois et Prade [32] en donnent une présentation d’ensemble incluant également

l’approche en termes de probabilités infinitésimales proposée par Adams (1975), où une règle par défaut « généralement si p alors q » est interprétée comme Prob(q|p) est infiniment proche de 1 (mais différent de 1),
et l’approche en termes de logiques modales conditionnelles [33] qui prend sa source dans les travaux de Lewis [34] sur la logique des « contrefactuels » (laquelle s’intéresse aux conditionnelles « irréelles » (« s’il était vrai que p alors il serait vrai que q »).

Les rapprochements avec les travaux d’Adams et de Lewis ne doivent pas surprendre. En effet, on peut vérifier que les probabilités infiniment proches de 1 se comportent aux limites comme des fonctions de possibilité. Par ailleurs, Lewis [35] définissait la sémantique de la conditionnelle irréelle « s’il était vrai que p alors il serait vrai que q » en la regardant comme vraie dans une interprétation ? si p ? q est vrai pour n’importe quelle interprétation qui est plus proche de ? que d’une interprétation qui rend p ? ¬q vrai. La notion de « plus proche » est formalisée par un « système de sphères » qui revient au codage d’une distribution de possibilité. D’ailleurs Lewis formalise la notion de possibilité comparative en total accord avec l’inégalité ?(p ? q) > ?(p ? ¬q) [36]. Il est assez remarquable que la formalisation du raisonnement par défaut prenne ainsi sa source dans les travaux un peu plus anciens de deux philosophes, Adams et Lewis, qui se sont intéressés aux conditionnelles à partir de deux points de vue différents.

Raisonner en présence d’informations incohérentes

40On a vu comment, dans le raisonnement par défaut, des conclusions plausibles (obtenues à partir de règles pouvant présenter des exceptions) pouvaient être remises en cause quand on modifiait le contexte dans lequel on se plaçait, évitant ainsi des incohérences. L’incohérence peut avoir une tout autre origine. Elle est souvent en pratique le résultat du rassemblement d’informations provenant de plusieurs sources. Et quoique Wittgenstein [37] ait prédit que viendrait le temps de l’investigation mathématique de calculs contenant des contradictions, les recherches sur le raisonnement à partir d’informations incohérentes restent encore assez peu nombreuses.

41Comme on l’a déjà rappelé, un ensemble incohérent de propositions ne possède pas de modèles, au plan sémantique, et permet de déduire tout et son contraire. Pour contourner cette difficulté fondamentale, certains auteurs [38] ont proposé, étant donné un ensemble incohérent de propositions, de considérer tous les plus grands sous-ensembles cohérents de propositions qu’on peut isoler dans cet ensemble. On peut alors définir les « conséquences universelles » déductibles de tous les sous-ensembles cohérents, et les « conséquences existentielles » beaucoup plus nombreuses, déductibles d’au moins un sous-ensemble. Les conséquences qui ne sont qu’existentielles sont obtenues par déduction à partir de sous-ensembles de propositions dont au moins une est en contradiction avec d’autres propositions de la base dont on est parti. Une inférence intermédiaire entre l’universelle et l’existentielle consiste à considérer les propositions q qui se déduisent d’au moins un sous-ensemble cohérent, mais dont la négation ne peut être déduite d’aucun sous-ensemble cohérent. Dans ce cas on peut inférer q sur la base d’un argument décisif en sa faveur.

42On préférera en fait toujours les conclusions obtenues à partir du sous-ensemble maximal (s’il n’est pas vide) de propositions qui ne participent pas à l’incohérence de la base (c’est-à-dire dont on ne peut prouver la négation à partir d’un sous-ensemble cohérent de la base). Ces conclusions qu’on peut dire « libres » puisqu’elles sont issues de propositions qui ne contribuent pas à l’incohérence, sont encore moins aventureuses que les conclusions universelles, puisqu’on peut facilement montrer que toute conclusion libre est universelle mais que la réciproque est fausse [39].

43La stratification des bases de connaissances en couches de niveaux de certitude distincts permet d’affiner le raisonnement en présence d’incohérence. Les niveaux de certitude peuvent refléter la confiance que l’on a dans les sources qui ont fourni l’information considérée. Soit K une base de connaissances, stratifiées sous la forme K = K₁ ?… ? K_i ?… ? K_n comme expliqué plus haut, où chaque sous-base K_i est associée au niveau de certitude ?_i. Le niveau d’incohérence de K est alors défini comme le plus grand ?_i tel que [K₁, ?… ? K_i ] = Ø, c’est-à-dire tel que K₁ ?… ? K_i est incohérent. La sous-base K₁ ?… ? K_i-1 (qui n’est pas vide si K₁ est cohérent), forme une sous-base cohérente, constituée des formules ayant les niveaux de certitude les plus grands. Cette sous-base fournit des conséquences qui sont complètement en dehors de l’incohérence de K et qui sont associées à un niveau de certitude [40] supérieur au niveau d’incohérence de K. Les conséquences ainsi obtenues peuvent être complétées par des conséquences qui sont dites « sainement étayées » [41] et qui sont telles qu’il existe un rang j telles qu’elles sont des conséquences « libres » de K_i ?… ? K_j (K₁ ?… ? K_j pouvant être lui-même globalement incohérent) ; ces dernières conséquences seront elles-mêmes associées avec un niveau de certitude, comme en logique possibiliste, égal à ?_j où j est le plus petit rang telles qu’elles soient des conséquences libres de K_i ?… ? K_j. On peut alors montrer que le niveau de certitude ainsi associé est strictement plus grand que le niveau de « défaisabilité » de la conséquence ?. Ce niveau de « défaisabilité » est défini comme le plus grand des niveaux de certitude avec lequel un sous-ensemble cohérent de K permet d’infirmer une des prémisses utilisées dans la preuve de la conséquence ?.

44La révision d’un ensemble de croyances à l’arrivée d’une nouvelle information est liée à la fois à la problématique de raisonnement en présence d’informations incohérentes et du raisonnement avec des règles à exception. En effet, la nouvelle information peut être incohérente avec ce qui était jusqu’alors tenu pour vrai. Cette incohérence peut être due au fait qu’on apprend qu’on est dans une situation exceptionnelle. Sachant seulement que « Titi est un oiseau », il était légitime de croire que « Titi vole » ; apprenant que « Titi est un pingouin », force sera de conclure que « Titi ne vole pas », conclusion incohérente avec ce que l’on croyait auparavant. Gärdenfors [42] a proposé des postulats (élaborés avec Alchourrón et Makinson) qui doivent gouverner toute opération de révision qui donne la priorité à la nouvelle information et qui doit rétablir la cohérence de l’ensemble des croyances. Ces auteurs ont établi que le respect des postulats qu’ils proposent était équivalent à l’existence d’un ordre dit « d’enracinement épistémique » entre les formules (propositionnelles) constituant l’ensemble des croyances, cet ordre gouvernant le processus de révision : les formules les moins enracinées étant prioritairement remises en cause pour restaurer la cohérence. Pour un ordre donné, la base de connaissances est ainsi stratifiée selon le niveau d’enracinement des formules et le processus de révision consiste alors à ne considérer que les formules appartenant aux strates dont le niveau d’enracinement est supérieur au niveau d’incohérence de la base, et leurs conséquences. Makinson et Gärdenfors [43] ont mis en évidence le parallèle qui existait entre révision et raisonnement non monotone : q appartient à la révision de K par p si et seulement si q est une conséquence non monotone de K sachant p. La problématique de la révision doit être par ailleurs distinguée de celle de la mise à jour d’une base de connaissances qui consiste à prendre acte de changements intervenus dans un monde évoluant dynamiquement, alors que le monde reste statique dans le cas de la révision et que seules évoluent les croyances selon l’information disponible [44].

Vérité approximative et propositions vagues

45Depuis longtemps, des prédicats vagues tels que « chauve », « jeune », « grand » ont été à la base de paradoxes, tels les « sorites », discutés par les philosophes. Existe-t-il un nombre de cheveux, un nombre d’années, par exemple à partir desquels on peut convenir qu’un homme n’est pas chauve, n’est pas jeune? Par ailleurs, il semble qu’ajouter un cheveu à un homme chauve le laisse chauve, mais qu’arrive-t-il si on itère le processus? Bien que la question du vague ait retenu l’attention du philosophe Russell [45], et que Black [46] en ait proposé une représentation à l’aide de « courbes de compatibilité » (qui sont des fonctions caractéristiques d’ensembles flous avant l’heure), assez peu d’approches applicables en pratique ont été proposées, si on excepte celle défendue par K. Fine [47] et celle basée sur la logique floue.

46Quand on considère un prédicat tel que « grand » dans un contexte bien déterminé (un grand papillon ne sera jamais aussi grand qu’un grand éléphant comme il a déjà été dit), on peut, semble-t-il, soit considérer que l’extension de « grand » a une frontière définie mais mal localisée dont la position pourra varier selon les points de vue, soit considérer qu’il n’existe pas de frontière bien définie et qu’au contraire, il n’existe qu’une transition graduelle entre « grand » et « non grand ». Le premier point de vue, défendu notamment par K. Fine, permet de préserver la loi du tiers exclu puisque quelle que soit la position de la frontière entre « grand » et « non grand », un individu (ou un objet selon le contexte) sera soit « grand » soit « non grand » (même si une incertitude est induite par l’absence de localisation précise de la frontière). Donc une proposition de la forme « grand ou non-grand » demeure une tautologie au sens classique et « grand et non grand » une contradiction. Au contraire, selon le point de vue de la logique floue, un individu dont la taille est précisément connue pourra éventuellement être à la fois quelque peu grand et un tant soit peu non grand (le degré µ_{non grand} (x) auquel x est non grand étant en raison inverse de µ_grand(x)).

47En logique floue, les propositions vagues ne sont plus structurées sous la forme d’une algèbre de Boole puisque les lois du tiers exclu et de non-contradiction ne sont plus satisfaites. Cela permet d’avoir un calcul vérifonctionnel sur les degrés de vérité. Il convient de bien différencier ce calcul logique sur des propositions vagues par rapport à un ensemble non ordonné d’interprétations, de la problématique décrite dans la section intitulée « Informations vagues » où une information vague, vue comme une famille d’informations incertaines, donnait naissance à un ordre de plausibilité sur l’ensemble des interprétations. En pratique, dans le cas de la logique floue, les degrés de vérité représentent la compatibilité entre une proposition vague et une interprétation. Par exemple, une fois définie la fonction caractéristique de « grand » dans le contexte considéré, on peut évaluer à quel point il est vrai que « Jean est grand » sachant que Jean mesure 1, 75 m, c’est-à-dire à quel point 1, 75 est compatible (dans le contexte) avec l’idée de « grand ». Dans le cas d’informations vagues, au contraire on sait seulement que « Jean est grand » (sans plus de précision). À partir de l’ordre induit sur les interprétations, on évalue alors à quel point il est possible et à quel point il est certain qu’une proposition non vague (comme « Jean mesure plus de 1, 80 m ») soit vraie ou soit fausse. Dans ce dernier cas, le calcul des niveaux de plausibilité et de certitude n’est plus vérifonctionnel, comme on l’a vu. Plus généralement on peut comme Zadeh [48] s’intéresser à l’évaluation à partir d’informations vagues ou incertaines de la vérité de propositions elles-mêmes vagues. Dans ce cas, on obtient des degrés de vérité « flous », qui reflètent l’incertitude induite par l’information disponible sur la valeur du degré de vérité (et une fois encore le calcul ne peut plus être vérifonctionnel).

48L’idée d’ensemble flou, représentant un prédicat vague tel que « grand », véhicule une certaine notion de similarité au sens où le degré d’appartenance d’un élément à l’ensemble flou peut être vu comme l’appréciation de la similarité de l’élément aux éléments prototypiques de la classe floue représentée (qui ont un degré d’appartenance égal à 1). Plus l’élément est « proche » des valeurs prototypiques, plus son degré d’appartenance est élevé. Une vision un peu différente de l’idée de vérité approximative en relation avec l’idée de distance, de similarité, a été discutée par Weston [49].

49Supposons l’ensemble des interprétations équipé d’une relation graduée exprimant l’idée de proximité. Étant donné une base de connaissances K, une proposition (non vague) q est d’autant plus vraie que les modèles de K sont des interprétations proches des modèles de q. C’est-à-dire que l’on agrandit l’ensemble [q] en lui adjoignant les interprétations proches, à un certain degré, d’interprétations dans [q], de façon à ce qu’après « agrandissement » [q] contienne [K]. On notera que pour le raisonnement non monotone, on avait au contraire restreint [K] à ses modèles les plus plausibles en définissant la relation de conséquence comme l’inclusion des modèles préférés de [K] dans l’ensemble [q] des modèles de q. L’agrandissement de [q] transforme d’une certaine façon q en une proposition vague q’ représentée par un ensemble flou obtenu en composant l’extension de q avec la relation graduée exprimant la proximité. Cette approche ne peut cependant être vérifonctionnelle car on peut être à la fois proche de [q] et de [r] sans être proche de [q ? r] (qui peut éventuellement être vide).

50L’intérêt d’équiper l’ensemble des interprétations avec une relation graduée exprimant la proximité est de pouvoir formaliser des formes de raisonnement interpolatif, entre des règles (non vagues) telles que « si x ? A₁ alors y ? B₁ » et « si x ? A₂ alors y ? B₂ » à partir de prémisses telles que « x est proche de A₁ », « x est proche de A₂ », afin de pouvoir conclure que y est à la fois proche de B₁ et proche de B₂. De tels raisonnements mettent en jeu des connaissances graduelles exprimant que « plus x est proche de A, plus y est proche de B » [50]

Conclusion

51En cherchant à traiter des informations incomplètes, incertaines, vagues, incohérentes, les nouvelles machineries logiques issues de la recherche en intelligence artificielle n’en sont pas pour autant saisies elles-mêmes par l’incertitude, le vague ou l’incohérence. Au contraire, les nouvelles approches qui commencent à émerger [51], et dont quelques-unes ont été évoquées dans cet article, continuent d’adhérer à des principes fondateurs de la logique tels que ceux d’approches formelles et déductives, ou à la distinction entre syntaxe et sémantique. Elles s’efforcent de proposer des approches rigoureuses de l’inférence à partir de connaissances incertaines, de règles avec exceptions, de propriétés graduelles ou d’ensembles globalement incohérents de formules. Haack [52] demandait si on avait besoin d’une logique floue. Ce genre de question peut bien entendu s’étendre aux autres logiques dont il a été question ici. Ce qui peut au départ sembler, pour certains, des extravagances sophistiquées devrait finalement trouver sa raison d’être dans la nécessité, dans le cadre actuel des technologies de l’information, de formaliser de nouvelles formes de raisonnement telles que, dans des registres différents, le raisonnement par défaut ou le raisonnement interpolatif, pour mieux s’adapter à la nature de l’information disponible dans des situations concrètes. Ces préoccupations rejoignent aussi celles de la pragmatique linguistique qui s’intéresse aux échelles argumentatives, aux concepts flous et au raisonnement approximatif [53].

Notes

[1]
S. Dupleix, La Logique ou Art de Discourir et Raisonner, 1603. Réédition Fayard, 1984.
[2]
Cette place reste mince chez Mariotte (1678) qui cependant, à la suite d’Aristote, donne l’exemple suivant d’enthymème (on parlerait aujourd’hui de raisonnement par défaut) : « Les mères aiment ordinairement leurs enfants, celle-ci est mère, donc elle aime son enfant », soulignant que les conclusions ainsi obtenues ne sont que vraisemblables. Mentionnons aussi le dernier chapitre de La Logique de Port-Royal (Arnauld et Nicole, 1683) : « Du jugement qu’on doit faire des accidents futurs », où l’idée d’attacher des probabilités à des énoncés apparaît peut-être pour la première fois.
[3]
G. Boole, An Investigation of the Laws of Thought, MacMillan, 1854. Reproduit dans Dover Publications, New York, 1958.
[4]
A. De Morgan, On the syllogism and other logical writings (1846-1868), édité par E Heath, Routledge & Kegan Paul, London, 1966.
[5]
B. d’Espagnat, Une incertaine réalité- Le monde quantique, la connaissance et la durée, Bordas, Paris, 1985. La réalité physique n’est pas seulement incertaine, mais comporte aussi une dimension « approximative », puisque, comme l’écrivait déjà P. M. Duhem : « Une déduction mathématique n’est pas utile au physicien tant qu’elle se borne à affirmer que telle proposition, rigoureusement vraie, a pour conséquence l’exactitude de telle autre pro-position. Pour être utile au physicien, il lui faut encore prouver que la seconde proposition reste à peu pris exacte lorsque la première est seulement à peu près vraie. » La théorie physique, Paris, 1;906 (cité par M. Black, « Vagueness : An exercise in logical analysis », Philosophy of Science, 4, 1937, p. 427-455. Reproduit dans : Language and Philosophy : Studies in Method, Cornell University Press, Ithaca and London, 1949, p. 23-58. Voir aussi Int. J. of General Systems, 17, 1990, p. 107-128).
[6]
B. De Finetti, « La logique de la probabilité » Actes du Congrès intern. de philosophie scientifique, Paris, 1935, Hermann et Cie Éditeurs, 1936, p. 565-573.
[7]
P. Engel, La norme du vrai — Philosophie de la logique, Gallimard, Paris, 1989.
[8]
Une note de P. Gochet analyse cependant cette question. Voir P. Gochet « Comments on D. Dubois and H. Prade’s paper : An introduction to possibilistic and fuzzy logics », in Non-Standard Logics for Automated Reasoning (Ph. Smets, A. Mamdani, D. Dubois, H. Prade, eds), Académie Press, New York, 1988, p. 318-320.
[9]
R.R. Bellman, L.A. Zadeh, « Local and fuzzy logics », in Modem Uses of Multiple-Valued Logic (G. Epstein, ed.), Reidel, Dordrecht, 1977, p. 103-165.
[10]
Par calcul vérifonctionnel, il faut entendre un calcul logique tel que la valeur de vérité d’un énoncé est entièrement déterminée par les valeurs de vérité des éléments qui le composent. Par exemple v(p ? q) = max(l – v(p), v(q)) dans le calcul propositionnel, où v assigne à chaque proposition un degré de vérité 1 (vrai) ou 0 (faux). De manière générale, si une formule f(p, q) combine les énoncés plus élémentaires p et q, on doit avoir dans un calcul vérifonctionnel v(f(p, q)) = F(v(p), v(q)) où F est une application de V × V dans V, et V est l’ensemble des valeurs de vérité.
[11]
D. Dubois, J. Lang, H. Prade, « Possibilistic logic », in Handbook of Logic in Artificial Intelligence and Logic Programming, vol. 3 (D.M. Gabbay, C.J. Hogger, J.A. Robinson, D. Nute, eds), Oxford University Press, 1994, p. 439-513.
[12]
P. Gärdenfors, Knowledge in Flux – Modeling the Dynamics of Epistemic States, The mit Press, Cambridge, MA, 1988.
[13]
Pour la simplicité des notations, on utilise ici l’échelle [0, 1]. Les opérations utilisées ne requièrent cependant qu’une échelle totalement ordonnée. Si l’échelle est finie avec n + 1 valeurs ?₁ = 1 >… > ?₁ >… > ?_n > 0 = ?_n+1, 1 – ?_i sera remplacé par ?_n-i+2 (c’est-à-dire qu’on « retourne » l’échelle).
[14]
L. A. Zadeh, Fuzzy sets. Information and Control, 8, 1965, p. 338-353.
[15]
D. Dubois, J. Lang, H. Prade, op. cit., note 1, p. 111.
[16]
L. A. Zadeh, « Fuzzy sets as a basis for a theory of possibility », in Fuzzy Sets and Systems, 1, 1978, p. 3-28.
[17]
Il s’agit là bien sûr d’un abus ornithologique qui s’est propagé largement dans la littérature en intelligence artificielle, dû à une traduction trop libre de l’anglais : les pingouins volent dans la réalité, et ce sont les manchots qui ne volent pas (mais « manchot » se dit en anglais « penguin » !).
[18]
Voir l’ouvrage du groupe Léa Sombé pour une introduction aux différentes approches. L. Sombé, Raisonnements sur des informations incomplètes en intelligence artificielle – Comparaison de formalismes à partir d’un exemple, Teknea, Toulouse, 1989. Édition anglaise révisée : Reasoning Under Incomplete Information in Artificial Intelligence – A Comparison of Formalisms Using a Single Example, Wiley, New York, 1990.
[19]
Y. Shoham, Reasoning About Change – Time and Causation from the Standpoint of Artificial Intelligence, The MIT Press, Cambridge, ma, 1988.
[20]
S. Benferhat, D. Dubois, H. Prade, « Connaissances conditionnelles et exceptions : Du raisonnement non monotone à la théorie des possibilités », Revue d’intelligence artificielle, 9(4), 1995, p. 475-521.
[21]
P. Gärdenfors, op. cit., note 2, p. 111 et L. J. Cohen, « What has probability to do with strength of belief », in Philosopby of Probability (J.P. Dubucs, éd.), Kluwer Academic Publ., Dordrecht, 1993, p. 129-143.
[22]
D. Dubois, J. Lang, H. Prade, op. cit. note 1, p. 111.
[23]
B. De Finetti, op. cit. note 1, p. 107.
[24]
I. R. Goodman, M. M. Gupta, H. T. Nguyen, G. S. Rogers (eds) Conditional Logic in Expert Systems, North-Holland, Amsterdam, 1991.
[25]
D. Dubois, H. Prade, « Conditional objects, possibility theory and default rules », in Conditionals : From Philosophy to Computer Sciences (G. Crocco, L. Fariñas del Cerro, A. Herzig, eds), Oxford University Press, 1995, p. 311-346.
[26]
Pour plus de détails sur les objets conditionnels, le lecteur pourra consulter D. Dubois, H. Prade, « Conditional objects as nonmonotonic conséquence relationships. Special issue on Conditional Event Algebra », ieee Trans, on Systems, Man and Cybernetics, 24(12), 1994, p. 1724-1740.
[27]
D. Lehmann, M. Magidor, « What does a conditional knowledge base entail? » Artificial Intelligence, 55, 1992, p. 1-60.
[28]
P. Gärdenfors, D. Makinson, « Non-monotonie inference based on expectation ordering », Artificial Intelligence, 65, 1994, p. 197-245.
[29]
J. Pearl, « System Z : A natural ordering of defaults with tractable applications to nonmonotonic reasoning », in ReasoningAbout Knowledge (Proc. of die 3rd Conf. TARK’90, Pacific Grave, March 4-7, 1990) (Parikh R., ed.), Morgan & Kaufmann, San Mateo, CA, 1990, p. 121-135.
[30]
E. J. Adams.The Logic of Conditionals, D. Reidel, Dordrecht, 1975.
[31]
Voir les références déjà citées dans les trois paragraphes précédents et S. Benferhat, D. Dubois, H. Prade, « Representing default rules in possibilistic logic ». Proc. of the 3rd Intern. Conf. on Principles of Knowledge Representation and Reasoning (KR’92), Cambridge, Mass., Oct. 26-29, 1992, p. 673-684.
[32]
S. Benferhat, D. Dubois, H. Prade, op. cit. note 2, p. 116.
[33]
P. Lamarre, Etude des raisonnements non monotones : Apport des logiques des conditionnels et des logiques modales, Thèse de doctorat, Université Paul-Sabatier, Toulouse, 1992. G. Crocco, Fondements logiques du raisonnement contextuel, Thèse de docteur de l’université Paul-Sabatier, Toulouse, soutenue le 22 juillet 1993.
[34]
D. Lewis, Counterfactuals, Basil Blackwell, Oxford, UK, 1973.
[35]
Idem.
[36]
Pour les liens formels entre la logique modale conditionnelle de Lewis et la théorie des possibilités, voir L. Farifias del Cerro, A. Herzig, « A modal analysis of possibility theory », Proc. of the Intern. Workshop on Fundamentals of Artificial Intelligence Research (FAIR’91) (P. Jorrand, J. Kelemen, eds), Smolenice Castle, Czecoslovakia, Sept. 8-12, 1991, Springer Verlag, Berlin, p. 11-18.
[37]
Cité par N. Rescher et R. Brandom, dans The Logic of lnconsistency, Blackwell, Oxford, 1980, p. X.
[38]
N. Rescher, R. Manor, (1970) « On inference from inconsistent premises », Theory and Decision, 1, 1970, p. 179-219.
[39]
Pour une étude comparative des approches basées sur l’exploitation de sous-ensembles cohérents « maximaux » et des approches basées sur l’analyse des relations entre arguments en faveur d’une conclusion (arguments conduisant à des conclusions opposées ; arguments invalidant des prémisses utilisées par d’autres arguments), voir C. Cayrol, « On the relation between argumentation and non-monotonic coherence-vased entailment », Proc. of the I4th Intern. Joint Conf. on Artificial Intelligence (IJCAI’95), Montréal, Canada, Aug. 20-25, 1995, p. 1443-1448.
[40]
Voir plus haut, la section intitulée « Informations incertaines – Informations vagues ».
[41]
S. Benferhat, D. Dubois, H. Prade, « How to infer from inconsistent beliefs without revising? » Proc. of the 14th Intern. Joint Conf. on Artificial Intelligence (IJCAI’95), Montréal, Canada, Aug. 20-25, 1995, p. 1449-1455.
[42]
P. Gärdenfors, Knowledge in Flux — Modeling the Dynamics of Epistemk States, The MIT Press, Cambridge, ma, 1988.
[43]
P. Gärdenfors, D. Makinson, « Relations between the logic of theory change and nonmonotonic logic », in The Logic of Theory Change (Proc. of the Workshop, Konstanz, Germany, Oct. 1989) (A. Fuhrmann, M. Morreau, eds), Lecture Notes in Artificial Intelligence, vol. 465, Springer Verlag, Berlin, 1991, p. 185-205.
[44]
Voir par exemple le livre du groupe Léa Sombé, Revision and Updating in Knowledge Bases, Wiley, New York, 1994, pour une étude comparative de la révision et de la mise à jour.
[45]
B. Russell, Vagueness, Australian J. Philos, 1, 1923, p. 84-92.
[46]
M. Black, op. cit., note 1, p. 106.
[47]
K. Fine, « Vagueness, truth and logic », Synthèse, 30, 1975, p. 265-300.
[48]
R.R. Bellman, L.A. Zadeh, op. cit. note 4, p. 107.
[49]
T. Weston, « Approximate truth », J. Philos. Logic, 16, 1987, p. 203-227.
[50]
Pour une tentative de formalisation dans un cadre logique, voir D. Dubois, F. Esteva, P. Garcia, L. Godo, H. Prade, « Similary-based consequence relations », dans C. Froidevaux, J. Kohlas (eds), Symbolic and Quantitative Approaches to reasoning and Uncertainty (Procc. of the Europ. Conf. on ECSQARU’95, Fribourg, Switzerland, July 1995), Lectures Notes in Artificial Intelligence, vol. 946, Springer Verlag, Berlin, p. 171-179.
[51]
Voir J. Dubucs, F. Lepage (éds), Méthodes logiques pour les sciences cognitives, Hermès, Paris, 1995.
[52]
S. Haack, « Do we need “fuzzy logic”? » Int. J. of Man-Machine Studies, 11, 1979, p. 437-445. Pour un point de vue plus positif, voir H. Sinaceur, « Logique et mathématique du flou », Critique, 372, 1978, p. 512-525.
[53]
J. Moeschler, A. Reboul, Dictionnaire encyclopédique de pragmatique, Éditions du Seuil, 1994, et O. Ducrot, Les échelles argumentatives, Éditions de Minuit, Paris, 1980.