Les formules de la logique propositionnelle sont construites à partir de variables propositionnelles et des connecteurs booléens "et" (), "ou" (), "non" (). Une formule est satisfaisable[5] (on dit aussi satisfiable[6]) s'il existe une assignation des variables propositionnelles qui rend la formule logiquement vraie. Par exemple :
La formule est satisfaisable car si prend la valeur faux, la formule est évaluée à vrai.
La formule n'est pas satisfaisable car aucune valeur de p ne peut rendre la formule vraie.
Un littéral est une variable propositionnelle (littéral positif) ou la négation d'une variable propositionnelle (littéral négatif). Une clause est une disjonction de la forme où les sont des littéraux.
, et sont des clauses avec deux littéraux par clause.
Leur conjonction est une forme normale conjonctive.
Si la formule propositionnelle n'est pas sous forme normale conjonctive, on peut la transformer en une forme normale conjonctive équivalente de taille au plus exponentielle en la formule initiale. On peut aussi la transformer en une forme normale conjonctive équisatisfiable de taille linéaire en la formule initiale.
Restrictions du problème SAT
On considère des restrictions syntaxiques du problème SAT.
Le problème CNF-SAT est la restriction du problème SAT aux formes normales conjonctives.
Le problème 2-SAT est la restriction du problème SAT aux formes normales conjonctives avec au plus 2 littéraux par clause.
Le problème 3-SAT est la restriction du problème SAT aux formes normales conjonctives avec au plus 3 littéraux par clause.
Exemple d'instance : .
Le problème HORN-SAT est la restriction du problème SAT aux formes normales conjonctives où les clauses sont des clauses de Horn.
Complexité et restrictions
CNF-SAT
Le problème SAT est un problème NP–complet d'après le théorème de Cook. En particulier, on ne connaît aucun algorithme déterministe polynomial pour le résoudre. De même, comme toute formule peut se transformer en une forme normale conjonctive équisatisfiable de taille linéaire en la formule initiale, le problème CNF-SAT est aussi NP-complet.
3-SAT
Le problème 3–SAT est lui aussi NP–complet. Pour démontrer la NP-difficulté de 3-SAT, il suffit de prouver que le problème CNF-SAT est polynomialement réductible à 3–SAT. La réduction transforme chaque clause avec en .
2-SAT
Le problème 2-SAT est la restriction du problème SAT aux formes normales conjonctives avec au plus 2 littéraux par clause. Ce problème est dans la classe P. Sous l'hypothèse , il n'est pas NP-complet. Il existe plusieurs algorithmes polynomiaux déterministes pour résoudre le problème 2-SAT.
L'algorithme prend une formule en forme normale conjonctive avec au plus 2 littéraux par clause.
Une clause d'ordre deux est équivalente aux implications et .
Pour résoudre 2-SAT, on construit un graphe orienté dual (appelé graphe 2-SAT) selon les deux règles suivantes :
les sommets sont les variables propositionnelles apparaissant dans la formule et les négations des variables propositionnelles apparaissant dans la formule ;
on ajoute les arcs et pour chaque clause .
La formule est satisfaisable si et seulement si pour toute variable propositionnelle de , et sont dans deux composantes fortement connexes distinctes dans le graphe 2-SAT. On utilise alors l'algorithme de Tarjan (ou l'algorithme de Kosaraju) pour calculer les composantes fortement connexes du graphe 2-SAT.
Le problème de satisfiabilité d'un ensemble de clauses de Horn propositionnelles (c'est-à-dire avec au plus un littéral positif par clause) est dans la classe P. Plus précisément, il existe un algorithme linéaire[8] en la taille des clauses qui résout le problème de satisfiabilité. Il est P-complet (pour la réduction en espace logarithmique)[9].
Théorème de dichotomie de Schaefer
Le théorème de Schaefer[10] donne des conditions nécessaires et suffisantes pour qu'une variante du problème SAT soit dans la classe P ou NP–complet. On retrouve les résultats de complexité concernant 3-SAT (NP-complet), 2-SAT (dans P), HORN-SAT (dans P) comme des applications de ce théorème.
Algorithmes pour SAT
La plus évidente des méthodes pour résoudre un problème SAT est de parcourir la table de vérité du problème, mais la complexité est alors exponentielle par rapport au nombre de variables.
Méthode systématique
Pour prouver la satisfaisabilité du CNF , il suffit de choisir une variable et de prouver récursivement la satisfaisabilité de ou . La procédure est plus facile récursivement puisque avec ou peut souvent se simplifier. L'appel récursif construit ainsi un arbre binaire de recherche.
Généralement, il existe à chaque nœud des clauses unitaires (la CNF est de la forme ), qui permettent de réduire fortement l'espace de recherche.
Exemple
Considérons la CNF :
.
La deuxième clause () est unitaire et permet d'obtenir immédiatement . On peut remplacer les valeurs de dans ce CNF. Cela donne :
.
À nouveau, on a une clause unitaire, et on obtient . Puis, par propagation, on obtient .
Dans cet exemple, on a trouvé les valeurs des trois variables sans même développer l'arbre de recherche. De manière générale, on peut réduire fortement l'espace de recherche. D'autre part, si une variable apparaît toujours positivement dans la CNF , alors on peut poser puisque est satisfaisable si et seulement si est satisfaisable (et de même si la variable apparaît négativement). Ainsi, dans l'exemple précédent, n'apparaît que négativement et l'assignation peut être effectuée. Remarquons que cette affectation permet d'accélérer la découverte d'une solution mais que des solutions pourraient exister en effectuant l'assignation contraire. L'algorithme DPLL (Davis, Putnam[11], Davis, Logemann, Loveland[12]) se base sur ces idées.
Le choix de la variable à développer est très important pour les performances des algorithmes SAT. On choisit généralement les variables qui apparaissent le plus souvent, si possible dans des clauses de taille 2.
Apprentissage de clauses par conflits
Le principe des solveurs de type CDCL (Conflict-Driven Clause Learning) est d'utiliser un mécanisme pour apprendre de nouvelles clauses en cours de recherche, puis d'utiliser au maximum les informations apprises dans l'espoir d'améliorer le temps de recherche. D'un point de vue pratique, cette méthodologie est très efficace pour résoudre des problèmes concrets[13]. L'apprentissage de clauses est le suivant : lorsqu'un conflit apparaît lors de la recherche, c'est-à-dire lorsqu'une assignation partielle est démontrée non cohérente avec l'ensemble des clauses, on peut isoler un sous-ensemble de ces assignations et un sous-ensemble de ces clauses, qui sont responsables du conflit (les assignations ne sont pas cohérentes avec les clauses). L'apprentissage de clause permet deux choses. Premièrement, il permet d'éviter de refaire plusieurs fois les mêmes erreurs dans l'arbre de recherche. Deuxièmement, la clause apprise sera en contradiction avec l'état de l'arbre de recherche. De ce fait, il sera nécessaire de réaliser un retour en arrière (backtracking) pour s'assurer qu'au moins un de ces littéraux soit vrai.
Il existe différentes méthodes pour générer de nouvelles clauses à partir d'une inconsistance locale.
Méthode naïve
Soit l'instance à résoudre la formule suivante :
et l'interprétation partielle définie par: . Cette interprétation mène à un conflit car implique que , tandis que implique que . Pour générer une clause représentant ce conflit, il est possible de prendre la négation de l'interprétation : . Cependant, cette méthode possède un inconvénient majeur: la taille de la clause est entièrement déterminée par toute l'interprétation. Or, certaines parties de l'interprétation peuvent être complètement indépendantes du conflit que l'on souhaite représenter. En effet, ajoutons à l'instance les formules: et soit l'interprétation courante . Le conflit provient des deux premières clauses et donc, des valeurs de et . Or, la clause générée par la négation de l'interprétation prendra en compte toutes les variables à l'exception de . De ce fait, la clause sera inutilement longue.
Analyse des conflits
Lorsque cette méthode est utilisée, un graphe est créé permettant de représenter l'origine de la propagation, appelé graphe d'implication. Les nœuds représentent les littéraux vrais. Il existe deux types de nœuds : les nœuds carrés dont la valeur du littéral provient d'un choix arbitraire et les nœuds ronds dont la valeur provient d'une propagation. À chaque nœud est également associée une information : le niveau du nœud en question. Ce niveau est défini par le nombre de littéraux choisis avant de réaliser la propagation s'il y a eu propagation. Sinon, le niveau est défini par le nombre de littéraux choisis, littéral courant compris. Les arcs relient entre eux les littéraux faisant partie d'une clause servant à la propagation. La destination d'un arc est le littéral propagé, la/les source(s) étant les autres littéraux de la clause. Soit l'instance à résoudre la formule suivante :
accompagné de l'interprétation à laquelle les niveaux des différents littéraux ont été spécifiés ainsi que le littéral menant à l’inconsistance : . Alors, il est possible d'en tirer le graphe suivant.
Grâce à ce graphe, il est possible de créer une clause représentant la cause du conflit. La méthode employée est la suivante : on commence par créer la résolvante des clauses menant à un conflit. Puis tant qu'il reste plus d'un littéral du niveau courant, une nouvelle résolvante est créée entre la résolvante courante et la cause d'un des littéraux du niveau courant. Sur notre exemple, cela donnera (où représente la résolution entre la clause et la clause )
Retour en arrière non chronologique
Une fois la clause apprise, celle-ci sera utilisée pour le retour en arrière. L'idée derrière le retour en arrière non chronologique est qu'un retour en arrière sera effectué de manière que l'état des assignations soit tel qu'il ne reste qu'un seul littéral non assigné. Ainsi, grâce à la clause apprise, il sera possible de continuer les différentes propagations alors que cela n'était plus possible sans elle.
Si l'on reprend l'exemple présenté dans la section analyse de conflit, la clause apprise nous procure deux littéraux. Les niveaux des variables correspondantes sont: variable = 3, variable = 2. Pour savoir à quel niveau il est nécessaire de revenir en arrière, il faut regarder le niveau le plus profond (le niveau est plus profond que le niveau ) des variables d'un niveau plus haut que le niveau actuel. Étant donné que la clause apprise ne contient que deux littéraux, il n'existe qu'un seul niveau différent du niveau actuel: le niveau 2. Un retour en arrière est donc effectué jusqu'à ce niveau et laisse donc comme interprétation . Or, avec une telle interprétation, la clause apprise ne contient bien qu'une seule variable non affectée : tandis que l'autre est affectée de telle manière à ce que le littéral soit faux. Cela implique la nécessité d'une propagation de la variable à la valeur faux.
Bien que dans cet exemple le retour en arrière ne s'effectue que sur un seul niveau, il est possible que celui-ci monte de plusieurs niveaux d'un coup. En effet, imaginons que nous puissions ajouter N niveaux entre le niveau 2 et le niveau 3 où toutes les variables qui y apparaissent soient de nouvelles variables. Puisque ces niveaux n'auraient pas d'impact sur l'ancien niveau 3, le retour en arrière remonterait d'un coup ces N+1 niveaux.
Approches prospectives
L'approche prospective consiste à prospecter l'arbre de recherche pour découvrir des assignations certaines. Ainsi, étant donné un CNF , étant donné une variable non instanciée , on prospecte les CNFs et . Si les deux CNFs conduisent à l'instanciation de la même variable avec la même valeur, alors l'instanciation peut se faire dès la CNF .
Exemple
Considérons la CNF . Nous nous intéressons ici à la variable et prospectons la variable .
Considérons l'assignation . On obtient et donc l'assignation (puisque cette variable apparaît uniquement positivement).
Considérons l'assignation . On obtient et donc l'assignation par clause unitaire.
Dans tous les cas, on obtient et il est donc possible d'effectuer cette assignation dès la CNF .
Rappelons que la complexité du problème SAT vient de la taille exponentielle de l'arbre de recherche par rapport au nombre de variables. La prospection permet de réduire fortement ce nombre de variables dès la racine (ou à n'importe quel nœud de l'arbre) avec une complexité supplémentaire relativement faible eu égard à la diminution de l'arbre de recherche.
Programme dynamique
Samer et Szeider ont proposé un algorithme de programmation dynamique qui est polynomial en la taille de la formule à tester quand la largeur arborescente du graphe associé à cette formule est un paramètre fixé (voir Complexité_paramétrée)[14]. L'avantage de cette algorithme est qu'il peut aussi faire du comptage de valuations[réf. nécessaire] et donc résoudre le problème #SAT. Il peut aussi être parallélisé[réf. nécessaire]. Il est implémenté dans l'outil gpuSAT[réf. nécessaire] (la parallélisation est implémentée via le GPU).
Recherche locale
Partant d'une assignation de toutes les variables, on cherche à modifier certaines valuations de façon à réduire le nombre de clauses non satisfaites. Cet algorithme souffre de plusieurs défauts : il peut tomber dans des minima locaux et il est incapable de prouver la non-satisfaisabilité, mais il s'avère très efficace dans les problèmes non structurés (c'est-à-dire souvent les problèmes générés aléatoirement). En cas d'échec après un temps long, il est possible de choisir une nouvelle assignation aléatoire pour éviter les minima locaux.
Applications
Il est possible de réduire (traduire) certains problèmes d'intelligence artificielle au problème SAT afin de résoudre efficacement ces problèmes.
Diagnostic
Le diagnostic de systèmes statiques consiste à déterminer si un système a un comportement défectueux étant donnée l'observation des entrées et sorties du système. Le modèle du système peut être traduit en un ensemble de contraintes (disjonctions) : pour chaque composant du système, une variable est créée qui est évaluée à vraie si le composant a un comportement anormal (Abnormal). Les observations peuvent être également traduites par un ensemble de disjonctions. L'assignation trouvée par l'algorithme de satisfaisabilité est un diagnostic.
Planification classique
Le problème de planification classique consiste à trouver une séquence d'actions menant d'un état du système à un ensemble d'états. Étant donnée une longueur maximale du plan et un ensemble de variables d'état booléennes permettant de décrire l'état du système, on crée les variables propositionelles pour tout et toute variable . La variable est vraie si la variable d'état est vraie après l'action numéro . On crée également les variables pour tout et toute action . La variable est vraie si l'action numéro est . Il est alors possible de transformer le modèle du système en un ensemble de clauses. Par exemple, si l'action fait passer la variable à vrai lorsque celle-ci est fausse, alors la CNF contiendra une clause (ce qui est traduit par la clause ). L'assignation trouvée par l'algorithme de satisfaisabilité peut être immédiatement traduite en plan.
La planification classique par SAT est très efficace si on connaît la longueur n du plan[réf. nécessaire]. Si cette valeur n'est pas connue, on peut chercher des plans pour une valeur incrémentale, ce qui est parfois coûteux (notamment parce que la CNF est non satisfaisable jusqu'à n – 1).
Model checking
Une approche semblable a été utilisée pour le model checking (vérification de propriétés d'un modèle). La principale différence est que le model checking s'applique à des trajectoires de longueur infinie contrairement à la planification. Cependant, si l'espace d'états du système est fini, toute trajectoire infinie boucle à un certain point et on peut borner la taille des trajectoires qu'il est nécessaire de vérifier. Le bounded model checking tire parti de cette propriété pour transformer le problème de model checking en un certain nombre de problèmes de satisfaisabilité.
Cryptographie
La complexité du problème SAT est une composante essentielle de la sécurité de tout système de cryptographie.
Par exemple, une fonction de hachage sécurisée constitue une boîte noire pouvant être formulée en un temps et un espace fini sous la forme d'une conjonction de clauses normales, dont les variables booléennes correspondent directement aux valeurs possibles des données d’entrée de la fonction de hachage, et chacun des bits de résultat devra répondre à un test booléen d'égalité avec les bits de données d’un bloc de données d’entrées quelconque. Les fonctions de hachages sécurisées servent notamment dans des systèmes d'authentification (connaissance de données secrètes d’entrée ayant servi à produire la valeur de hachage) et de signature (contre toute altération ou falsification « facile » des données d’entrée, qui sont connues en même temps que la fonction de hachage elle-même et de son résultat).
La sécurité de la fonction de hachage dépend de la possibilité de retrouver un bloc de données d'entrée arbitraire (éventuellement différent du bloc secret de données pour lequel une valeur de hachage donnée a été obtenue) permettant d'égaliser la valeur binaire retournée par la fonction de hachage. Une méthode d'exploration systématique de toutes les valeurs possibles des données d'entrée et pour lesquelles on applique la fonction de hachage comme un oracle, permet effectivement de satisfaire à la question de une valeur de hachage égale à celle cherchée, mais sa complexité algorithmique sera exponentielle (en fonction de la taille maximale en bits des données d’entrée de la fonction de hachage).
Chercher à égaliser une valeur de hachage avec des variables d'entrée de valeur inconnue constitue un problème SAT (et comme en pratique les données d’entrée de la fonction de hachage sont constituées de nombreux bits, ce sera un problème n-SAT avec n assez élevé (et en tout cas supérieur ou égal à 3). On sait alors que ce problème est réductible en temps polynomial à un problème 3–SAT, qui est NP-complet.
La sécurité de la fonction de hachage sera fortement liée au fait de l'impossibilité de la réduire plus simplement (que par un algorithme NP-complet de complexité suffisante) en réduisant la forme conjonctive des clauses qui la définissent simplement, pour y isoler des sous-ensembles de variables d’entrées de taille plus restreinte, mais suffisante pour déterminer une partie du résultat de la fonction de hachage dont l’ordre n sera alors très inférieur, et pour ne plus avoir à explorer que les valeurs possibles de ces seuls sous-ensembles de variables pour satisfaire la condition d'égalité du résultat, sans avoir à tester toutes les autres variables dont la valeur peut être fixée arbitrairement à certaines valeurs déterminées par un algorithme plus simple (apprentissage de clauses, approches prospectives ci-dessus).
Logique modale
Le problème SAT peut être utilisé comme sous-routine pour résoudre le problème de satisfiabilité de la logique modale[15],[16],[17].
↑Inês Lynce et Joël Ouaknine, « Sudoku as a SAT problem », In Proc. of the Ninth International Symposium on Artificial Intelligence and Mathematics, Springer, (lire en ligne, consulté le )
↑ a et bStephen A. Cook, « The Complexity of Theorem-proving Procedures », Computing Surveys (CSUR), ACM, sTOC '71, , p. 151–158 (DOI10.1145/800157.805047, lire en ligne, consulté le )
↑(en) A. Biere, A. Biere, M. Heule et H. van Maaren, Handbook of Satisfiability : Volume 185 Frontiers in Artificial Intelligence and Applications, Amsterdam, IOS Press, , 966 p. (ISBN978-1-58603-929-5 et 1-58603-929-6, lire en ligne)
↑(en) Bengt Aspvall, Michael F. Plass, et Robert E. Tarjan, « A linear-time algorithm for testing the truth of certain quantified boolean formulas », Information Processing Letters, 8, p. 121-123 (1979), [lire en ligne].
↑William F. Dowling et Jean H. Gallier, « Linear-time algorithms for testing the satisfiability of propositional horn formulae », The Journal of Logic Programming, vol. 1, , p. 267-284 (DOI10.1016/0743-1066(84)90014-1, lire en ligne, consulté le )
↑Thomas J. Schaefer « The Complexity of Satisfiability Problems » () (DOI10.1145/800133.804350) — « (ibid.) », dans STOC 1978, p. 216–226
↑ a et b(en) Martin Davis et Hillary Putnam, « A Computing Procedure for Quantification Theory », Communications of the ACM, 7, p. 201-215 (1960) [lire en ligne]
↑ a et b(en) Martin Davis, George Logemann et Donald Loveland, « A machine Program for Theorem Proving », Communications of the ACM, 5, p. 394-397 (1962), [lire en ligne]
↑Classement des solveurs lors du SAT Challenge 2012, catégorie Application | Sat Challenge 2012
↑Jean-Marie Lagniez, Daniel Le Berre, Tiago de Lima et Valentin Montmirail, « A Recursive Shortcut for CEGAR: Application To The Modal Logic K Satisfiability Problem », Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, International Joint Conferences on Artificial Intelligence Organization, , p. 674–680 (ISBN9780999241103, DOI10.24963/ijcai.2017/94, lire en ligne, consulté le )
↑(en) Thomas Caridroit, Jean-Marie Lagniez, Daniel Le Berre, Tiago de Lima et Valentin Montmirail, « A SAT-Based Approach for Solving the Modal Logic S5-Satisfiability Problem », Proceedings of the Thirty-First {AAAI} Conference on Artificial Intelligence, San Francisco, California, {USA.}, février 4-9, 2017, p. 3864--3870 (lire en ligne)
↑(en-US) R. Sebastiani et M. Vescovi, « Automated Reasoning in Modal and Description Logics via SAT Encoding: the Case Study of K(m)/ALC-Satisfiability », Journal of Artificial Intelligence Research, vol. 35, , p. 343–389 (ISSN1076-9757, DOI10.1613/jair.2675, lire en ligne, consulté le )
John Franco, John Martin, Armin Biere (dir.), Marijn Heule (dir.) et Tobby Walsh (dir.), Handbook of satisfiability, IOS Press (lire en ligne), « Chapter 1: A History of Satisfiability »