logo spi

Problématique

Les sites de vente en ligne connaissent un développement sans précédent, et dans le futur, une majeure partie des échanges marchands passeront par ces canaux. Dans la plupart de ces sites, il est possible pour les acheteurs d’évaluer les produits. Cela se fait habituellement sous la forme d’un « forum » attaché à chaque produit où chacun peut laisser son avis et souvent une évaluation. Ces avis sont utiles pour les autres acheteurs potentiels, mais il représentent également une information importante pour les vendeurs, les aidant à identifier les points forts et les points faibles des produits et à s’adapter aux attentes de leurs clients. Le problème est que, vu la quantité de produits et d’avis sur les sites, l’exploitation « manuelle » efficace de cette grande masse d’informations demande beaucoup de ressources. La problématique de la consultation citoyenne est similaire: de plus en plus régulièrement les élus souhaitent obtenir des indications de la part de la population sur différents projets, pour pouvoir guider les processus de décision, faire apparaître de nouvelles solutions, etc. Pour de petites circonscriptions, cela peut se faire « physiquement », en organisant des réunions publiques. Mais il peut être difficile de synthétiser les débats. Et cela n’est de toute façon pas faisable à plus large échelle. Pour cela, il semble plus adéquat d’effectuer des consultations citoyennes en ligne, afin de permettre une plus grande interaction. Un exemple récent est le débat public autour de la loi numérique (voir republique-numerique.fr), où les citoyens pouvaient discuter les différents articles de la loi.

Dans ces deux cas, le problème de l’exploitation est le même : les données sont peu structurées et leur volume réclament beaucoup de ressources pour le traitement. Il peut alors être difficile de réaliser une synthèse utilisable.

Un moyen facile pour guider cette synthèse est d’ajouter une structure à cette information, afin de permettre une exploitation automatisée simplifiée. Le problème est alors de déterminer une structure facilement appréhendable par l’ensemble des utilisateurs. Le théorie de l’argumentation formelle est l’étude de telles représentations structurées. Au lieu que chaque utilisateur donne un avis propre, indépendamment des autres, ou que les uns et les autres se répondent dans un forum, il suffit de considérer que chacun fournit un argument. La réponse d’autres utilisateurs (consommateur/citoyen) à l’argument d’un utilisateur donné, sera donc soit une attaque, soit un support de l’argument initialement proposé. Ce moyen de représentation est très intuitif, et donc facilement acceptable par des utilisateurs. Il suffit de voir l’essor des plates-formes de débats utilisant l’argumentation pour s’en convaincre. Par exemple, la plate-forme DebateGraph a déjà été utilisée par CNN ou différents journaux pour réaliser des consultations sur des thèmes donnés.

Utiliser l’argumentation pour structurer les opinions des utilisateurs (sur un produit ou sur une question ciblée) permet ensuite d’utiliser des techniques de raisonnement, afin d’identifier les arguments les plus soutenus, ceux qui engendrent le plus de controverses, etc. Et donc d’obtenir in fine une synthèse automatisée des discussions.

Contexte scientifique

La théorie de l’argumentation est étudiée depuis des années en intelligence artificielle. La représentation la plus abstraite considère un graphe, où les arguments sont les sommets, et où un arc entre deux sommets représente une attaque entre les deux arguments correspondants. La question usuelle est alors de déterminer les arguments acceptables conjointement [Dung95].

Depuis quelques années, des efforts sont conduits pour définir des sémantiques plus adéquates pour des applications de débat sur Internet, avec beaucoup d’utilisateurs et beaucoup d’arguments. Cela conduit à l’introduction de sémantiques graduées, dont le but n’est pas juste d’identifier les arguments acceptables et non acceptables, mais de donner un ordre complet sur les arguments, des plus au moins acceptables (voir par exemple [LM11,ABN13,BDKM16,BDKM16b,ABDV16]).

Toutefois, dans l’ensemble de ces travaux, la seule relation utilisée est une relation d’attaque. Or, dans les plates-formes de débats, et pour les applications pour le commerce ou la consultation citoyenne, il est important pour les utilisateurs d’exprimer non seulement des attaques entre arguments, mais également des supports : un argument peut être avancé pour donner plus de légitimité à un premier argument. Malheureusement, il n’y a aucun cadre satisfaisant à l’heure actuelle pour fournir une sémantique convaincante pour ces systèmes d’argumentation basés à la fois sur une relation d’attaque et sur une relation de soutien (il y a bien eu quelques approches tentant de capturer la notion de support [BW10,CLS13,NR11], mais aucune n’est totalement satisfaisante). Cependant, ce point est crucial pour pouvoir raisonner automatiquement à partir des plates-formes de débats.

Objectifs de la thèse

Le but de cette thèse est d’étudier la notion de support en argumentation. La première tâche sera d’étudier les faiblesses des approches actuelles. Il faudra en particulier identifier les résultats fournis par ces approches sur des exemples issus de cas réels (avis de clients, textes issus de journaux, plates-formes de débats en ligne, etc.), et étudier similarités et différences. Ensuite, le but principal sera d’étudier les principes qui devraient gouverner ces sémantiques d’attaque/support, et de proposer des sémantiques adéquates. Les sémantiques proposées seront alors évaluées théoriquement (en termes de propriétés satisfaites, de leur complexité d’implémentation, etc.) et pratiquement (par rapport à des cas réels). Il faudra enfin compléter le cadre formel construit pour permettre de prendre en compte des votes positifs ou négatifs sur les arguments et/ou sur les relations (de support et d’attaque), ainsi que d’autres informations (réputation des utilisateurs, détection de trolls, etc.).