Présentation scientifique


La problématique générale

Au-delà de sa stricte définition d’entité administrative et politique, le territoire, selon Guy Di Meo (1998) témoigne d’une « appropriation à la fois économique, idéologique et politique (sociale donc) de l’espace par des groupes qui se donnent une représentation particulière d’eux-mêmes, de leur histoire, de leur singularité ». Dans ce contexte éminemment subjectif, la caractérisation et la compréhension des perceptions d’un même territoire par les acteurs est difficile, mais néanmoins particulièrement intéressante dans une perspective d’aménagement du territoire et de conception de politique publique territoriale. La recherche d’informations associées incluant les groupes d’acteurs porteurs d’un même discours territorial représente un verrou scientifique multidisciplinaire.

L’originalité et l’importance de la problématique dans le champ scientifique

L’extraction d’informations spatiales au sein des documents est un premier pas pour définir une méthode de découverte semi-automatique de la perception des territoires. Ceci reste un enjeu majeur dans le contexte de l’aménagement et des débats publics associés. L’originalité du projet proposé est de s’inscrire dans une démarche pluridisciplinaire initiée à partir d’une méthode automatique visant à fournir aux géographes et, aux environnementalistes, … une aide à la découverte de connaissances. Des verrous sont associés à l’hétérogénéité des documents manipulés aussi bien dans leur structure que dans leur contenu (rapports techniques, compte-rendu de réunions publiques, cahiers d’acteurs, articles de journaux, blogs, interviews retranscrits).

La méthodologie

Au cours du projet SENTERRITOIRE, deux types de méthodes seront utilisés pour extraire les Entités Nommées liées aux territoires dans les données textuelles et pour détecter les sentiments associés.

- Méthode de Traitement Automatique du Langage Naturel (TALN) pour l’extraction des Entités Nommées de type Localisation. Les Entités Nommées (EN) sont classiquement définies comme les noms de Personnes, Lieux et Organisations. Initialement, une telle définition est issue des campagnes d’évaluation américaines MUC – Message Understanding Conferences qui furent organisées dans les années 90. Cette série de campagnes consistait à extraire des informations telles que les EN dans différents documents (messages de la marine américaine, récits d’attentats terroristes, etc). Comme le précisent [Daille et al. 2000], les classes de base d’EN définies dans le cadre de MUC doivent être enrichies. Par exemple, outre les classes relatives aux Personnes, Lieux et Organisations, [Paik et al. 1994] définissent de nouvelles classes telles que Document (logiciels, matériels, machines) et Scientifique (maladie, médicaments, etc). Pour caractériser les EN, les critères d’unicité référentielle (c’est-à-dire, un nom propre renvoie à une entité référentielle unique) et une stabilité dénominative (c’est-à-dire, peu de variations possibles) sont notamment précisées par [Fort et al. 2009]. Dans le cadre du projet SENTERRITOIRE, ces caractéristiques ainsi que les informations lexicales voire syntaxiques seront utilisées afin d’extraire les EN de type Localisation par les méthodes de TALN [Nadeau and Sekine 2007].

- Méthode de fouille de textes pour extraire les sentiments dans les textes Traditionnellement, les approches de détection d’opinions cherchent à déterminer le sentiment positif et/ou négatif présent dans les données textuelles [Roche and Poncelet 2009]. Ce travail repose en grande partie sur l’acquisition préalable du vocabulaire véhiculant une opinion. Dans ce cadre, les principaux travaux considèrent que l’orientation sémantique d’une opinion est exprimée par l’intermédiaire des adjectifs [Turney 2002 ; Taboada et al. 2006 ; Kamps 2004] bien que les verbes puissent également caractériser un sentiment [Sokolova and Lapalme 2008]. Des approches ont enrichi l’apprentissage des adjectifs à l’aide de ressources existantes, par exemple WordNet [Millet 1995]. Dans ce cadre, il s’agit d’intégrer automatiquement les synonymes et les antonymes [Andreevskaia 2006] ou d’acquérir des mots porteurs d’opinion [Voll and Taboada 2007 ; Hu and Liu 2004]. Ces dictionnaires représentent la base essentielle pour déterminer la polarité générale d’un document [Taboada et al. 2011]. Notons que des traitements complémentaires, comme la prise en compte de la négation pour le changement de polarité, sont souvent déterminants [Wiegand et al 2010 ; Taboada et al. 2011]. Cependant, la plupart des approches qui s’appuient sur des dictionnaires existants ou sur des listes prédéfinies d’adjectifs se trouvent confrontées au problème suivant. Considérons, les deux phrases « La piste étroite débouche sur une route peu fréquentée » et « Une vision étroite du projet d’aménagement de la piste est présentée ». Dans le cas de la première phrase, l’adjectif « étroite » ne véhicule pas d’opinion, il est dit objectif. A contrario, la seconde phrase qualifie une opinion clairement négative.

Un des objectifs de ce projet est de mettre en œuvre une méthode de construction automatique d’un dictionnaire d’opinion lié aux territoires et à leur aménagement. Pour cela, nous proposons d’utiliser des techniques de fouille de textes en appliquant plusieurs étapes de traitement [Harb et al. 2008] : (1) Acquisition et normalisation de corpus sur des domaines spécialisés véhiculant une opinion à partir d’un vocabulaire d’opinion de base. (2) Extraction des mots co-occurrents par des méthodes de fouille de données afin d’enrichir les mots de base véhiculant une opinion. (3) Sélection des mots proposés par des méthodes de Fouille du Web. Les dictionnaires construits pourront alors être utilisés afin de d’évaluer la polarité d’un texte (positif, négatif, objectif) et l’intensité associée. Dans le projet SENTERRITOIRE, ces différentes méthodes de fouille de textes seront adaptées et étendues pour être appliquées au domaine décrivant un territoire.

Les objectifs du programme

Dans ce projet, nous avons identifié deux objectifs majeurs à étudier :

OBJECTIF 1 : EXTRACTION D’INFORMATIONS SPATIALES DANS LES TEXTES (2012)

- Définition du concept de descripteur géospatial (animateur principal : UMR TETIS) Un travail d’analyse devra être mené afin de définir un modèle de descripteur géospatial. Par exemple, le modèle de base de [Lesbegueries 2007] s’appuie, entre autres, sur le concept d’entité spatiale absolue caractérisant les informations propres à une entité nommée (par exemple, la ville de Selles-sur-Cher) et le concept d’entité spatiale relative caractérisant des indications spatiales associées aux entités nommées (par exemple, près de Selles-sur-Cher). Une normalisation de ces concepts et une modélisation de ces derniers seront proposées au cours du projet SENTERRITOIRE.

- Extraction automatique des descripteurs géospatiaux et de leur lien sémantique dans les données textuelles (animateur principal : LIRMM) Pour extraire les descripteurs géospatiaux, une approche combinant, entre autres, des approches de TALN et de Fouille de Texte/Web seront proposées [Roche 2011]. Pour cela, le travail devra notamment s’appuyer sur les méthodes d’extraction des Entités Nommées de type Localisation [Nadeau and Sekine 2007]. Après une étude sur la problématique liée à l’identification des liens sémantiques entre les entités [Blessing and Schütze 2010, Schneider and T. Behr 2006], nous proposerons des méthodes adaptées aux descripteurs géospatiaux. Par exemple, cette méthode permettra d’identifier le lien Traverser(la Sauldre, Selles-sur-Cher) précisant que la rivière La Sauldre traverse la commune de Selles-sur-Cher. Ainsi, au cours de la première phase du projet SENTERRITOIRE, nous proposerons, mettrons en œuvre et testerons, à partir de des données réelles, une méthode automatique de détection de liens sémantiques entre les descripteurs géospatiaux.

Pour étudier ces étapes propres à la première phase du projet SENTERRITOIRE, un stage Recherche en Informatique a été proposé à partir de janvier/février 2012 (cette proposition de stage a été largement diffusée : Montpellier, Lyon, listes de diffusion nationales) :

http://www2.lirmm.fr/ mroche/Pages_...

OBJECTIF 2 : IDENTIFICATION DES SENTIMENTS LIÉS AUX INFORMATIONS SPATIALES ET A L’AMENAGEMENT DU TERRITOIRE (2013)

- Définition du concept d’opinion liés aux données textuelles territoriales (animateur principal : UMR TETIS) L’objectif de cette tâche sera, en s’appuyant en grande partie sur les descripteurs géospatiaux définis et extraits lors de la première phase du projet SENTERRITOIRE, de déterminer l’ensemble des concepts importants liés aux territoires. Puis les concepts d’opinion en lien avec la thématique des territoires

Maison des Sciences de l’Homme de Montpellier – Programmes 2012

devront être rigoureusement définis et organisés. Ils seront exploités pour l’étape d’extraction automatique dont les objectifs sont donnés dans la section suivante.

- Extraction automatique de sentiments liés aux territoires (animateur principal : LIRMM) Un des objectifs dans le cadre de la seconde phase du projet SENTERRITOIRE est de proposer une méthode de détection automatique d’une opinion à partir de textes décrivant des informations territoriales. Pour cela, outre la polarité et l’intensité qu’il sera nécessaire de détecter, un des verrous scientifiques est lié à l’identification de l’opinion par rapport aux concepts donnés. En nous appuyant sur l’exemple de la section précédente (méthodologie appliquée) une des difficultés consistera à déterminer dans quelle mesure l’adjectif « étroite » détermine ou non une opinion négative selon les thématiques ou sous-thématiques traitées dans les textes.

Les dimensions inter institutionnelles, interdisciplinaires et internationales du programme

Le succès de ce projet et des résultats attendus dépendra de la qualité de la collaboration interdisciplinaire qui doit être mise en place. En effet, le projet SENTERRITOIRE nécessite que :
- les informaticiens comprennent les données, les concepts essentiels manipulés par les géographes, les résultats attendus.
- les géographes maîtrisent les entrées/sorties des algorithmes mais aussi le principe général de ces derniers. En effet, leur maîtrise permettra de déterminer en collaboration avec les informaticiens les paramètres pertinents.

Ainsi, même si chaque tâche sera principalement menée par les spécialistes de chaque domaine, il sera essentiel que les partenaires des autres disciplines participent aux moments clés du projet. Ceci sera notamment nécessaire durant les phases de test des méthodes automatiques qui seront proposées. Des réunions communes se révèleront indispensables tout au long du projet.

UN PROJET D’ENVERGURE INTERNATIONALE

L’ambition internationale que nous souhaitons donner au projet SENTERRITOIRE sera de trois ordres : (1) Dans un premier temps, nous souhaitons engendrer des collaborations internationales via l’invitation de chercheurs. Dans ce cadre, Corrado Loglisci (http://www.di.uniba.it/ loglisci/), docteur en Informatique, est invité par le laboratoire TETIS pour travailler sur la thématique Document et Information Spatiales. Ce séjour de deux mois débutera le 03 janvier 2012. Deux visites internationales par an sont envisagées. (2) Dans un second temps, nous souhaitons effectuer des séjours courts (deux séjours d’un à deux mois par an) dans des laboratoires internationaux dynamiques tout au long du projet afin de concrétiser des collaborations internationales. Le premier séjour envisagé pourrait s’effectuer assez tôt en 2012 dans l’équipe TAMALE (The Text Analysis and Machine Learning Group) de l’Université d’Ottawa (Canada). Un projet ‘Mining Public Opinion in Tweets and Other Social Media’ a été déposé dans le cadre du programme FCFR dans le champs entre l’Université d’Ottawa (équipe TAMALE) et l’Université de Montpellier (équipes Tatoo et TEXTE du LIRMM), (3) Enfin, l’organisation de workshops internationaux est programmée dès 2012 (cf. section g). Ce type de manifestation permettra une valorisation internationale de la thématique que le projet propose. Mais ce workshop permettra également de nouer des contacts et engendrer des collaborations internationales sur la thématique du projet SENTERRITOIRE.

 

Dans la même rubrique :



 

© MSH-M 2006-2017
Maison des Sciences de l'Homme de Montpellier
17 rue Abbé-de-l'Épée — 34090 Montpellier — France
msh-m.frcontact(at)msh-m.org