Programmation 2015

Date de mise à jour : 7 janvier 2016

Séminaire du vendredi 23 Janvier 2015 de 11h-12h, en salle de réunion du bât 37, campus de SupAgro, sur le thème  "Enabling knowledge management in the Agron-’omic’ Domain" par Pierre Larmande, IRD, UMR DIADE, Montpellier

Résumé:

The drastic growth in data in the recent years, within the Agronomic sciences has brought the concept of knowledge management to the forefront. Some of the factors that contribute to this change include a) conducting high-throughput experiments have become affordable, the time spent in generating data through these experiments are minuscule when compared to its integration and analysis; b) publishing data over the web is fairly trivial and c) multiple databases exist for each type of data (i.e. ‘omics’ data) with a possible overlap or slight variation in its coverage [1, 2]. In most cases these sources remain autonomous and disconnected. Hence, efficiently managed data and the underlying knowledge in principle will make data analysis straightforward aiding in more efficient decision making. At the Institute of Computational Biology (IBC), we are involved in developing methods to aid data integration and knowledge management within the domain of Agronomic sciences to improve information accessibility and interoperability. To this end, we address the challenge by pursuing several complementary research directions towards: distributed, heterogeneous data integration.

This talk will focus mainly on, ongoing projects at IBC:

a) Agronomic Linked Data (AgroLD): is a Semantic Web knowledge base designed to integrate data from various publically available plant centric data sources. These include Gramene, Oryzabase, TAIR and resources from the South Green platform among many others. The aim of AgroLD project is to provide a portal for bioinformaticians and domain experts to exploit the homogenized data towards enabling to bridge the knowledge.

b) GIGwA: is a tool developed to manage genomic, transcriptomic and genotyping large data resulting from NGS analyses. Often biologists are required to handle large VCF files to filter, query and extract data for their research. The existing tools are mainly targeted for experienced users by providing command line APIs. With GIGwA, we aim to provide a web user interface to make the system accessible to users from the biological field.

Séminaire du vendredi 13 Mars 2015 de 11h-12h, en salle de réunion du bât 37, campus de SupAgro, sur le thème  "Indexation conceptuelle et mesures de sémantiques reposant sur l’analyse de bases de connaissances" par Sébastien Harispe et Sylvie Ranwez, Ecole des Mines, Alès

Résumé:

Le volume de données ne cesse de croître sous l'influence des innovations technologiques. Dans le domaine biomédical en particulier, cela conduit à la création et au partage de nombreux contenus : textuel (publications scientifiques), images (radiographies, photos, ECG), vidéos, etc. De nouvelles approches doivent être imaginées pour gérer efficacement cette masse de ressources, les intégrer, les analyser et les filtrer dans différents systèmes d’aide à la décision ou de recommandations par exemple. Parmi ces approches, la recherche d'information conceptuelle reposant sur une caractérisation des ressources dans des bases de connaissances a montré son efficacité. Elle repose la plupart du temps sur une indexation qui associe à chaque ressource des métadonnées sous la forme d’un ensemble de concepts issus d'une ontologie de domaine (e.g. Gene Ontology, SNOMED-CT, MeSH) - des indexations plus complexes sont aussi parfois imaginées. Or ce processus d’indexation est long, fastidieux et requiert un fort degré d'expertise. Il est alors difficilement envisageable lorsque le volume des ressources à indexer est trop grand.
 La présentation se focalisera dans un premier temps sur cette phase d'indexation et sur les solutions qui permettent d'automatiser en partie ce processus. Il y sera notamment question d'indexation conceptuelle par propagation avec une application à l'indexation de publications du domaine biomédical à l'aide des concepts du MeSH. De plus, dans de nombreuses applications, il est nécessaire de catégoriser de la même façon un ensemble de ressources (annotation de clusters de gènes, par exemple). Nous montrerons comment l'approche proposée peut être étendue à ce contexte.
 Dans un second temps, cette présentation se concentrera sur la notion de mesure sémantique qui permet d’apprécier la similarité et la proximité entre ressources définies dans une base de connaissances. Ces mesures permettent de débrider les usages des bases de connaissances – la plupart du temps “seulement” utilisées pour effectuer des raisonnements exacts – en permettant d’apprécier les interactions entres ressources au regard de leur sémantique. Elles sont centrales lorsqu’il s’agit d’utiliser des modèles de connaissances pour supporter la recherche d’information, l’indexation, le clustering, et plus largement tout traitement pouvant être formulé au travers de la notion de similarité. Nous présenterons ici plusieurs résultats théoriques et expérimentaux portant sur ces mesures. Nous introduirons aussi différentes contributions logicielles qui permettent leur application concrète.

Séminaire du vendredi 3 avril 2015 de 11h-12h, Salle le Lez, à la Maison de la télédétection, sur le thème  "Transformation de sources SKOS pour la génération d'ontologies agricoles" par Catherine Roussey, Irstea Clermont-Ferrand

 
 
 Résumé :
 Sources like thesauri or taxonomies are already used as input in ontology development process. Some of them are also published on the LOD using the SKOS format. Reusing this type of sources to build an ontology is not an easy task. The ontology developer has to face different syntax and different modelling goals. We propose in this paper a new methodology to transform several non-ontological sources into a single ontology. We take into account: the redundancy of the knowledge extracted from sources in order to discover the consensual knowledge and Ontology Design Patterns (ODPs) to guide the transformation process. We have evaluated our methodology by creating an ontology on wheat taxonomy from three sources: Agrovoc thesaurus, TaxRef taxonomy, NCBI taxonomy.

Séminaire du vendredi 29 Mai 2015 de 11h-12h, en salle de réunion du bât 37, campus de SupAgro, sur le thème  "l'outil d'alignement d'ontologies YAM++" par Zohra Bellahsene, Univ. Montpellier, UMR LIRMM

Séminaire du vendredi 12 juin 2015 de 11h-12h, Salle le Lez, à la Maison de la télédétection, sur le thème "Fouille de textes à partir de données d'agriculture et environnementales" par Mathieu Roche, CIRAD, UMR TETIS

Résumé : Pour traiter les masses de données aujourd'hui disponibles (c'est-à-dire l'infobésité), la problématique de recherche du Big Data est classiquement mise en avant avec les 3 V qui la caractérisent : volume, variété et vélocité. Mais d'autres caractéristiques ne doivent pas être négligées comme la versatilité, la véracité, la visualisation ou la valorisation des données et informations. Toutes ces problématiques ouvrent de nouvelles disciplines de recherche comme la science des données qui mêle mathématiques, statistiques, informatique et visualisation. Dans un tel contexte, la fouille de textes joue un rôle majeur pour rechercher et/ou extraire des informations à partir des masses de données textuelles hétérogènes. Le séminaire détaillera quelques méthodologies majeures et applications mises en place pour fouiller des données textuelles liées à l'agriculture et à l'environnement.

Séminaire du vendredi 3 juillet 2015 de 11h-12h, en salle de réunion du bât 37, campus de SupAgro, sur le thème "Analyse Relationnelle de Concepts : Une approche pour fouiller des ensembles de données multi-relationnels" par Marianne Huchard, Université de Montpellier, UMR LIRMM

Résumé : Les treillis de Galois et les treillis de concepts sont des structures clefs de l'Analyse Formelle de Concepts (AFC), qui est une méthode d'analyse de données spécialisée dans l'extraction d'un ensemble ordonné de concepts au sein d'un ensemble de données. Cet ensemble de données, appelé un contexte formel, est composé d'objets décrits par des attributs.

Ce cadre d'analyse est appliqué à différentes tâches, incluant la recherche d'information, la fouille de données ou l'alignement d'ontologies. L'Analyse Relationnelle de Concepts (ARC) est une extension de l'AFC qui prend en compte des ensembles de données composés de multiples relations décrivant des objets de différentes catégories par des attributs ou des liens avec d'autres objets. L'ARC génère une famille de treillis de concepts, exactement un treillis par catégorie d'objets et les concepts de ces treillis sont connectés par des attributs relationnels formés par abstraction des liens initiaux. Cette famille de treillis de concepts est une vue particulière sur les données, qui révèle des règles d'implications entre groupes de liens et des connections entre des groupes d'objets classés d'après leurs liens. Dans cet exposé, nous introduisons l'ARC et nous expliquons ses forces et ses limites. Puis nous donnons des exemples de certaines de ses applications dans différents domaines.

Séminaire du vendredi 6 Novembre 2015 de 11h-12h, campus de SupAgro, sur le thème "Optimisation : algorithmes stochastiques, évolutionnistes, avec des applications en image, signal, et agri process." par Evelyne Lutton, INRA, UMR GMPA

Séminaire du vendredi 4 Décembre 2015 de 11h-12h, en salle de réunion du bât 37, campus de SupAgro, sur le thème "Détection des évolutions d'habitats naturels à partir d'une série d'images satellitaires à travers la fouille de données" par Dino Ienco, IRSTEA, UMR TETIS

Résumé :

Aujourd’hui, une quantité importante d’images satellitaires est disponible. Ces images permettent aux chercheurs en sciences de l’environnement d’étudier les différents habitats naturels et pratiques agricoles à plus large échelle. Pour ce faire, l’analyse des séries d’images satellitaires, à travers des techniques automatiques est mobilisée car elle ouvre de nouvelles opportunités pour comprendre et modéliser les dynamiques saisonnières de ces espaces. Dans cet exposé, nous décrivons une méthode récemment développée au sein de l’UMR TETIS pour l’étude des évolutions spatio-temporelles de zones naturelles et agricoles par analyse orientée objet des séries d’images satellitaires. L’approche proposée s’appuie sur un processus de fouille de données non supervisé qui permet de détecter et de décrire les évolutions et les changements des habitats naturels. La méthode a été validée sur une série d’images satellitaire Landsat sur la zone de la Basse plaine de l’Aude.

Séminaire du Lundi 7 Décembre 2015 de 11h-12h, à la faculté des sciences, sur le thème "Training the Crowd in Crowdsourcing" par Maximilien Servajean, UMR LIRMM

 Résumé:

Pl@ntNet is a large-scale innovative participatory sensing platform relying on image-based plants identification as a mean to enlist non-expert contributors and facilitate the production of botanical observation data. The iOs and Android mobile applications allowing to identify plants and share observations have been downloaded by more than 350K users in 170 countries and counts up to ten thousands users per day. Nowadays, the whole collection contains more than 180K images covering about 7K plant species (mainly in West Europe). However there is still a need for human validation and identification. Crowdsourcing has shown a lots of interests in the recent years. In such approaches, users are ask to resolve micro-tasks which results are then aggregated using mathematical tools in order to create knowledge. Unfortunately, asking a large set of users to identify some random plants is merely impossible. In this presentation, I will show some preliminary works we are doing to combine automatic identification tools and crowdsourcing in order to identify the maximum possible number of plants.

Date de mise à jour : 7 janvier 2016

Cookies de suivi acceptés