CoMeRe.org : corpuscomere

Accueil » Traitements

Category Archives: Traitements

Outil d’exploration corpus de Tweets

Julien Longhi, université de Cergy-Pontoise nous transmet cette information qui permet de faire des analyses sur des corpus de tweets CoMeRe, notamment :

  • Longhi, J., Borzic, B., Alkhouli, A.(2016). #Intermittent: constitution d’un corpus lié à un événement discursif controversé. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-intermittent
  • Longhi, J., Marinica, C., Borzic, B. & Alkhouli, A. (2014). Polititweets, corpus de tweets provenant de comptes politiques influents. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-polititweets

    ***************

    Avant la mise en ligne d’une application #Ideo2017 (http://ideo2017.ensea.fr/, dont le corpus sera ensuite hébergé sur le site du projet), un premier outil est déjà mis à disposition de la communauté pour le traitement de corpus de tweets:

    http://ideo2017.ensea.fr/outil-twitter/index.php

    Cette interface, développée dans le cadre d’un stage de M2 sciences du langage de Abdelouafi EL OTMANI dirigé par Julien Longhi, permet de faire des recherches dans les corpus Polititweets et #Intermittent, et de générer des sous-corpus spécifiques à ces recherches.

    En effet, le format XML-TEI des corpus nécessite une mise en forme pour le traitement dans les outils d’analyse des données textuelles, et nous avons pu constater des difficultés d’interopérabilité entre les pratiques des communautés de constitution de corpus, et d’analyse outillée des discours. Cet outil permettra donc une prise en main plus aisée par les usagers des logiciels mentionnés plus bas.

    Cet outil se présente comme un moteur de recherche. Il convient en premier lieu de choisir le corpus souhaité:

    capture-decran-2016-12-20-a-16-54-01-300x183
    Dans notre cas, nous choisissons Polititweets. L’utilisateur peut ensuite effectuer sa requête, par exemple « démocratie »:

    capture-decran-2016-12-20-a-16-54-39-300x243
    L’utilisateur peut choisir de faire une recherche dans tout le corpus, ou de se focaliser sur un compte twitter spécifique. En cliquant sur « Valider », les résultats apparaissent: contenu des tweets, auteur du tweet, support de production, et nombre de retweets:

    capture-decran-2016-12-20-a-16-54-57-300x221

    Le menu en haut de la page permet de produire des exports sur mesure pour 2 logiciels d’analyse de données textuelles, Lexico3 et Iramuteq:

    capture-decran-2016-12-20-a-17-03-24-300x47

    En choisissant par exemple Lexico3, sans nettoyer les liens, on obtient un corpus qu’il ne reste plus qu’à copier et utiliser pour une analyse dans le logiciel:

    capture-decran-2016-12-20-a-16-55-16-300x178
    En faisant de même avec Iramuteq, après analyse dans le logiciel, on obtient facilement par exemple l’analyse des similitudes, qui rend notamment compte des cooccurrences de « démocratie »:
    demo-300x165

    Cet outil constitue donc un premier pas vers l’application #Ideo2017: mise à disposition à la communauté, outil intuitif, aide à la constitution de corpus balisés grâce à la médiation de l’outil.
    Bonne consultation

Publicités

Deux nouveaux corpus dans la base CoMeRe

La base de corpus CoMeRe ( https://hdl.handle.net/11403/comere ) vient de s’enrichir de deux nouveaux corpus qui comme les précédents sont entièrement téléchargeables, renseignés et structurés de la même façon que les précédents en TEI-CMC :

  • 1) Panckhurst R., Détrie C., Lopez C., Moïse C., Roche M., Verine B. (2016). 88milSMS. A corpus of authentic text messages in French. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang : Nancy. https://hdl.handle.net/11403/comere/cmr-88milsms
  • Ce corpus vient compléter les autres corpus de SMS / textos en langue française déjà présents dans CoMeRe, tous issus du même projet européen « sms4science ». Une version précédente du corpus figurait dans le site Huma-Num. Dans cette nouvelle verison, le corpus a été structuré en TEI-CMC, des métadonnées détaillées ont été ajoutées expliquant, notamment, les conditions de collecte, édition, etc. Les profils des  auteurs de SMS figurent désormais dans la version TEI-CMC. Une large fraction des émoticônes et émojis, présents dans les messages, a été étiquetée.
  • 2) Riou, S. & Sagot, B. (2016). Etiquetage morpho-syntaxique du corpus FAVI [corpus]. D’après Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international) [cmr-favi-tei-v1]. Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2
  • Ce corpus est le premier de la base CoMeRe a avoir été produit après un étiquetage morpho-syntaxique  d’un précédent corpus CoMeRe. L’étiquetage a été réalisé avec l’analyseur MElt. Il s’agit d’un corpus de clavardage. Le corpus résultant est lui aussi encodé en TEI-CMC. Les étiquettes utilisées sont listées dans le teiHeader du fichier correspondant. Un document de travail sur la façon d’encoder en TEI le résultat du traitement est joint au corpus.

Les copies d’écran ci-dessous donnent un aperçu des fiches d’information sur les deux corpus précédents et un aperçu d’extraits d’interactions.  Ces fiches d’information s’affichent lorsqu’on accède aux corpus en suivant les adresses (handle) citées précédemment. Les fiches sont construites automatiquement à partir des contenus complets des corpus qui eux sont en XML/TEI.  Pour mémoire, un corpus est constitué d’une ensemble de fichiers (dont les principaux contenant les interactions des utilisateurs en ligne qui sont encodés en TEI-CMC), assemblés dans une archive ZIP. Chaque fiche d’information liste tous les fichiers contenus dans l’archive ZIP et donne le lien de téléchargement complet..

fiche d'information sur corpus Favi2

fiche d’information sur corpus Favi2

 

extrait des interactions étiquetées dans favi2

extrait des interactions étiquetées dans favi2

 

fiche d'information sur corpus 88milSMS

fiche d’information sur corpus 88milSMS

 

extrait des interactions du corpus 88milSMS

extrait des interactions du corpus 88milSMS

Rapport préparatoire pour l’étiquetage morpho-syntaxique des corpus CoMeRe

Nous publions un rapport, qui est encore dans un état préparatoire. Il concerne la façon dont pourront être étiquetés les corpus CoMeRe sur un plan morpho-syntaxique. Ces corpus passeront alors de la version tei-v1 à tei-v2. Ce rapport donne une série d’exemples où sont employés de nouveaux éléments propres à l’extension TEI-CMC.

Chanier, T (2014). Structure TEI-v2 après étiquetage morpho-syntaxique au sein du projet CoMeRe. Projet CoMeRe (Communication Médiée par les Réseaux), IR Corpus-écrits. [ http://comere.org/ , comere-traitements_140311]

Ateliers formation corpus-écrits

les 19 et 20 novembre 2014 à Paris
Les groupes de travail « Corpus multilingues » (GT 5), « Corpus d’écrits modernes et prise en compte de nouveaux modes de communication » (GT 7), « Annotation du plus haut niveau : syntaxe, sémantique, référence » (GT 8) et « Exploration de corpus » (GT 10) du consortium corpus écrits organisent une session d’ateliers de formation les 19 et 20 novembre 2014 à Paris. Ces ateliers sont ouverts aux membres des groupes de travail ou à toute personne intéressée. Nous accueillerons 40 personnes maximum.

  • Unitex Unitex et CasSys
  • Alignement de corpus parallèleset comparables (méthodes,formats, outils)
  • DTMVic avancé
  • TXM avancé
  • ScienQuest
  • Hyperbase web

Le consortium financera les frais de mission des membres des groupes de travail, une demande de prise en charge pourra être examinée pour les autres.

Pour en savoir plus : http://corpusecrits.huma-num.fr/2014/10/28/ateliers-de-formation-19-20-novembre-2014/

Articles : Presentation CoMeRe et traitements sur Tweets

Voici deux articles, écrits par des membres de CoMeRe, accessibles dans les archives ouvertes (HAL) en version préprint :

  • Chanier, T., Poudat, C., Sagot, B., Antoniadis, B., Wigham, C.R., Hriba L., Longhi,J. & Seddah, D. (to appear, 2014). « The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres ». Journal of Language Technology and Computational Linguistics (JLCL). Special Issue : « Building And Annotating Corpora Of Computer-Mediated Discourse: Issues and Challenges at the Interface of Corpus and Computa-tional Linguistics » (ed. by Michael Beißwenger, Nelleke Oostdijk, Angelika Storrer & Henk van den Heuvel). [http://halshs.archives-ouvertes.fr/halshs-00953507]
  • Djemili S., Longhi J., Marinica C., Kotzinos D., Sarfati G.-E. (to appear, 2014). What does Twitter have to say about ideology? « NLP 4 CMC: Natural Language Processing for Computer-Mediated Communication / Social Media » – Pre-conference workshop at Konvens2014 , Germany (2014)
    http://halshs.archives-ouvertes.fr/halshs-01058867

Participation membres CoMeRe atelier TAL-CMC en Allemange

Comme nous l’avions déjà signalé, début octobre 2014 se tiendra en Allemagne un atelier sur
NLP 4 CMC: Natural Language Processing for Computer-Mediated Communication / Social Media en avant conférence de Konvens 2014, conférence organisé par la société de linguistique informatique allemande.

Des membres de CoMeRe ont été accepté dans cet atelier :

  • Eleni Kogkitsidou and Georges Antoniadis: Alpes4science project: SMS corpus processing and tokenization problems
  • Sarra Djemili, Julien Longhi, Claudia Marinica, Dimitris Kotzinos and Georges-Elia Sarfati:
    What does Twitter have to say about ideology? *)

Félicitations à eux !

Voir le programme complet :
https://sites.google.com/site/nlp4cmc/program

Conférence TAL et CMC – CoMeRe en Allemagne

Le 6 octobre 2014 se tiendra en Allemagne un atelier sur
NLP 4 CMC: Natural Language Processing for Computer-Mediated Communication / Social Media en avant conférence de Konvens 2014, conférence organisé par la société de linguistique informatique allemande.
L’atelier est ouvert à tous les collègues européens travaillant sur ce domaine.
Les collègues allemands du groupe TEI-CMC ont proposé à plusieurs membres de CoMeRe d’y être relecteurs.
Vous êtes les bienvenus (et serez relus bien sûr par d’autres que nous 🙂 ) pour envoyer une proposition avant le 15 juin.

  • Submissions due: 15 June 2014
  • Notification: 15 July 2014
  • Camera-ready papers due: 30 August 2014
  • Workshop: 6 October 2014

Tous les détails ici : https://sites.google.com/site/nlp4cmc/home

Sur la conférence elle-même, voir http://www.uni-hildesheim.de/konvens2014/