CoMeRe.org : corpuscomere

Accueil » 2017 » janvier

Monthly Archives: janvier 2017

Outil d’exploration corpus de Tweets

Julien Longhi, université de Cergy-Pontoise nous transmet cette information qui permet de faire des analyses sur des corpus de tweets CoMeRe, notamment :

  • Longhi, J., Borzic, B., Alkhouli, A.(2016). #Intermittent: constitution d’un corpus lié à un événement discursif controversé. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-intermittent
  • Longhi, J., Marinica, C., Borzic, B. & Alkhouli, A. (2014). Polititweets, corpus de tweets provenant de comptes politiques influents. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-polititweets

    ***************

    Avant la mise en ligne d’une application #Ideo2017 (http://ideo2017.ensea.fr/, dont le corpus sera ensuite hébergé sur le site du projet), un premier outil est déjà mis à disposition de la communauté pour le traitement de corpus de tweets:

    http://ideo2017.ensea.fr/outil-twitter/index.php

    Cette interface, développée dans le cadre d’un stage de M2 sciences du langage de Abdelouafi EL OTMANI dirigé par Julien Longhi, permet de faire des recherches dans les corpus Polititweets et #Intermittent, et de générer des sous-corpus spécifiques à ces recherches.

    En effet, le format XML-TEI des corpus nécessite une mise en forme pour le traitement dans les outils d’analyse des données textuelles, et nous avons pu constater des difficultés d’interopérabilité entre les pratiques des communautés de constitution de corpus, et d’analyse outillée des discours. Cet outil permettra donc une prise en main plus aisée par les usagers des logiciels mentionnés plus bas.

    Cet outil se présente comme un moteur de recherche. Il convient en premier lieu de choisir le corpus souhaité:

    capture-decran-2016-12-20-a-16-54-01-300x183
    Dans notre cas, nous choisissons Polititweets. L’utilisateur peut ensuite effectuer sa requête, par exemple « démocratie »:

    capture-decran-2016-12-20-a-16-54-39-300x243
    L’utilisateur peut choisir de faire une recherche dans tout le corpus, ou de se focaliser sur un compte twitter spécifique. En cliquant sur « Valider », les résultats apparaissent: contenu des tweets, auteur du tweet, support de production, et nombre de retweets:

    capture-decran-2016-12-20-a-16-54-57-300x221

    Le menu en haut de la page permet de produire des exports sur mesure pour 2 logiciels d’analyse de données textuelles, Lexico3 et Iramuteq:

    capture-decran-2016-12-20-a-17-03-24-300x47

    En choisissant par exemple Lexico3, sans nettoyer les liens, on obtient un corpus qu’il ne reste plus qu’à copier et utiliser pour une analyse dans le logiciel:

    capture-decran-2016-12-20-a-16-55-16-300x178
    En faisant de même avec Iramuteq, après analyse dans le logiciel, on obtient facilement par exemple l’analyse des similitudes, qui rend notamment compte des cooccurrences de « démocratie »:
    demo-300x165

    Cet outil constitue donc un premier pas vers l’application #Ideo2017: mise à disposition à la communauté, outil intuitif, aide à la constitution de corpus balisés grâce à la médiation de l’outil.
    Bonne consultation

Publicités

AG du consortium CORLI

ag-corli

« Journée-rencontre » du consortium CORLI « CORpus, Langues et Interactions »

https://corli.huma-num.fr/

Jeudi 12 janvier 2017

Université Paris Diderot- – Bâtiment Olympe de Gouges – Amphi 2
8 place Paul Ricœur (Au bout de la rue Albert Einstein) – 75013

Le comité de pilotage du consortium « CORLI » organise le 12 janvier 2017 une « journée – rencontre » ouverte à tous. Au cours de cette journée seront présentées les avancées et les activités du consortium « CORLI ». La matinée sera consacrée à l’accessibilité des données.

Programme de la journée

9h 00 : Accueil des participants

Matinée – L’accessibilité des ressources

9h 30 – 11h 00 : Diffusion des ressources, interopérabilité et métadonnées
Coordonnateur : Thierry Chanier

Pause

11h 20 – 12h 50 : Méthode d’exploration des corpus : « Des corpus écrits aux corpus
multimodaux »
Coordonnateur : Céline Poudat

DEJEUNER

Après-midi – Consortium « CORLI » : Bilan 2016 et objectifs 2017

14h 00 – 15h 30 : Bilan et objectifs
Coordonnateur : Franck Neveu

Pause

15h 50 – 16h 50 : Débat : Qu’attendez-vous du consortium ?

*****

Inscription nécessaire en suivant le lien : https://form.jotformeu.com/63342008274349

Les personnes participant aux activités du consortium peuvent demander une prise en charge de leur frais de mission.

CoMeRe au colloque CLARIN 2016

clarin

Certains membres du projet CoMeRe ont soumis, avec nos collègues européens, un papier au colloque annuel de CLARIN. Michael Beißwenger a presenté le papier intitulé « Integrating corpora of computer-mediated communication into the language resources landscape : Initiatives and best practices from French, German, Italian and Slovenian projects » lors du colloque à Aix en Provence en octobre 2016.

Une vidéo de la présentation se retrouve à ce lien. Le papier est également sur HAL.

Référence bibliographique : Michael Beißwenger, Thierry Chanier, Isabella Chiari, Tomaž Erjavec, Darja Fišer, et al.. (2016). Integrating corpora of computer-mediated communication into the language resources landscape : Initiatives and best practices from French, German, Italian and Slovenian projects. CLARIN Annual Conference 2016, Oct 2016, Aix-en-Provence, France. https://hal.archives-ouvertes.fr/hal-01379621v1.