CoMeRe.org : corpuscomere

Accueil » Corpus

Category Archives: Corpus

Outil d’exploration corpus de Tweets

Julien Longhi, université de Cergy-Pontoise nous transmet cette information qui permet de faire des analyses sur des corpus de tweets CoMeRe, notamment :

  • Longhi, J., Borzic, B., Alkhouli, A.(2016). #Intermittent: constitution d’un corpus lié à un événement discursif controversé. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-intermittent
  • Longhi, J., Marinica, C., Borzic, B. & Alkhouli, A. (2014). Polititweets, corpus de tweets provenant de comptes politiques influents. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-polititweets

    ***************

    Avant la mise en ligne d’une application #Ideo2017 (http://ideo2017.ensea.fr/, dont le corpus sera ensuite hébergé sur le site du projet), un premier outil est déjà mis à disposition de la communauté pour le traitement de corpus de tweets:

    http://ideo2017.ensea.fr/outil-twitter/index.php

    Cette interface, développée dans le cadre d’un stage de M2 sciences du langage de Abdelouafi EL OTMANI dirigé par Julien Longhi, permet de faire des recherches dans les corpus Polititweets et #Intermittent, et de générer des sous-corpus spécifiques à ces recherches.

    En effet, le format XML-TEI des corpus nécessite une mise en forme pour le traitement dans les outils d’analyse des données textuelles, et nous avons pu constater des difficultés d’interopérabilité entre les pratiques des communautés de constitution de corpus, et d’analyse outillée des discours. Cet outil permettra donc une prise en main plus aisée par les usagers des logiciels mentionnés plus bas.

    Cet outil se présente comme un moteur de recherche. Il convient en premier lieu de choisir le corpus souhaité:

    capture-decran-2016-12-20-a-16-54-01-300x183
    Dans notre cas, nous choisissons Polititweets. L’utilisateur peut ensuite effectuer sa requête, par exemple « démocratie »:

    capture-decran-2016-12-20-a-16-54-39-300x243
    L’utilisateur peut choisir de faire une recherche dans tout le corpus, ou de se focaliser sur un compte twitter spécifique. En cliquant sur « Valider », les résultats apparaissent: contenu des tweets, auteur du tweet, support de production, et nombre de retweets:

    capture-decran-2016-12-20-a-16-54-57-300x221

    Le menu en haut de la page permet de produire des exports sur mesure pour 2 logiciels d’analyse de données textuelles, Lexico3 et Iramuteq:

    capture-decran-2016-12-20-a-17-03-24-300x47

    En choisissant par exemple Lexico3, sans nettoyer les liens, on obtient un corpus qu’il ne reste plus qu’à copier et utiliser pour une analyse dans le logiciel:

    capture-decran-2016-12-20-a-16-55-16-300x178
    En faisant de même avec Iramuteq, après analyse dans le logiciel, on obtient facilement par exemple l’analyse des similitudes, qui rend notamment compte des cooccurrences de « démocratie »:
    demo-300x165

    Cet outil constitue donc un premier pas vers l’application #Ideo2017: mise à disposition à la communauté, outil intuitif, aide à la constitution de corpus balisés grâce à la médiation de l’outil.
    Bonne consultation

Vue d’ensemble de la base CoMeRe

Après l’ajout de de deux nouveaux corpus, voici l’état actuel de la base de corpus CoMeRe hébergée par l’infrastructure ORTOLANG dans le cadre des coopérations avec le consortium CORLI de Huma-Num. On remarquera la variété des genres de communication médiée par les réseaux présente dans cette base : https://hdl.handle.net/11403/comere

cmr-genres

Chaque corpus est téléchargeable avec tous les documents associés. Tous ces corpus sont structurés de la même façon en TEI-CMC (version XML augmentée de la TEI, pour en savoir plus, voir ici).  Pour en savoir plus sur la façon de télécharger chaque corpus , voir notre article ici .  Aucune identification, ni création de compte n’est nécessaire pour effectuer ces téléchargements.

Il est donc possible de construire des analyses intercorpus entre même genre ou entre genres différents. Merci aux utilisateurs ayant téléchargé nos corpus et/ou désireux d’accomplir des analyses en mélangeant leurs propres données avec les nôtres, de nous le signaler en nous écrivant à contact@comere.org .

Deux nouveaux corpus dans la base CoMeRe

La base de corpus CoMeRe ( https://hdl.handle.net/11403/comere ) vient de s’enrichir de deux nouveaux corpus qui comme les précédents sont entièrement téléchargeables, renseignés et structurés de la même façon que les précédents en TEI-CMC :

  • 1) Panckhurst R., Détrie C., Lopez C., Moïse C., Roche M., Verine B. (2016). 88milSMS. A corpus of authentic text messages in French. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang : Nancy. https://hdl.handle.net/11403/comere/cmr-88milsms
  • Ce corpus vient compléter les autres corpus de SMS / textos en langue française déjà présents dans CoMeRe, tous issus du même projet européen « sms4science ». Une version précédente du corpus figurait dans le site Huma-Num. Dans cette nouvelle verison, le corpus a été structuré en TEI-CMC, des métadonnées détaillées ont été ajoutées expliquant, notamment, les conditions de collecte, édition, etc. Les profils des  auteurs de SMS figurent désormais dans la version TEI-CMC. Une large fraction des émoticônes et émojis, présents dans les messages, a été étiquetée.
  • 2) Riou, S. & Sagot, B. (2016). Etiquetage morpho-syntaxique du corpus FAVI [corpus]. D’après Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international) [cmr-favi-tei-v1]. Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2
  • Ce corpus est le premier de la base CoMeRe a avoir été produit après un étiquetage morpho-syntaxique  d’un précédent corpus CoMeRe. L’étiquetage a été réalisé avec l’analyseur MElt. Il s’agit d’un corpus de clavardage. Le corpus résultant est lui aussi encodé en TEI-CMC. Les étiquettes utilisées sont listées dans le teiHeader du fichier correspondant. Un document de travail sur la façon d’encoder en TEI le résultat du traitement est joint au corpus.

Les copies d’écran ci-dessous donnent un aperçu des fiches d’information sur les deux corpus précédents et un aperçu d’extraits d’interactions.  Ces fiches d’information s’affichent lorsqu’on accède aux corpus en suivant les adresses (handle) citées précédemment. Les fiches sont construites automatiquement à partir des contenus complets des corpus qui eux sont en XML/TEI.  Pour mémoire, un corpus est constitué d’une ensemble de fichiers (dont les principaux contenant les interactions des utilisateurs en ligne qui sont encodés en TEI-CMC), assemblés dans une archive ZIP. Chaque fiche d’information liste tous les fichiers contenus dans l’archive ZIP et donne le lien de téléchargement complet..

fiche d'information sur corpus Favi2

fiche d’information sur corpus Favi2

 

extrait des interactions étiquetées dans favi2

extrait des interactions étiquetées dans favi2

 

fiche d'information sur corpus 88milSMS

fiche d’information sur corpus 88milSMS

 

extrait des interactions du corpus 88milSMS

extrait des interactions du corpus 88milSMS

Nouveau corpus de Tweets dans CoMeRe

Dans la banque de corpus CoMeRe (https://hdl.handle.net/11403/comere) hébergé par Ortolang, un nouveau corpus de Tweets sur les intermittents du spectacle vient d’être ajouté :

Longhi, J., Borzic, B., Alkhouli, A.(2016). #Intermittent: constitution d’un corpus lié à un événement discursif controversé. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [https://hdl.handle.net/11403/comere/cmr-intermittent]

Description

The corpus #Intermittent gathers tweets of 215 accounts identified as interested in the issue of the intermittents (contract/temporary workers from the entertainment industry). The Twitter accounts (twittos in French) have permitted the extraction of 586 239 tweets: the corpus is constituted by the 10876 tweets from these 58239 with the hashtag « intermittent ». The corpus has been converted to the TEI format within the framework of the project CoMeRe (Communication médiée par les réseaux, Network mediated communication) . The CoMeRe projet aims to gather different corpus that represent the forms of communication in French on the networks (Internet, phone, etc.), all structured and informed in the same way, diffused in open acces for research purposes. The CoMeRe projet has received the support of ORTOLANG (the French equivalent of DARIAH) and of the national consortium Written-Corpus (‘Corpus-écrits’) , subsection of Huma-Num.

Sites pour les conférences CMC-corpora

Après le succès des journées de recherche organisées à Rennes en octobre 2015 (http://ird-cmc-rennes.sciencesconf.org/), nous venons de lancer un site (http://cmc-corpora.org) et une page Facebook (https://www.facebook.com/cmccorpora/) dédiée à l’organisation de futurs conférences sur la thématique « corpus de communication médiée par les réseaux (CMR) » et sur la discussion de travaux en rapport.

cmc-corpora site

Voici un extrait de la page d’accueil du site :

[cmc-corpora] (http://cmc-corpora.org) is a series of conferences dedicated to the collection, annotation, processing and exploitation of corpora of computer-mediated communication (CMC) and social media for research in the Humanities.

The conferences bring together language-centered research on CMC and social media in linguistics, philologies, communication sciences, media and social sciences with research questions from the field of corpus and computational linguistics, language technology, text technology and machine learning. The conferences feature (a) research in which computational methods and tools are used for the empirical analysis on CMC in the humanities, (b) approaches towards automatic processing and annotation of CMC data with computational methods, (c) corpus-linguistic research on collecting, processing, representing and providing CMC corpora on the basis of standards in the field of the digital humanities.

Previous conferences have been held in Dortmund/Germany (cmc-corpora 2013, cmc-corpora 2014) and in Rennes/France (cmc-corpora 2015). Follow-up conferences will be held on an annual basis.

Comment télécharger un corpus CoMeRe ?

Prenons l’exemple de ce corpus de Tweets (pour la liste complète des corpus CoMeRe de différents genres, voir https://hdl.handle.net/11403/comere) :

En cliquant sur ce lien https://hdl.handle.net/11403/comere/cmr-polititweets, vous accédez à la fiche descriptive général du corpus (fiche OLAC de métadonnées).

tweet1

Dans cette page, vous trouverez:
tweet2

Attardons nous un instant sur la visualisation d’un des 7 fichiers TEI, à savoir : https://hdl.handle.net/11403/comere/cmr-politweets/cmr-polititweets-c001-tei-v1

tweet3

Là vous trouverez une visualisation simplifiée du contenu TEI, indiquant notamment un descriptif du contenu du corpus, la méthodologie de recueil des données, de leur organisation, à nouveau la liste des 7 fichiers TEI composant le corpus , le manuel du corpus (PDF), le ZIP contenant tout, les crédits indiquant les personnes qui ont participé à sa création, la licence d’utilisation, enfin un aperçu des messages de tweets (aperçu simplifié, pour le contenu complet voir directement le contenu TEI-XML).
tweet4

Toute la base de corpus CoMeRe est en ligne !

7 corpus avaient déjà été mis en ligne fin 2014. 4 nouveaux corpus viennent les compléter en ce mois de juin 2015, grâce à l’excellent travail de collaboration entre les membres du projet CoMeRe, le LRL, le consortium Corpus-écrits et l’équipe de Ortolang.
Les 4 nouveaux corpus ont la particularité de porter sur des discussions Wikipedia ou des interactions multimodales en ligne. Le modèle Interaction Space ou TEI-CMC est maintenant entièrement instancié.

Voir la banque de corpus CoMeRe parmi les listes de corpus mis en ligne sur Ortolang :

banque de corpus CoMeRe sur Ortolang

banque de corpus CoMeRe sur Ortolang

le lien est ici : Corpus Ortolang

Tous les genres de corpus traités :
comere-genres
Tous sont accessibles et entièrement téléchargeables sur le site CoMeRe-Ortolang ici :
http://hdl.handle.net/11403/comere

Liste des corpus accessibles

  • Abendroth-Timmer, D., Bechtel, M., Chanier T. & Ciekanski, M. (2014). Corpus d’apprentissage INFRAL (Interculturel Franco-Allemand en Ligne). Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-infral
    1 200 blogs messages ; 273 546 tokens ; 26 participants.
  • Antoniadis, G (2014). Corpus de SMS réels dans les Alpes, smsalpes .In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-smsalpes
    22 000 messages / SMS ; 449 000 tokens ; 359 participants.
  • Chanier, T. & Audras, I. (2015). Tridem06 corpus: intercultural competence in online exolingual group exchanges, occurring within multimodal synchronous and asynchronous environments, between 3 institutions. CoMeRe corpora repository. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-tridem06
    nbparticipants=62 + 12 groups (tridems) ; This corpus contains a total of 4894 acts classified as follows: 2809 audio acts, 248 chat acts, 1058 production acts, 779 blog messages. It includes 184 594 tokens
  • Chanier, T. & Wigham, C.R. (2015). Archi21 corpus: collaborative language and architectural learning in Second Life. Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-archi21
    nbparticipants=18 + 4 groups ; This corpus contains a total of 4811 acts classified as follows: 1690 audio acts, 669 chat acts, 2452 production (non verbal) acts. It includes 27 912 tokens
  • Chanier, T., Reffay, C., Betbeder, M-L., Ciekanski, M. & Lamy, M-N. (2015). Copéas corpus: online language learning within an audiographic environment. CoMeRe corpora repository. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-copeas
    nbparticipants=16 + 2 groups ; This corpus contains a total of 15074 acts classified as follows: 7718 audio acts, 1566 chat acts, 5790 production acts. It includes 127228 tokens
  • Falaise, A. (2014). Corpus de français tchaté getalp_org. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-getalp_org
    5 Millions (M) textchat turns ; 72 M de tokens ; 53 000 participants.
  • Ledegen, G.(2014). Grand corpus de SMS smslareunion . In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang : Nancy. http://hdl.handle.net/11403/comere/cmr-smslareunion
    12 622 messages / SMS ; 357 192 tokens ; 884 participants.
  • Longhi, J., Marinica, C., Borzic, B. & Alkhouli, A. (2014). Polititweets, corpus de tweets provenant de comptes politiques influents. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-polititweets
    34 273 messages / tweets ; 567 851 tokens ; 205 accounts.
  • Poudat,C., Grabar , N. Kun, J. & Paloque-Berges, C. (2015). Corpus wikiconflits, conflits dans le Wikipédia francophone. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-wikiconflits
    7 conflictual topics ; 3971 contributors ; 4456 posts / contributions in discussions ; 489 000 tokens in discussions (articles not counted) ; 330 Mo (7 sub-corpora zip)
  • Reffay, C. Chanier, T. Lamy, M.-N. & Betbeder, M.-L. (2014) Corpus d’apprentissage Interactions Simuligne (Simulation en ligne en apprentissage des langues). In Chanier T. (ed.) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-simuligne
    11 506 messages (emails, discussion forum, texchat) ; 600 348 tokens ; 67 participants.
  • Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international). Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-favi
    7 780 textchat turns ; 77 605 tokens ; 31 participants.