Site du projet CoMeRe, corpus de communication médiée par les réseaux.
CoMeRe a, de 2014 à 2016, créé un noyau de corpus de communication médiée par les réseaux (Computer Mediated Communication – CMC) en français. Chaque corpus rassemble un ensemble de conversations intervenant sur la Toile et les réseaux. Nous nous intéressons à une variété de systèmes de communication synchrone ou asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, forums, conférence en ligne, mondes synthétiques, etc.
Les corpus CoMeRe sont en ligne sur le site de Ortolang : https://hdl.handle.net/11403/comere . Ils sont tous consultables, téléchargeables et librement diffusables et transformables (donc en OpenData).
Ces corpus et leurs métadonnées ont été structurés suivant des formats standard : TEI (Text Encoding Initiative), CLARIN, OLAC. Plus précisément, les corpus sont structurés suivant une extension de la TEI, baptisée TEI-CMC, résultat d’un partenariat européen.
Les membres du projet CoMeRe ont appartenu au groupe de travail « Nouvelles formes de communication » du consortium Corpus-écrits. Ses membres poursuivent leur projet au sein du nouveau consortium CORLI (Corpus, Langues, Interactions) de la TGIR Huma-Num.
Ils sont également à l’initiative du réseau européen de recherche sur la communication médiée par les réseaux : CMC-Corpora.
Le projet CoMeRe a reçu l’appui financier et scientifique de Corpus-écrits et de Ortolang.
Pour nous contacter par courriel : contact at comere.org
Sauf indication contraire, tout le contenu de ce site est sous licence :
CoMeRe web site de http://comere.org est mis à disposition selon les termes de la licence Creative Commons Attribution 4.0 International.
Fondé(e) sur une œuvre à http://comere.org.
bonjour. pourriez-vous me dire combien de mots le corpus coméré contient au total? S’agit-il exclusivement de données écrites ou aussi orales? merci.
Bonjour,
Cet article (https://corpuscomere.wordpress.com/2015/06/24/toute-la-base-de-corpus-comere-est-en-ligne/)
liste la série de corpus et indique pour chacun d’eux le nombre de « mots » (tokens en anglais). Par ailleurs il précise le type de données concernées, à savoir textuelles, orales ou non verbales. Dans chaque cas des données quantitatives sont fournies.
Un exemple de corpus :
***************
Chanier, T. & Audras, I. (2015). Tridem06 corpus: intercultural competence in online exolingual group exchanges, occurring within multimodal synchronous and asynchronous environments, between 3 institutions. CoMeRe corpora repository. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-tridem06
nbparticipants=62 + 12 groups (tridems) ; This corpus contains a total of 4894 acts classified as follows: 2809 audio acts, 248 chat acts, 1058 production acts, 779 blog messages. It includes 184 594 tokens
****************************
Ce corpus comprend donc 184 594 « mots » dont la transcription de 2809 tour de paroles oraux ; le reste provenant des tours de parole du clavardage (248 tours) et de 779 messages de blogues.
En espérant avoir répondu à votre question.
Cordialement
Thierry Chanier