CoMeRe.org : corpuscomere

CoMeRe au colloque CLARIN 2016

clarin

Certains membres du projet CoMeRe ont soumis, avec nos collègues européens, un papier au colloque annuel de CLARIN. Michael Beißwenger a presenté le papier intitulé « Integrating corpora of computer-mediated communication into the language resources landscape : Initiatives and best practices from French, German, Italian and Slovenian projects » lors du colloque à Aix en Provence en octobre 2016.

Une vidéo de la présentation se retrouve à ce lien. Le papier est également sur HAL.

Référence bibliographique : Michael Beißwenger, Thierry Chanier, Isabella Chiari, Tomaž Erjavec, Darja Fišer, et al.. (2016). Integrating corpora of computer-mediated communication into the language resources landscape : Initiatives and best practices from French, German, Italian and Slovenian projects. CLARIN Annual Conference 2016, Oct 2016, Aix-en-Provence, France. https://hal.archives-ouvertes.fr/hal-01379621v1.

Publicités

4ème conférence cmc-corpora en Slovénie

cmc-conf-equipe

Plusieurs d’entre nous étaient présents à la 4ème conférence que nous co-organisions, après Rennes en 2015, cette année les 27 et 28 septembre en Slovénie.

les actes sont ici

les diapos des présentations sont à ce lien

Voici le fil Tweeter.
[View the story « 4th Conference on
CMC and Social Media Corpora for the Humanities » on Storify
]

En savoir plus : http://cmc-corpora.org

Vue d’ensemble de la base CoMeRe

Après l’ajout de de deux nouveaux corpus, voici l’état actuel de la base de corpus CoMeRe hébergée par l’infrastructure ORTOLANG dans le cadre des coopérations avec le consortium CORLI de Huma-Num. On remarquera la variété des genres de communication médiée par les réseaux présente dans cette base : https://hdl.handle.net/11403/comere

cmr-genres

Chaque corpus est téléchargeable avec tous les documents associés. Tous ces corpus sont structurés de la même façon en TEI-CMC (version XML augmentée de la TEI, pour en savoir plus, voir ici).  Pour en savoir plus sur la façon de télécharger chaque corpus , voir notre article ici .  Aucune identification, ni création de compte n’est nécessaire pour effectuer ces téléchargements.

Il est donc possible de construire des analyses intercorpus entre même genre ou entre genres différents. Merci aux utilisateurs ayant téléchargé nos corpus et/ou désireux d’accomplir des analyses en mélangeant leurs propres données avec les nôtres, de nous le signaler en nous écrivant à contact@comere.org .

Deux nouveaux corpus dans la base CoMeRe

La base de corpus CoMeRe ( https://hdl.handle.net/11403/comere ) vient de s’enrichir de deux nouveaux corpus qui comme les précédents sont entièrement téléchargeables, renseignés et structurés de la même façon que les précédents en TEI-CMC :

  • 1) Panckhurst R., Détrie C., Lopez C., Moïse C., Roche M., Verine B. (2016). 88milSMS. A corpus of authentic text messages in French. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang : Nancy. https://hdl.handle.net/11403/comere/cmr-88milsms
  • Ce corpus vient compléter les autres corpus de SMS / textos en langue française déjà présents dans CoMeRe, tous issus du même projet européen « sms4science ». Une version précédente du corpus figurait dans le site Huma-Num. Dans cette nouvelle verison, le corpus a été structuré en TEI-CMC, des métadonnées détaillées ont été ajoutées expliquant, notamment, les conditions de collecte, édition, etc. Les profils des  auteurs de SMS figurent désormais dans la version TEI-CMC. Une large fraction des émoticônes et émojis, présents dans les messages, a été étiquetée.
  • 2) Riou, S. & Sagot, B. (2016). Etiquetage morpho-syntaxique du corpus FAVI [corpus]. D’après Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international) [cmr-favi-tei-v1]. Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2
  • Ce corpus est le premier de la base CoMeRe a avoir été produit après un étiquetage morpho-syntaxique  d’un précédent corpus CoMeRe. L’étiquetage a été réalisé avec l’analyseur MElt. Il s’agit d’un corpus de clavardage. Le corpus résultant est lui aussi encodé en TEI-CMC. Les étiquettes utilisées sont listées dans le teiHeader du fichier correspondant. Un document de travail sur la façon d’encoder en TEI le résultat du traitement est joint au corpus.

Les copies d’écran ci-dessous donnent un aperçu des fiches d’information sur les deux corpus précédents et un aperçu d’extraits d’interactions.  Ces fiches d’information s’affichent lorsqu’on accède aux corpus en suivant les adresses (handle) citées précédemment. Les fiches sont construites automatiquement à partir des contenus complets des corpus qui eux sont en XML/TEI.  Pour mémoire, un corpus est constitué d’une ensemble de fichiers (dont les principaux contenant les interactions des utilisateurs en ligne qui sont encodés en TEI-CMC), assemblés dans une archive ZIP. Chaque fiche d’information liste tous les fichiers contenus dans l’archive ZIP et donne le lien de téléchargement complet..

fiche d'information sur corpus Favi2

fiche d’information sur corpus Favi2

 

extrait des interactions étiquetées dans favi2

extrait des interactions étiquetées dans favi2

 

fiche d'information sur corpus 88milSMS

fiche d’information sur corpus 88milSMS

 

extrait des interactions du corpus 88milSMS

extrait des interactions du corpus 88milSMS

Programme Conférence CMC Corpora en Slovenie

Le programme pour le  « 4th Conference on CMC and Social Media Corpora for the Humanities » qui aura lieu le 27 et 28 septembre 2016 en Slovenie est maintenant disponible. Plusieurs membres du projet CoMeRe présenteront des travaux liés au projet.

Pour toute inscription, merci de compléter le formulaire en ligne ici. L’inscription est payante pour les présentateurs mais gratuite pour des personnes qui souhaitent assister au colloque et qui ne présentent pas.

Le colloque accueille comme plènieres Dawn Knight de Cardiff University qui présentera ses travaux sur le corpus de référence de gallois contemporain et Petra Kralj Novak du Jožef Stefan Institute qui présentera sa recherche sur les émoticônes.

CORLI : groupe MULTICOM

Le groupe de travail  » Nouvelles formes de communication » (GT7) du consortium Corpus-écrits clôt ses activités avec la fin du consortium Corpus-écrits.

Nous vous invitons maintenant à participer au nouveau groupe de travail MULTICOM (Multimodalité et nouvelles formes de communication) du consortium CORLI (Corpus, Langues et Interactions) de Huma-Num.

Quelques infos :

dernier appel à communications pour notre conférence CMC en Slovénie

Final Call for Papers: Computer-Mediated Communication and Social Media Corpora for the Humanities
27-28 September 2016
Ljubljana, Slovenia
http://nl.ijs.si/janes/cmc-corpora2016/cfp
***Extended deadline: 15 June 2016***

Held in conjunction with 10th Language Technologies and Digital Humanities Conference
29 September – 1 October 2016
Ljubljana, Slovenia
http://www.sdjt.si/jtdh-2016/en/

INTRODUCTION
=============
The 4th conference CMC and Social Media Corpora for the Humanities will be held in Ljubljana, Slovenia on 27 and 28th September 2016 and will focus on the collection, analysis and processing of computer-mediated communication, such as exchanges on social media (Facebook, Twitter, etc.), forum posts, news comments, wiki discussions and blog entries as well as e-mail, SMS, WhatsApp, YouTube and discussions in multimodal environments. The aim of the conference is to bring together researchers who are interested in the collection, organization, processing, analysis and sharing of CMC data for research purposes. We invite submissions on corpus analysis of various types of CMC data for linguistic or applied linguistic purposes and NLP.Â

The conference is co-located with the regional 10th conference on Language Technologies, this year extended with the topic of Digital Humanities, which will be held at the same venue from 29 September to 1 October. Delegates are therefore welcome to attend and/or submit to the main conference as well:Â http://www.sdjt.si/jtdh-2016/en/

TOPICS OF INTEREST
==================
1. Development of CMC corpora
– Building CMC corpora: from data collection to publication
– Open data for research on CMC: questions of ethics and rights
– Annotation of CMC genres: representation of CMC genres, annotation of linguistic phenomena, metadata
– Multimodal corpora

2. Analysis of CMC corpora
– Sociolinguistic studies of CMC
– Discourse analysis of CMC
– Linguistic characteristics of CMC
– Multimodal aspects of CMC
– Language in contact and code-switching in CMC
– CMC in language learning & teaching

3. Natural Language Processing of CMC
– Normalization
– PoS Tagging
– Lemmatization
– Syntactic parsing
– Named-entity recognition

SUBMISSION PROCEDURE
======================
We invite submissions of papers in English, consisting of 2-4 pages in the LREC format. For templates and submission, please go to:Â http://cmc-corpora2016.sciencesconf.org/user/submit. The submitted papers will be reviewed by the Scientific Committee. Â The accepted papers will be published in on-line proceedings before the conference. After the conference, authors of best-reviewed papers will be invited to submit extended versions of their papers to be published in an edited monograph to appear in 2017.

IMPORTANT DATES
================
15 June: extended submission deadline
1 July: notification of acceptance
1 September: submission of camera-ready version
27-28 September: conference

SCIENTIFIC COMMITTEE
======================
Darja Fišer (University of Ljubljana, Slovenia), Co-chair
Michael Beißwenger (University of Duisburg-Essen, Germany),  Co-chair
Thierry Chanier (Blaise Pascal University, France)
Isabella Chiari (Sapienca University of Rome, Italy)
Tomaž Erjavec (Jozef Stefan Instutute, Slovenia)
Axel Herold (Berlin-Brandenburg Academy of Sciences and Humanities, Germany)
Gudrun Ledegen (Rennes 2 University, France)
Lothar Lemnitzer (Berlin-Brandenburg Academy of Sciences and Humanities, Germany)
Nikola Ljubešić (University of Zagreb, Croatia)
Harald Lüngen (Institute for the German Language, Germany)
Maja Miličević (University of Belgrade, Serbia)
Amanda Potts (Cardiff University, Great Britain)
Céline Poudat (University of Nice, France)
Egon W. Stemle (EURAC, Italy)
Ciara R. Wigham (Lumière University Lyon 2, France)

ORGANIZING COMMITTEE
======================
Darja Fišer (University of Ljubljana, Slovenia), Chair
Jaka ÄŒibej (University of Ljubljana, Slovenia)
Simon Krek (Jozef Stefan Instutute, Slovenia)
Katja Zupan (Jozef Stefan Instutute, Slovenia)