CoMeRe.org : corpuscomere

Accueil » 2014 » septembre

Monthly Archives: septembre 2014

Après atelier TEI-CMC aux journées DARIAH à Rome

Du 17 au 19 septembre 2014 se sont tenus les journées DARIAH-VCC à Rome.
Le groupe s’est réuni à cette occasion.

Banque de corpus CoMeRE : son adresse – permalien

ORTOLANG vient de nous donner l’adresse de la banque de corpus CoMeRe :

http://hdl.handle.net/11403/comere

(l’identifiant 11403 correspondant à ORTOLANG)

A l’occasion de l’atelier TEI-CMC des journées DARIAH en septembre, l’équipe CoMeRe ouvre une première version de sa banque de corpus. Bien sûr l’intégralité des corpus sont à la fois organisés suivant des standards (ici TEI) et en accès libre (OpenData), avec des licences permettant de les réutiliser dans d’autres travaux de recherche (sinon à qui bon parler d’accès libre, lorsque le lecteur ne peut que consulter sans pouvoir réutiliser !).

Le site se met en place. Il faut donc le considérer comme étant dans une version provisoire : l’interface est susceptible de changer, les données seront transférées sur d’autres serveurs ORTOLANG. Mais l’intérêt du permalien (pour la banque de corpus, comme pour les autres permaliens de chacun des corpus développés par les membres du projet) est que ceux-ci ne changeront pas.

Donc les lecteurs peuvent venir voir, tout en étant indulgent pour cette version encore expérimentale. Les créateurs des corpus CoMeRe peuvent d’ores et déjà venir sur le site pour récupérer la référence de leurs oeuvres. Nous ferons plus tard une annonce officielle de l’ouverture de la banque de corpus CoMeRe. Avant la fin de l’année, d’autres corpus viendront s’y ajouter, dont des corpus de discussions Wikipedia et des corpus multimodaux.

Articles : Presentation CoMeRe et traitements sur Tweets

Voici deux articles, écrits par des membres de CoMeRe, accessibles dans les archives ouvertes (HAL) en version préprint :

  • Chanier, T., Poudat, C., Sagot, B., Antoniadis, B., Wigham, C.R., Hriba L., Longhi,J. & Seddah, D. (to appear, 2014). « The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres ». Journal of Language Technology and Computational Linguistics (JLCL). Special Issue : « Building And Annotating Corpora Of Computer-Mediated Discourse: Issues and Challenges at the Interface of Corpus and Computa-tional Linguistics » (ed. by Michael Beißwenger, Nelleke Oostdijk, Angelika Storrer & Henk van den Heuvel). [http://halshs.archives-ouvertes.fr/halshs-00953507]
  • Djemili S., Longhi J., Marinica C., Kotzinos D., Sarfati G.-E. (to appear, 2014). What does Twitter have to say about ideology? « NLP 4 CMC: Natural Language Processing for Computer-Mediated Communication / Social Media » – Pre-conference workshop at Konvens2014 , Germany (2014)
    http://halshs.archives-ouvertes.fr/halshs-01058867

Participation membres CoMeRe atelier TAL-CMC en Allemange

Comme nous l’avions déjà signalé, début octobre 2014 se tiendra en Allemagne un atelier sur
NLP 4 CMC: Natural Language Processing for Computer-Mediated Communication / Social Media en avant conférence de Konvens 2014, conférence organisé par la société de linguistique informatique allemande.

Des membres de CoMeRe ont été accepté dans cet atelier :

  • Eleni Kogkitsidou and Georges Antoniadis: Alpes4science project: SMS corpus processing and tokenization problems
  • Sarra Djemili, Julien Longhi, Claudia Marinica, Dimitris Kotzinos and Georges-Elia Sarfati:
    What does Twitter have to say about ideology? *)

Félicitations à eux !

Voir le programme complet :
https://sites.google.com/site/nlp4cmc/program