CoMeRe.org : corpuscomere

Accueil » 2015 » juin

Monthly Archives: juin 2015

Comment télécharger un corpus CoMeRe ?

Prenons l’exemple de ce corpus de Tweets (pour la liste complète des corpus CoMeRe de différents genres, voir https://hdl.handle.net/11403/comere) :

En cliquant sur ce lien https://hdl.handle.net/11403/comere/cmr-polititweets, vous accédez à la fiche descriptive général du corpus (fiche OLAC de métadonnées).

tweet1

Dans cette page, vous trouverez:
tweet2

Attardons nous un instant sur la visualisation d’un des 7 fichiers TEI, à savoir : https://hdl.handle.net/11403/comere/cmr-politweets/cmr-polititweets-c001-tei-v1

tweet3

Là vous trouverez une visualisation simplifiée du contenu TEI, indiquant notamment un descriptif du contenu du corpus, la méthodologie de recueil des données, de leur organisation, à nouveau la liste des 7 fichiers TEI composant le corpus , le manuel du corpus (PDF), le ZIP contenant tout, les crédits indiquant les personnes qui ont participé à sa création, la licence d’utilisation, enfin un aperçu des messages de tweets (aperçu simplifié, pour le contenu complet voir directement le contenu TEI-XML).
tweet4

Toute la base de corpus CoMeRe est en ligne !

7 corpus avaient déjà été mis en ligne fin 2014. 4 nouveaux corpus viennent les compléter en ce mois de juin 2015, grâce à l’excellent travail de collaboration entre les membres du projet CoMeRe, le LRL, le consortium Corpus-écrits et l’équipe de Ortolang.
Les 4 nouveaux corpus ont la particularité de porter sur des discussions Wikipedia ou des interactions multimodales en ligne. Le modèle Interaction Space ou TEI-CMC est maintenant entièrement instancié.

Voir la banque de corpus CoMeRe parmi les listes de corpus mis en ligne sur Ortolang :

banque de corpus CoMeRe sur Ortolang

banque de corpus CoMeRe sur Ortolang

le lien est ici : Corpus Ortolang

Tous les genres de corpus traités :
comere-genres
Tous sont accessibles et entièrement téléchargeables sur le site CoMeRe-Ortolang ici :
http://hdl.handle.net/11403/comere

Liste des corpus accessibles

  • Abendroth-Timmer, D., Bechtel, M., Chanier T. & Ciekanski, M. (2014). Corpus d’apprentissage INFRAL (Interculturel Franco-Allemand en Ligne). Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-infral
    1 200 blogs messages ; 273 546 tokens ; 26 participants.
  • Antoniadis, G (2014). Corpus de SMS réels dans les Alpes, smsalpes .In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-smsalpes
    22 000 messages / SMS ; 449 000 tokens ; 359 participants.
  • Chanier, T. & Audras, I. (2015). Tridem06 corpus: intercultural competence in online exolingual group exchanges, occurring within multimodal synchronous and asynchronous environments, between 3 institutions. CoMeRe corpora repository. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-tridem06
    nbparticipants=62 + 12 groups (tridems) ; This corpus contains a total of 4894 acts classified as follows: 2809 audio acts, 248 chat acts, 1058 production acts, 779 blog messages. It includes 184 594 tokens
  • Chanier, T. & Wigham, C.R. (2015). Archi21 corpus: collaborative language and architectural learning in Second Life. Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-archi21
    nbparticipants=18 + 4 groups ; This corpus contains a total of 4811 acts classified as follows: 1690 audio acts, 669 chat acts, 2452 production (non verbal) acts. It includes 27 912 tokens
  • Chanier, T., Reffay, C., Betbeder, M-L., Ciekanski, M. & Lamy, M-N. (2015). Copéas corpus: online language learning within an audiographic environment. CoMeRe corpora repository. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-copeas
    nbparticipants=16 + 2 groups ; This corpus contains a total of 15074 acts classified as follows: 7718 audio acts, 1566 chat acts, 5790 production acts. It includes 127228 tokens
  • Falaise, A. (2014). Corpus de français tchaté getalp_org. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-getalp_org
    5 Millions (M) textchat turns ; 72 M de tokens ; 53 000 participants.
  • Ledegen, G.(2014). Grand corpus de SMS smslareunion . In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang : Nancy. http://hdl.handle.net/11403/comere/cmr-smslareunion
    12 622 messages / SMS ; 357 192 tokens ; 884 participants.
  • Longhi, J., Marinica, C., Borzic, B. & Alkhouli, A. (2014). Polititweets, corpus de tweets provenant de comptes politiques influents. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-polititweets
    34 273 messages / tweets ; 567 851 tokens ; 205 accounts.
  • Poudat,C., Grabar , N. Kun, J. & Paloque-Berges, C. (2015). Corpus wikiconflits, conflits dans le Wikipédia francophone. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-wikiconflits
    7 conflictual topics ; 3971 contributors ; 4456 posts / contributions in discussions ; 489 000 tokens in discussions (articles not counted) ; 330 Mo (7 sub-corpora zip)
  • Reffay, C. Chanier, T. Lamy, M.-N. & Betbeder, M.-L. (2014) Corpus d’apprentissage Interactions Simuligne (Simulation en ligne en apprentissage des langues). In Chanier T. (ed.) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-simuligne
    11 506 messages (emails, discussion forum, texchat) ; 600 348 tokens ; 67 participants.
  • Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international). Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-favi
    7 780 textchat turns ; 77 605 tokens ; 31 participants.