CoMeRe.org : corpuscomere

Accueil » Posts tagged 'Ortolang'

Tag Archives: Ortolang

Toute la base de corpus CoMeRe est en ligne !

7 corpus avaient déjà été mis en ligne fin 2014. 4 nouveaux corpus viennent les compléter en ce mois de juin 2015, grâce à l’excellent travail de collaboration entre les membres du projet CoMeRe, le LRL, le consortium Corpus-écrits et l’équipe de Ortolang.
Les 4 nouveaux corpus ont la particularité de porter sur des discussions Wikipedia ou des interactions multimodales en ligne. Le modèle Interaction Space ou TEI-CMC est maintenant entièrement instancié.

Voir la banque de corpus CoMeRe parmi les listes de corpus mis en ligne sur Ortolang :

banque de corpus CoMeRe sur Ortolang

banque de corpus CoMeRe sur Ortolang

le lien est ici : Corpus Ortolang

Tous les genres de corpus traités :
comere-genres
Tous sont accessibles et entièrement téléchargeables sur le site CoMeRe-Ortolang ici :
http://hdl.handle.net/11403/comere

Liste des corpus accessibles

  • Abendroth-Timmer, D., Bechtel, M., Chanier T. & Ciekanski, M. (2014). Corpus d’apprentissage INFRAL (Interculturel Franco-Allemand en Ligne). Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-infral
    1 200 blogs messages ; 273 546 tokens ; 26 participants.
  • Antoniadis, G (2014). Corpus de SMS réels dans les Alpes, smsalpes .In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-smsalpes
    22 000 messages / SMS ; 449 000 tokens ; 359 participants.
  • Chanier, T. & Audras, I. (2015). Tridem06 corpus: intercultural competence in online exolingual group exchanges, occurring within multimodal synchronous and asynchronous environments, between 3 institutions. CoMeRe corpora repository. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-tridem06
    nbparticipants=62 + 12 groups (tridems) ; This corpus contains a total of 4894 acts classified as follows: 2809 audio acts, 248 chat acts, 1058 production acts, 779 blog messages. It includes 184 594 tokens
  • Chanier, T. & Wigham, C.R. (2015). Archi21 corpus: collaborative language and architectural learning in Second Life. Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-archi21
    nbparticipants=18 + 4 groups ; This corpus contains a total of 4811 acts classified as follows: 1690 audio acts, 669 chat acts, 2452 production (non verbal) acts. It includes 27 912 tokens
  • Chanier, T., Reffay, C., Betbeder, M-L., Ciekanski, M. & Lamy, M-N. (2015). Copéas corpus: online language learning within an audiographic environment. CoMeRe corpora repository. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-copeas
    nbparticipants=16 + 2 groups ; This corpus contains a total of 15074 acts classified as follows: 7718 audio acts, 1566 chat acts, 5790 production acts. It includes 127228 tokens
  • Falaise, A. (2014). Corpus de français tchaté getalp_org. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-getalp_org
    5 Millions (M) textchat turns ; 72 M de tokens ; 53 000 participants.
  • Ledegen, G.(2014). Grand corpus de SMS smslareunion . In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang : Nancy. http://hdl.handle.net/11403/comere/cmr-smslareunion
    12 622 messages / SMS ; 357 192 tokens ; 884 participants.
  • Longhi, J., Marinica, C., Borzic, B. & Alkhouli, A. (2014). Polititweets, corpus de tweets provenant de comptes politiques influents. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-polititweets
    34 273 messages / tweets ; 567 851 tokens ; 205 accounts.
  • Poudat,C., Grabar , N. Kun, J. & Paloque-Berges, C. (2015). Corpus wikiconflits, conflits dans le Wikipédia francophone. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-wikiconflits
    7 conflictual topics ; 3971 contributors ; 4456 posts / contributions in discussions ; 489 000 tokens in discussions (articles not counted) ; 330 Mo (7 sub-corpora zip)
  • Reffay, C. Chanier, T. Lamy, M.-N. & Betbeder, M.-L. (2014) Corpus d’apprentissage Interactions Simuligne (Simulation en ligne en apprentissage des langues). In Chanier T. (ed.) Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-simuligne
    11 506 messages (emails, discussion forum, texchat) ; 600 348 tokens ; 67 participants.
  • Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international). Banque de corpus CoMeRe. Ortolang.fr : Nancy. http://hdl.handle.net/11403/comere/cmr-favi
    7 780 textchat turns ; 77 605 tokens ; 31 participants.

Présentation avancées projet CoMeRe : assemblée générale consortium Corpus-écrits

Le 21 novembre 2014 s’est tenue l’assemblée générale du Consortium Corpus-écrits. A cette occasion , le projet CoMeRe a présenté ses avancées en insistant particulièrement sur la coopération Corpus-écrits-Ortolang et la celle avec le groupe européen TEI-CMC.

Le diaporama est ici :

Banque de corpus CoMeRE : son adresse – permalien

ORTOLANG vient de nous donner l’adresse de la banque de corpus CoMeRe :

http://hdl.handle.net/11403/comere

(l’identifiant 11403 correspondant à ORTOLANG)

A l’occasion de l’atelier TEI-CMC des journées DARIAH en septembre, l’équipe CoMeRe ouvre une première version de sa banque de corpus. Bien sûr l’intégralité des corpus sont à la fois organisés suivant des standards (ici TEI) et en accès libre (OpenData), avec des licences permettant de les réutiliser dans d’autres travaux de recherche (sinon à qui bon parler d’accès libre, lorsque le lecteur ne peut que consulter sans pouvoir réutiliser !).

Le site se met en place. Il faut donc le considérer comme étant dans une version provisoire : l’interface est susceptible de changer, les données seront transférées sur d’autres serveurs ORTOLANG. Mais l’intérêt du permalien (pour la banque de corpus, comme pour les autres permaliens de chacun des corpus développés par les membres du projet) est que ceux-ci ne changeront pas.

Donc les lecteurs peuvent venir voir, tout en étant indulgent pour cette version encore expérimentale. Les créateurs des corpus CoMeRe peuvent d’ores et déjà venir sur le site pour récupérer la référence de leurs oeuvres. Nous ferons plus tard une annonce officielle de l’ouverture de la banque de corpus CoMeRe. Avant la fin de l’année, d’autres corpus viendront s’y ajouter, dont des corpus de discussions Wikipedia et des corpus multimodaux.

1er ensemble de corpus CoMeRe prêts pour transfert vers ORTOLANG

Comme déjà signalé sur la liste de discussion interne du groupe de travail GT7 (Nelles formes de communication) de Corpus-écrits, nous avons le plaisir d’indiquer ici la première série de corpus CoMeRe qui sont prêts à être transférés et mis en ligne dans la plate-forme ORTOLANG :

  • Falaise, A. (2014). Corpus de français tchaté getalp_org. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-getalp_org-tei-v1].
    5 Millions (M) de messages clavardage ; 72 M de tokens / graphies ; 53 000 participants.
  • Antoniadis, G (2014). Corpus de SMS réels dans les Alpes, smsalpes .In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-smsalpes-tei-v1].
    22 000 messages / textos ; 449 000 tokens/graphies ; 359 participants.
  • Ledegen, G. (2014). Grand corpus de sms smslareunion .In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-smslareunion-tei-v1]
    12 622 messages / textos ; 357 192 tokens ; 884 participants
  • Longhi, J., Marinica, C., Borzic, B., Alkhouli, A. (2014). Polititweets, corpus de tweets provenant de comptes politiques influents. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-polititweets- tei-v1]
    34 273 messages / tweets ; 567 851 tokens/graphies; 205 participants.
  • Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international). Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-favi-tei-v1].
    7 780 tours de clavardage ; 77 605 tokens ; 31 participants
  • Abendroth-Timmer, D., Bechtel, M., Chanier T. & Ciekanski, M. (2014). Corpus d’apprentissage INFRAL (Interculturel Franco-Allemand en Ligne). Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-infral-tei-v1]
    1 200 messages de blogues ; 273 546 tokens ; 26 participants
  • Reffay, C. Chanier, T. Lamy, M.-N. & Betbeder, M.-L. (2014) Corpus d’apprentissage Interactions Simuligne (Simulation en ligne en apprentissage des langues). In Chanier T. (ed.) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-simuligne-tei-v1]
    11 506 messages (courriels, forum, clavardage) ; 600 348 tokens ; 67 participants.

Cette liste reflète l’état du travail du projet fin avril 2014. Tous ces corpus ont été documentés en détail et structurés de la même façon (version tei-v1) suivant le modèle Interaction Space développé par le groupe européen TEI-CMC. Ils sont tous en accès libre (licence Creative Common) de façon à pouvoir être réutilisés (analysés, modifiés, assemblés avec d’autres ensemble de données, etc.) librement par l’ensemble des communautés de chercheurs, voire au delà. Ils constituent le premier apport du projet CoMeRe au futur Corpus de Référence du Français. Une partie de ces corpus feront également l’objet dans le cadre du projet CoMeRE d’un étiquetage morpho-syntaxique (version tei-v2). Enfin d’autres corpus sont en cours de préparation dont un corpus Wikipedia et quelques corpus multimodaux illustrant ainsi tous les aspects du modèle Interaction Space.

Corpus ComeRe prets en avril 2014, version tei-v1

Corpus ComeRe prets en avril 2014, version tei-v1