CoMeRe.org : corpuscomere

Accueil » 2014 » juin

Monthly Archives: juin 2014

1er ensemble de corpus CoMeRe prêts pour transfert vers ORTOLANG

Comme déjà signalé sur la liste de discussion interne du groupe de travail GT7 (Nelles formes de communication) de Corpus-écrits, nous avons le plaisir d’indiquer ici la première série de corpus CoMeRe qui sont prêts à être transférés et mis en ligne dans la plate-forme ORTOLANG :

  • Falaise, A. (2014). Corpus de français tchaté getalp_org. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-getalp_org-tei-v1].
    5 Millions (M) de messages clavardage ; 72 M de tokens / graphies ; 53 000 participants.
  • Antoniadis, G (2014). Corpus de SMS réels dans les Alpes, smsalpes .In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-smsalpes-tei-v1].
    22 000 messages / textos ; 449 000 tokens/graphies ; 359 participants.
  • Ledegen, G. (2014). Grand corpus de sms smslareunion .In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-smslareunion-tei-v1]
    12 622 messages / textos ; 357 192 tokens ; 884 participants
  • Longhi, J., Marinica, C., Borzic, B., Alkhouli, A. (2014). Polititweets, corpus de tweets provenant de comptes politiques influents. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-polititweets- tei-v1]
    34 273 messages / tweets ; 567 851 tokens/graphies; 205 participants.
  • Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international). Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-favi-tei-v1].
    7 780 tours de clavardage ; 77 605 tokens ; 31 participants
  • Abendroth-Timmer, D., Bechtel, M., Chanier T. & Ciekanski, M. (2014). Corpus d’apprentissage INFRAL (Interculturel Franco-Allemand en Ligne). Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-infral-tei-v1]
    1 200 messages de blogues ; 273 546 tokens ; 26 participants
  • Reffay, C. Chanier, T. Lamy, M.-N. & Betbeder, M.-L. (2014) Corpus d’apprentissage Interactions Simuligne (Simulation en ligne en apprentissage des langues). In Chanier T. (ed.) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-simuligne-tei-v1]
    11 506 messages (courriels, forum, clavardage) ; 600 348 tokens ; 67 participants.

Cette liste reflète l’état du travail du projet fin avril 2014. Tous ces corpus ont été documentés en détail et structurés de la même façon (version tei-v1) suivant le modèle Interaction Space développé par le groupe européen TEI-CMC. Ils sont tous en accès libre (licence Creative Common) de façon à pouvoir être réutilisés (analysés, modifiés, assemblés avec d’autres ensemble de données, etc.) librement par l’ensemble des communautés de chercheurs, voire au delà. Ils constituent le premier apport du projet CoMeRe au futur Corpus de Référence du Français. Une partie de ces corpus feront également l’objet dans le cadre du projet CoMeRE d’un étiquetage morpho-syntaxique (version tei-v2). Enfin d’autres corpus sont en cours de préparation dont un corpus Wikipedia et quelques corpus multimodaux illustrant ainsi tous les aspects du modèle Interaction Space.

Corpus ComeRe prets en avril 2014, version tei-v1

Corpus ComeRe prets en avril 2014, version tei-v1

Réunion du GT7 et projet CoMeRe de Corpus-écrits

Le groupe de travail « nouvelles formes de communication » GT7 et les membres du projet CoMeRe se retrouveront le

jeudi 26 juin 2014, 10-17h au CNAM à Paris

Les duréees comprennent temps de présentation et temps de discussion.

  • accueil- mise en place des diapos : 10h, début du travail à 10h30
  • 1) Point sur Corpus-écrits, formations (20 mn), finance GT7 ***
    membres du COP (Céline Poudat, Benoit Sagot, Thierry Chanier)
  • 2) Phase 1.1 (achevée) de CoMeRe (40 mn) : Application du modèle
    Interaction Space (TEI-CMC) aux 7 corpus (Textos, Tweets, Forum,
    Blogues, courriel, clavardage)*** Thierry
  • 3) Phase 1.1 (achevée)de CoMeRe (30mn) : Travail du groupe Qualité
    *** Membres du groupe Qualité (Julien Longhi, Linda et autres ?)
  • 4) Phase 1.1 (en cours) de CoMeRe (15 mn) : Phase de transfert des
    corpus CoMeRe vers Ortolang *** Paul Lotin
  • Repas : 12h15, reprise à 13h30
  • 5) Coopération européenne : groupe de travail TEI-CMC (30mn) ***
    Thierry Chanier
  • 6) Phase 1.2 (en cours) de CoMeRe (60mn) : Acquisition, organisation
    et vérifications corpus discussions Wikipedia (Wikiconflits) ***

    • Rappel objectifs : Céline Poudat
    • travail accompli : Kun Jin
    • travail de vérification, reconstitutions à faire :
      discussion (entre autres) avec membres du groupe nouvelles
      acquisitions concernés par cette sous-phase
  • 7) Phase 2 (commencée) de CoMeRe (60mn) : étiquetage morpho-syntaxique
    • présentation de la phase pilote sur deux corpus : Benoit Sagot
    • possibilité d’extension aux autres corpus : Georges
      Antoniadis, Benoit
    • dernière mise en forme et vérification TEI avant passage
      dans Ortolang sur ces travaux
  • 8) perspectives de collaborations / travaux scientifiques (45mn) ***
    animé par Ciara Wigham

    • publications : encours (soumission) et perspectives
    • conférences et ateliers : perspectives
    • projets : ANR, projets européens
  • 9) rappel dernières étapes avant fin du projet CoMeRE en 2014 (15
    mn) : Thierry
  • cloture : 17h

Logistique :
************
– salle CNAM 17.1.17 : Pour y accéder, entrez par la porte principale au 292
rue Saint Martin, suivre les panneaux avec le numéro 17. Quand vous
êtes dans la cour d’entrée, il y a un passage couvert sur votre gauche
que vous prenez, puis tournez à droite dans la deuxième cour, prenez
un deuxième passage (bas et étroit), et l’entrée du batiment 17 se
trouve à votre droite dans cette cour. Ce sera au premier étage,
salle 17.