CoMeRe.org : corpuscomere

Accueil » Posts tagged 'TEI-CMC'

Tag Archives: TEI-CMC

Deux nouveaux corpus dans la base CoMeRe

La base de corpus CoMeRe ( https://hdl.handle.net/11403/comere ) vient de s’enrichir de deux nouveaux corpus qui comme les précédents sont entièrement téléchargeables, renseignés et structurés de la même façon que les précédents en TEI-CMC :

  • 1) Panckhurst R., Détrie C., Lopez C., Moïse C., Roche M., Verine B. (2016). 88milSMS. A corpus of authentic text messages in French. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang : Nancy. https://hdl.handle.net/11403/comere/cmr-88milsms
  • Ce corpus vient compléter les autres corpus de SMS / textos en langue française déjà présents dans CoMeRe, tous issus du même projet européen « sms4science ». Une version précédente du corpus figurait dans le site Huma-Num. Dans cette nouvelle verison, le corpus a été structuré en TEI-CMC, des métadonnées détaillées ont été ajoutées expliquant, notamment, les conditions de collecte, édition, etc. Les profils des  auteurs de SMS figurent désormais dans la version TEI-CMC. Une large fraction des émoticônes et émojis, présents dans les messages, a été étiquetée.
  • 2) Riou, S. & Sagot, B. (2016). Etiquetage morpho-syntaxique du corpus FAVI [corpus]. D’après Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international) [cmr-favi-tei-v1]. Banque de corpus CoMeRe. Ortolang.fr : Nancy. https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2
  • Ce corpus est le premier de la base CoMeRe a avoir été produit après un étiquetage morpho-syntaxique  d’un précédent corpus CoMeRe. L’étiquetage a été réalisé avec l’analyseur MElt. Il s’agit d’un corpus de clavardage. Le corpus résultant est lui aussi encodé en TEI-CMC. Les étiquettes utilisées sont listées dans le teiHeader du fichier correspondant. Un document de travail sur la façon d’encoder en TEI le résultat du traitement est joint au corpus.

Les copies d’écran ci-dessous donnent un aperçu des fiches d’information sur les deux corpus précédents et un aperçu d’extraits d’interactions.  Ces fiches d’information s’affichent lorsqu’on accède aux corpus en suivant les adresses (handle) citées précédemment. Les fiches sont construites automatiquement à partir des contenus complets des corpus qui eux sont en XML/TEI.  Pour mémoire, un corpus est constitué d’une ensemble de fichiers (dont les principaux contenant les interactions des utilisateurs en ligne qui sont encodés en TEI-CMC), assemblés dans une archive ZIP. Chaque fiche d’information liste tous les fichiers contenus dans l’archive ZIP et donne le lien de téléchargement complet..

fiche d'information sur corpus Favi2

fiche d’information sur corpus Favi2

 

extrait des interactions étiquetées dans favi2

extrait des interactions étiquetées dans favi2

 

fiche d'information sur corpus 88milSMS

fiche d’information sur corpus 88milSMS

 

extrait des interactions du corpus 88milSMS

extrait des interactions du corpus 88milSMS

Publicités

Rapport préparatoire pour l’étiquetage morpho-syntaxique des corpus CoMeRe

Nous publions un rapport, qui est encore dans un état préparatoire. Il concerne la façon dont pourront être étiquetés les corpus CoMeRe sur un plan morpho-syntaxique. Ces corpus passeront alors de la version tei-v1 à tei-v2. Ce rapport donne une série d’exemples où sont employés de nouveaux éléments propres à l’extension TEI-CMC.

Chanier, T (2014). Structure TEI-v2 après étiquetage morpho-syntaxique au sein du projet CoMeRe. Projet CoMeRe (Communication Médiée par les Réseaux), IR Corpus-écrits. [ http://comere.org/ , comere-traitements_140311]

Présentation avancées projet CoMeRe : assemblée générale consortium Corpus-écrits

Le 21 novembre 2014 s’est tenue l’assemblée générale du Consortium Corpus-écrits. A cette occasion , le projet CoMeRe a présenté ses avancées en insistant particulièrement sur la coopération Corpus-écrits-Ortolang et la celle avec le groupe européen TEI-CMC.

Le diaporama est ici :

Après atelier TEI-CMC aux journées DARIAH à Rome

Du 17 au 19 septembre 2014 se sont tenus les journées DARIAH-VCC à Rome.
Le groupe s’est réuni à cette occasion.