Accueil » TEI-métadonnées

Archives de Catégorie: TEI-métadonnées

Après atelier TEI-CMC aux journées DARIAH à Rome

27 septembre 2014 16:24 / Poster un commentaire

Du 17 au 19 septembre 2014 se sont tenus les journées DARIAH-VCC à Rome.
Le groupe s’est réuni à cette occasion.

Pour voir ses présentations , aller sur le wiki du groupe TEI-CMC
Pour voir le travail prévu en 2015, regarder ce document : tei-cmc-dariah-roma_2015

Banque de corpus CoMeRE : son adresse – permalien

12 septembre 2014 10:59 / Poster un commentaire

ORTOLANG vient de nous donner l’adresse de la banque de corpus CoMeRe :

http://hdl.handle.net/11403/comere

(l’identifiant 11403 correspondant à ORTOLANG)

A l’occasion de l’atelier TEI-CMC des journées DARIAH en septembre, l’équipe CoMeRe ouvre une première version de sa banque de corpus. Bien sûr l’intégralité des corpus sont à la fois organisés suivant des standards (ici TEI) et en accès libre (OpenData), avec des licences permettant de les réutiliser dans d’autres travaux de recherche (sinon à qui bon parler d’accès libre, lorsque le lecteur ne peut que consulter sans pouvoir réutiliser !).

Le site se met en place. Il faut donc le considérer comme étant dans une version provisoire : l’interface est susceptible de changer, les données seront transférées sur d’autres serveurs ORTOLANG. Mais l’intérêt du permalien (pour la banque de corpus, comme pour les autres permaliens de chacun des corpus développés par les membres du projet) est que ceux-ci ne changeront pas.

Donc les lecteurs peuvent venir voir, tout en étant indulgent pour cette version encore expérimentale. Les créateurs des corpus CoMeRe peuvent d’ores et déjà venir sur le site pour récupérer la référence de leurs oeuvres. Nous ferons plus tard une annonce officielle de l’ouverture de la banque de corpus CoMeRe. Avant la fin de l’année, d’autres corpus viendront s’y ajouter, dont des corpus de discussions Wikipedia et des corpus multimodaux.

Atelier : TEI CMC: Models and tools for structuring & annotating corpora of social media / computer-mediated communication

23 août 2014 09:04 / Un commentaire sur Atelier : TEI CMC: Models and tools for structuring & annotating corpora of social media / computer-mediated communication

A l’occasion de la tenue de la réunion des groupes de travail de DARIAH (infrastructure européenne pour les humanités) les 17 et 18 septembre à Rome, le groupe TEI-CMC organise une journée d’atelier / discussions sur le thème :

TEI CMC: Models and tools for structuring & annotating corpora of social media / computer-mediated communication

Pour le projet CoMeRe, Benoit Sagot et Thierry Chanier s’y rendront pour présenter les travaux accomplis. Cette réunion, en réunissant des experts européen sur le thème nous donnera l’occasion de :

faire connaître auprès de DARIAH-ERIC, qui vient d’acquérir un statut légal au niveau européen avec 17 membres fondateurs et un siège de coordination en France, les avancées du groupe TEI-CMC
organiser des évènements scientifiques en 2015 sur le thème de la réunion.

Voir le programme complet sur le wiki TEI-CMC : ici

1er ensemble de corpus CoMeRe prêts pour transfert vers ORTOLANG

27 juin 2014 11:55 / Poster un commentaire

Comme déjà signalé sur la liste de discussion interne du groupe de travail GT7 (Nelles formes de communication) de Corpus-écrits, nous avons le plaisir d’indiquer ici la première série de corpus CoMeRe qui sont prêts à être transférés et mis en ligne dans la plate-forme ORTOLANG :

Falaise, A. (2014). Corpus de français tchaté getalp_org. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-getalp_org-tei-v1].
5 Millions (M) de messages clavardage ; 72 M de tokens / graphies ; 53 000 participants.
Antoniadis, G (2014). Corpus de SMS réels dans les Alpes, smsalpes .In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-smsalpes-tei-v1].
22 000 messages / textos ; 449 000 tokens/graphies ; 359 participants.
Ledegen, G. (2014). Grand corpus de sms smslareunion .In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-smslareunion-tei-v1]
12 622 messages / textos ; 357 192 tokens ; 884 participants
Longhi, J., Marinica, C., Borzic, B., Alkhouli, A. (2014). Polititweets, corpus de tweets provenant de comptes politiques influents. In Chanier T. (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-polititweets- tei-v1]
34 273 messages / tweets ; 567 851 tokens/graphies; 205 participants.
Yun, H. & Chanier, T. (2014). Corpus d’apprentissage FAVI (Français académique virtuel international). Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-favi-tei-v1].
7 780 tours de clavardage ; 77 605 tokens ; 31 participants
Abendroth-Timmer, D., Bechtel, M., Chanier T. & Ciekanski, M. (2014). Corpus d’apprentissage INFRAL (Interculturel Franco-Allemand en Ligne). Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-infral-tei-v1]
1 200 messages de blogues ; 273 546 tokens ; 26 participants
Reffay, C. Chanier, T. Lamy, M.-N. & Betbeder, M.-L. (2014) Corpus d’apprentissage Interactions Simuligne (Simulation en ligne en apprentissage des langues). In Chanier T. (ed.) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-simuligne-tei-v1]
11 506 messages (courriels, forum, clavardage) ; 600 348 tokens ; 67 participants.

Cette liste reflète l’état du travail du projet fin avril 2014. Tous ces corpus ont été documentés en détail et structurés de la même façon (version tei-v1) suivant le modèle Interaction Space développé par le groupe européen TEI-CMC. Ils sont tous en accès libre (licence Creative Common) de façon à pouvoir être réutilisés (analysés, modifiés, assemblés avec d’autres ensemble de données, etc.) librement par l’ensemble des communautés de chercheurs, voire au delà. Ils constituent le premier apport du projet CoMeRe au futur Corpus de Référence du Français. Une partie de ces corpus feront également l’objet dans le cadre du projet CoMeRE d’un étiquetage morpho-syntaxique (version tei-v2). Enfin d’autres corpus sont en cours de préparation dont un corpus Wikipedia et quelques corpus multimodaux illustrant ainsi tous les aspects du modèle Interaction Space.

Corpus ComeRe prets en avril 2014, version tei-v1

Groupe TEI-CMC au colloque Empirikom

20 février 2014 12:02 / Poster un commentaire

meeting empirikom

Le groupe européen TEI-CMC présente ses travaux au colloque du réseau allemand Empirikom sur le thème « Social Media Corpora for the eHumanities: Standards, Challenges, and Perspectives », 20.-21. Fevrier 2014, TU Universität, Dortmund.

Présentation de l’état d’avancement du projet CoMeRe lors de colloque : empirikom-teisig-comere

Article : The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres.

21 janvier 2014 11:34 / Poster un commentaire

Une partie des membres du projet CoMeRe a soumis un article dont voici les références

Chanier, T, Poudat, C, Sagot, B, Antoniadis, G, Wigham, C, Hriba, L, Longhi, J & Seddah, D (soumis). The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres.

article soumis à : Special Issue of JLCL (Journal of Language Technology and Computational Linguistics (JLCL, http://jlcl.org/): BUILDING AND ANNOTATING CORPORA OF COMPUTER-MEDIATED DISCOURSE: Issues and Challenges at the Interface of Corpus and Computational Linguistics (ed. by Michael Beißwenger, Nelleke Oostdijk, Angelika Storrer & Henk van den Heuvel)

Cet article est sur notre site dans la partie interne. Il sera bien sûr diffusé en accès libre s’il est accepté et dans sa version finale.

Groupe TEI-CMC : liste de discussion et wiki

8 octobre 2013 11:26 / Poster un commentaire

Le groupe TEI-CMC a tenu sa première réunion le 5octobre , lors de la conférence TEI à Rome.

a CMC-SIG page in the « Activities » section of the official TEI website:http://www.tei-c.org/Activities/SIG/CMC/
a mailing list (Google group) for the SIG: tei-cmc@googlegroups.com. individual subscription is possible via
the web at https://groups.google.com/d/forum/tei-cmc
a SIG page in the TEI wiki:http://wiki.tei-c.org/index.php/SIG:Computer-Mediated_Communication
Vous trouverez ici, sur le wiki du groupe, le diaporama de notre intervention du 5 octobre

Métadonnées Corpus en TEI

8 octobre 2013 11:17 / Poster un commentaire

Les collègues de CAHIER proposent (version de travail ) ce jeu de métadonnées en TEI : http://sourceforge.net/p/weboai/wiki/Home/.

Je cite :

« OAI-PMH, Open Archives Initiative Protocol for Metadata Harvesting est un protocole d’échange de métadonnées. Dans le contexte d’ « archives ouvertes », ce protocole permet de communiquer des notices bibliographiques de manière standardisée et automatisée entre machines. Weboai implémente un entrepôt (repository) OAI, mais surtout, propose des outils et des interfaces pour alimenter et consulter le catalogue de notices.

Ce logiciel est développé dans le contexte du CNRS, Institut des sciences humaines et sociales, pour l’Infrastrucre de recherche CORPUS et le Consortium Cahier. »

Proposition de session TEI-CMC acceptée à la prochaine conférence du consortium

7 juin 2013 17:24 / Poster un commentaire

Le comité scientifique de la conférence du consortium TEI (http://www.tei-c.org/) vient d’accepter la proposition de session sur la CMC (CoMéRé) . Cette conférence se tiendra en octobre 2013 à Rome : http://digilab2.let.uniroma1.it/teiconf2013/.

Notre proposition (conjointe avec les collègues européens comportent 3 parties :

Modeling computer-mediated communication in TEI:requirements and perspectives
Expanding the TEI encoding framework to genres of computer-mediated communication: considerations and suggestions
Metadata for cmc documents

Vous pouvez la lire ici : TEIcmcpanel_2013-03-30

Proposition initiale pour la tâche métadonnées

31 Mai 2013 15:47 / Poster un commentaire

Ce document (Chanier, 2013) est une première proposition en vue d’entamer le travail sur les métadonnées pour les corpus CoMeRe. Il est destiné à la préparation d’une première version opérationnelle des métadonnées CoMeRe pour cet été / début septembre et, auparavant, à l’écriture d’un rapport et autres documents présentant les premières réponses.

En voici la table des matières.

1. Objectifs et contraintes de départ 3 2. Survol de l'existant 5 2.1. Avertissement 5 2.2. Métadonnées façon OLAC dans Mulce 5 2.2.1. OLAC versus Clarin 5 2.2.2. Architecture Mulce 6 2.3. Proposition 1 pour CoMéRé 10 3. Procédure de traitement des métadonnées dans CoMeRe 11 4. Calendrier des tâches du groupe métadonnées CoMeRe 13 4.1. Ensemble des descripteurs OLAC 13 4.2. Citer et référence un corpus CoMeRe 13 4.3. Descripteurs du Header TEI 14 4.4. Ebauche d’agenda 14 5. Références 15 6. Annexes 16 6.1. Fiche de métadonnées OLAC correspondant à un corpus LETEC Mulce 16

Références
Chanier, T. (2013) Proposition initiale concernant la tâche Métadonnées. Projet CoMeRe (Communication Médiée par les Réseaux), IR Corpus-écrits. [ https://corpuscomere.wordpress.com/ , comere_meta_prop_130531 ]

CoMeRe.org : corpuscomere