Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

BeMaTaC

Ein tief annotiertes multimodales Map-Task-Korpus gesprochener Lerner- und Muttersprache

This website is also available in English.

 

Zugang

Annotation

Dokumentation

Download

Kontakt

Publikationen

 

Beschreibung

 


Das Berlin Map Task Corpus (BeMaTaC) ist ein frei verfügbares Korpus gesprochener Sprache. Es besteht aus einem L1-Subkorpus, welches mit deutschen Muttersprachler/innen aufgenommen wird, und einem identisch angelegten L2-Subkorpus mit fortgeschrittenen Lerner/innen von Deutsch als Fremdsprache. BeMaTaC verwendet ein Map-Task-Design, hierbei instruiert ein/e Sprecher/in (sog. Instructor) eine/n andere/n Sprecher/in (sog. Instructee) eine Route auf einer Karte mit Landmarken zu reproduzieren. Die Sprecher/innen können sich nicht gegenseitig sehen und können daher nicht non-verbal kommunizieren. Die Dialoge werden mit zwei separat platzierten Mikrophonen aufgezeichnet, zusätzlich wird ein Video aufgezeichnet, welches die zeichnende Hand des Instructees zeigt. Die Transkriptionen sind konsistent tokenisiert, zeitaligniert und auf verschiedenen und einfach erweiterbaren Ebenen annotiert. Umfassende und anonymisierte Metadaten stehen zu jedem Dialog zur Verfügung.

 

Neues Release Das aktuelle Release 3.0 enthält ein L1-Subkorpus mit 12 Dialogen (66 Minuten, 8900 normalisierte Token) sowie ein L2-Subkorpus mit 5 Dialogen (77 Minuten, 9223 normalisierten Token).

 
sample map instructor sample map instructee
Instructor Instructee

 

Zugang

 


BeMaTaC ist über ANNIS, ein browserbasiertes Open-Source-Such- und Visualisierungstool für tief annotierte Korpora, zugänglich.

 

Annotation

 


Das aktuelle Release 2.1 / 2013-02.1 enthält folgende Ebenen:

  • Orthographienahe Transkription mit Fillern, Wortabbrüchen, umgangssprachlichen Zusammenziehungen und idiosynkratischer Aussprache
  • Normalisierte orthographische Transkription
  • Automatisch generierte Lemmatisierung
  • Automatisch generierte Wortartentags unter Verwendung des STTS (Stuttgart-Tübingen-TagSet)
  • Syntaktisch motivierte Äußerungsspannen
  • Backchanneling (im L1-Subkorpus nur Backchanneling des Instructees)
  • Disfluencies: Filler (gefüllte Pausen), Wortdehnungen, Aussprachefehler, Explicit editing terms und Wiederholungen
  • Reparaturen: Reparandum, Interregnum, Reparans
  • Reparatursubkategorisierungen: Wiederholungen, Ersetzungen, Einfügungen
  • Extralinguistische Ereignisse
  • Pausen (ungefüllte Pausen)
  • Tokenlänge

 

Die folgenden Daten sind als Teil des NoSta-D-Korpus verfügbar:

 

  • Syntaktische Dependenzen
  • Named entitiy recognition and disambiguation
  • Koreferenzen

 

Wir arbeiten derzeit an folgenden Annotationen:

 

  • Automatische Annotation von Pausen, Fillern und Wiederholungen
  • Verbessertes Wortartentagging durch Einbezug von Äußerungsspannen
  • Semi-automatische Normalisierung
  • Manuell korrigierte Wortartentags (L1-Subkorpus)

 

Längerfristige Annotationspläne:

 

  • Hyperlemma-Annotation für idiosynkratische Ausdrücke
  • Manuell korrigierte Lemmatisierung
  • Manuell korrigierte Wortartentags (L2-Subkorpus)
  • Phonetische/phonologische Transkription/Annotation
  • Syntaktische Phänomene
  • Informationsstruktur

 

Dokumentation

 


Die folgenden Seiten beziehen sich auf das jeweils neueste Release, frühere Versionen können Daten enthalten, die mit diesen Richtlinien inkompatibel sind.

 

Download

 


Creative Commons Licence BeMaTaC ist unter einer Creative Commons Attribution 3.0 Unported License lizenziert.

Wenn Sie unser Korpus für Ihre Forschung verwenden oder BeMaTaC mit weiteren Annotationen erweitern möchten, schreiben Sie uns bitte.

 

L1-Subkorpus: Release 2.1 / 2013-02.1

 

 

L2-Subkorpus: Release 2.1 / 2013-02.1

 

 

Andere Releases

 

  • Syntaktische Dependenzen, Named entities und Koreferenzen sind als Teil des NoSta-D-Korpus verfügbar.
  • Frühere Releases sind im Bereich Versionsgeschichte zum Download verfügbar.

 

Team & Kontakt

 


  • Für weitere Informationen oder Anfragen kontaktieren Sie bitte Simon Sauer.
  • Assoziiert: Malte Belz, Oxana Rasskazova
  • Ehemalige Mitglieder: Linda Giesel, Daisy Krüger, Elisabeth Lühr, Isabelle Nunberger, Myriam Klapi, Rosalia Schultze-Kraft, Melanie Siemund and Albina Töws

 

Publikationen

 


Wie zitiere ich BeMaTaC?

 

  • Bitte immer diese Webseite zitieren und zwar in der folgenden Form: http://u.hu-berlin.de/bematac

  • Wenn Ihre Zitatanforderungen dies verlangen, können Sie Simon Sauer als Herausgeber zitieren.

  • Wenn Ihre Zitatanforderungen einen Fachaufsatz verlangen, können Sie folgendes Papier zitieren:

    • Simon Sauer & Anke Lüdeling. 2016. Flexible Multi-Layer Spoken Dialogue Corpora. International Journal of Corpus Linguistics, Volume 21, Issue 3, 2016, Special Issue: Compilation, Transcription, Markup and Annotation of Spoken Corpora, 419–438.

  • Zusätzlich zur Webseite können Sie folgende Poster zitieren:

  • Beim Zitieren von spezifischen Daten aus dem Korpus geben Sie bitte das Subkorpus (L1 oder L2), die Korpusversion (z.B. 2013-02.1), das Dokument (z.B. 2011-12-14-A) und den Tokenbereich (in der tok-Ebene dargestellt) an.

 

2017

 

  • Malte Belz, Simon Sauer, Anke Lüdeling, Christine Mooshammer. 2017. Fluently disfluent? Pauses and Repairs of Advanced Learners and Native Speakers of German. International Journal of Learner Corpus Research, Volume 3, Issue 2, 2017, Special Issue: Segmental, Prosodic and Fluency Features in Phonetic Learner Corpora. 118-148. [https://doi.org/10.1075/ijlcr.3.2.02bel]

 

2016

 

  • Simon Sauer & Anke Lüdeling. 2016. Flexible Multi-Layer Spoken Dialogue Corpora. International Journal of Corpus Linguistics, Volume 21, Issue 3, 2016, Special Issue: Compilation, Transcription, Markup and Annotation of Spoken Corpora, 419–438. [Vorversion]

 

2015

 

    • Malte Belz, Simon Sauer, Anke Lüdeling, Christine Mooshammer. 2015. Repair Behaviour of Advanced German Learners in the Berlin Map Task Corpus. IFCASL Workshop on Phonetic Learner Corpora, satellite workshop of ICPhS2015, Glasgow, 12.08.2015.

 

    • Anke Lüdeling, Malte Belz, Hagen Hirschmann, Martin Klotz, Carolin Odebrecht, Laura Perlitz, Simon Sauer, Vivian Voigt. 2015. BeMaTaC, Falko, RIDGES. Linguistische Mehrebenenkorpora für Nichtstandard-Varietäten des Deutschen. Digital-Humanities-Tag 2015, Philosophische Fakultät II, Humboldt-Universität zu Berlin. [Poster]

 

  • Simon Sauer. 2015. BeMaTaC: Ein tief annotiertes multimodales Map-Task-Korpus gesprochener Lerner- und Muttersprache. Gesprochene Fremdsprache Deutsch — Forschung und Vermittlung, Universidade de Lisboa, 26.—28.02.2015. [Abstract]

 

2014

 

    • Malte Belz. 2014. Managing referential mismatches in German map task dialogues. RefNet Workshop, Edinburgh, 31.08.2014. [Abstract]

 

    • Oxana Rasskazova, Simon Sauer, Christine Mooshammer. 2014. Berlin Dialog Corpus (BeDiaCo) – ein multimodales Korpus für Konvergenz- und Dialogforschung. Workshop Sprachdatenbanken – von der Aufnahme zur Publikation, CLARIN-D. [Poster]

 

    • Simon Sauer & Oxana Rasskazova. 2014. BeMaTaC – eine digitale multimodale Ressource für Sprach- und Dialogforschung. Workshop Grenzen überschreiten – Digitale Geisteswissenschaft heute und morgen, Digital Humanities Berlin 2014. [Poster]

 

  • Malte Belz. 2014. Repair disfluencies in German native and non-native speech. Linguistic Evidence 2014. [Poster]

 

2013

 

    • Myriam Klapi. 2013. Disfluency Patterns: A Contrastive Corpus Study. Masterarbeit. Humboldt-Universität zu Berlin, Dezember 2013.

 

    • Malte Belz. 2013. Disfluencies und Reparaturen bei Muttersprachlern und Lernern – eine kontrastive Analyse. Masterarbeit. Humboldt-Universität zu Berlin, November 2013. [online]

 

    • Oxana Rasskazova & Simon Sauer. 2013. BeMaTaC: ein multimodales Map-Task-Dialogkorpus. Pre-conference workshop Gesprochene Sprache und Sprachverarbeitung, GSCL 2013. [Abstract]

 

    • Anke Lüdeling. 2013. Corpora of Spoken Language. Eingeladener Vortrag. From Hand to Mouth: A Dialogue between Spoken and Sign Language Research 2013. [Folien]

 

    • Malte Belz & Myriam Klapi. 2013. Pauses following Fillers in L1 and L2 German Map Task Dialogues. Proceedings of Disfluency in Spontaneous Speech. DiSS 2013, 9–12. [online]

 

    • Clara Becker. 2013. Doing Backchanneling – Verhalten von Frauen und Männern beim Backchanneling im aufgabenorientierten Dialog. Bachelorarbeit. Humboldt-Universität zu Berlin, Juli 2013. [online]

 

    • Simon Sauer & Anke Lüdeling. 2013. BeMaTaC: A Flexible Multilayer Spoken Dialogue Corpus for Contrastive SLA Analyses. ICAME 34, 46–47. [Abstract]

 

    • Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer. 2013. Gesprochene Muttersprache vs. Lernersprache – Aufbau und Auswertung eines Korpus. Forschendes Lernen an der Humboldt-Universität zu Berlin, 81–86. [online]

 

  • Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer. 2013. Berlin Map Task Corpus – A deeply annotated multimodal map-task corpus of spoken learner and native German. DGfS-CL 2013. [Poster]

 

Lehre


Ein wichtiges Ziel von BeMaTaC ist die Förderung der Nutzung von Korpora und das Unterrichten des notwendigen Fachwissens. Dies wird nicht nur durch die Verwendung von BeMaTaC-Daten in Lehrveranstaltungen der Linguistik, sondern auch durch die aktive Erweiterung des Korpus im Unterricht erreicht.

 

Wintersemester 2014/2015

 

 

Wintersemester 2013/2014

 

 

Sommersemester 2013

 

 

Wintersemester 2012/2013

 

 

Wintersemester 2011/2012

 

 

Tools & Referenzen

 


 

    • Original map-task design by HCRC
      Anne H. Anderson, Miles Bader, Ellen Gurman Bard, Elizabeth Boyle, Gwyneth Doherty, Simon Garrod, Stephen Isard, Jacqueline Kowtko, Jan McAllister, Jim Miller, Catherine Sotillo, Henry Thompson & Regina Weinert. 1991. The HCRC Map Task Corpus. Language and Speech 34, 351–366.

 

    • Original corpus design based on HAMATAC
      Thomas Schmidt, Hanna Hedeland, Timm Lehmberg & Kai Wörner. 2010. HAMATAC – The Hamburg MapTask Corpus. [online]

 

    • Maps courtesy of IDS Mannheim
      Caren Brinckmann, Stefan Kleiner, Ralf Knöbl & Nina Berend. 2008. German Today: an areally extensive corpus of spoken Standard German. Proceedings 6th International Conference on Language Resources and Evaluation. LREC 2008. [online]

 

    • Automatic segmentation and alignment: MAUS
      Florian Schiel, Christoph Draxler & Jonathan Harrington. 2011. Phonemic Segmentation and Labelling using the MAUS Technique. Workshop New Tools and Methods for Very-Large-Scale Phonetics Research. University of Pennsylvania, 2011, January, 28–31. [online]

 

    • Manual alignment and normalization: Praat
      Paul Boersma. 2010. Praat, a system for doing phonetics by computer. Glot International 5 (9/10), 341–345.

 

    • Annotation and metadata: EXMARaLDA
      Thomas Schmidt & Kai Wörner. 2009. EXMARaLDA – Creating, analysing and sharing spoken language corpora for pragmatic research. Pragmatics (19:4), 565–582.

 

    • Lemmatization and part-of-speech tagging: TreeTagger
      Helmut Schmid. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing. [online]

 

    • Part-of-speech tagset: STTS
      Anne Schiller, Simone Teufel, Christine Stöckert & Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). [online]

 

    • Converter framework: SaltNPepper
      Florian Zipser & Laurent Romary. 2010. A model oriented approach to the mapping of annotation formats using standards. Proceedings of the Workshop on Language Resource and Language Technology Standards, LREC 2010. [online]

 

  • Search and visualization interface: ANNIS
    Amir Zeldes, Julia Ritz, Anke Lüdeling & Christian Chiarcos. 2009. ANNIS: A Search Tool for Multi-Layer Annotated Corpora. Proceedings of Corpus Linguistics 2009, July, 20–23. [online]

Letzte Aktualisierung: 24. September 2017