Asica

Das Projekt AsiCa - Konzeption und Umsetzung

Versione italiana


Beteiligte Personen

Wissenschaftliche Konzeption: Thomas Krefeld

Spracherhebungen (2004-2006): Irmengard Salminger, in Zusammenarbeit mit Jole Puglia, Lucia Turrisi und Sebastiana Amenta della Mura

Transkription und sprachwissenschaftliche Annotation: Irmengard Salminger, Sebastiana Amenta della Mura, Jole Puglia

Datenmodellierung und Programmierung: Stephan Lücke (IT-Gruppe Geisteswissenschaften [ITG] della LMU)

Wissenschaftliche Konzeption

ASICA ist ein mehrdimensionales dialektologisches Projekt. Diese varietätenlinguistische Unterdisziplin richtet sein Augenmerk auf die Variation innerhalb eines Dialekts. In diesem Sinn ist der vorliegende Atlas hauptsächlich von zwei Pionierarbeiten auf diesem Gebiet inspiriert: dem Atlas lingüistico diatópico y diastrático del Uruguay (ADDU), geleitet von Harald Thun und Adolfo Elizaincín (Kiel, 2000ff.) und der Atlante linguistico della Sicilia (ALS), unter der Leitung von Giovanni Ruffino (Palermo, 1997ff.).

ASICA zeichnet sich zum einen durch die online-Publikation und zum anderen, vor allem, durch das Ziel aus, die morphosyntaktische Variation auf der Ebene der alltäglichen Umgangssprache zu dokumentieren. Entsprechend basiert der online-Atlas auf einem umfangreichen Korpus von quasi spontaner Sprache (in einem Umfang von rund 400000 Wörtern und einer Dauer von ca. 47 Stunden), das im Rahmen von halbgelenkten Interviews zu nicht-linguistischen (autobiographischen, ethnographischen und anderen) Themen erhoben wurde.

Dieses spontansprachliche Korpus wird ergänzt um ein Teilkorpus, das in gelenkter Form auf Basis eines 54 Stimuli umfassenden Fragebogens entstanden ist. Die Informanten übersetzten jeweils die standarditalienischen Mustersätze in ihren jeweiligen Dialekt. Dieses Teilkorpus bildet als Referenzgröße eine bedeutende Datenbasis für sprachwissenschaftliche (vor allem syntaktische) Vergleiche: Dem italienischen Standard steht jeweils die vom Informanten ganz bewusst gewählte korrespondierende Realisierung gegenüber. Für gewöhnlich handelt es sich dabei um basilektale Äußerungen, im Fall der wenigen Analphabeten unter den Informanten begegnen jedoch auch italinisierende Lösungen, obwohl die entsprechenden Informanten über perfekte Dialektkenntnisse verfügen.

Jenseits der Zusammensetzung des Gesamtkorpus in diese zwei unterschiedlichen Teilkorpora sind gezielt die folgenden Dimensionen der Variation ins Auge gefasst:

Das Korpus dokumentiert auch die Variation von insgesamt vier Analfabeten mit wenig oder gar keiner Schulbildung. Diese Dimension ist jedoch nicht systematisch in der Datenmatrix abgebildet, da diese in der ursprünglichen Konzeption der Erhebung nicht vorgesehen war.

Im Jahr 2019 wurde das ursprüngliche AsiCa-Korpus erweitert um Sprachdaten aus der Ortschaft Praia a Mare (Sigle "Pra") sowie aus Neapel (Sigle "Nap"). Die entsprechenden Erhebungen und Transkriptionen wurden von Monika Hausmann im Rahmen ihrer Masterarbeit durchgeführt. Aus Anlass dieser Erweiterung wurde von Veronika Gacia und Tobias Englmeier (beide Mitglieder der IT-Gruppe Geisteswissenschaften der LMU) auch eine neue Version des Projektportals entwickelt, die unter der Adresse http://www.asica2.gwi.uni-muenchen.de/ erreichbar ist. Im Zuge dieser Arbeiten wurde eine Kopie der ursprünglichen AsiCa-Datenbank erzeugt (Name dieser Datenbank: `asica`), die sich hinsichtlich ihrer inneren Struktur kaum von der ursprünglichen AsiCa-Datenbank unterscheidet. Die neue Datenbank trägt den Namen `asica2` und befindet sich auf dem selben MySQL-Datenbankcluster wie die ursprüngliche Version der Datenbank. Der Datenbankcluster ist erreichbar unter der Adresse https://pma.gwi.uni-muenchen.de:8888/. Der einzige Unterschied zwischen den beiden Datenbanken besteht darin, dass sich die von Monika Hausmann erhobenen und transkribierten Daten ausschließlich in der Datenbank asica2 befinden.

Zur Etikettierung des in asica2 neu hinzugekommenen Materials wird bzw. wurde aus ökonomischen Gründen das bereits für die erste Version von AsiCa entwickelte Etikettierungs-Tool dergestalt modifiziert, dass nunmehr eine Auswahl der Datenbanken erfolgen kann. Für die Etikettierung des Materials aus Praia a Mare und Neapel muss demnach im entsprechenden Menü die Datenbank `asica2` ausgewählt werden.

Die genannten Modifizierungen zogen auch kleinere Änderungen bzw. Anpassungen der ursprünglichen Menüstruktur von AsiCa1 nach sich. Neu hinzugekommen ist der Menüeintrag "ETICHETTATURA", die zum Etiettierungs-Tool leitet. Das Etikettierungstool kann ausschließlich von registrierten Benutzern verwendet werden, deren Kennungen mit den notwendigen Rechten ausgestattet sind. All die genannten Anpassungen haben schließlich auch zur Überarbeitung bzw. zum Ausbau der bis dato unter dem Menüpunkt PROGETTO erreichbaren Dokumentation geführt, die nunmehr zusätzlich zur italienischen Fassung auch auf Deutsch vorliegt.

Aspekte der technischen Realisierung

Die im Rahmen der Erhebungen mit einem Minidisk-Player erzeugten Tonaufnahmen wurden mit Siglen bezeichnet, die der zugrundeliegenden Explorationssystematik folgen. Die ersten drei Positionen der Dateinamen bezeichnen den Herkunftsort des Interviewten, es folgen die Angabe der Generation (1|2), des Geschlechts (m|w), der Migrantion bzw des Migrationshintergrunds (D = Wohnort in Deutschland | I = Wohnort in Italien) und der Art des erhobenen sprachlichen Materials (Q ["questionario"] = Fragebogenmaterial | D = spontane Sprache [meist autobiographische Erzählungen] | I = Reflexionen über den Dialekt). Anschließend können noch Nummern oder Buchstaben folgen, die Aufnahmen derselben Kategorie voneinander unterscheiden.

Beispiel: Bel2mID1 (= Belvedere di Spinello, zweite Generation, männlich, ohne Migrationshintergrund, Aufnahme einer spontansprachlichen autobiographischen Erzählung)

Das Gesamtkorpus enthält Aufnahmen von Sprechern aus insgesamt 13 kalabresischen Ortschaften. Nur für einen Teil von diesen ließ sich das anvisierte Spektrum von jeweils acht unterschiedlichen Sprecherprofilen vollständig oder wenigstens annähernd vollständig abbilden und nur das Material dieser Ortschaften (insgesamt acht, vier davon nördlich der Linie Lamezia Terme - Catanzaro, vier südlich davon) ist in den analytischen Teilen von AsiCa (Atlante, Campione, Informanti, Luoghi) berücksichtigt. Die Namen der Ortschaften mit sehr unvollständigem Spektrum der Sprecherprofile lauten: Acconia (Acc), Amaroni (Ama), Oppido Mamertino (Opp), Rosarno (Ros) und Serra San Bruno (Ser).

Die Tonaufnahmen liegen in den Formaten wav und mp3 vor. Sie wurden mit dem Programm Praat nach einem hinsichtlich Lesbarkeit und phonetischer Präzision ausgewogenen System transkribiert. Das Programm Praat erlaubt die Definition mehrerer Ebenen ("Tiers"). Grundsätzlich können Redeanteile unterschiedlicher Personen auf jeweils eigene Ebenen verteilt werden. Dies ist bei der Transkription der AsiCa-Audiodateien nicht erfolgt. Die vollständige Transkription steht jeweils in einer einzigen Ebene. Sprecherwechsel sind durch Markierung direkt in der Transkription angezeigt. Dabei steht "E:" jeweils für den Explorator, "I:" für den Informanten. Bisweilen sind in den Tonaufnahmen auch andere Personen wie etwa Ehegatten oder Verwandte zu hören. Deren Redeanteile werden unsystematisch durch Varianten der "I:"-Markierung bezeichnet (z. B. "IMoglie:" = Ehefrau des Interviewten).

Die mit Praat erzeugten Transkriptionen wurden im Praat-spezifischen, semistrukturierten "Textgrid"-Format (TG) als Textdateien abgespeichert. Sie sind zusammen mit den Audiodateien und einem nachgelagert erzeugten XML-Format (CES) im Verzeichnis des Gesamtkorpus abgelegt. Diese Textgrid-Dateien wurden mit kleinen Computerprogrammen, sog. Skripts, verfasst in der Sprache AWK, in die Tabellenstruktur überführt, die die Grundlage für die Abbildung in der MySQL-Datenbank darstellt. Kerngedanke bei der relationalen Strukturierung des Korpusmaterials ist die Tokenisierung der Texte gewesen. Dies bedeutet, dass in der entstandenen Tabelle ("wort") jedes einzelne Token (Wort) in einer eigenen Zeile (= Datensatz) steht. Die Informationen zur Herkunft jedes einzelnen Tokens (Interview + Intervall + Position innerhalb des Intervalls = Referenzsystem) sind in jeweils eigenen Spalten jedem Token beigegeben. Die Tabelle der Tokens stellt den Kern der AsiCa-Datenbank dar. Die meisten anderen Tabellen der Datenbank sind auf diese Kerntabelle bezogen.

Bislang ist lediglich ein Teil der Audioaufnahmen transkribiert worden. Das Hauptaugenmerk lag dabei auf den Interviews aus den Ortschaften, für die jeweils (zumindest weitgehend) vollständige Abbildung der anvisierten Sprecherprofile vorliegen. Innerhalb dieser Gruppe wurden sodann zumindest die Aufnahmen der gelenkten, fragekatalogbasierten Aufnahmen (Kategorie ------Q*) sowie nach Möglichkeit eine Aufnahme mit spontanem Sprachmaterial der Kategorie ------D* (autobiographische Interviews) transkribiert. Eine Übersicht über die vorhandenen Transkriptionen bietet die "Corpus"-Seite von AsiCa (Hervorhebung durch Fettsatz sowie Vorhandensein von CES- und TG-Dateien).

Die in der Datenbank abgelegten Tokens wurden von Sprachwissenschaftlern (hauptsächlich von Irmengard Salminger und Sebastiana Amenta della Mura) morphosyntaktisch etikettiert. Speziell für diesen Vorgang wurde ein eigenes Web-Tool entwickelt, das über die Homepage von AsiCa erreichbar ist (http://www.asica.gwi.uni-muenchen.de/admin.php?admin=1&admin_modus=tagging; Menüeintrag "ETICHETTATURA"; vgl. auch unten den Abschnitt "Verwendung des Etikettierungstools"). Zur Nutzung des Etikettierungstools ist die Anmeldung mit einer dafür freigeschalteten AsiCa-Kennung erforderlich.

Die morphosyntaktische Etikettierung folgt der Type/Token-Logik. Dies bedeutet, dass eine Anzahl mehrerer Tokens bezüglich ihrer morphosyntaktischen Etikettierung einzelne Instanzen (Varianten) ein und desselben Types (Variable) repräsentieren. Das Etikettierungstool von AsiCa bietet daher die Möglichkeit, morphosyntaktische Etikettierungen automatisch auf sämtliche Instanzen (Tokens) eines bezüglich der morphosyntaktischen Eigenschaften eindeutigen Types zu übertragen. In der Datenbank ist die Type/Token-Logik dergestalt abgebildet, dass sämtliche Types, samt spezifischer morphosyntaktischer Etikettierung, in einer eigenen Tabelle ("Formen") abgelegt sind. Die Zuordnung der Tokens zu den Types erfolgt durch die Eintragung der IDs der Types in das Feld "id_form" in der Token-Tabelle. In analoger Weise erfolgt die Zuordnung der Types zu den jeweiligen Lemmata (Feld id_lemma in der Tabelle "formen"). Für eine Darstellung der vollständigen morphosyntaktischen Etikettierung eines einzelnen Tokens ist ein "Join" der Tabellen "Wort", "Formen" und "Lemmata" erforderlich.

In der Sektion "Corpus" von AsiCa werden im Fall der transkribierten Interviews auch Daten im CES-Format (CES = Corpus Encoding Standard) zum Download angeboten. Dieses XML-Datenformat spielt jedoch für die Datenverarbeitung innerhalb von AsiCa keine Rolle und ist lediglich ein mit einem php-Skript automatisch erzeugtes Derivat, das als zusätzliches Angebot für den Download zur Verfügung gestellt wird.

Die in der Sektion „Atlante“ präsentierte Analyse des fragebuchbasierten Materials (------Q*) beruht zunächst auf der Formulierung morphosyntaktischer Muster durch die beteiligten Sprachwissenschaftler. Im Fall des Stimulus comincia a piovere ‘es beginnt zu regnen’ (F10:) soll beispielsweise geprüft werden, ob der Mustersatz mit einer Infinitivkonstruktion oder mit einem Nebensatz, also mit Konjunktion und finitem Verb, realisiert wurde. Die technische Operationalisierung erfolgt durch die Übersetzung dieser Kriterien in die formale Datenbanksprache SQL. Die dabei formulierten „Statements“ zielen auf die Analyse der aufgrund der Etikettierung verfügbaren morphosyntaktischen Muster ab. Dabei können Vorhandensein und Reihung spezifischer Merkmale berücksichtigt werden. Die erforderliche Serialisierung des tokenisierten Materials wird dabei durch einen oder mehrere „Joins“ erreicht. Auf diese Weise entsteht eine Abfolge von Tokens zusammen mit ihren morphosyntaktischen Eigenschaften, die sodann gezielt abgeprüft werden können. Das folgende Beispiel filtert sämtliche Antworten auf die Frage „F10:“, comincia a piovere, die eine Konjunktion (Wortart „C%“) gefolgt von einer finiten Verbform aufweisen:

select 
  text.interview as interview, 
  text.intervall as intervall,  
  concat(wort_1.wort,'|wortart:',form_1.pos,'|modus:',form_1.modus,'|lemma:',lemma_1.lemma,'|id_wort:',wort_1.id_wort) as 'parola 1',  
  concat(wort_2.wort,'|wortart:',form_2.pos,'|modus:',form_2.modus,'|lemma:',lemma_2.lemma,'|id_wort:',wort_2.id_wort) as 'parola 2',
  text.text as contesto 

from text  
left JOIN wort wort_1 ON text.Interview = wort_1.Interview AND text.Text_nr = wort_1.Text_nr 
left JOIN formen form_1 ON wort_1.id_form = form_1.id_form 
left JOIN lemmata lemma_1 ON form_1.id_lemma = lemma_1.id 
left JOIN wort wort_2 ON text.Interview = wort_2.Interview AND text.Text_nr = wort_2.Text_nr 
left JOIN formen form_2 ON wort_2.id_form = form_2.id_form 
left JOIN lemmata lemma_2 ON form_2.id_lemma = lemma_2.id 

where 
 wort_1.Quest like 'F10:'
  AND
 text.sprecher NOT like 'E%' AND text.Interview LIKE '______Q%' 
  AND (
 wort_2.id_wort - wort_1.id_wort <=2
 AND wort_2.id_wort - wort_1.id_wort >0
 )
 and form_1.pos like 'C%'
 and form_2.modus not like 'inf'
 and form_2.modus not like 'pinf'

order by rand()
;

Die Abfrage erzeugt folgendes Ergebnis (Ausschnitt):

In analoger Weise wurden für jedes definierte morphosyntaktische Muster passende SQL-Statements formuliert. Die sich jeweils ergebenden Sprechersiglen stellen sodann die Grundlage der Kartierung dar. Das oben vorgeführte Beispiel wird auf der online-Karte den Fällen gegenübergestellt, die in den Antworten auf den Stimulus F10: Infinitivkonstruktionen aufweisen. Die Repräsentanten der jeweiligen Gruppen werden auf der Karte farblich gruppiert.

In den meisten Fällen entstehen komplementäre Gruppen, bisweilen erscheint ein und derselbe Sprecher jedoch auch in mehreren Ergebnismengen. Dies kann beispielsweise dadurch erklärt sein, dass ein Informant sich selbst korrigiert und auf diese Weise zwei verschiedene Realisierung von sich gegeben hat. Nicht vollkommen ausgeschlossen werden kann auch, dass formal korrekte Treffer zu sprachwissenschaftlich fehlerhaften Treffern führen. Uneindeutige Informantenergebnisse werden bei der Kartierung als „ambiguo“ bezeichnet und mit einem schwarzen Sprechersymbol repräsentiert. Informanten, für die bei einer Analyse keinerlei Ergebnisse auftreten, werden graue Symbole verwendet.

Sämtliche für die Generierung der Atlaskarten verwendeten SQL-Statements werden, ausgehend von den generischen Teilen der Abfragen, von PHP-Skripts für jeden der von den Sprachwissenschaftlern definierten morphosyntaktischen Kategorien automatisch erzeugt. Die einzelfallspezifischen Teile der SQL-Statements sind in der PHP-Datei „vars.php“ im Array „query_test“ abgelegt. Dort befinden sich auch die sprachwissenschaftlichen Kommentare zu den einzelnen morphsyntaktischen Mustern, die auf der Atlaskarte präsentiert werden.

Abweichend vom oben beschriebenen Verfahren mittels „Joins“ ist eine Abprüfung morphosntaktischer Muster auch über die äußerungsweise Gruppierung von Tokens und morphosyntaktischen Etiketten möglich. Diese Methode fand im Rahmen von Asica1 jedoch keine Anwendung. Ihr Einsatz wird im Rahmen von Asica2 erwogen. Die dafür erforderliche SQL-Syntax sieht exemplarisch folgendermaßen aus:

select
 group_concat(a.Wort order by a.id_wort separator ' ') as `text`,
 group_concat(b.pos order by a.id_wort separator ' ') as pos,
 group_concat(b.modus order by a.id_wort separator ' ') as modi,
 group_concat(c.lemma order by a.id_wort separator ' ') as lemmata
from wort a
left join formen b using(id_form)
left join lemmata c on b.id_lemma = c.id

where 1
 and a.Quest like 'F10:'
 and b.pos is not null

group by a.Interview, a.Intervall

having 1
 and group_concat(b.modus order by a.id_wort separator ' ') like '%Inf%'
;

Die Sektion „ricerca interattiva“ erlaubt eine lemmabasierte Suche im Bestand des transkribierten Materials. Als Ergebnis werden sämtliche Instanzen des gesuchten Lemmas im jeweiligen Kontext angezeigt. Durch Klicken auf die Ortspunkte der auf der Seite präsentierten Karte lässt sich die Suche jeweils auf das Material der einzelnen Orte beschränken.

Verwendung des Etikettierungstools

Für die morphosyntaktische Etikettierung der Tokens wurde ein spezielles Tool entwickelt. Es ist unter der Adresse http://www.asica.gwi.uni-muenchen.de/admin.php?admin=1&admin_modus=tagging erreichbar (Eintrag „ETICHETTATURA“ im Hauptmenü). Voraussetzung ist ein vorangegangenes Login mit einem Administrator-Account.

Das Etikettierungstool kann sowohl für den Datenbestand von AsiCa1 wie auch den von AsiCa2 verwendet werden. Die entsprechende Auswahl erfolgt durch das Drop-Down-Menü am oberen Rand des Suchformulars.

Die Etikettierungsarbeit beginnt mit der Eingabe von Filterkriterien in das Suchformular. Die Kombination mehrerer Filterkriterien ist möglich.

Eine Eingabe in das Feld „Token“ bewirkt die Suche nach exakt dem dort eingegebenen String, wobei die Verwendung von regulären Ausdrücken möglich ist. Das Feld „Status“ erlaubt die Unterscheidung zwischen bereits etikettierten Tokens (Wert: 1), noch nicht etikettierten Tokens (Wert: 0) sowie Tokens, bei denen die die morphosyntaktische Etikettierung unter Vorbehalt erfolgt ist („dubbio“; Wert: 3). Für die Suche nach mehreren Kategorien gleichzeitig können reguläre Ausdrücke verwendet werden (Beispiel: Die Suche nach [13] findet bereits etikettierte Tokens mit Status 1 oder 3).

Das Feld POS („Part of Speech“ = Wortart) ist für die Filterung nach Wortarten gedacht. Bei der Eingabe einer ID in das Feld id_form werden alle Tokens gelistet, die einem ganz bestimmten Type zugeordnet sind. Das Feld Interview ermöglicht die Filterung nach den Siglen der Interviews, wobei die Verwendung der Platzhalter „%“ und „_“ möglich ist. Die Suche nach „Car%“ filtert sämtliche Tokens, die aus Interviews von Informanten aus Cariati stammen, die Suche nach „_____IQ%“ liefert alle Tokens aus den gelenkten Interviews mit Informanten aus Italien. Das Feld „geändert von“ filtert von ganz bestimmten Bearbeitern etikettierte Tokens.

Nach dem Abschicken einer Suchanfrage wird im oberen Bereich des Formulars die SQL-Abfrage angezeigt, mit der die Filterung der Datensätze in der Datenbank erfolgt ist. Dies dient der Kontrolle der gefilterten Datensätze.

Unterhalb der Präsentation des ausgewählten zu etikettierenden Tokens wird die Liste der orthographisch übereinstimmenden Types angezeigt. Die Zuweisung eines Tokens zu einem der gelisteten Types, also die eigentliche Etikettierung, erfolgt durch das Anklicken der Radio-Buttons in der dritten Kolumne des Formulars von links. Sofern eine Zuweisung unsicher ist, muss der Eintrag „dubbio“ angeklickt werden. In der Datenbank wird die entsprechende Information in kodierter Form (0=noch keine Etikettierung; 1=etikettiert; 3=fraglich) im Feld `checked` der Tabelle `wort` abgelegt. Beim Klick auf den grünen Haken werden im kompletten Datenbestand sämtliche orthographisch identischen Tokens dem ausgewählten Type zugeordnet (Vorsicht!).

In der Auswahlliste noch nicht vorhandene Types können über den Link „Neue Form anlegen“ erzeugt werden. Sofern der neue Type einem noch nicht vorhandenen Lemma zugeordnet werden muss, muss zunächst über den Link „Neues Lemma anlegen“ das benötigte Lemma in der Tabelle der Lemmata erzeugt werden.

Lizensierung

Sämtliche Inhalte von AsiCa (gesammeltes Sprachmaterial, Transkriptionen, erläuternde und analytische Texte, sämtlicher Softwarecode) werden von den Projektleitern unter der Creative-Commons-Lizenz (CC) BY-SA in der jeweils jüngsten auf das deutsche Recht anwendbaren Fassung zur Nachnutzung zur Verfügung gestellt. Eine Einschränkung besteht lediglich insofern, als Teile des gesammelten Sprachmaterials aus Gründen des Schutzes des Persönlichkeitsrechts nicht weitergegeben werden können.

Anmerkung

Der vorliegende Text war ursprünglich ungefähr im Jahr 2006 von Thomas Krefeld und Irmengard Salminger verfasst worden. Im Juli 2019 wurde er von Stephan Lücke um die Abschnitte bezüglich der technischen Realisierung und des Etikettierungs-Tools sowie um die Passagen zur Projektgeschichte im ersten Abschnitt des Textes erweitert. Die italienische Fassung der von Stephan Lücke geschriebenen deutschen Passagen wurde zunächst mit dem Webdienst DeepL ins Italienische übertragen und anschließend von Stephan Lücke und Beatrice Colcuc korrigiert.

Empfohlene Zitierweise:

T. Krefeld, S. Lücke, I. Salminger, Das Projekt AsiCa - Konzeption und Umsetzung, in: T. Krefeld/S. Luecke (Hrsg.) (2006-): Atlante sintattico della Calabria (AsiCa 1.0), Monaco/B., http://doi.org/10.5282/asica?urlappend=%3fprogetto=de

Impressum | Datenschutz | Kontakt