Asica

Il progetto AsiCa - Concezione e realizzazione

Deutsche Version


Persone coinvolte

Concezione scientifica: Thomas Krefeld

Esplorazione (2004-2006): Irmengard Salminger in collaborazione con Jole Puglia, Lucia Turrisi, Sebastiana Amenta della Mura

Trascrizione e digitalizzazione: Irmengard Salminger, Sebastiana Amenta della Mura, Jole Puglia

Banca dati (MySQL) e programmazione: Stephan Lücke (IT-Gruppe Geisteswissenschaften [ITG] della LMU)

Concezione scientifica

L'ASICA è un progetto di dialettologia pluridimensionale; questa sottodisciplina della varietistica riconosce e mette al centro della sua attenzione la variazione interna ai dialetti. In tal senso, il presente atlante si è ispirato alle grandi opere pilota, quali l'Atlas lingüistico diatópico y diastrático del Uruguay (ADDU), diretto da Harald Thun / Adolfo Elizaincín (Kiel, 2000 ss) e l'Atlante linguistico della Sicilia (ALS), diretto da Giovanni Ruffino (Palermo, 1997 ss).

L'ASICA si distingue per la sua modalità di pubblicazione online e soprattutto per il suo intento di cogliere la variazione morfosintattica al livello dell’uso colloquiale quotidiano. Esso si fonda di conseguenza su un ampio corpus di parlato quasi spontaneo (di circa 400 mila parole e di una durata di 47 ore), raccolto in interviste semiguidate su argomenti non linguistici (di diversa natura, autobiografica, etnografica e altro). Le strutture linguistiche rilevate in questo materiale sono illustrate dalla CARTINA 2.

A confronto sta la CARTINA 1, che offre i risultati di un questionario con 54 frasi italiane tradotte dagli informanti in dialetto. Ciò costituisce una preziosa fonte di importanti dati di riferimento e di paragone: da un canto una struttura standard (lo stimolo da tradurre proposto) e d'altro canto una struttura equivalente scelta dall'informante con piena coscienza. Solitamente si tratta effettivamente delle soluzioni basilettali richieste, mentre nel caso dei pochi informanti analfabeti si rilevano spesso soluzioni italianeggianti, nonostante la competenza dialettale degli informanti stessi sia perfetta.

Oltre a queste due fonti diverse per le tecniche di elicitazione, sono previste sistematicamente le seguenti dimensioni di variazione:

In modo meno sistematico, perché non previsto sin dalla concezione, è inoltre documentata anche la variazione che deriva dalla alfabetizzazione, dal momento che quattro informanti non dispongono di nessuna (o quasi) formazione scolastica.

Alcuni aspetti tecnici

Le registrazioni sonore raccolte durante la ricerca utilizzando un MiniDisc-Player sono state contrassegnate con delle sigle collegate al sistema di esplorazione su cui è fondato lo studio. Le prime tre componenti dei nomi dei file indicano il luogo di origine dell'intervistato, seguito dalla generazione (1|2), dal sesso (m|f), dal background migratorio (D = luogo di residenza in Germania | I = luogo di residenza in Italia) e dal tipo di materiale linguistico raccolto (Q ["questionario"] = materiale del questionario | D = lingua spontanea [soprattutto storie autobiografiche] | I = riflessioni sul dialetto). Possono quindi seguire dei numeri o delle lettere per distinguere tra di loro le registrazioni della stessa categoria.

Esempio: Bel2mID1 (= Belvedere di Spinello, seconda generazione, maschio, residente in Italia, registrazione di una narrazione autobiografica raccontata con un linguaggio spontaneo).

Il corpus contiene registrazioni di parlanti provenienti da 13 località calabresi. Solo per una parte di esse, è stato possibile illustrare completamente, o almeno quasi, il repertorio attraverso otto diversi profili di parlanti per località, e, nelle parti analitiche di AsiCa (Atlante, Campione, Informanti, Luoghi), è preso in considerazione solo il materiale proveniente da tali località (complessivamente otto, quattro delle quali a nord della linea Lamezia Terme - Catanzaro, quattro a sud). I nomi dei luoghi con una gamma molto incompleta di parlanti sono: Acconia (Acc), Amaroni (Ama), Oppido Mamertino (Opp), Rosarno (Ros) e Serra San Bruno (Ser).

Le registrazioni sonore sono disponibili nei formati wav e mp3. Il materiale è stato trascritto mediante il programma Praat secondo un sistema equilibrato in termini di leggibilità e precisione fonetica.

Praat permette di definire diversi livelli ("Tiers") e di assegnare parti del discorso provenienti da diverse persone rispettivamente a livelli differenti. Tuttavia, per le trascrizioni dei file audio AsiCa, tale possibilità non è stata presa in considerazione e le intere trascrizioni si trovano su un unico livello. I turni di parola sono indicati direttamente nella trascrizione. "E:" sta per l'esploratore, "I:" per l'informatore. Le registrazioni audio, a volte, possono comprendere anche altre persone, ad esempio coniugi o parenti. Le parti del discorso relative a persone secondarie non sono descritte in modo sistematico, ma sono segnalate da varianti dell’indicazione "I:" (ad esempio "IMoglie:" = moglie dell'intervistato).

Le trascrizioni create con Praat sono state salvate in formato "Textgrid" (TG) sotto forma di file di testo semistrutturato e specifico di Praat. Tali file sono salvati insieme ai file audio e a un formato XML (CES), creato come derivato, nella directory dell'intero corpus. I file del tipo "Textgrid" sono stati trasferiti nella struttura della tabella (la base del database MySQL) utilizzando piccoli programmi per computer, i cosiddetti script, scritti in linguaggio AWK. L'idea centrale alla base della strutturazione relazionale del materiale all’interno del corpus è stata la “tokenizzazione” dei testi. Ciò significa che nella tabella risultante ("wort" = “parola”), ogni singolo token (parola) occupa una propria riga (= set di dati). Le informazioni sull'origine di ogni singolo token (intervista + intervallo + intervallo + posizione all'interno dell'intervallo = sistema di riferimento) sono aggiunte a ciascun token in colonne separate. Il centro del database di AsiCa è rappresentato dalla tabella tokens e la maggior parte delle altre tabelle del database fa riferimento direttamente a questa tabella centrale.

Fino a questo momento è stata trascritta solo una parte delle registrazioni audio. Un’attenzione particolare è stata dedicata alle interviste provenienti da località per le quali è disponibile (almeno in larga misura) una gamma completa di profili di parlanti. All'interno di questo gruppo sono state trascritte almeno le registrazioni delle interviste guidate, basate sul catalogo di domande (categoria --------Q*) e, dove possibile, una registrazione con materiale linguistico spontaneo della categoria --------D* (interviste autobiografiche). La pagina "Corpus" di AsiCa fornisce una panoramica delle trascrizioni disponibili (segnalate in grassetto e con file CES e TG).

I tokens salvati nel database sono stati categorizzati morfosintatticamente da linguisti (principalmente da Irmengard Salminger e da Sebastiana Amenta della Mura). Nello specifico, per questo processo, è stato sviluppato uno speciale strumento web, accessibile attraverso la pagina web di AsiCa (http://www.asica.gwi.uni-muenchen.de/admin.php?admin=1&admin_modus=tagging; il collegamento è disponibile attraverso il laghetto sulla foto di montagna nella pagina iniziale). Per utilizzare lo strumento di categorizzazione, è necessario registrarsi con un account AsiCa attivato.

La categorizzazione morfosintattica segue la logica tipo/token. Ciò significa che, per quanto riguarda la loro etichettatura morfosintattica, un certo numero di tokens rappresenta singole istanze (varianti) dello stesso tipo (variabile).

In ciò che concerne le proprietà morfosintattiche, lo strumento di etichettatura AsiCa offre inoltre la possibilità di trasferire automaticamente categorie morfosintattiche a tutte le varianti (token) univoche. La logica tipo/token è mappata nel database in modo tale che tutti i tipi, incluse specifiche categorie morfosintattiche, siano salvati in una tabella separata ("form"). I token sono assegnati ai tipi inserendo gli ID dei tipi stessi nel campo "id_form" all’interno della tabella “token”. L'assegnazione dei tipi ai rispettivi lemmi (campo id_lemma nella tabella "form") avviene in modo simile. Per visualizzare la categorizzazione morfosintattica completa di un singolo token, è necessaria una "giunzione" delle tabelle "wort", "form" e "lemmata".

Nella sezione "Corpus" di AsiCa, è possibile scaricare le interviste trascritte in formato CES (CES = Corpus Encoding Standard). Tuttavia, questo formato di dati XML non è rilevante per l'elaborazione dei dati all'interno di AsiCa. Esso rappresenta semplicemente una derivata generata automaticamente attraverso uno script php, reso disponibile in aggiunta per il download.

L'analisi del materiale (----------Q*) presentato nella sezione "Atlante" si basa in primo luogo sulla formulazione di modelli morfosintattici da parte dei linguisti coinvolti. Per quanto riguarda lo stimolo "comincia a piovere" (F10:), ad esempio, si dovrebbe verificare se lo stimolo è stato realizzato con una costruzione infinita o, se invece, con una subordinata, ovvero con una congiunzione e un verbo finito. L’attuazione tecnica si realizza traducendo questi criteri nel linguaggio formale del database SQL. Le interrogazioni formulate (query) sono finalizzate all'analisi dei pattern morfosintattici disponibili mediante la categorizzazione. È possibile prendere in considerazione la presenza e la sequenza di caratteristiche specifiche. La serializzazione richiesta del materiale tokenizzato si ottiene attraverso uno o più "joins" (“giunzioni”). In questo modo, viene creata una sequenza di tokens con le loro proprietà morfosintattiche, che possono poi essere specificamente testate. L'esempio seguente filtra tutte le risposte alla domanda "F10:", comincia a piovere, aventi una congiunzione (parte del discorso "C%") seguita da un verbo finito:

select 
  text.interview as interview, 
  text.intervall as intervall,  
  concat(wort_1.wort,'|wortart:',form_1.pos,'|modus:',form_1.modus,'|lemma:',lemma_1.lemma,'|id_wort:',wort_1.id_wort) as 'parola 1',  
  concat(wort_2.wort,'|wortart:',form_2.pos,'|modus:',form_2.modus,'|lemma:',lemma_2.lemma,'|id_wort:',wort_2.id_wort) as 'parola 2',
  text.text as contesto 

from text  
left JOIN wort wort_1 ON text.Interview = wort_1.Interview AND text.Text_nr = wort_1.Text_nr 
left JOIN formen form_1 ON wort_1.id_form = form_1.id_form 
left JOIN lemmata lemma_1 ON form_1.id_lemma = lemma_1.id 
left JOIN wort wort_2 ON text.Interview = wort_2.Interview AND text.Text_nr = wort_2.Text_nr 
left JOIN formen form_2 ON wort_2.id_form = form_2.id_form 
left JOIN lemmata lemma_2 ON form_2.id_lemma = lemma_2.id 

where 
 wort_1.Quest like 'F10:'
  AND
 text.sprecher NOT like 'E%' AND text.Interview LIKE '______Q%' 
  AND (
 wort_2.id_wort - wort_1.id_wort <=2
 AND wort_2.id_wort - wort_1.id_wort >0
 )
 and form_1.pos like 'C%'
 and form_2.modus not like 'inf'
 and form_2.modus not like 'pinf'

order by rand()
;
L’interrogazione produce il seguente risultato (estratto):

Analogamente, per ogni modello morfosintattico definito, sono state formulate delle interrogazioni SQL idonee. La colorazione dei simboli dei parlanti si basa sul risultato dell’interrogazione SQL. Nell’esempio soprastante, i simboli di tutti i parlanti rappresentati nei risultati dell’interrogazione SQL, vengono visualizzati sulla carta con lo stesso colore. L'esempio precedente viene confrontato sulla mappa online con i casi che mostrano costruzioni infinitive nelle risposte allo stimolo F10. I rappresentanti dei rispettivi gruppi sono raggruppati per colore sulla mappa.

Nella maggior parte dei casi, si formano gruppi complementari, ma a volte lo stesso parlante appare in diversi gruppi di risultati. Questo può essere spiegato, ad esempio, dal fatto che un informante ha la possibilità di correggersi, fornendo così due diverse realizzazioni. Non si può neppure escludere del tutto che le risposte corrette dal punto di vista della forma portino a risposte errate dal punto di vista linguistico. I risultati non univoci sono definiti "ambiguo" sulla carta e sono rappresentati con un simbolo nero. Gli informatori per i quali non si ottengono risultati durante l’analisi vengono invece segnalati con un simbolo grigio.

Tutte le interrogazioni SQL utilizzate per creare le mappe dell'atlante sono generate automaticamente da script PHP per ciascuna delle categorie morfosintattiche definite dai linguisti sulla base delle parti generiche delle interrogazioni. Le singole parti delle interrogazioni SQL sono salvate nel file PHP "vars.php" nella matrice "query_test". All’interno vi si trovano anche i commenti linguistici per i singoli modelli morfosintattici presentati sulla mappa dell'atlante.

Oltre alla procedura di giunzione descritta sopra, è possibile verificare i modelli morfosintattici anche attraverso il raggruppamento di tokens ed etichette morfosintattiche. Tuttavia, questo metodo non è stato utilizzato in Asica1. Il suo utilizzo è stato preso in considerazione in Asica2. La sintassi SQL per tale interrogazione è la seguente:

select
 group_concat(a.Wort order by a.id_wort separator ' ') as `text`,
 group_concat(b.pos order by a.id_wort separator ' ') as pos,
 group_concat(b.modus order by a.id_wort separator ' ') as modi,
 group_concat(c.lemma order by a.id_wort separator ' ') as lemmata
from wort a
left join formen b using(id_form)
left join lemmata c on b.id_lemma = c.id

where 1
 and a.Quest like 'F10:'
 and b.pos is not null

group by a.Interview, a.Intervall

having 1
 and group_concat(b.modus order by a.id_wort separator ' ') like '%Inf%'
;
La sezione "ricerca interattiva" permette una ricerca basata sul lemma nel repertorio del materiale trascritto. Ne consegue che tutte le varietà del lemma ricercato vengono visualizzate nel rispettivo contesto. Cliccando sui punti di localizzazione della mappa presentata nella pagina, la ricerca può essere limitata al materiale delle singole località.

Dal 21 Febbraio 2017 esistono un "Digital Object Identifier" (DOI) nonché un "Unified Ressource Name" (URN) per AsiCa:

È raccomandato usarli citando risorse d'AsiCa.


Questo testo è stato scritto inizialmente circa nel 2006 da Thomas Krefeld e Irmengard Salminger. In luglio 2019 veniva arricchito da Stephan Lücke della parte riguardante gli aspetti tecnici (trascrizione modificata da Beatrice Colcuc).

Citazione consigliata:

T. Krefeld, S. Lücke, I. Salminger, Il progetto AsiCa - Concezione e realizzazione, in: Thomas Krefeld/Stephan Luecke (a cura di) (2006-): Atlante sintattico della Calabria (AsiCa 1.0), Monaco/B., http://doi.org/10.5282/asica?urlappend=%3fprogetto=1

Impressum | Datenschutz | Kontakt