Linguistik online  24, 3/05

Die Prosodie des Schweizerdeutschen -
Erkenntnisse aus der sprachsynthetischen Modellierung von Dialekten

Katrin Häsler/Ingrid Hove/Beat Siebenhaar (Bern)



1 Einleitung

Die Erforschung der Prosodie nimmt einen wachsenden Platz in der Linguistik ein, was nicht zuletzt darauf zurückzuführen ist, dass die zur Verfügung stehenden technischen Mittel neue methodische Zugänge ermöglichen. Nachdem vor allem Standardsprachen untersucht wurden, sind in jüngster Zeit auch variationslinguistische und dialektologische Fragen im Hinblick auf die Prosodie gestellt worden, wobei vor allem konversationsanalytische und phonologische Ansätze zur Anwendung kommen, um spezifische Bereiche der Prosodie zu beschreiben. Die hier vorgestellte Methode aus dem Projekt "Erarbeitung von Grundlagen zur Erforschung schweizerdeutscher Prosodie mittels sprachsynthetischer Modellierung"[1] setzt den Fokus dagegen auf phonetische Aspekte und hat zum Ziel, nicht bloß einzelne Muster der Prosodie darzustellen, sondern eine vollständige Sprachsynthese für zwei schweizerdeutsche Mundarten zu bauen, um Einsichten in die Prosodie des Schweizerdeutschen zu gewinnen. Die Synthese ist also nicht Selbstzweck. Der methodische Ansatz, Modelle für eine Synthese zu erstellen, bringt Erkenntnisse, die über den rein analytischen Zugang hinausgehen, denn die Theorie hinter der Sprachsynthese kann als funktionales Modell der Sprachproduktion verstanden werden. Im Gegensatz zu anderen aktuellen Forschungsansätzen zur Prosodie zwingt die Synthese dazu, nicht nur Details anzusehen, sondern in einer holistischen Perspektive einen Schwerpunkt auf übergreifende Aspekte zu legen. Die Synthese ist zudem eine Methode, prosodische Modelle nicht nur zu erstellen und zu vergleichen, sondern sie hörbar und perzeptiv erfahrbar zu machen. Der Vergleich der Modelle für die beiden untersuchten Mundarten gibt einen Einblick in die bisher kaum untersuchte Prosodie des Schweizerdeutschen und in deren Variation. Im Folgenden werden die Grundlagen der Modellierung und beispielhaft Erkenntnisse im Bereich der Pausensetzung, im Bereich der Phrasierung, im Bereich der Dauerphänomene und im Bereich der Intonation gezeigt.

 

2 Sprachsynthese als Methode

Bevor wir einzelne Aspekte der Prosodie und deren Modellierung beschreiben, soll das grundsätzliche Funktionieren einer Sprachsynthese dargestellt werden. Idealerweise würde sich für eine Synthese von spontan gesprochener Sprache die Verwendung einer konzeptbasierten Sprachsynthese (concept-to-speech, CTS) anbieten, da eine solche Synthese 'weiß', was sie sagen will. Dafür wäre aber ein Kontextverarbeitungs- und ein Textgenerierungssystem für freie Inhalte nötig, über die wir nicht verfügen. Überdies ist die Beziehung zwischen Bedeutung und Prosodie auch noch weit von einer Klärung entfernt. Deswegen wurde auf eine Sprachsynthese zurückgegriffen, welche einen vorgegebenen Text in ein Sprachsignal umsetzt (text-to-speech, TTS).

Eine TTS-Sprachsynthese hat einen geschriebenen Text als Input. Dieser Text wird mit einer Graphem-Phonem-Übersetzung in eine lautgetreue, phonologische Schreibung übersetzt. Ein prosodisch-phonologisches Modul teilt diesen Text anschließend in Phrasen ein und bestimmt Akzentuierungen. Die phonetische Interpretation bestimmt die Länge der einzelnen Laute und definiert deren Grundfrequenz. Als letztes wird mit diesen Werten ein Signal generiert, das abgespielt und dadurch hörbar wird. Die Abbildung 1 stellt diesen Ablauf schematisch dar.

Abbildung 1: Schematische Darstellung der Sprachsynthese

Für die Signalgeneration benötigt eine Sprachsynthese demnach linguistische und phonetische Modelle bzw. Algorithmen für die Graphem-Phonem-Übersetzung, für die Phrasierung und Akzentuierung, für die Berechnung der Segmentdauer und der Intonation. Weitere prosodische Modelle für die Intensität und die Stimmqualität können hinzukommen. Die Modelle für die einzelnen Module greifen je nach Konzeption des Systems unterschiedlich ineinander. Zudem können die Modelle ganz unterschiedlich gestaltet sein. Die als sprecherunabhängig beurteilten Teile der Synthese, die Graphem-Phonem-Übersetzung und die Phrasierung werden in aktuellen Programmen häufig mit Expertensystemen geregelt. Dagegen kommen für die phonetische Interpretation, die als sprecherabhängig verstanden wird, eher statistische Verfahren zur Anwendung. Die Verwendung bestimmter Verfahren ist aber nicht zwingend, so werden z. B. auch für die Graphem-Phonem-Übersetzung künstliche neuronale Netzwerke verwendet (ein Vergleich verschiedener Ansätze findet sich beispielsweise in Damper et al. 1999) oder für das Timing Expertensysteme (der grundlegende Ansatz entspricht dem Modell, wie es von Dennis Klatt 1979 entwickelt wurde; für das Deutsche: Kohler 1988).

Die Modelle, welche für die Sprachsynthese erstellt werden, geben aber auch Einblicke in die Sprachsysteme und die Sprachproduktion, und sie können verwendet werden, um diese Systeme linguistisch darzustellen bzw. um sie zu vergleichen. Da die Modelle für die Synthese ineinander greifen müssen, bieten sie auch Erklärungen für den Zusammenhang der einzelnen prosodischen Aspekte. Zuletzt bietet eine vollständige Synthese die Möglichkeit, die prosodischen Modelle hörbar zu machen. Diese können damit nicht nur analytisch verglichen, sondern auch perzeptiv überprüft werden. Beispiele für solche perzeptive Überprüfungen finden sich für fehlerhafte Modellierungen mit einer deutschen Synthese in Siebenhaar (2004 a) oder für die Übertragung von deutschen Prosodiemodellen auf französische Texte in Siebenhaar, Forst, Keller (in press).

Das Ziel unseres Projekts ist der Vergleich dialektaler Prosodiesysteme, deshalb stehen datenbasierte Modelle im phonologisch- und phonetisch-prosodischen Bereich im Vordergrund unserer Analyse.[2] Da die für die Sprachsynthese häufig verwendeten künstlichen neuronalen Netzwerke (ANN) zwar Daten gut modellieren können, jedoch nur schwer zu interpretieren sind, lassen sich daraus kaum linguistische Erkenntnisse gewinnen. Das Schwergewicht unserer Analysen liegt deshalb in klassischen statistischen Verfahren wie der ANOVA (Varianzanalyse) und den GLM (generalized linear models), die einerseits als Modelle in die Synthese eingebaut werden und damit Sprache generieren und andererseits die Basis für die Vergleiche der prosodischen Systeme liefern. Diese statistischen Modelle verwenden wir auch für den in der Synthese häufig als sprecherunabhängig beurteilten Bereich der Phrasierung und Pausensetzung. Die spontansprachlichen Daten zeigen nämlich klar, dass sich die Sprecher nicht oder nur beschränkt an die für die Lesesprache entwickelten syntaktischen oder psycholiguistischen Modelle halten. Die statistischen Modelle, die sich mit den Daten besser decken, können in diesem Bereich andere Aspekte in den Vordergrund rücken, bisher jedoch ohne Lösungen hervorzubringen, die perzeptiv befriedigen.

 

3 Datenbasis

Für die Analyse, Modellierung und die darauf aufbauende Mundartsynthese werden spontansprachliche Daten analysiert. Das Korpus besteht aus vier auf Schweizerdeutsch geführten Interviews. Es wurde jeweils nur die Sprache des Interviewten betrachtet, nicht diejenige des Interviewers. Zwei der Männer sprechen Berndeutsch (BE-F und BE-K), einer, der mit zwei Interviews vertreten ist, spricht Zürichdeutsch (ZH-S). Die Beträge der drei Sprecher sind je eine gute Viertelstunde lang, das ergibt zwischen 8'000 und 16'000 Segmente (Laute und Pausen) pro Sprecher.

Der erste Arbeitsvorgang bestand darin, die Schallwellen in einzelne Segmente zu unterteilen. Diese Segmente sind Einzellaute wie [l], [s] oder [a:], Diphthonge wie [] oder [], Pausen mit einem Fülllaut wie [:], [m:] o.ä., ungefüllte Pausen und Atemgeräusche. Die Arbeit des Segmentierens erfolgte am Computer anhand des Tonsignals einerseits und der optischen Informationen des Oszillogramms und Spektrogramms andererseits. Als Programm zum Segmentieren wurde Praat[3] verwendet. Die folgende Abbildung zeigt einen kurzen Textausschnitt mit den entsprechenden Segmenten.

Abbildung 2: Ansicht von Oszillogramm, Spektrogramm und Segmenten in Praat

Die Segmente wurden in der Reihenfolge ihres Auftretens in eine Tabelle aufgenommen und mit folgenden Zusatzinformationen kodiert:

Aus diesen Grunddaten können zusätzlich zahlreiche Informationen abgeleitet werden, welche als Grundlage für die Analyse dienen wie zum Beispiel die lautliche Umgebung eines Segments oder seine Position in der Silbe, im Wort und in der Phrase.

Anhand der in dieser Weise aufbereiteten Daten wurden folgende Teilbereiche der Prosodie untersucht:

 

4 Pausen

Da Pausen unterschiedlich realisiert werden können, muss erst die Verwendung des Begriffs definiert werden. Als Pausen werden folgende Fälle gezählt:

4.1 Anzahl Pausen insgesamt

Betrachtet man allein die Anzahl der Pausen, stellt man zwischen den drei Sprechern deutliche Unterschiede fest. Am meisten Pausen hat ZH-S, bei ihm beträgt die durchschnittliche Anzahl Silben, die zwischen zwei Pausen liegt, 4.5. Am wenigsten Pausen hat BE-F, bei dem durchschnittlich 7.5 Silben zwischen zwei Pausen stehen. Dazwischen liegt BE-K mit 6.1 Silben.

  BE-F BE-K ZH-S
Total Silben 3479 2728 3455
Total Pausen 461 445 767
Silben/Pause 7.5 6.1 4.5
Wörter/Pause 5.3 4.7 3.1

Tabelle 1: Gesamtzahl der Pausen und Silben

Da davon ausgegangen werden konnte, dass die Sprecher die Pausen nicht in regelmäßigen Abständen setzen, wurde die Verteilung der zwischen zwei Pausen stehenden Abschnitte in Bezug auf ihre Länge untersucht.

Abbildung 3: Länge und Verteilung der zwischen zwei Pausen stehenden Textabschnitte

Bei allen drei Sprechern sind kurze, ein- bis viersilbige Abschnitte zwischen zwei Pausen am häufigsten, doch verläuft die Kurve bei allen etwas unterschiedlich. Die steilste Kurve hat ZH-S. 19% seiner Textabschnitte sind zweisilbig, je über 14% sind ein- oder dreisilbig. Zwischen zwei Pausen stehende Abschnitte, die mehr als sieben Silben enthalten, sind bei ihm eher selten. Die flachste Kurve hat BE-F. Zwar steht bei ihm mit 12% am häufigsten nur eine Silbe zwischen zwei Pausen, zwei- und dreisilbige Abschnitte sind jedoch fast ebenso häufig. Markant ist bei ihm, dass er recht viele mittellange Abschnitte mit zwischen 8 und 18 Silben aufweist. Bei BE-K sind die Abschnitte am häufigsten 4-silbig (15%). Der Fall, dass zwischen zwei Pausen nur eine Silbe steht, der bei den anderen beiden Sprechern am häufigsten oder am zweithäufigsten ist, steht bei ihm erst an fünfter Stelle. Abschnittslängen zwischen 5 und 14 Silben sind bei ihm auch noch recht häufig, längere Abschnitte kommen hingegen wie bei ZH-S nur sporadisch vor.

Ein weiterer auffälliger Unterschied zwischen den Sprechern, der in der Grafik schlecht ersichtlich ist, besteht darin, dass bei BE-F nicht wenige überlange Textabschnitte vorkommen. Er weist insgesamt 13 Abschnitte mit einer Länge zwischen 25 und 37 Silben auf, während Textabschnitte, die länger als 26 Silben sind, bei den beiden anderen Sprechern überhaupt nicht vorkommen.

4.2 Arten der Pausen

Bei der Transkription und Segmentierung wurde zwischen Pausen ohne Geräusch (ungefüllt), Pausen mit einem hörbaren Atemgeräusch und solchen mit einem als Fülllaut interpretierten Vokal oder Nasal ([], [], [m] etc.) unterschieden. Die vereinzelten Zögerungslängungen wurden zu den gefüllten Pausen gezählt.

Abbildung 4: Gefüllte und ungefüllte Pausen bei den drei Sprechern

Bei allen Sprechern ist die Mehrheit der Pausen ungefüllt, gefüllte Pausen werden häufig mit ungefüllten Pausen oder mit Atmen kombiniert. Der Anteil an Pausen, die einen Fülllaut enthalten, liegt mit 9% bei BE-K am tiefsten, bei ZH-S sind es 18%, bei BE-F 38%. Dieser Aspekt scheint somit recht stark sprecherabhängig zu sein. Der unterschiedliche Anteil der wahrgenommenen Atemgeräusche hat möglicherweise technische Ursachen, z.B. die Nähe des Sprechers zum Mikrofon.

4.3 Pausenlänge

In der folgenden Grafik ist die Länge der Pausen dargestellt.

Abbildung 5: Häufigkeit der Pausen gemäß ihrer Länge

Die meisten Pausen sind zwischen 0.1 und 0.4 s lang. Über die Hälfte der Pausen sind kürzer als 0.5 Sekunden, bei BE-F und ZH-S sogar mehr als zwei Drittel. Länger als 1 Sekunde sind bei BE-F und ZH-S nur ein Zehntel aller Pausen, bei BE-K ein Fünftel.

4.4 Pausen und syntaktische Grenzen

Da Pausen häufiger sind, als rein physiologisch für die Atmung nötig wäre, kann das Atemholen als alleinige Funktion einer Pause wohl ausgeschlossen werden. Vielmehr ist davon auszugehen, dass die Atmung während eines Teils der aus anderen Gründen auftretenden Pausen erfolgt.

Wenn Pausen weitere Funktionen erfüllen, ist anzunehmen, dass ihre Verteilung nicht willkürlich ist. Es ist deshalb interessant zu untersuchen, an welchen Stellen im Text Pausen am ehesten auftreten.

Als erstes wurde geprüft, wie häufig an syntaktischen Grenzen Pausen auftreten. Als syntaktische Grenzen wurden alle Stellen betrachtet, die zwischen zwei Sätzen oder am Anfang oder Ende eines eingeschobenen Satzes auftreten. In geschriebenen Texten steht an solchen Stellen normalerweise ein Satzzeichen (Punkt, Komma, Fragezeichen). Abweichend zur orthographischen Zeichensetzung wird auch die Umgebung zwischen zwei Sätzen, die mit einer nebenordnenden Konjunktion verbunden sind, zu diesen Fällen gezählt. Die an diesen Stellen auftretenden Pausen werden als Satzgrenzenpausen bezeichnet. Die Umgebungen vor oder nach einem nichtsatzwertigen Einschub, z. B. einer Apposition, oder zwischen Aufzählungselementen kommen im Material nur selten vor und werden deshalb im Folgenden außer Acht gelassen.

Das folgende Beispiel zeigt, dass Pausen (mit "+" transkribiert) an syntaktischen Grenzen ("S") auftreten können, aber nicht müssen:

i han ere Tante gseit  si isch + nid + mi Tante gsii  e Waaltante  wen i so darf säge 
 

'ich habe ihr Tante gesagt sie ist + nicht + meine Tante gewesen eine Wahltante wenn ich so sagen darf +'

An jeder syntaktischen Grenze wurde untersucht, ob der Sprecher eine Pause macht oder nicht. Die Ergebnisse sind in der folgenden Tabelle zusammengestellt.

  BE-F BE-K ZH-S
An einer syntaktischen Grenze Pause keine P. Pause keine P. Pause keine P.
194 170 197 103 313 58
Pausenwahrscheinlichkeit an einer syntakt. Grenze 53% 66% 84%
Anteil der Satzgrenzenpausen an der Gesamtheit aller Pausen 46% 46% 41%

Tabelle 2: Pausen an einer syntaktischen Grenze

An Satzgrenzen wird relativ häufig eine Pause gesetzt, doch bei Weitem nicht an jeder Satzgrenze muss jedoch eine Pause stehen.

Betrachtet man diese Daten nicht aus der Perspektive der Satzgrenzen sondern umgekehrt aus der Perspektive der Gesamtheit aller Pausen, ergibt sich ein überraschend einheitliches Bild. Unabhängig davon, ob ein Sprecher insgesamt eher viele oder eher wenige Pausen realisiert, machen die Satzgrenzenpausen bei jedem etwas weniger als die Hälfte der Gesamtheit aller Pausen aus (41-46%).

Satzgrenzenpausen kann häufig die Funktion zugeschrieben werden, den Text inhaltlich zu gliedern - genauso wie den Satzzeichen in geschriebener Sprache. Pausen können somit eingesetzt werden, um Sätze als inhaltliche Größen voneinander abzugrenzen.

4.5 Bruchstellenpausen

In spontan gesprochener Sprache kommt es vor, dass ein Text nicht so linear verläuft, wie dies in der geschriebenen bzw. vorgelesenen Sprache der Fall ist. Solche Bruchstellen können auftreten, wenn

  1. ein Wort oder eine Wortgruppe wiederholt wird
  2. Bsp.: es git ja Hunderti vo vo Variante
    'es gibt ja Hunderte von von Varianten'

  3. der Sprecher sich korrigiert, weil ihm ein treffenderes Wort eingefallen ist oder weil er sich versprochen hat
  4. Bsp.: si isch Gänfere gsii und het sech de fürchterlich mokiert über üses soi-disant Stadt- aso Bäärnfranzösisch
    'sie war Genferin und hat sich fürchterlich mokiert über unser soi-disant Stadt- also Bernfranzösisch'

  5. eine begonnene Konstruktion abgebrochen wird und anders fortgefahren wird
  6. Bsp.: und die miir hei ender d Gfaar ghaa...
    'und die wir hatten eher die Gefahr...'

Die folgende Tabelle stellt dar, wie häufig an solchen Bruchstellen eine Pause gemacht wird.

  BE-F BE-K ZH-S
An Bruchstelle Pause keine P. Pause keine P. Pause keine P.
45 12 106 12 10 0
Pausenwahrscheinlichkeit an einer Bruchstelle 79% 90% 100%
Anteil der Bruchstellenpausen an der Gesamtheit aller Pausen 10% 24% 1%

Tabelle 3: Pausen an einer Bruchstelle

An Bruchstellen ist die Wahrscheinlichkeit einer Pause sehr hoch. In dieser Hinsicht sind sich die Sprecher ähnlich. Große Differenzen zeigen sich jedoch in Bezug auf die Häufigkeit dieser Brüche und demzufolge auf den Anteil, den die Bruchstellenpausen an der Gesamtheit der Pausen ausmachen. Da am meisten Brüche bei BE-K vorkommen, machen die Bruchstellenpausen bei ihm einen hohen Anteil, nämlich fast einen Viertel aller Pausen aus. Nur wenige Brüche hat ZH-S, entsprechend liegt der Anteil, den die Bruchstellenpausen ausmachen, mit 1% bei ihm sehr tief. Bei BE-F stehen 10% aller Pausen an Bruchstellen. Dieses Ergebnis kann in Zusammenhang mit der Sprechgeschwindigkeit und der unterschiedlichen individuellen Stilebene gestellt werden. Während ZH-S langsam und überlegt spricht und damit wenige Bruchstellen aufweist, spricht BE-K schnell und wirkt etwas hastig, deshalb erstaunt es kaum, dass die Bruchstellen als Planungsfehler und -korrekturen bei ihm häufiger auftreten.

4.6 Pausen nach einer Konjunktion

Eine Umgebung, die in Bezug auf Pausen auffällig ist, ist diejenige der Konjunktionen. Verbindet eine nebenordnende Konjunktion nur Wörter oder Satzteile, steht in ihrer Umgebung nicht überdurchschnittlich häufig eine Pause. Verbindet eine Konjunktion dagegen Teilsätze, kommen sowohl davor als auch danach Pausen vor. Die Pausen, die vor einer satzverbindenden Konjunktion vorkommen können, fallen unter die Satzgrenzenpausen. Doch auch nach Konjunktionen kommen viele Pausen vor.

Bsp.: und de han i de natürlich de ds gänferische Französisch müesse rede und drum han i det filicht e chli ne Distanz aber es isch ganz klaar... 
'und dann musste ich natürlich das genferische Französisch reden und darum habe ich dort vielleicht ein wenig Distanz aber es ist ganz klar...' 
  BE-F BE-K ZH-S
Nach Konjunktion Pause keine P. Pause keine P. Pause keine P.
39 61 18 49 51 92
Pausenwahrscheinlichkeit nach einer Konjunktion 39% 27% 36%
Anteil der Pausen nach einer Konjunktion an der Gesamtheit aller Pausen 8% 4% 7%

Tabelle 4: Pausen nach einer Konjunktion

Etwa nach einem Drittel aller Konjunktionen steht eine Pause, ihr Anteil an der Gesamtheit aller Pausen macht zwischen 4 und 8% aus.

4.7 Pausen in der Umgebung emphatischer Akzentuierung

Es gibt Wörter, die mit emphatischer Akzentuierung realisiert werden. Durch ihre überdurchschnittlich starke Betonung heben sie sich deutlich von den anderen Wörtern im Satz ab. Direkt vor oder nach einem solchen Wort ist die Wahrscheinlichkeit einer Pause überdurchschnittlich hoch.

Bsp.: um me mues sech geng wider Müe gää + das men es PFLEGTS Bäärndütsch ret 
'und man muss sich immer wieder Mühe geben, dass man ein GEPFLEGTES Berndeutsch spricht'  

Beim Zählen dieser Pausen ist zu berücksichtigen, dass ein emphatisch akzentuiertes Wort direkt vor oder nach einer syntaktischen Grenze stehen kann. Da diese Fälle unter die Satzgrenzenpausen fallen, werden sie hier nicht noch einmal gezählt. (Dies ist der Grund, weshalb die Summe der Fälle vor und nach einem emphatisch akzentuierten Wort in der folgenden Tabelle jeweils nicht identisch ist.)

  BE-F BE-K ZH-S
Vor emphatisch akzentuiertem Wort Pause keine P. Pause keine P. Pause keine P.
24 71 5 21 4 11
Pausenwahrscheinlichkeit vor emphatisch akzentuiertem Wort 25% 19% 27%
Nach emphatisch akzentuiertem Wort Pause keine P. Pause keine P. Pause keine P.
20 59 4 16 5 11
Pausenwahrscheinlichkeit nach emphatisch akzentuiertem Wort 25% 20% 31%
Anteil der Pausen vor oder nach emphatisch akzentuiertem Wort an der Gesamtheit aller Pausen 10% 2% 1%

Tabelle 5: Pausen vor oder nach emphatisch akzentuierten Wörtern

Obwohl alle drei Sprecher vor oder nach einem emphatisch akzentuierten Wort recht häufig Pausen realisieren, machen diese Pausen bei BE-K und ZH-S mit 1-2% nur einen geringen Anteil aller Pausen aus. Bei BE-F dagegen, bei dem ausgeprägte Betonungen ein beliebtes Stilmittel bilden, machen Pausen in dieser Umgebung einen Zehntel sämtlicher Pausen aus.

4.8 Funktion der Pausen

Welche Funktion oder Funktionen eine Pause erfüllt, lässt sich nicht in jedem einzelnen Fall eindeutig entscheiden, doch aufgrund der Verteilung können Tendenzen festgestellt werden.

Es ist anzunehmen, dass ein großer Teil der Pausen, die an Satzgrenzen auftreten, der Strukturierung des Gesprochenen dienen. Auch ein Teil der Pausen im Satzinnern, vor allem derjenigen zwischen Satzgliedern, dient wohl der Gliederung. Diese Pausen erleichtern dem Hörer die Interpretation, indem sie verdeutlichen, welche Teile des Texts eng zusammengehören und wo ein neuer Teil beginnt.

Wird ein Wort mit emphatischer Akzentuierung ausgesprochen, können Pausen vor oder nach diesem Wort dazu beitragen, dieses noch stärker hervorzuheben. Auch wenn ein Wort nicht mit erhöhter Intensität realisiert wird, kann eine Pause zu seiner Hervorhebung dienen.

In spontan gesprochener Sprache benötigen Sprecher auch Pausen, um sich zurechtzulegen, wie sie weiterfahren wollen. Solche Überlegungspausen können prinzipiell an jeder Stelle stehen. Besonders häufig treten Überlegungspausen jedoch nach satzverbindenden Konjunktionen auf. Dadurch kündigt der Sprecher einen folgenden Satz an und gibt dem Hörer zu verstehen, dass er noch weitersprechen will, gleichzeitig gewinnt er etwas Zeit, in der er sich überlegen kann, wie er fortfahren möchte.

Zusammenfassend kann man somit sagen, dass die Pausen in spontan gesprochener Sprache folgende Funktionen erfüllen:

4.9 Zusammenfassung der Ergebnisse der Untersuchung der Pausensetzung

 

5 Phrasierung

Die Untersuchung der Pausen hat deutlich gezeigt, dass diese die Textstrukturierung nur in Ansätzen wiedergeben. Auf die Frage, wo in der Spontansprache Pausen auftreten und wo nicht, kann mit gutem Gewissen mit 'anything goes' geantwortet werden, wobei gleich anzufügen ist, dass gewisse Pausen wahrscheinlicher sind als andere und dass diese Wahrscheinlichkeiten sprecherabhängig sind.

Als textstrukturierend treten aber nicht nur leere und gefüllte Pausen auf, sondern weitere phonetische Merkmale können Texte strukturieren. Insbesondere werden Dehnungen, Veränderungen der Grundfrequenz, der Intensität, aber auch Veränderungen der Stimme (insb. Glottalisierung, cf. Peters, Kohler, Wesener 2003) - häufig miteinander kombiniert - als text- und kommunikationsstrukturierend eingesetzt und wahrgenommen. Somit ergibt sich im Sprechfluss eine Strukturierung als Phrase - Phrasengrenzmarkierung - Phrase - Phrasengrenzmarkierung … (cf. Zellner Keller 2002). Diese Darstellung verdeutlicht einerseits, dass Phrase hier nicht im syntaktischen Sinne verwendet wird. Andererseits wird auch klar, dass nicht von Intonationsphrase gesprochen werden kann, da die Phrasengrenzsignale nicht nur durch die Intonation, sondern durch einzelne oder mehrere phonetische Parameter markiert sind, von denen die Intonation nur einer ist. Als Drittes zeigt sich auch, dass die Phrasierung eng mit dem Timing verbunden ist.

Für die Analyse der Phrasierung im Korpus wurden die perzipierten Phrasengrenzen markiert und auf ihre Angemessenheit hin beurteilt. Neben den syntaktisch motivierten Phrasengrenzen finden sich auch Grenzen an anderen Stellen, die als angemessen beurteilt werden, aber auch solche, die als falsch empfunden wurden und weitgehend als Überlegungspausen interpretiert werden können. Die Analyse für die Sprecher BE-K und ZH-S ist in Siebenhaar (2004 c) dargestellt. Es zeigt sich, dass sich die Phrasierung mit dem die Lesesprache gut wiedergebenden Algorithmus nach psycholinguistisch definierten Performanzstrukturen (Keller/Zellner 1996; Zellner 1998, Zellner Keller 2002), der für das Deutsche angepasst worden ist, nur schlecht erklären lässt.[4] Mit diesem Modell werden nur 57% der realisierten Phrasengrenzen richtig erkannt, zudem setzt das Modell viel zu wenig Phrasengrenzen. Das Resultat ist kaum auf die andere Varietät zurückzuführen, denn das Modell ließ sich mit wenigen Modifikationen vom Französischen auf das Deutsche übertragen; vielmehr ist von einem anderen Stil der Spontansprache auszugehen. Weitere Modifikationen des Modells - insbesondere die Reduktion der maximalen Silbenzahl - haben nur zu geringen Verbesserungen der Übereinstimmung von Modell und realen Daten geführt. Dabei ist anzumerken, dass die vom Modell erzeugten Phrasengrenzen perzeptiv häufig als sinnvoller und angemessener beurteilt wurden, als diejenigen in den realen spontansprachlichen Daten. Das Modell gibt demnach eher eine Erklärung für die Phrasengrenzsetzung auf der System- bzw. Kompetenzebene, nicht jedoch auf der Performanzebene, die ursprünglich die Grundlage für den Algorithmus zur Lesesprache (Gee/Grosjean 1983, Zellner Keller 2002) bildete. Offensichtlich sind die Performanzstrukturen in gelesener und frei gesprochener Sprache anders gestaltet, was durch andere Planungsmechanismen auch plausibel erklärt werden kann.

Was oben für die Pausen dargestellt worden ist, lässt sich auf die Phrasierung übertragen. In der Spontansprache finden sich viele nicht vom Sprachsystem her motivierte Phrasengrenzen, die als kommunikativ oder situativ begründet anzusehen sind. Kommunikative Aspekte 'stören' also die regelmäßige Phrasierung. Aufgrund der Tatsache, dass eine Pausen- und Phrasengrenzmarkierung mit einer unterschiedlichen Wahrscheinlichkeit an jeder Stelle möglich ist, wurde ein statistisches Modell entwickelt, das eine bessere Übereinstimmung mit den realen Daten bietet. Der Hörtest ergibt jedoch öfters schlechtere Resultate als der psycholinguistisch motivierte Algorithmus, was mit der Erwartungshaltung gegenüber sprechenden Maschinen und der nicht mehr in eine Kommunikationssituation eingebundene Realisierung erklärt werden kann.

Für die Modellierung wurden diejenigen Faktoren berücksichtigt, welche aus einem Text automatisch herausgelesen werden können, das heißt insbesondere, dass die für die Spontansprache bedeutsamen kontext- und interaktionssensitiven Aspekte wie Fokus, Verständigungssicherung, Konsensbildung und Gesprächsorganisation nicht in das Modell einfließen können. Das ist die Schwäche dieses Modells, gleichzeitig kann eine solche Modellierung aber auch zeigen, dass zumindest ein Teil der konversationellen Phrasierung durch Wahrscheinlichkeiten geregelt ist, die über die einzelne Situation hinaus gelten.

Das Modell errechnet die Wahrscheinlichkeit einer Phrasengrenze für jede Wortgrenze. Wenn die Wahrscheinlichkeit einen bestimmten Wert übersteigt, wird eine Phrasengrenze gesetzt. Für die Festlegung dieses Schwellenwertes wurde darauf geachtet, dass annähernd dieselbe Anzahl Phrasengrenzen wie in den Ausgangsdaten gesetzt wird. Die folgenden Faktoren werden als Input für die Modellierung berücksichtigt:

Die folgenden Tabellen zeigen die (Nicht-)Übereinstimmung für die drei Sprecher. Kappa berechnet den Grad der Übereinstimmung, der über die rein zufällig zu erwartenden Übereinstimmungen hinaus geht.

Modellierte Phrasengrenze
Anzahl Keine Phraseng. Phrasengrenze Total
Reale Phrasengrenze Keine Phraseng. 1551 186 1737
Phrasengrenze 209 449 658
Total 1760 635 2395

Kappa = 0.581604     p = 0.018802

Tabelle 6: Reale und modellierte Phrasengrenzen für den Sprecher BE-F
 

Modellierte Phrasengrenze
Anzahl Keine Phraseng. Phrasengrenze Total
Reale Phrasengrenze Keine Phraseng. 1164 226 1390
Phrasengrenze 228 391 619
Total 1392 617 2009

Kappa = 0.469495     p = 0.021307

Tabelle 7: Reale und modellierte Phrasengrenzen für den Sprecher BE-K
 

Modellierte Phrasengrenze
Anzahl Keine Phraseng. Phrasengrenze Total
Reale Phrasengrenze Keine Phraseng. 1744 394 2138
Phrasengrenze 474 705 1179
Total 2218 1099 3317

Kappa = 0.420073     p = 0.016512

Tabelle 8: Reale und modellierte Phrasengrenzen für den Sprecher ZH-S

Aus den in den Tabellen präsentierten Daten ergibt sich, dass zwischen 73% und 83% aller Zuordnungen vom Modell richtig erfasst werden. 60% bis 70% aller Phrasengrenzen werden richtig gesetzt. In allen drei Modellen ist die Zuordnung signifikant über dem Zufallsniveau. Gegenüber einer syntaktisch motivierten Phrasierung, welche nur zwischen einem Viertel (ZH-S) und der Hälfte (BE-F) aller Grenzen erklären kann, werden auch Phrasengrenzen außerhalb dieser syntaktisch motivierten Stellen gesetzt. Somit wird deutlich, dass mit statistischen Werten ohne Kontextanalyse eine Phraseneinteilung möglich ist, die besser ist als ein syntaktisch motiviertes Modell. Es zeigt sich aber auch ebenso deutlich, dass die Kommunikationssituation darüber hinaus einen wesentlichen Teil der Phrasengrenzen bestimmt, die durch ein statistisches Modell wie das vorliegende nicht genau erklärt werden können. Eine qualitative Untersuchung kann diese Phrasengrenzen teilweise motivieren, eine Voraussage ist aber wohl nur sehr beschränkt möglich und müsste neben kommunikativen auch kognitive und wohl auch neurolinguistische Elemente berücksichtigen.

Für die Mundartsynthese heißt das, dass wir für die automatische Phrasengenerierung zwei Modelle integrieren. Einerseits das für die Lesesprache entwickelte Modell der Performanzstrukturen, andererseits das hier dargestellte statistische Modell. Zusätzlich ist es aber möglich, die Phrasierung manuell einzugeben und damit eine reale Äußerung abzubilden.

 

6 Timing

Unter Timing wird einerseits die Steuerung sämtlicher temporaler Parameter in der Synthese verstanden, andererseits auch nur die Steuerung der Silben- oder Segmentdauer. Im Bewusstsein, dass Pausensetzung und Phrasierung wesentliche Strukturierungsmerkmale auf der Zeitachse darstellen und klar mit den kleineren Einheiten Silbe bzw. der Segmente[5] interagieren, wird Timing hier als Spezifizierung der Segmentdauern[6] verstanden.

Für die Analyse wurden die aus der Segmentierung herausgelesenen Segmentdauern mit der Klassifizierung der Segmente in Zusammenhang gebracht. Zudem wurden für jedes Segment jene Faktoren als Variablen angeführt, welche in der Literatur als bedeutsam für die Modifikation der Segmentdauer erachtet werden (cf. Riedi 1998, Sproat 1998, Siebenhaar/Keller/Zellner Keller 2001). Berücksichtigt für die Mundartsynthese wurden insbesondere

Im Folgenden werden exemplarisch einzelne Aspekte dargestellt, welche einen Einfluss auf die Segmentdauer haben. Für die Analyse der Segmentdauern wird mit dem Logarithmus zu 10 der Dauer gerechnet, da damit eine Normalverteilung der Daten erreicht wird, welche für verschiedene statistische Verfahren, insbesondere die Varianzanalyse, verlangt wird.

6.1 Intrinsische Segmentdauer

Die Segmente wurden in 'Dauerklassen' zusammengefasst, welche jeweils einem von 12 Clustern von typischer Segmentlänge entsprechen. Für die Analyse wird deshalb nicht von den einzelnen Segmentklassen ausgegangen, weil zu viele Klassen mit sehr kleiner Belegung keine stabilen Resultate ermöglichen. Diese Dauerklassen wurden für jeden Sprecher einzeln festgelegt, um Unterschiede des Sprechtempos zu egalisieren und um eventuell vorkommenden unterschiedlichen Gruppierungen Rechnung zu tragen. Es zeigt sich aber eine relativ große Konstanz der Klassenzuteilung. Die meisten Segmente sind bei allen Sprechern in der selben oder in einer benachbarten Klasse. Beispielsweise ist /i:/ bei allen drei Sprechern in der Dauerklasse 10, das /i/ ist bei BE-F und BE-K in Dauerklasse 5, bei ZH-S in Klasse 4. Nur bei einem Fünftel der Segmente ist der Unterschied der Zuteilung zwischen den Sprechern größer als eine Klasse, so ist /:/ bei BE-F und BE-K in Klasse 11, wogegen es bei ZH-S in Klasse 8 ist. Der Zürcher Sprecher unterscheidet sich nicht häufiger von den beiden Berner Sprechern als diese auch untereinander Unterschiede aufweisen. Die häufigsten Unterschiede lassen sich meist auf eine relativ kleine Anzahl Belege zurückführen, so beispielsweise bei den Nasalvokalen. Auffällig ist die je nach Sprecher unterschiedliche Zuordnung der Hochzungenvokale, die offenbar eine relativ variable Segmentlänge haben, welche nicht auf die unterschiedlichen Mundarten zurückgeführt werden kann. Auch bei den Okklusionsphasen der Plosive unterscheiden sich die beiden Berner Sprecher. Somit zeigt die intrinsische Länge der einzelnen Segmente wenig varietätenspezifische Unterschiede. Diese Unterschiede zwischen den Sprechern scheinen nicht systematisch vorzuliegen. Die Datenbasis ist mit drei Sprechern allerdings zu klein, um von gesicherten Resultaten auszugehen.

6.2 Phonologische Länge

Das Deutsche, und damit auch die Schweizerdeutschen Mundarten, zeigen eine Distinktion von langen und kurzen Vokalen, hinzukommen reduzierte Vokale (//) und Diphthonge. Diese phonologischen Unterschiede zeigen sich auch in der Segmentdauer. Die Abbildung 6 dokumentiert diese Unterschiede und zeigt auch deutlich, wo die Unterschiede zwischen den Sprechern liegen. Alle drei Sprecher zeigen eine gleiche Dauer bei Schwas und eine gleiche Dauer der Langvokale. Die Kurzvokale dagegen zeigen je unterschiedliche Dauer: Die kürzesten Kurzvokale hat BE-K, die mittlere Position nimmt BE-F ein und die längsten Kurzvokale hat ZH-S. Diese Unterschiede sind alle signifikant. Ebenfalls signifikante Unterschiede finden sich bei den Diphthongen. Die längsten Diphthonge hat ZH-S, sie sind signifikant länger als seine Langvokale; bei BE-K sind die Diphthonge gleich lang wie die Langvokale und bei BE-F sind die Diphthonge sogar signifikant kürzer als die Langvokale. Die durchschnittlich etwas langsamere Sprechgeschwindigkeit von ZH-S ist also außerhalb der Pausen vor allem in seinen längeren Kurzvokalen und Diphthongen begründet.

Abbildung 6: Boxplot, Mittelwert und 95%-Konfidenzintervall der Vokaldauer (in log ms) in Abhängigkeit von Sprecher und von phonologischen Länge[7]

In der phonetischen Realisierung der phonologischen Länge zeigen sich also deutliche Unterschiede zwischen den Sprechern. Da sich die beiden Berner Sprecher untereinander ähnlicher verhalten als gegenüber dem Zürcher Sprecher, kann hier eine dialektale Grundlage für die unterschiedliche prosodische Struktur vermutet werden. Die Hypothese muss aber durch weitere Daten überprüft werden.

Zu dieser unterschiedlichen Realisierung kommt eine unterschiedliche Häufigkeit der einzelnen Klassen, wodurch der perzipierte Unterschied der Prosodie verstärkt wird.

Anzahl BE-F BE-K ZH-S   Anteil% BE-F BE-K ZH-S
Diphthong 199 150 311 660   5.8% 5.5% 6.4%
Langvokal 402 285 846 1533   11.7% 10.5% 17.3%
Kurzvokal 2082 1729 2555 6366   60.6% 63.8% 52.2%
Schwa 752 546 1178 2476   21.9% 20.2% 24.1%
  3435 2710 4890 11035        

Tabelle 9: Kontingenztabelle mit absoluten Werten (links) und prozentualem Anteil (rechts) der Längenklassen und Sprecher

Tabelle 9 zeigt, dass in beiden Berner Datensätzen mehr Kurzvokale vorkommen als im Zürcher Datensatz, in dem besonders Langvokale aber auch Diphthonge und Schwas besser vertreten sind. Da sich auch hier die beiden Berner Datensätze miteinander vom Zürcher Datensatz abheben, wird die Vermutung gestützt, dass auch dieser Unterschied als mundartlich begründet angesehen werden kann. Mit der Auswirkung auf die Dauerverhältnisse der Vokale beeinflusst er die Prosodie in einer Weise, die perzeptiv auffällig ist.

6.3 Position der Konsonanten in der Silbe

Die Position der Konsonanten in der Silbe ist ein bestimmender Faktor für deren Länge. Bei allen Sprechern sind Konsonanten in der Silbencoda länger als im Silbenonset, wie aus Abbildung 7 ersichtlich ist. Die Sprecher unterscheiden die Positionen hochsignifikant. Die Unterschiede zwischen den Sprechern sind bei den Coda-Konsonanten in allen Fällen signifikant, die Onset-Konsonanten von BE-F sind signifikant kürzer als die der beiden andern Sprecher mit fast identischen Mittelwerten.

Abbildung 7: Mittelwert und 95%-Konfidenzintervall der Dauer (in log ms) nach Onset- und Coda-Konsonanten und Sprecher[8]

Es ist daher mit den vorhandenen Daten nicht auszumachen, ob die Unterschiede zwischen den Sprechern eher individueller oder dialektaler Art sind.

6.4 Phrasengrenzmarkierung

Es wurde oben darauf hingewiesen, das Phrasengrenzen auch mittels Veränderungen im Zeitbereich markiert werden können. Das Phänomen wird häufig als präpausale Dehnung, final lengthening, phrasenfinale Dehnung u. ä. benannt und als universales Phänomen beurteilt (Maddieson 1997, 631 f.). Diese Dehnung kommt aber nicht nur vor Pausen vor, sondern ist ein generelles Merkmal zur Markierung von Phrasengrenzen. Zusätzlich lässt sich in unseren Daten ein Dehnungseffekt am Phrasenanfang nachweisen. Die folgende Abbildung 8 verdeutlicht den Zusammenhang zwischen der Segmentdauer und der Position des Segments in der Silbe. Hier werden vorerst nur die Vokallängen dargestellt, da diese durch Dehnungen viel stärker betroffen sind als die Konsonanten, bei denen dieselben Verhältnisse anzutreffen sind, jedoch häufig nicht mit signifikanten Unterschieden (siehe unten).

Abbildung 8: Boxplot, Mittelwert und 95%-Konfidenzintervall der Vokallängen (in log ms) in Abhängigkeit von der Position in der Phrase und vom Sprecher

Die Abbildung 8 zeigt die Vokallängen in Abhängigkeit von der Position der Silbe in der Phrase. Daraus wird ersichtlich, dass alle drei Sprecher eine ähnliche Dehnungsstrategie haben. Die kürzesten Vokale finden sich in den Silben, die nicht unmittelbar in der Umgebung von Phrasengrenzen stehen (in der Abbildung mit middle bezeichnet). Gegenüber diesen sind die ersten Silben einer Phrase (first) leicht gedehnt. Eine leicht größere Dehnung findet sich in den Vokalen der vorletzten Silbe (penultima), und die Vokale in den letzten Silben einer Phrase (ultima) sind nochmals signifikant länger. Die längsten Vokale finden sich in den Silben, die eine Phrase für sich bilden (alone). Alle Unterschiede sind für jeden Sprecher mit zwei Ausnahmen auf dem 5%-Niveau signifikant. Bei BE-F unterscheiden sich die Längen zwischen den vorletzten Vokalen einer Phrase und den ersten Vokalen einer Phrase knapp nicht signifikant, und bei BE-K ist der Unterschied zwischen den mittleren Vokalen und denjenigen der ersten Silbe einer Phrase nicht signifikant.

Der Vergleich zwischen den Sprechern zeigt, dass sie sich in fast allen Werten unterscheiden. Eine Ausnahme ist die vorletze Silbe einer Phrase, wo beide Berner ähnliche Werte haben, wohingegen der Zürcher Sprecher signifikant längere Vokale aufweist. In den mittleren Silben (middle) und denjenigen in Einsilbenphrasen (alone) ist der Unterschied zwischen BE-K und ZH-S nicht bedeutsam, sie zeigen in dieser Position beide signifikant längere Vokale als BE-F.

Bei den Vokalen hat sich die Position der Silbe in der Phrase als wichtiges Strukturierungskriterium herauskristallisiert. Dieser Faktor wird auch für die Konsonanten untersucht, und zwar in Abhängigkeit von der Position in der Silbe in Abbildung 9 für die Onset-Konsonanten und in Abbildung 10 für die Coda-Konsonanten. Dabei wird deutlich, dass sich in beiden Silbenpositionen eine ähnliche Dehnungsstruktur wie bei den Vokalen zeigt: Die kürzesten Konsonanten sind in der Mitte einer Phrase zu finden, im Phrasenanfang und gegen das Phrasenende werden die Konsonanten gedehnt, ebenso in Einsilbenphrasen.

Abbildung 9 dokumentiert die Konsonantendauer im Silbenonset. Auffällig sind insbesondere die kurzen Onset-Konsonanten von BE-F, wie das schon in Abbildung 7 ersichtlich wurde. Das Bild hier differenziert das Resultat dahingehend, dass vor allem Konsonanten in mittleren Silben und in Silben am Phrasenende signifikant kürzer sind. ZH-S zeigt vor allem bei den Konsonanten am Phrasenanfang eine starke Dehnung. BE-K dehnt dagegen stärker am Phrasenende. Die beiden Sprecher BE-F und ZH-S zeigen in diesen Fällen eine ähnliche Struktur, wenn auch BE-F generell kürzere Konsonanten aufweist. BE-K auf der anderen Seite markiert Phrasengrenzen vor allem mit Dehnung der phrasenfinalen Onset-Konsonanten.

Abbildung 9: Mittelwert und 95%-Konfidenzintervall der Dauer (in log ms) der Onset-Konsonanten nach Position der Silbe in der Phrase und Sprecher[9]

Im Gegensatz zu den Onset-Konsonanten zeigt sich für die Coda-Konsonanten ein über die Sprecher hinweg sehr einheitliches Bild (Abbildung 10). Zwischen den Sprechern sind nur zwei Unterschiede signifikant: In einsilbigen Phrasen sind BE-Fs Konsonanten signifikant kürzer als diejenigen von ZH-S. In der vorletzten Silbe sind die Coda-Konsonanten von BE-K signifikant länger als diejenigen der beiden andern Sprecher.

Abbildung 10: Mittelwert und 95%-Konfidenzintervall der Dauer (in log ms) der Coda-Konsonanten nach Position der Silbe in der Phrase und Sprecher

Phrasengrenzen werden im temporalen Bereich also von allen Sprechern sowohl mit Dehnung der Vokale, als auch mit Dehnung der Konsonanten markiert, und zwar sowohl phrasenfinal als auch phraseninitial. Die Unterschiede zwischen den Sprechern in der temporalen Markierung der Phrasengrenzen sind eher gering und vermutlich eher individuell-stilistischer als dialektaler Art. Die Gemeinsamkeiten des Dehnungsverhaltens, die größer sind als die Unterschiede, deuten darauf hin, dass sich hier übergreifende Timingstrukturen zeigen. Besonders interessant ist die bei allen drei Sprechern vorkommende Dehnung der ersten Silbe, die bislang in der phonetischen Literatur wenig beachtet worden ist und die auch Ergebnissen für die französische Lesesprache widerspricht (Zellner 1998). Dagegen finden sich aber einzelne Beobachtungen von phraseninitialer Dehnung, besonders von Konsonanten, für das Französische (Fougeron 2001) und das Koreanische (Cho/Jun 2000). In unseren Daten sind auch die Dehnungen der Vokale durchgehend bedeutsam. Die vorliegenden Ergebnisse müssen noch vertieft werden, deuten jedoch darauf hin, dass in der Spontansprache Phrasengrenzen von beiden Seiten her markiert werden. Eine phraseninitiale Dehnung in der Spontansprache lässt sich auch kommunikativ und psycholinguistisch motivieren, da der Sprecher an dieser Stelle kommunikativ signalisieren muss, dass er das Rederecht behalten will, während er gleichzeitig noch das Konzept für den Satz erarbeiten muss. Psycholinguistisch kann daher von einer höheren kognitiven Arbeitslast ausgegangen werden. Beide Faktoren treffen für die Lesesprache nicht zu, so dass zu vermuten ist, dass diese phraseninitiale Dehnung ein Merkmal der gesprochenen Sprache darstellt.

6.5 Modellierung

Die exemplarische Darstellung von Einflüssen auf die Segmentdauer hat deutlich gemacht, dass diese Einflüsse sich in komplexer Weise überlagern, gegenseitig aufheben oder stärken. In der Darstellung einzelner Faktoren geht der Überblick schnell verloren. Es wurde deshalb ein statistisches Modell entwickelt, das die unterschiedlichen Faktoren gleichzeitig berücksichtigt. Für lineare Beziehungen haben sich General(ized) Linear Models (GLM) als Verfahren etablieren können. Für die Analyse wird die Segmentdauer als abhängige Variable betrachtet, mit welcher die unabhängigen Variablen mittels eines additiven Modells verbunden sind. Die Dauer jeden Segments wird bestimmt durch die Summe der Einflüsse aller abhängigen Variablen. In der Analyse wird das Gewicht der einzelnen Faktoren und Variablen berechnet; in der Synthese werden für jedes Segment die Ausprägung dieser Faktoren bestimmt, die entsprechenden Werte eingesetzt und zusammengezählt. Welchen Einfluss die einzelnen Faktoren zeigen, ist in Siebenhaar (i. Dr.) dargestellt, und wie sich die Modelle der einzelnen Sprecher unterscheiden, findet sich in Siebenhaar (2004 b). Dabei wird klar, dass für alle Sprecher neben der intrinsischen Dauer der Segmente vor allem die umgebenden Segmente, die Position in der Phrase und für die Konsonanten die Position zwischen Vokalen die Segmentdauer bestimmen. Die übrigen Faktoren zeigen je eine unterschiedliche Gewichtung, die jedoch unter den Berner Sprechern ähnlicher ist als zwischen den Berner Sprechern und dem Zürcher Sprecher. Insgesamt können mit diesen Modellen rund zwei Drittel der Variation mit einer Korrelation von 0.79, 0.81 bzw. 0.82 erklärt werden, was etwa den Verhältnissen für die deutsche Lesesprache entspricht (Riedi 1998; Siebenhaar/Zellner Keller/Keller 2001; van Santen 1998). Das Timing erweist sich damit über die Grenze gelesener/frei gesprochener Sprache hinweg als relativ stabil.

 

7 Intonation

In dieser Arbeit verwenden wir den Begriff Intonation in einem engen Sinn, nämlich als den Tonhöhenverlauf zu einer Aussage, auch "Satzmelodie" genannt. Wir verfolgen einen primär phonetischen Ansatz, in dem wir die F0-Kurve zuerst auf ihre akustischen Merkmale hin analysieren und sie dann parametrisieren, indem wir die Kurve mathematisch beschreiben. Erst in einem zweiten Schritt erfolgt die linguistische Analyse, in der die mathematischen Parameter, welche die akustischen Merkmale abbilden, mit der linguistischen Information der einzelnen Segmente in Beziehung gesetzt werden.

Da wir mit natürlich gesprochener Sprache arbeiten, können wir die verschiedenen in der F0-Kurve kodierten intonatorischen Variablen (Satzintonation, Akzentstrukturen, Fokussierung, Text- und Kommunikationsstrukturierungsfunktionen,[10] Versprecher usw.) nicht reduzieren, das heißt, wir arbeiten mit einem holistischen Ansatz, der es uns erlaubt, mit der Vielfältigkeit der intonatorischen Mittel umzugehen. Darin unterscheidet sich unsere Arbeit von Untersuchungen mit Laborsprache, die mit vorgegebenen Textsätzen die vorkommenden Parameter einschränken und sich auf ein bestimmtes Intonationsmuster fokussieren (cf. Atterer/Ladd 2004).

7.1 Methode

Für unsere akustisch-phonetische Analyse haben wir das Fujisaki-Modell als methodischen Ansatz gewählt. Konkret wurde das auf Fujisaki basierende, von Mixdorff[11] für das Deutsche nutzbar gemachte Modell (Mixdorff 1998) als Grundlage für unsere Analyse verwendet.

Das Fujisaki-Modell erlaubt es, eine Intonationskurve (F0) mathematisch in globale und lokale Teilkurven aufzuteilen und diese beiden Kurven unabhängig voneinander zu beschreiben. Die langsamere Bewegung stellt dabei die Phrasenintonation dar, während die lokalen, schnellen Intonationsanteile die Wortintonation oder Akzentgruppenintonation (im Folgenden Akzentintonation genannt) abbilden.[12]

Abbildung 11 zeigt schematisch, wie Phrasen- und Akzentintonation separiert werden. Ganz rechts ist die Intonationskurve abgebildet. Die gestrichelte Linie steht für die Teilkurve der Phrasenkomponente, die darüberliegende durchgezogene Linie für die Teilkurve der Akzentkomponente. In der Abbildung ist das Modell, wie es für eine Synthese gebraucht wird, dargestellt und von links nach rechts zu lesen.

Abbildung 11: Diagramm des Fujisakimodells (Fujisaki & Hirose: zitiert nach Mixdorff 1998: 48)

Die Fujisaki-Parameter:
Ap Stärke des Phrasenkommandos
T0 Zeitpunkt des Phrasenkommandos
Aa Stärke des Akzentkommandos
T1 Anfangszeitpunkt des Akzentkommandos, d.h. Beginn des Anstiegs
T2 Endzeitpunkt des Akzentkommandos, d.h. Beginn des Falls

Für die Analyse funktioniert das Modell in umgekehrter Richtung. Die Kurve auf der rechten Seite der Abbildung wird mit Hilfe der Fujisaki-Gleichung in zwei Teilkurven zerlegt, welche durch die Phrasenkommandos (obere Zeile links) und die Akzentkommandos (untere Zeile links) dargestellt werden. Als Resultat der Fujisaki-Berechnung erhalten wir die Fujisaki-Parameter als mathematische Repräsentation der Kurve. Diese Fujisakiparameter werden anschließend im Text mit den passenden Segmenten verbunden[13] und linguistisch interpretiert.

Die Phrasenkommandos (Ap), welche die globalen Veränderungen der F0-Kurve modellieren, werden mit den Elementen des Textes verbunden, welche satzstrukturierend wirken wie syntaktische Grenzen und Pausen. Die Akzentkommandos (Aa), welche die lokalen, schnellen Veränderungen der F0-Kurve modellieren, werden mit den Silben des Textes verbunden. Interessant ist dabei die Frage, mit welchen Segmenten sich die Parameter verbinden lassen und welche Relationen zwischen den Parametern und den Segmenten bestehen. So wird beispielsweise die Position des Akzentkommandos im Bezug auf das entsprechende Segment als bedeutsam erachtet, was in der ToBI-Notation dichotom als unterschiedliche Töne L+H* respektive H*+L markiert wird. Phrasen- oder Akzentkommandos, die weit vor dem jeweiligen Segment stehen, bedeuten, dass die Intonationskurve beim Segmentanfang bereits Ihren Höhepunkt erreicht hat oder ihn kurz nach dessen Beginn erreicht. Steht das Kommando dagegen kurz vor Segmentbeginn oder sogar erst nach Beginn des Segments, bedeutet dies, dass die Intonationskurve erst nach Beginn des Segments ihren Höhepunkt erreicht.[14] Zusätzlich zur Position des Kommandos ist auch dessen Stärke beobachtbar. Die Stärke des jeweiligen Kommandos modelliert dabei die maximale Höhe der F0-Kurve.

Abbildung 12: BE-K: Frühes Akzentkommando "sitzen zu bleiben"[15]

In Abbildung 12 ist der kursivgedruckte Teil der Phrase "hinein zu rutschen und sitzen zu bleiben" (blibe z hocke) mit der F0-Kurve und den Akzentkommandos abgebildet. Im oberen Teil der Abbildung sind die gemessenen F0-Werte als Kreuzchen wiedergegeben, die durchgezogene Linie zeigt die vom Fujisaki-Modell berechnete F0-Kurve.[16] Im unteren Teil der Abbildung sind die Akzentkommandos und die darauf basierenden lokalen Kurven der Wortintonation wiedergegeben. Die beiden ersten Akzentkommandos beginnen jeweils deutlich vor dem Anfang der Silbe, der sie zugeordnet sind. Dies bewirkt, dass die modellierte Kurve genau wie die gemessene F0-Kurve, auf der betonten Silbe bereits wieder am sinken ist.[17]

Abbildung 13: BE-K: Spätes Akzentkommando "Autostop"

In Abbildung 13 ist der kursivgedruckte Teil der Phrase "nach dem Gymnasium bin ich da mit Autostop in halb Europa herum, …" (mit Outostop) mit der F0-Kurve und dem Akzentkommando auf der betonten Silbe abgebildet. Das Akzentkommando steht hier erst nach dem Silbenanfang und modeliert so den späten Gipfel auf der betonten Silbe [t'o].[18]

Im Folgenden soll an einigen Parametern exemplarisch gezeigt werden, wie sich die Intonationskurven der untersuchten Sprecher voneinander unterscheiden.

7.2 Phrasenkommandos

In den Texten wurden die Phrasen perzeptiv bestimmt und nach syntaktischen Kriterien klassifiziert.

Abbildung 14 gibt einen Überblick über die Phrasierung der drei untersuchten Sprecher. Für BE-F wurden insgesamt 365 perzeptiv bestimmte Phrasen untersucht, für BE-K 110 und für ZH-S 87. Die Zuordnung der Phrasenkommandos zu den perzipierten Phrasengrenzen zeigt, dass sich die perzipierte und die intonatorische Phrasierung häufig nicht deckt, und zwar in dem Sinne, dass eine intonatorische Phrasierung häufig mehr als eine perzipierte Phrase umfasst. In der Abbildung ist in Prozenten angegeben, bei wie vielen der perzeptiv bestimmten Phrasengrenzen eine intonatorische Phrasierung (d. h. ein Phrasenkommando) auftritt. Beim Sprecher BE-F weisen nur 52% der perzipierten Phrasengrenzen ein Phrasenkommando auf, bei BE-K sind es 60% und bei ZH-S 78%. Das heißt, dass auch beim Sprecher mit den meisten intonatorisch markierten Phrasen bei 22% aller Phrasen die intonatorische Phrasierung über mehrere perzeptive Phrasierungskomponenten hinweg andauert.

Abbildung 14: Anzahl segmentaler Phrasen mit und ohne Phrasenkommando (Ap)

Die Schweizer Intonation wird häufig als auffällig wahrgenommen. Ein Vergleich der vorliegenden Daten mit Ergebnissen zur bundesdeutschen Intonation kann einen Unterschied aufzeigen. Dazu sollen die Phrasenkommandos angesehen werden. In Tabelle 10 ist die durchschnittliche Größe der Phrasenkommandos pro untersuchtem Dialektsprecher und zum Vergleich für die gelesene Standardsprache in schweizerischer und bundesdeutscher Variante angegeben. Es wird deutlich, dass die Phrasenkommandos (Ap) der mundartlichen Spontansprache und der schweizerhochdeutschen Lesesprache im Vergleich zur bundesdeutschen Lesesprache bedeutend schwächer sind. Dieser Unterschied kann vermutlich auf regionale Unterschiede zurückgeführt werden und gilt über die Mundart/Standardgrenze hinweg. Unsere Ergebnisse decken sich hier mit Ergebnissen von Hirschfeld/Ulbrich (2002), die für die schweizerische Variante der deutschen Hochsprache einen viel weniger ausgeprägten Abfall am Intonationsphrasen-Ende einer Kontur beobachten als für die bundesdeutsche Variante.

Die schweizerischen Varianten nutzen die langfristigen Intonationsmuster auf Phrasenebene nur in einem kleinen Maße. Der Schwerpunkt der intonatorische Phrasenstrukturierung der schweizerischen Daten ist viel mehr auf der lokalen Ebene, der Akzentebene zu finden. In der bundesdeutschen Lesesprache dagegen wird die Intonation viel eher global markiert. Weiter ist bemerkenswert, dass die Unterschiede zwischen den verschieden definierten Phrasengrenzen in der Mundart nicht bedeutsam sind und deshalb in der Tabelle nicht getrennt aufgeführt wurden, wohingegen die Lesesprache deutliche Unterschiede der Phrasengröße nach Position am Abschnittanfang, am Satzanfang oder innerhalb eines Satzes aufweist.

Varietät/Sprecher Phrasenkommando Ap
Zürcher Dialekt (Sprecher ZH-S) 0.2 log/Hz
Berner Dialekt (Sprecher BE-K) 0.3 log/Hz
Berner Dialekt (Sprecher BE-F) 0.5 log/Hz
Gelesene Standardsprache - CH[19] 0.4 / 0.35 / 0.25 log/Hz
Gelesene Standardsprache - D[20] 2.28 / 1.68 / 0.8 log/Hz

Tabelle 10: Durchschnittliche Stärke der Phrasenkommandos am Abschnittanfang, zwischen Sätzen und innerhalb eines Satzes

Die drei untersuchten Sprecher unterscheiden sich auch untereinander. Aus Tabelle 10 ist ersichtlich, dass Sprecher ZH-S die Phrasenintonation am schwächsten moduliert und BE-F am stärksten. Sprecher BE-K liegt dazwischen, jedoch näher beim Zürcher Sprecher als beim zweiten Berner Sprecher.

Wird die Stärke der Phrasenkommandos mit deren Häufigkeit korreliert, so können wir sagen, dass Phrasenkommandos umso stärker sind, je weiter sie auseinander liegen. Häufigerer Einsatz von Phrasenmodulation ist dagegen mit einem geringeren Anstieg der Intonationskurve (d.h. schwächerem Phrasenkommando) verbunden.

Mit dieser ersten Analyse wird zuerst einmal deutlich, dass sich mit den vorhandenen Daten keine dialektalen Unterschiede im Bereich der intonatorischen Phrasierung feststellen lassen. Bei allen drei Sprechern decken sich Intonationsphrasen und perzipierte Phrasen nur zum Teil. Bei allen dreien werden Unterschiede, welche verschieden starke Grenzen im Text markieren und die sich in Untersuchungen der Lesesprache deutlich gezeigt haben, in der spontan gesprochenen Sprache ausgeglichen. Der Vergleich mit Ergebnissen zur deutschen und schweizerischen Lesesprache deutet aber darauf hin, dass die schweizerischen Varianten sowohl gelesener als auch spontaner Sprache die Intonationsphrasen viel weniger markieren als die deutsche Lesesprache.

Diese Ausgangslage lässt eine Modellierung der mundartlichen Intonationsphrase als sehr unbefriedigend erscheinen, denn die 'üblichen' Faktoren lassen keine klare Strukturierung erkennen. Um das Model zu verbessern, sollen weitere Faktoren berücksichtigt werden. Vorgesehen ist insbesondere die Verknüpfung mit der Analyse der Akzentkommandos, mit den Silbeneigenschaften der ersten Silbe der Phrasen (betont, unbetont, Schwa-Silbe), sowie die Berücksichtigung des Typs der vorangehenden Phrase. Besonders die Verknüpfung mit den Akzentkommandos kann Hinweise darauf geben, wie die Phrasenintonation organisiert ist, also ob Phrasen eher mit einer globalen Intonationsstruktur, d.h. mit Phrasenkommandos markiert werden oder ob die Phrasen mittels lokaler Akzentkommandos markiert werden, worauf die bisherigen Daten hindeuten.

7.3 Akzentkommandos

Für die Akzentkommandos, d.h. die lokalen, schnellen Veränderungen der Intonationskurve, liegen bisher Auswertungen für zwei Sprecher vor: BE-K und ZH-S. Tabelle 11 gibt einen Überblick über die durchschnittlichen Werte für die beiden Sprecher.

  BE-K ZH-S
Dauer der Akzentkommandos 0.16 s 0.22 s
Distanz von T1[21] zum Silbenanfang 0.04 s (Std Dev 0.27) 0.04 s (Std Dev 0.21)
Stärke der Akzentkommandos 0.33 log/Hz (0.20) 0.31 log/Hz (Std Dev 0.19)

Tabelle 11: Übersicht: Akzentkommandos der Sprecher BE-K und ZH-S

Die Akzentkommandos des Zürcher Sprechers sind im Durchschnitt etwas länger als die des Berner Sprechers, was einerseits im Zusammenhang mit dem Sprechtempo zu sehen ist (BE-K spricht etwas schneller als ZH-S), andererseits auch mit der unterschiedlichen Dehnung der Silben zu tun hat. Die Distanz vom Akzentkommando (T1) zum Silbenanfang ist dagegen bei den beiden Sprechern gleich groß. In der Stärke der Akzentkommandos unterscheiden sich die Sprecher ebenfalls nur minimal.

Dieser erste kursorische Überblick über die Akzentuierung soll nicht darüber hinweg täuschen, dass sich die Intonation der beiden Sprecher perzeptiv deutlich unterscheidet. Um diese perzeptiv wahrgenommenen Unterschiede näher beschreiben zu können, werden in den folgenden Abschnitten die Werte der Akzentkommandos mit linguistischen Faktoren in Beziehung gesetzt. Es soll an einigen Beispielen exemplarisch gezeigt werden, welche Abhängigkeiten die Akzentkommandos in Bezug auf Wortklassen, Silbentypen und Silbenlänge zeigen und wie sich die Sprecher in Bezug auf diese Faktoren unterscheiden.

7.4 Wortklassen

Für die Analyse wurden alle Wörter entweder als lexikalische Wörter, als grammatische Wörter oder als Hilfsverben klassifiziert (siehe zur Datenbasis Kapitel 3). Die Akzentkommandos werden nun in Bezug auf diese Klassifizierung untersucht. Es sind vor allem lexikalische Wörter, die Akzentkommandos tragen, grammatische Wörter und Auxiliare haben viel seltener Akzente. Was die Stärke der Akzentkommandos betrifft, so unterscheiden sich lexikalische Wörter von grammatischen Wörtern und Auxiliaren.

 

Abbildung 15: Stärke des Akzentkommandos in Relation zu den Wortklassen[22] (a =Auxiliare; g = grammatische Wörter; l = lexikalische Wörter)

Abbildung 15 zeigt die Verteilung der Stärke der Akzentkommandos für zwei Sprecher nach Wortklassen aufgeteilt. Die Mittellinie der Rhomben bezeichnet den Mittelwert, und mit der oberen und unteren Spitze wird das 95 %-Konfidenzintervall markiert. Wie erwähnt finden sich die meisten Akzentkommandos auf lexikalischen Wörtern, während Hilfsverben und grammatische Wörter viel seltener Akzentkommandos tragen.

Akzentkommandos auf Auxiliaren (a) sind bei beiden Sprechern so selten, dass sie kaum zu interpretieren sind. Akzentkommandos auf grammatischen (g) und lexikalischen Wörtern (l) sind dagegen interpretierbar. Die Abbildung weist für BE-K keine signifikanten Unterschiede zwischen den Wortklassen nach. Der gegenüber den lexikalischen Wörtern leicht höhere Wert für grammatische Wörter ist nicht signifikant. Bei ZH-S sind die Unterschiede aber signifikant, die grammatischen Wörter zeigten da, wo sie Akzente tragen, einen tieferen Wert als die lexikalischen Wörter.

7.5 Silbentyp

Für die Analyse wurden die betonten Silben von den unbetonten Silben und von Schwa-Silben unterschieden. Die Analyse der Intonationsstruktur in Bezug auf unterschiedliche Silbentypen liefert für beide Sprecher signifikante Resultate. Als Erstes ist festzustellen, dass nicht nur betonte Silben Akzentkommandos tragen, sondern Akzentkommandos auch auf unbetonten Silben, ja sogar vereinzelt auf Schwa-Silben vorkommen.

 

Abbildung 16: Stärke der Akzentkommandos in Relation zu den Silbentypen[23]

Die Stärke der Akzentkommandos in Relation zu den Silbentypen ist in Abbildung 16 dargestellt. Die beiden Sprecher unterscheiden sich deutlich in Bezug auf die Höhe der Akzentkommandos. Auffällig ist, dass beim Sprecher BE-K diejenigen Akzentkommandos, die auf unbetonten und Schwa-Silben vorkommen, stärker sind als diejenigen auf betonten Silben. Beim Sprecher ZH-S sind die Akzentkommandos auf diesen Silben dagegen schwächer als auf diejenigen auf den betonten Silben. Bei beiden Sprechern sind diese Unterschiede signifikant. Der Vergleich zeigt auch, dass die Akzentkommandos auf betonten Silben bei ZH-S stärker sind als bei BE-K. Mit dem Vergleich der Daten kann auf jeden Fall gezeigt werden, dass BE-K grundsätzlich eine stärkere Modulation auf den unbetonten Silben aufweist als ZH-S.

7.6 Distanz des Akzentkommandos zum Silbenanfang in Relation zur Silbenlänge

Nachdem wir uns einige Parameter zur Bestimmung des Vorkommens von Akzentkommandos und deren Stärke angesehen haben, stellen wir in diesem Abschnitt die Frage, in welcher Relation der Beginn eines Akzentkommandos zur Silbenlänge steht.

In der Abbildung 17 ist die Distanz vom Anfang der Akzentkommandos zum Silbenanfang in Relation zur Silbendauer dargestellt. Dabei stehen die negativen Werte von T1SilDist für Akzentkommandos, die vor dem Silbenanfang beginnen, die positiven Werte für Akzentkommandos, die nach dem Silbenanfang beginnen.

 

Abbildung 17: Distanz des Akzentkommandos zum Silbenanfang in Relation zur Silbenlänge

Zwischen der Silbenlänge und der Distanz des Akzentkommandos zum Silbenanfang (T1SilDist) existiert bei beiden Sprechern eine deutliche Korrelation. Je länger eine Silbe ist, desto später wird das Akzentkommando gesetzt. Bei kürzeren Silben beginnt das Akzentkommando dabei häufig vor der Silbe (ToBI: H*+L), bei längeren Silben häufiger erst nach Silbenbeginn (ToBI: L*+H). Die Abbildung zeigt deutlich, dass die Position des Silbengipfels nicht eine binäre Opposition, wie sie die ToBI-Notation suggeriert, sondern ein Kontinuum darstellt. Dieses Ergebnis entspricht auch den Resultaten von Atterer und Ladd, welche die selbe Feststellung für die süddeutsche Lesesprache gemacht haben (Atterer/Ladd 2004:187). Dieser Zusammenhang ist für beide Sprecher hochsiginifikant,[24] er ist jedoch für den Sprecher ZH-S viel deutlicher als für BE-K.

7.7 Diskussion der Ergebnisse der Untersuchung der Intonation

Die Untersuchung hat gezeigt, dass verschiedene segmental-phonetische Merkmale wie auch prosodische Merkmale im Timing-Bereich einen Einfluss auf die Intonation haben. In den hier exemplarisch aufgeführten Analysen zeigt sich, dass zum Beispiel die Stärke der Phrasenkommandos von der Distanz zwischen den einzelnen Phrasenkommandos abhängt, oder auch dass die Position des Akzentkommandos in Relation zu der Silbendauer steht. Diese Beziehungen sind in den phonetischen Daten gegeben und unabhängig von der phonologischen Interpretation. Diese Aspekte sollten daher vor einer intonations-phonologischen Analyse berücksichtigt werden. Die linguistische Interpretation der Daten hat Unterschiede zwischen den Sprechern zu Tage gebracht, die jedoch auf Grund der geringen Datenbasis nur sehr vorsichtig zu interpretieren sind.

 

8 Zusammenfassung und Ausblick

Es konnte exemplarisch gezeigt werden, wie mittels sprachsynthetischer Modellierung Erkenntnisse für die Prosodie gewonnen werden konnten. Es wurde deutlich, dass dieser methodische Zugang zur Prosodie andere Erkenntnisse hervorbringt, als sie mittels syntaktischer, phonologischer oder funktional-konversationsanalytischer Analyse gewonnen werden können. Die phonetischen Ergebnisse, welche sich eher in ms und Hz ausdrücken als in kategorischen L*+H bzw. H*+L, können andere Ansätze ergänzen, präzisieren oder dann auch neue Ergebnisse hervorbringen. Für den prosodischen Vergleich von Sprechern oder von Varietäten können phonetische Unterschiede, auch wenn sie subphonematisch sind, perzeptiv relevant sein.

Aus der Analyse von Interviews mit drei Sprechern aus zwei Mundarten im Bezug auf Pausensetzung, im Bezug auf Phrasierung, Timing und Intonation geht hervor, dass sich die genannten prosodischen Bereiche zwar aufeinander beziehen, aber dass sie auch eigenständig definiert werden müssen.

Pausensetzung und Phrasierung in spontansprachlichen Daten lassen sich nur beschränkt durch die Syntax erklären. In unserer Analyse haben wir phonetisch begründete Strukturen aufzeigen können, die über die syntaktisch motivierte Struktur hinausgehen. Eine weiterführende funktionale Analyse kann diese Ergebnisse ergänzen.

Die Phrasierung lässt eine deutliche Markierung im Timingbereich hervortreten, während die Intonationsphrasen häufig mehr als eine einzelne perzeptive Phrase umfassen.

Für die Pausensetzung zeigen sich starke individuelle Unterschiede, in Bezug auf die Länge der von Pausen eingeschlossenen Phrasen und in Bezug auf die Bedingungen der umgebenden Wörter, so dass sich in unseren Daten kaum dialektale Muster zeigen lassen. Es wird deutlich, dass überall eine Pause stehen kann, dass nirgends eine Pause stehen muss, aber dass gewisse Positionen etwas wahrscheinlicher sind als andere. So ist die Pausenwahrscheinlichkeit höher an syntaktischen Grenzen, sie ist auch erhöht nach Konjunktionen, und sie ist höher in der Umgebung von emphatisch akzentuierten Wörtern. Wenn ein Satz durch Planungsfehler und -korrekturen unterbrochen wird, steht in 80% bis 100% der Fälle eine Pause.

Für die Phrasierung gelten ähnliche Bedingungen wie für die Pausensetzung. Aufgrund der Wahrscheinlichkeiten wurde ein statistisches Modell erstellt, das rund drei Viertel aller Phrasengrenzen den realen Daten entsprechend setzt. Mit statistischen Werten ohne Kontextanalyse, ist demnach eine Phraseneinteilung möglich, die besser ist als ein syntaktisch motiviertes Modell. Ohne Kontext bleibt aber ein Viertel der Phrasengrenzen unerklärt.

Die Untersuchung der Segmentdauern hat für die drei Sprecher relativ einheitliche intrinsische Längen aufgezeigt. Untersucht wurde der Einfluss auf die Segmentdauer durch die lautliche Umgebung des Segments, durch die Position in der Silbe, im Wort, in der Phrase, durch die Akzentuierung und durch den grammatischen Status des Wortes.

Bei den Kurzvokalen und Diphthongen ist der Dauerunterschied zwischen den Dialekten signifikant. Dies ist vermutlich einer der perzeptiv relevanten Faktoren. Konsonanten sind in der Silbencoda signifikant länger als im Silbenonset. Die Spanne der Differenz zwischen Silbenonsetkonsonanten und Silbenkodakonsonanten ist aus den vorhandenen Daten nicht eindeutig als idiosynkratisch oder als dialektal zu bewerten.

Die Phrasierung zeigt einen klaren Zusammenhang mit der Segmentdauer, insofern als die Segmente in der Phrasengrenzumgebung gedehnt werden, und zwar nicht nur phrasenfinal, wie in der Literatur häufig beschrieben, sondern auch phraseninitial. Auch da ist aus den vorhandenen Daten nicht eindeutig zu bestimmen, ob die Unterschiede als dialektal oder individuell zu bewerten sind.

Die komplexen Interaktionen zwischen diesen Faktoren können in einem General Linear Model (GLM) zusammengefasst werden, das die Varianz der Dauersteuerung zu gut zwei Dritteln erklärt, was den Verhältnissen der Lesesprache entspricht. Das Timing erweist sich damit als relativ stabiler Faktor über die Grenze von gelesener und gesprochener Sprache hinweg.

Für die Intonation wurde aufgezeigt, wie die Fujisaki-Parametrisierung eine phonetische Darstellung der Intonationskurve mittels fünf Parametern erlaubt, die anschließend mit den linguistischen Informationen verbunden werden können. Dabei ergibt sich als erstes, dass die Intonationsphrasierung in den Schweizer Varietäten gegenüber der bundesdeutschen Intonation schwach ausgeprägt ist. Damit in Zusammenhang steht die Tatsache, dass eine Intonationsphrase häufig mehrere perzeptive Phrasen umfasst. Wichtiger als die längere Phrasenkomponenten sind die kürzeren Akzentkomponenten, die von den Sprechern unterschiedlich realisiert werden. So zeigt der untersuchte Berner Sprecher mit einem höheren Akzentkommando eine größere Modulation auf unbetonten Silben und grammatischen Wörtern als der Zürcher Sprecher. Bei beiden Sprechern zeigt sich Zusammenhang von Silbendauer und Beginn des Akzentkommandos in dem Sinn, dass das Akzentkommando bei längeren Silben später einsetzt, der Zusammenhang ist für den Zürcher Sprecher aber stärker als für den Berner Sprecher. Diese beiden Faktoren zeigen also deutliche Unterschiede zwischen den Sprechern beider Varietäten.

Insgesamt konnten für die untersuchten Faktoren der Prosodie, Pausensetzung, Phrasierung, Segmentdauer und Intonation Unterschiede zwischen den drei Sprechern gezeigt werden. Es wird postuliert, dass diese phonetischen Unterschiede den perzeptiven Unterschied der Varietäten stark beeinflussen. Wie stark der Einfluss der einzelnen Faktoren ist, soll in Perzeptionstests noch überprüft werden.

Im Projekt wurde eine Methode entwickelt, übergreifende prosodische Unterschiede in spontansprachlichen Daten darzustellen, zu analysieren und zu modellieren. Damit greift das Projekt weiter als Analysen, die nur isolierte Aspekte der Prosodie aufgreifen oder nur Labordaten analysieren. Eine vertiefte dialektologische Interpretation erlauben die vorliegenden Daten mit drei Sprechern aber kaum. Dafür ist eine Verbreiterung der Datenbasis nötig. Keller und Zellner Keller (2003) haben gezeigt, dass eine sauber segmentierte Datenbasis auch mit reduziertem Umfang zu stabilen Resultaten in der Modellierung führt. Die Überprüfung anhand unserer Daten haben bestätigt, dass ein Korpus von ca. 5 bis 8 Minuten pro Sprecher bereits eine relativ stabile Modellierung erlaubt. Dadurch könnten mit vertretbarem Aufwand mehrere Sprecher an verschiedenen Orten aufgenommen werden. Eine so erweiterte Datenbasis kann mit der im Projekt erarbeiteten Methode analysiert werden und dialektologisch interpretierbare Vergleiche liefern.

 

Anmerkungen

1 Das SNF-Projekt (101990) wurde vom Schweizerischen Nationalfonds von 2001 bis 2004 finanziert. [zurück]

2 Eine Graphem-Phonem-Übersetzung wurde nur in Ansätzen implementiert um den Textinput zu vereinfachen. Als Input für die Mundartsynthese arbeiten wir mit einer phonologischen Transkription. [zurück]

3 Paul Boersma & David Weenink (http://www.fon.hum.uva.nl/praat) [zurück]

4 Gemäß diesem Algorithmus werden als Erstes werden Sollbruchstellen definiert, die im Allgemeinen nach einem lexikalischen Wort stehen, dem ein oder mehrere grammatische Wörter folgen. Anschließend wird der Satz in Phrasen aufgeteilt, wobei die erste Strukturierung sich an der Interpunktion orientiert. Falls Phrasen übrig bleiben, die länger als zwölf Silben sind, werden sie an der Sollbruchstelle, die sich am nächsten der Mitte findet, aufgeteilt. So wird ein regelmäßiger Rhythmus erreicht. [zurück]

5 Der Begriff Segment deckt sich weitgehend mit dem Begriff Phon, insofern als subphonematische Unterschiede, wie velarer und palataler Frikativ markiert werden. Jedoch werden Plosive als zwei Segmente (Okklusion und Lösung) markiert. Auf der anderen Seite werden aber auch phonologische Kategorien berücksichtigt, so werden silbische Konsonanten von den nichtsilbischen unterschieden, obwohl sie akustisch kaum Differenzen aufweisen. [zurück]

6 Auf die Diskussion, ob Segmente, Phoneme oder Silben als Grundeinheit für die Berechnung der Dauer verwendet werden sollen, wird hier nicht eingegangen (siehe dazu beispielsweise van Santen 1998, 115-123). [zurück]

7 Der Boxplot zeigt innerhalb der Boxen die Hälfte der Daten, innerhalb der äußeren Begrenzeunen finden sich 95 % der Daten, die mittlere Line bezeichnet den Median. Die Rhomben bezeichnen den Mittelwert, und mit der oberen und unteren Spitze wird das 95 %-Konfidenzintervall markiert. [zurück]

8 Für die Darstellung konsonantischer Unterschiede wird auf den Box-Plot verzichtet, da die Mittelwertunterschiede nur noch schlecht ersichtlich wären. [zurück]

9 Um Missverständnissen vorzubeugen, ist hier darauf hingewiesen, dass sich die Skala von derjenigen der vorigen Abbildung unterscheidet. [zurück]

10 Zum Beispiel Weiterleitung, Satzabschluss, Überlegungspausen... [zurück]

11 Die Arbeiten von HJ. Mixdorff (Publikationen und Programme) sind auf seiner Internetseite zugänglich (http://www.tfh-berlin.de/~mixdorff). [zurück]

12 Die F0-Kurve wird dabei gemäß der unten aufgeführten Formel (aus Mixdorff 1998) in zwei Teilkurven zerlegt: Der erste Summand beschreibt eine globale Kurve, welche die Phrasenintonation modelliert, der zweite Summand eine zweite, lokale Kurve welche die Akzentintonation modelliert.

Die Phrasenkomponente (d.h. der erste Summand) setzt sich aus dem Phrasenkommando Ap und dem Impuls Gp(t) zusammen. Die Phrasenkomponente gibt an, zu welchem Zeitpunkt (T0) ein Phrasenkommando von welcher Stärke (Ap in Hz) erfolgt. Die Phrasenkonstante () definiert dabei die Steigung der Kurve und Gp(t) modelliert die für die physiologische Produktion der Phrasenintonation relevanten Parameter.
Die Akzentkomponente (d.h. der zweite Summand) setzt sich aus dem Akzentkommando Aa und dem Impuls Ga(t) zusammen. Das Akzentkommando (Aa) gibt an, zu welchem Zeitpunkt (T1) ein Akzentkommando erfolgt, wann das Akzentkommando endet (T2) und wie stark es ist (Aa in Hz). Die Akzentkonstante () definiert die Steigung der Kurve und Ga(t) modeliert die für die physiologische Produktion der Akzentintonation relevanten Parameter. Weitere Parameter der Fujisaki-Gleichung sind Fb, das die individuell tiefste Frequenz der Sprechstimme angibt, sowie das die obere Schranke der Funktion angibt. [zurück]

13 Atterer/Ladd (2004) sprechen hier von 'segmentaler Verankerung' von F0. [zurück]

14 Für weitere Informationen zur ToBI-Notation siehe Grice/Bauman (2002). [zurück]

15 In der Abbildung bleiben die Verschlussphasen der Okklusive unmarkiert. [zurück]

16 Das heißt die Summe der beiden Teilkurven der Phrasenintonation und der Wortintonation. [zurück]

17 In ToBI-Notation liegt hier eine H+L*-Struktur vor. [zurück]

18 In ToBI-Notation liegt hier eine L+H*-Struktur vor. Für die Silbifizierung in der Spontansprache berücksichtigen wir Sandhi-Erscheinungen, so dass die erste Silbe von Outostop hier mit der Verschlusslösung des vorangehenden mit begiinnt. [zurück]

19 Dies entspricht den Werten, die für die Synthese der schweizerhochdeutschen Lesesprache (LAIPTTS_D) analysiert wurden. [zurück]

20 Mixdorff 2002, 141. [zurück]

21 T1 ist der Anfangszeitpunkt des Akzentkommandos. [zurück]

22 BE-K: RSquare 0.008; Prob>F <0.3014. ZH-S: RSquare 0.05; Prob>F <0.0003. [zurück]

23 BE-K: RSquare 0.03; Prob>F <0.03. ZH-S: RSquare 0.09; Prob>F <0.0001. [zurück]

24 BE-K: RSquare 0.36; Prob>F <0.001. ZH-S: RSquare 0.32; Prob>F <0.001. [zurück]

 

Literaturangaben

Atterer, Michaela/Ladd, Robert D. (2004): "On the Phonetics and Phonology of 'Segmental Anchoring' of F0: Evidence from German". Journal of Phonetics 32: 177-197.

Cho, Taehong/Jun, Sun-Ah (2000): "Domain initial strengthening as enhancement of laryngeal features: Aerodynamic evidence from Korean". In: Boyle, J./Lee, J-H./Okrent A. (eds.): Chicago Linguistics Society 36-1. Chigago: 31-44.

Damper, R. I./Marchand, Y./Adamson, M.J. et al. (1999): "Evaluating the Pronunciation Component of Text-to-Speech Systems for English: A Performance Comparison of Different Approaches". Computer Speech and Language 13: 155-176.

Fitzpatrick-Cole, Jennifer (1999): "The alpine intonation of Bern Swiss German". In: Ohala J. (ed.): Proceedings of the XIVth International Congress of Phonetic Sciences (ICPhS). San Francisco: 941-944.

Fougeron, Cécile (2001): "Articulatory properties of initial segments in several prosodic constituents in French". Journal of Phonetics 29: 109-135.

Fujisaki, H./Hirose K. (1984): "Analysis of Voice Fundamental Frequency Contours for Declarative Sentences of Japanese". Journal of the Acoustical Society of Japan (E) 5.4: 233-241.

Gee, J./Grosjean, F. (1983): "Performance structures: A psycholinguistic and linguistic appraisal". Cognitive Psychology 15: 411-458.

Grice, Martine/Bauman, Stefan (2002): "Deutsche Intonation und GToBI". Linguistische Berichte 191: 267-298.

Hirschfeld, Ursula/Ulbrich, Christiane (2002): "Untersuchungen zu prosodischen Merkmalen der Standardaussprachen der Bundesrepublik Deutschland und der deutschsprachigen Schweiz". In: Barry, William/Pützer, Manfred (ed.): Festschrift für Max Mangold zum 80. Geburtstag. Saarbrücken: 103-128. (= Phonus 6).

Hove, Ingrid (2004): "Pausen in spontan gesprochenem Schweizerdeutsch". Deutsche Sprache 32: 97-116.

Klatt, Dennis (1979): "Synthesis by rule of segmental durations in English sentences". In: Lindblom, B./Öhman, S. (eds.): Frontiers of Speech Communication Research. London: 287-299.

Keller, Eric/Zellner, Brigitte(1996): "A timing model for fast French". York Papers in Linguistics (University of York) 17: 53-75.

Keller, Eric/Zellner Keller, Brigitte (2003): "How Much Prosody Can You Learn from Twenty Utterances?" Linguistik online 17: 57-79.

Kohler, Klaus J. (1988): "Zeitstrukturierung in der Sprachsynthese". In: Lacroix, A. (ed.): Digitale Sprachverarbeitung. ITG-Tagung, Bad Nauheim. Berlin/Offenbach: 165-170.

Maddieson, Ian (1997): "Phonetic Universals". In: Hardcastle, W. J./Laver, J. (eds.): The Handbook of Phonetic Sciences. Cambridge: 619-639.

Mixdorff, Hansjörg (1998): Intonation Patterns of German - Model-Based Quantitative Analysis and Synthesis of F0-Contours. PhD. TU Dresden.

Mixdorff, Hansjörg (2002): An Integrated Approach to Modeling German Prosody. Dresden. (= Studientexte zur Sprachkommunikation 25).

Peters, Benno/Kohler, Klaus J./Wesener, Thomas (2003): "Phonetische Merkmale prosodischer Phrasierung in deutscher Spontansprache". (Manuskript: http://www.ipds.uni-kiel.de/pub_exx/kkbptw2003_1/PhrasierungWeb.pdf)

Riedi, Marcel P. (1998): Controlling Segmental Duration in Speech Synthesis Systems. Zürich. (= TIK-Schriftenreihe 26).

Siebenhaar, Beat (2004 a): "Sprachsynthese als Methode für die Dialektologie." In: Gaisbauer Stephan/Scheuringer, Hermann (eds.): Linzerschnitten. Beiträge zur 8. Bayerisch-österreichischen Dialektologentagung - zugleich 3. Arbeitstagung zu Sprache und Dialekt in Oberösterreich, in Linz vom 19.-23. September 2001. Linz: 245-252. (= Schriften zur Literatur und Sprache in Oberösterreich 8).

Siebenhaar, Beat (2004 b): "Comparing timing models of two Swiss German dialects". In: Gunnarsson, Britt-Louise/Bergström, Lena/Eklund, Gerd et al. (eds.): Language Variation in Europe. Papers from ICLaVE 2. Uppsala: 353-365.

Siebenhaar, Beat (2004 c): "Berner und Zürcher Prosodie. Ansätze zu einem Vergleich". In: Glaser, Elvira/Ott, Peter/Schwarzenbach, Ruedi (eds.): Alemannisch im Sprachvergleich. Beiträge zur 14. Arbeitstagung für alemannische Dialektologie in Männedorf (Zürich) vom 16. - 18.9.2002. Stuttgart: 419-437. (= ZDL-Beiheft 129).

Siebenhaar, Beat (im Druck): "Die Modellierung zeitlicher Strukturen im Schweizerdeutschen". In: Eggers, Eckhard/Stellmacher, Dieter/Schmidt, Jürgen Erich (eds.): Tagungsband IGDD-Kongress Marburg.

Siebenhaar, Beat/Zellner Keller, Brigitte/Keller, Eric (2001): "Phonetic and Timing Considerations in a Swiss High German TTS System". In: Keller, Eric/Bailly, Gérard/Monaghan, Alex et al. (eds.): Improvements in Speech Synthesis. Chichester: 165-175.

Siebenhaar, Beat/Forst, Martin/Keller, Eric (in press): "Speech synthesis of dialectal variants as a method for research on prosody". Proceedings of 'Methods in Dialectology' XI Joensuu (SF).

van Santen, Jan (1998): "Timing". In: Sproat, Richard (ed.): Multilingual Text-to-Speech Synthesis: The Bell Labs Approach. Dordrecht/Boston/London: 115-139.

Zellner, Brigitte (1998): Caractérisation et prédiction du débit de parole en français. Une étude de cas. Thèse de Doctorat. Faculté des Lettres, Université de Lausanne. (http://www2.unil.ch/imm/docs/LAIP/pdf.files/Zellner_Dissertation.pdf)

Zellner Keller, Brigitte (2002): "Revisiting the Status of Speech Rhythm". In: Bel, Bernard/Marlien, Isabelle (eds.): Proceedings of the Speech Prosody 2002 conference, 11-13 April 2002. Aix-en-Provence: 727-730.


 Linguistik online 24, 3/05

ISSN 1615-3014