Presentazione Laurea Triennale (Furlan Michele)

Università degli Studi di TriesteFacoltà di Ingegneria

Dipartimento di Elettrotecnica, Elettronica e Informatica

Tesi di laurea in:Programmazione dei Calcolatori

Laureando: Michele Furlan

Relatore: Dott. Ing. Massimiliano Nolich

SVILUPPO DI UN’INTERFACCIA UOMO-ROBOTBASATA SULLA SINTESI VOCALE

PER CONCATENAZIONE

Introduzione

• La sintesi vocale è uno strumento che permette di trasformare un testo scritto in formato audio

• Sintetizzatori vocali presenti su diverse piattaforme• Compromesso tra qualità e dinamismo• Migliorano interazione uomo-macchina• Agevolano persone ipovedenti

Motivazioni• Progettazione di un sintetizzatore vocale per applicazioni specifiche:

– Database fonetico ingente ma aggiornabile possibilità di ampliare il range di frasi pronunciabili– Multipiattaforma– Alta qualità– Diverse voci

• Risultati attesi:– Naturalezza – Comprensibilità

Sistemi di sintesi vocale

• Sintesi articolatoria

• Sintesi concatenativa– Concatenazione di difoni– Concatenazione di parole intere

Il sistema implementato

• Realizzazione di un sintetizzatore vocale per concatenazione di parole

• Linguaggio di programmazione Java (vers. 1.6)– JavaSound API– Netbeans IDE

• Struttura del programma– 4 classi implementate

Tesi

(solo il main che crea un oggetto FormPrincipale )

Frase(acquisisce stringa, crea oggetti Parola, playback,

grafo, costi, ottimizza, pessimizza, ottimizza2)

FormPrincipale

(estende JFrame)

Parola

(carica le parole corrette dal database)

JavaSound API

• Elaborazione, registrazione e mixaggio di audio digitale • “Platform independent”• Complessità dal punto di vista della programmazione• Formato MIDI e suoni campionati• Fornisce funzionalità per applicazioni tipo:

– Framework comunicativi– Media players e contenuti musicali– Programmi interattivi come videogiochi e siti web– Contenuti creativi ed editing– Tools e utilities

Concatenazione di parole• Registrazione di una serie di frasi campione• Estrazione delle parole tramite il taglio del segnale

audio• Le parole estratte hanno un peso che dipende dalla

posizione all’interno della frase (inizio, in mezzo, fine, etc.)

• Classificazione e memorizzazione delle parole all’interno del database

• Il peso delle parole viene considerato nella successiva fase di ottimizzazione

Ottimizza – Pessimizza

• Struttura tipo grafo

• Sistema di ottimizzazione

• Sistema di pessimizzazione

• Sistema di costi (ce ne sono 2)

Primo sistema di ottimizzazione

sistema di costi

Posizione corrente

Tipo file

Inizio

frase

Metà

frase

Fine

frase

Prima

virgola

Dopo

virgola

IF 1 3 5 5 2

IM 3 1 3 3 3

FF 5 3 1 2 5

PV 4 2 2 1 4

DV 2 2 4 4 1

costi Cp

Secondo sistema di ottimizzazione

• Prende in cosiderazione anche i costi CL

• Costi della transizione lettera-lettera tra parole diverse

• Caratteri fonetici dei fonemi della lingua italiana

• CL è un costo di tipo binario che modifica il costo Cp preesistente

Esempi di frasi• Frasi tratte dai test condotti:

– Primo sistema di ottimizzazione:• Frase ottima• Frase pessima

– Secondo sistema di ottimizzazione• Frase ottima• Frase pessima

Risultati sperimentali (1)

• Risultati attesi:– Sintesi naturale– Sintesi intelligibile– Differenza rilevabile tra sintesi ottimizzata e

sintesi pessimizzata– Valutazione dell’efficacia del secondo sistema di

ottimizzazione


• Procedura di test:– 20 persone (tra i 18 e i 53 anni)– 10 frasi (ottimizzate e pessimizzate)– Valutazione da 1 a 5 su naturalezza ed intelligibilità per

ogni frase– Prima ed ultima frase uguali, ma…


• Risultati preliminari:– Ottimizzazione aumenta naturalezza del 14,8%– Ottimizzazione aumenta intelligibilità del 13,4%– Secondo sistema di ottimizzazione migliora il

primo del 37,3% in naturalezza e rimane agli stessi livelli in fatto di intelligibilità


• Dall’analisi dei dati raccolti emerge che:

Il sintetizzatore vocale sviluppato ha le potenzialità per fornire un parlato di naturalezza quasi Ottima e di intelligibilità Ottima.

Lavoro svolto

• Implementazione software ex novo• Studio delle modalità di programmazione dell’API JavaSound• Registrazione e taglio di segnali sonori generando un DB di

dati audio utilizzato dal software• Sviluppo di due differenti sistemi di ottimizzazione (con

relativa pessimizzazione)• Conduzione di un’indagine statistica• Analisi dei dati

Conclusioni e sviluppi futuri

• Aspettative rispettate• Applicazione su un sistema di autenticazione

biometrica• Applicabile in ambito ferroviario, aeroportuale,

telefonico, meteorologico, etc.• Sviluppi futuri:

sviluppo di un tool che guidi la registrazione e la corretta memorizzazione delle parole all’interno del database

Presentazione Laurea Triennale (Furlan Michele)

Technology

Transcript of Presentazione Laurea Triennale (Furlan Michele)