Presentazione Laurea Triennale (Furlan Michele)
-
Upload
guest642b81 -
Category
Technology
-
view
1.324 -
download
0
description
Transcript of Presentazione Laurea Triennale (Furlan Michele)
Università degli Studi di TriesteFacoltà di Ingegneria
Dipartimento di Elettrotecnica, Elettronica e Informatica
Tesi di laurea in:Programmazione dei Calcolatori
Laureando: Michele Furlan
Relatore: Dott. Ing. Massimiliano Nolich
SVILUPPO DI UN’INTERFACCIA UOMO-ROBOTBASATA SULLA SINTESI VOCALE
PER CONCATENAZIONE
Introduzione
• La sintesi vocale è uno strumento che permette di trasformare un testo scritto in formato audio
• Sintetizzatori vocali presenti su diverse piattaforme• Compromesso tra qualità e dinamismo• Migliorano interazione uomo-macchina• Agevolano persone ipovedenti
Motivazioni• Progettazione di un sintetizzatore vocale per applicazioni specifiche:
– Database fonetico ingente ma aggiornabile possibilità di ampliare il range di frasi pronunciabili– Multipiattaforma– Alta qualità– Diverse voci
• Risultati attesi:– Naturalezza – Comprensibilità
Sistemi di sintesi vocale
• Sintesi articolatoria
• Sintesi concatenativa– Concatenazione di difoni– Concatenazione di parole intere
Il sistema implementato
• Realizzazione di un sintetizzatore vocale per concatenazione di parole
• Linguaggio di programmazione Java (vers. 1.6)– JavaSound API– Netbeans IDE
• Struttura del programma– 4 classi implementate
Tesi
(solo il main che crea un oggetto FormPrincipale )
Frase(acquisisce stringa, crea oggetti Parola, playback,
grafo, costi, ottimizza, pessimizza, ottimizza2)
FormPrincipale
(estende JFrame)
Parola
(carica le parole corrette dal database)
JavaSound API
• Elaborazione, registrazione e mixaggio di audio digitale • “Platform independent”• Complessità dal punto di vista della programmazione• Formato MIDI e suoni campionati• Fornisce funzionalità per applicazioni tipo:
– Framework comunicativi– Media players e contenuti musicali– Programmi interattivi come videogiochi e siti web– Contenuti creativi ed editing– Tools e utilities
Concatenazione di parole• Registrazione di una serie di frasi campione• Estrazione delle parole tramite il taglio del segnale
audio• Le parole estratte hanno un peso che dipende dalla
posizione all’interno della frase (inizio, in mezzo, fine, etc.)
• Classificazione e memorizzazione delle parole all’interno del database
• Il peso delle parole viene considerato nella successiva fase di ottimizzazione
Ottimizza – Pessimizza
• Struttura tipo grafo
• Sistema di ottimizzazione
• Sistema di pessimizzazione
• Sistema di costi (ce ne sono 2)
Primo sistema di ottimizzazione
sistema di costi
Posizione corrente
Tipo file
Inizio
frase
Metà
frase
Fine
frase
Prima
virgola
Dopo
virgola
IF 1 3 5 5 2
IM 3 1 3 3 3
FF 5 3 1 2 5
PV 4 2 2 1 4
DV 2 2 4 4 1
costi Cp
Secondo sistema di ottimizzazione
• Prende in cosiderazione anche i costi CL
• Costi della transizione lettera-lettera tra parole diverse
• Caratteri fonetici dei fonemi della lingua italiana
• CL è un costo di tipo binario che modifica il costo Cp preesistente
Esempi di frasi• Frasi tratte dai test condotti:
– Primo sistema di ottimizzazione:• Frase ottima• Frase pessima
– Secondo sistema di ottimizzazione• Frase ottima• Frase pessima
Risultati sperimentali (1)
• Risultati attesi:– Sintesi naturale– Sintesi intelligibile– Differenza rilevabile tra sintesi ottimizzata e
sintesi pessimizzata– Valutazione dell’efficacia del secondo sistema di
ottimizzazione
Risultati sperimentali (2)
• Procedura di test:– 20 persone (tra i 18 e i 53 anni)– 10 frasi (ottimizzate e pessimizzate)– Valutazione da 1 a 5 su naturalezza ed intelligibilità per
ogni frase– Prima ed ultima frase uguali, ma…
Risultati sperimentali (3)
• Risultati preliminari:– Ottimizzazione aumenta naturalezza del 14,8%– Ottimizzazione aumenta intelligibilità del 13,4%– Secondo sistema di ottimizzazione migliora il
primo del 37,3% in naturalezza e rimane agli stessi livelli in fatto di intelligibilità
Risultati sperimentali (4)
• Dall’analisi dei dati raccolti emerge che:
Il sintetizzatore vocale sviluppato ha le potenzialità per fornire un parlato di naturalezza quasi Ottima e di intelligibilità Ottima.
Lavoro svolto
• Implementazione software ex novo• Studio delle modalità di programmazione dell’API JavaSound• Registrazione e taglio di segnali sonori generando un DB di
dati audio utilizzato dal software• Sviluppo di due differenti sistemi di ottimizzazione (con
relativa pessimizzazione)• Conduzione di un’indagine statistica• Analisi dei dati
Conclusioni e sviluppi futuri
• Aspettative rispettate• Applicazione su un sistema di autenticazione
biometrica• Applicabile in ambito ferroviario, aeroportuale,
telefonico, meteorologico, etc.• Sviluppi futuri:
sviluppo di un tool che guidi la registrazione e la corretta memorizzazione delle parole all’interno del database