Centro Universitário Positivo - UnicenP Núcleo de Ciências Exatas e Tecnológicas – NCET
Engenharia da Computação Elcio Friedrich
Sistema de Síntese de Voz Microcontrolado Portátil
Curitiba 2004
Centro Universitário Positivo - UnicenP Núcleo de Ciências Exatas e Tecnológicas – NCET
Engenharia da Computação Elcio Friedrich
Sistema de Síntese de Voz Microcontrolado Portátil
Monografia apresentada à disciplina de Projeto Final, como requisito parcial à conclusão do Curso de Engenharia da Computação. Orientador: Prof. Maurício Schafranski.
Curitiba 2004
TERMO DE APROVAÇÃO
Elcio Friedrich
Sistema de Emulação de Voz Microcontrolado Portátil
Monografia aprovada como requisito parcial à conclusão do curso de
Engenharia da Computação do Centro Universitário Positivo, pela seguinte banca
examinadora:
Prof. Maurício Schafranski Prof. Adriana Cursino Thome Prof. José Carlos da Cunha
Curitiba, 10 de Maio de 2004
AGRADECIMENTOS
Gostaria de agradecer meu professor orientador Maurício Schafranski pela
orientação, ao pessoal do laboratório do Unicenp, principalmente o Mauricio Perreto,
por ter dado umas dicas na elaboração de algumas partes do hardware.
SUMÁRIO
1. Introdução.....................................................................................................................11
2. Objetivos .......................................................................................................................13
3. Histórico ........................................................................................................................14
4. Teoria acústica de produção da fala ........................................................................17
5. Estudo da Linguagem.................................................................................................22
5.1. Conceitos da Linguagem.....................................................................................................22
5.2. Estudo das Vogais ..............................................................................................................23
5.2.1. Quanto à zona de articulação............................................................................................23
5.2.2. Quanto ao papel das cavidades bucal e nasal.....................................................................23
5.2.3. Quanto à intensidade .......................................................................................................23
5.2.4. Quanto ao timbre.............................................................................................................23
5.3. Estudo das Consoantes .......................................................................................................24
5.4. Dígrafos ............................................................................................................................25
5.5. Classificação dos fonemas ..................................................................................................25
5.5. Encontros Vocálicos ...........................................................................................................27
5.6. Encontros Consonantais ......................................................................................................28
5.7. Regras de Divisão Silábica..................................................................................................29
5.8. Implementação do sistema ..................................................................................................30
6. Estudo teórico ..............................................................................................................31
6.1. Síntese de Fala ...................................................................................................................31
7. Estudo do hardware ....................................................................................................34
7.2. Especificação do Hardware.................................................................................................34
7.2. Microcontrolador 8031 .......................................................................................................36
7.3. Placa do Circuito Mínimo com o Microcontrolador 8031......................................................39
7.4. Interação com o teclado ......................................................................................................41 • 7.4.1 Teclado Matricial..........................................................................................................................................41 • 7.4.2 Teclado Via Interface PS2 Serial...............................................................................................................42
7.4.3 Teclado Matriz Combinacional..........................................................................................44
7.5. Display LCD......................................................................................................................46
7.6. Memória Externa ...............................................................................................................49
7.7. Amplificação do Sinal........................................................................................................53
7.8. Integração do Sistema.........................................................................................................55
8. Especificação do Software ..............................................................................................58
9. Resultados e Discussão ..................................................................................................61
10. Referências Bibliográficas.............................................................................................62
LISTA DE FIGURAS
Figura 1 - Máquina de Kempelen..........................................................................................................................................14 Figura 2 - Funcionamento do VODER.................................................................................................................................15 Figura 3 - Aparelho fonador humano ...................................................................................................................................17 Figura 4 - Trato vocal..............................................................................................................................................................18 Figura 5 - (a) Espectro do trem de pulsos glotal (b) Espectro do trem de pulsos glotal filtrado pela função de
transferência do trato vocal. ..........................................................................................................................................19 Figura 6 - Síntese de Fala e seus diversos aspectos...........................................................................................................32 Figura 7 - Diagrama em Blocos das etapas do sistema......................................................................................................34 Figura 8 - Representação Gráfica do Sistema .....................................................................................................................36 Figura 9 - Circuito Mínimo do 8031.....................................................................................................................................37 Figura 10 – Esquemático do Circuito Mínimo do 8031 ....................................................................................................40 Figura 11 - Teclado de Matriz................................................................................................................................................41 Figura 12 - Descrição da Pinagem do Teclado ...................................................................................................................42 Figura 13 - Scan Codes do teclado AT [21] ........................................................................................................................43 Figura 14 - Modo de Comunicação Serial do Teclado [21]..............................................................................................43 Figura 15 - Teclado Lógica Combinatória ...........................................................................................................................45 Figura 16 - Sistema LCD em conexão com o 8051 ...........................................................................................................48 Figura 17 – Descrição do DAC 0808....................................................................................................................................49 Figura 18 - Diagrama em Blocos ISD25XX .......................................................................................................................50 Figura 19 - Pinagem do ISD25XX ........................................................................................................................................50 Figura 20 - Módulo ISD25XX ...............................................................................................................................................51 Figura 21 - Layout Placa do Módulo ISD 25XX................................................................................................................52 Figura 22 - Esquemático do Amplificador Operacional Não-Inversor...........................................................................54 Figura 23 - Circuito de Amplificação usando 741 .............................................................................................................54 Figura 24 - Amplificador LM386 com Speaker 8 Ohm....................................................................................................55 Figura 25 - Esquemático da Integração do Sistema ...........................................................................................................57 Figura 26 - Sistema de Teste do 1º módulo .........................................................................................................................60
LISTA DE SIGLAS Bit Unidade de medida binária, 1 bit equivale ao sinal lógico 0 ou 1 D/A Digital to Analogic DAC Digital Analogic Converter dB Decibéis Ddp Diferença de potencial, sinônimo de V DIN Din Connector EPROM Erasable Programmable Read-Only Memory G Unidade de medida de Ganho GND Ground Hz Unidade de medida de freqüência em Hertz I Unidade de medida de Corrente L Comprimento LCD Liquid Crystal Display LED Light Emitting Diode NCET Núcleo de Ciências Exatas e Tecnológicas PIN Personal Identification Number R Unidade de medida de Resistência RAM Random Access Memory RD Read RX Receiver TX Transmitter VCC Virtual channel connection UNICENP Centro Universitário Positivo V Volts – Unidade de medida de tensão Vinp Tensão de Entrada VODER Voice Operation Demonstrator Vout Tensão de Saída Wav abreviação de Wave, tipo de arquivo de som do windows WR Write
LISTA DE SÍMBOLOS Ω Ohm λ Comprimento de Onda µ Micro
RESUMO
Este trabalho constitui-se da implementação de um sistema texto-fala portátil
para o português do Brasil utilizando o método de síntese concatenativa. O sistema
foi desenvolvido utilizando o microcontrolador 8031/8951 em conjunto com outros
módulos para efetuar a emulação sonora com base na digitação de um texto
O processo de conversão é elaborado desde a normalização do texto de
entrada até a geração do sinal acústico correspondente à fala sintetizada,
amplificação e reprodução sonora. Foram adotadas estratégias na construção dos
segmentos pré-gravados possibilitando a criação de uma pequena base de dados, o
que possibilitou a elaboração de um sistema simples.
O objetivo deste trabalho é ajudar pessoas surdo-mudas a se comunicarem
com os outros membros da sociedade para possibilitar a ultrapassagem de suas
incapacidades, tornando-as mais ativamente participativas na sociedade. O sistema
também possibilita inúmeras variedades de utilização, tais como fonética de palavras
de línguas estrangeiras, como também qualquer sistema que utiliza a linguagem da
fala para se comunicar.
ABSTRACT
This work consists of the implementation of a portable text-speak system to
the Brazil Portuguese using the method of concatenate synthesis. The system was
developed using the microcontroller 8031 in set with other modules to effect the
sonorous emulation on the basis of the digitations of a text.
The conversion process is elaborated since the normalization of the text of
entrance until the generation of the corresponding acoustic signal to speaks
synthesized, amplification and sonorous reproduction. Strategies in the construction
of the pay-recorded segments had been adopted making possible the creation of a
small base of data what it made possible the elaboration of a simple system.
The objective of this work is to help the deaf and dumb people to communicate
with the other members of the society making possible the ultraticket of its
incapacities, becoming them more actively participative in the society. The system
also makes possible innumerable varieties, such as phonetic of words of foreign
languages, as also any system that uses the language of speaks to communicate
itself.
11
1. INTRODUÇÃO
Hoje a comunicação é o modo comum de transferência de informações
utilizado pelas pessoas com o objetivo de trocar informações, influenciar o
comportamento, exprimir desejos e necessidades. É um processo contínuo que
ocorre no nosso ambiente natural. Pode ser completada através de diversos modos
e meios, como a fala, as expressões faciais, os sentimentos, as ações, símbolos,
gestos ou através da linguagem. Porém, a fala é o modo de comunicação mais
utilizado e o mais importante em nossa vida social.
O objetivo desse trabalho é de desenvolver um sistema de emulação de voz
ou síntese de voz, também conhecido como sistema “texto-fala”, onde a partir da
digitação de um texto, o sistema irá elaborar uma saída reproduzindo o som das
palavras digitadas. A finalidade deste sistema é imensa, possibilitando, por exemplo,
a aprendizagem das pronúncias das palavras para aquelas pessoas que estão
aprendendo novas línguas, como também ajudar a comunidade das pessoas surdo-
mudas, que hoje tem dificuldades de se comunicar com a sociedade, que na grande
maioria das vezes, desconhece a linguagem dos sinais.
O sistema de síntese de voz possui um vasto mercado, podendo ser utilizado
para ajudar pessoas com deficiência fono-auditiva ou visual, sistemas inteligentes
que permitem ao usuário fazer várias tarefas ao mesmo tempo como dirigir um carro
e ouvir o sistema informar sobre o melhor caminho a tomar sem tirar a atenção do
motorista, pode ser usado para aprender pronúncia de outras línguas,
telecomunicações, multimídia, enfim, existem infinidades de formas de utilização.
Nem todas as pessoas são capazes de falar ou de utilizarem a fala de modo a
serem compreendidas. Este é o caso das pessoas surdo-mudas, na qual este
trabalho se propõe a criar uma solução, com o intuito de ajudá-las a interagirem na
sociedade de forma mais igualitária. Hoje, alguns softwares de computadores
desempenham papéis importantes na vida dessas pessoas, já que possibilitam a
estas a ultrapassagem de suas incapacidades, tornando-as mais ativamente
participativas, seja nas atividades curriculares, profissionais, pessoais e para que
possam compartilhar do mesmo meio de comunicação com a sociedade.
12
O desenvolvimento de sistemas de síntese de fala a partir de textos, tem
vindo a contribuir poderosamente para aumentar a capacidade de comunicação de
pessoas com deficiências de fala, com vantagens do ponto de vista social sobre
outros meios de apoio baseados na visualização de mensagens.
Existem pessoas e empresas contribuindo nessa área como a CTBC Telecom
[2] que disponibiliza aparelhos especiais para deficientes auditivos e da fala visando
à comunicação destas pessoas através do telefone, a luva de Ryan Patterson [3]
capaz de traduzir a linguagem dos símbolos em linhas de texto, entre outros.
Este trabalho mostra como foi implementado um sistema texto-fala para o
português do Brasil utilizando o método de síntese concatenativa, na qual
segmentos de fala pré-gravados são concatenados. A opção por essa estratégia
deveu-se à maior simplicidade de implementação, como também pelo potencial que
ela apresenta de gerar fala com qualidade, conforme demonstrava a experiência
prévia de trabalhos realizados tanto pelos pesquisadores, pela comunidade científica
e através de testes na implementação deste trabalho. O processo de conversão é
realizado desde a normalização do texto de entrada até a geração do sinal acústico
correspondente à fala sintetizada, amplificação e reprodução sonora.
Diferentemente dos sistemas que se conhece na atualidade, este sistema foi
elaborado utilizando o microcontrolador 8031 e um hardware portátil, para otimizar o
manuseio do aparato para todos os fins de comunicação de indivíduos portadores de
deficiência vocal.
13
2. OBJETIVOS
Este trabalho tem por objetivo principal apresentar uma estratégia de
implementação de um sistema de conversão texto-fala para o português do Brasil.
As etapas do processo de conversão serão desde a normalização do texto de
entrada até a geração do sinal acústico correspondente à fala sintetizada,
amplificação e reprodução sonora.
Este projeto é destinado especificamente para o uso de um indivíduo surdo-
mudo, a fim de possibilitar a este, se comunicar com outras pessoas, principalmente
aquelas que desconhecem a linguagem dos sinais, permitindo a integração destas
em nossa sociedade.
O sistema também permitirá em caso de acidentes, a quem esta socorrendo
ter acesso às informações básicas deste indivíduo, através das informações
gravadas no sistema portátil, como: nome, telefone e endereço, para que este possa
pedir socorro.
O projeto é composto de um sistema mínimo com o microcontrolador 8031,
um display LCD, uma placa de interface entre o display e o microcontrolador uma
memória flash externa e um mini-teclado portátil.
14
3. HISTÓRICO
O primeiro trabalho em síntese de voz foi realizado no século XVIII, em 1779
por Christian Gottlieb Krazenstein da Academia Imperial de St.n Petersburg. Este,
inventou um instrumento que usava uma palheta vibrante e um constante fluxo de
ar, como o mecanismo de um órgão. Mais tarde em 1791, Wolfgang von Kempelen
de Viena criou uma máquina falante, a qual consistia de fole (pulmões), e uma
palheta (cordas vocais), como pode-se visualizar através da figura 1. [16]
Figura 1 - Máquina de Kempelen
A forma da câmara de ressonância poderia ser alterada manualmente para
gerar diferentes sons de voz, da mesma maneira como a posição da língua, dos
lábios, e maxilar alteram a forma do trato vocal. Em outras palavras, estas máquinas
foram baseadas no entendimento de algumas características chave do aparelho de
produção da voz. Esta máquina produziu mais que sons de vogais, chegando a
produzir sentenças completas. Trabalhadores especiais foram treinados por meses
para usar a máquina para gerar fala inteligível. [16]
Dez anos mais tarde, o alemão Kratzenstein construiu um aparelho capaz de
reproduzir os sons das vogais "a, e, i, o, u". Esse aparelho foi construído em função
de um concurso instituído pela Academia Imperial de São Petersburgo, e valeu o
primeiro prêmio ao alemão. O dispositivo era constituído por cinco cavidades
15
ressonantes excitadas por uma palheta vibrante. O formato das cavidades
determinava a vogal produzida. [12]
Já no século 20, mais precisamente em 1922, Stewart foi o responsável pelo
surgimento do primeiro dispositivo elétrico capaz de gerar alguns sons de fala
sintética.
Esse dispositivo consistia de dois circuitos ressoadores excitados por um sinal
sonoro de entrada: ajustando-se as freqüências de ressonância dos dois circuitos,
podia-se simular o som de cada uma das vogais, desde que as freqüências de
ressonância se aproximassem das freqüências dos dois primeiros formantes da
vogal correspondente. [12]
No ano de 1939, surgira o VODER nos laboratórios Bell Laboratories pelo
engenheiro Dudley, para a Feira Mundial na cidade de Nova York, foi inspirado a
partir de um sistema de análise do sinal de fala.
Era constituído de dois geradores de sons independentes (ou excitação), um
para sons periódicos (cordas vocais durante sons vozeados) e outro para ruído
(turbulência causada pelas constrições no trato vocal). Um filtro operado
manualmente imitava os efeitos do trato vocal[11]. Pessoas foram treinadas para
manusear o Voder para propósitos de demonstração. O treinamento foi bastante
longo. Este tinha um pedal de controle da freqüência operado pelo pé e 10 teclas
para operar o sistema de controle das ressonâncias. Pode-se visualiza-lo através da
figura 2.
Figura 2 - Funcionamento do VODER
16
Certamente, estas máquinas, como outras precursoras, incorporaram um
entendimento do aparelho de produção da voz. No entanto, os dispositivos foram
passos importantes para a construção de sistemas que sejam capazes de produzir
voz sintética com maior qualidade, produzindo sons de voz inteligíveis e utilizando
conceitos de controle independente de uma fonte periódica (ou emissão de ruído) e
a contribuição de uma variável de trato vocal.
Mais recentemente, surgiram novos métodos e formas de síntese de fala além
da síntese por formantes. A síntese concatenativa vem sendo utilizada com sucesso
em diversos sistemas de síntese, produzindo sinais de fala de alta qualidade. A
síntese articulatória, por sua vez, ainda se encontra em fase de estudos, e apesar de
ainda não estar sendo utilizada na prática, parece apontar para um caminho
bastante promissor. [12]
17
4. TEORIA ACÚSTICA DE PRODUÇÃO DA FALA
Esta teoria procura modelar matematicamente o processo de geração do sinal
de fala pelo aparelho fonador humano. As bases dessa teoria foram apresentadas
por Fant em 1960, através da publicação de "Acoustic Theory of Speech Production"
[24].
Pode-se dividir o aparelho fonador humano em três componentes principais:
pulmões, laringe e trato vocal (A faringe, boca (e língua) e as fossas nasais),
conforme figura 3.
Figura 3 - Aparelho fonador humano
pulmões: localizados no interior da caixa torácica, os pulmões controlam a
intensidade do fluxo de ar que passa pela laringe.
laringe: localiza-se logo acima da traquéia, formada por cartilagens e tecido
muscular. Dentre os músculos mais importantes podemos destacar as pregas
vocais, que representam um papel fundamental no processo de produção da fala.
As pregas vocais são formadas por dois pares de músculos. Durante a
respiração normal as pregas estão relaxadas e abertas; no processo de produção de
voz, no entanto, as pregas se tensionam e vibram com a passagem do ar. A taxa de
vibração das pregas vocais está diretamente relacionada com a freqüência
fundamental (grave/agudo) do sinal de voz: nos sons mais agudos, as pregas estão
mais contraídas, portanto vibram mais depressa. O comprimento das pregas
18
também influi na taxa de vibração; é por isso que as mulheres, cujas pregas vocais
são mais curtas que as dos homens, possuem um tom de voz normalmente mais
agudo.
trato vocal: porção do aparelho fonador humano que se estende desde a glote até
os lábios, conforme figura 4. Os diversos elementos formadores do trato vocal são
denominados de articuladores. O trato vocal funciona como uma caixa de
ressonância, que atenua ou amplifica certas freqüências do pulso produzido na glote
(laringe). O movimento dos articuladores determina o formato do trato vocal e, por
conseguinte, as suas características de ressonância.
Figura 4 - Trato vocal
A maneira mais simples de modelar o trato vocal consiste em considerá-lo
como sendo um tubo cilíndrico com seção transversal de área uniforme, com uma
extremidade aberta correspondente aos lábios e uma fonte de excitação sonora na
outra extremidade. Um sistema como o descrito acima funciona como uma caixa de
ressonância, onde certas freqüências do sinal sonoro gerado na entrada do tubo são
amplificadas, ao passo que outras são atenuadas.
As freqüências em que ocorre ressonância são dependentes do comprimento
do tubo: no caso de um tubo de comprimento L, as ressonâncias ocorrem para os
comprimentos de onda:
λ = 4L, 4L/3, 4L/5, 4L/7, etc.,
os quais correspondem às freqüências:
f = c/4L, 3c/4L, 5c/4L, 7c/4L, etc.,
19
onde c é igual à velocidade de propagação do som no meio em questão.
Considerando-se um valor de L igual a 17cm, que é um valor típico para o
comprimento do trato vocal, e fazendo-se c igual a 340m/s (velocidade do som no
vácuo), encontramos valores de ressonância em 500Hz, 1500HZ, 2500HZ, etc..
Essas freqüências de ressonância correspondem às freqüências onde ocorre a
máxima amplificação do sinal de entrada, e são normalmente denominadas de
formantes. Note que os valores dos formantes são independentes da fonte de
excitação: seus valores dependem única e exclusivamente da configuração do trato
vocal.
O espectro típico do sinal produzido na laringe é mostrado na Figura 5(a). Ele
corresponde a uma seqüência discreta de harmônicas, onde o espaçamento entre
as harmônicas é igual à freqüência fundamental. A energia dessas harmônicas tem
uma queda da ordem de 12dB/oitava, por isso a maior parte da energia do sinal
concentra-se nas baixas freqüências (até 10 kHz).
De acordo com o modelo fonte-filtro o sinal de fala pode ser considerado como
sendo o produto do espectro em freqüência do trem de pulsos produzido na laringe
pela função de transferência do trato vocal [30]. Assume-se, nesse caso, que a
laringe e o trato vocal funcionam como entidades independentes. Essa é, na
verdade, uma simplificação do modelo, pois na verdade existe um certo
acoplamento entre a laringe e o trato vocal, o que significa que a função de
transferência do filtro não é totalmente independente da fonte.
Figura 5 - (a) Espectro do trem de pulsos glotal (b) Espectro do trem de pulsos glotal
filtrado pela função de transferência do trato vocal.
Ao passar pelo trato vocal, portanto, o pulso produzido na laringe sofre um
processo de "filtragem", conforme ilustra a Figura 5(b). A curva sobre o espectro
representa a função de transferência do trato vocal convoluída com o espectro do
20
sinal glotal, e os picos dessa curva correspondem às freqüências de ressonância
(formantes).
Além do efeito de filtragem do trato vocal, devemos ainda levar em conta o
efeito da radiação. Este é um fenômeno que ocorre quando o som escapa dos lábios
em direção ao ambiente. O efeito de radiação é equivalente ao de um filtro passa-
altas, com amplificação da ordem de 6dB/oitava; para modelá-lo, basta acrescentar
um zero à função de transferência do trato vocal.
Levados em conta os aspectos acima discutidos, podemos descrever o
processo de produção de fala através da seguinte equação:
( ) ( ) ( ) ( ) f R f U f T f V ⋅ ⋅ =
onde V(f) é o espectro do sinal de fala, U(f) o espectro do pulso glotal, T(f) a
função de transferência do trato vocal e R(f) o efeito de radiação.
O modelo do tubo uniforme é suficiente para descrever o processo de geração
da vogal neutra conhecida por "schwa", (cujo padrão de formantes é equivalente
àquele obtido por meio do modelo). No entanto, o trato vocal humano não é rígido
nem tampouco possui seção transversal de área uniforme. A movimentação dos
articuladores (língua, lábios, mandíbula, etc.) durante o processo de produção da
fala determina alterações na área da seção transversal ao longo do tubo. O efeito
dessa alteração é a modificação do padrão de ressonância do trato: cada
configuração do trato corresponde a um padrão de formantes diferente, cada um
desses padrões correspondendo a uma vogal em particular.
Existem outros tipos de sons, além das vogais, que podem ser produzidos pelo
aparelho fonador humano. A produção desses sons também pode ser explicada por
meio do modelo fonte-filtro.
O processo de produção das vogais nasalizadas, por exemplo, é semelhante
ao das vogais orais; nesse caso, no entanto, ocorre uma abertura do véu palatino,
permitindo a passagem de ar também pela cavidade nasal. Podemos modelar o trato
vocal, nesse caso, não mais como sendo um tubo uniforme, mas sim como dois
tubos em paralelo. O efeito do acoplamento desse segundo tubo é a introdução de
pólos e zeros nasais à função de transferência do trato vocal.
As consoantes fricativas (/f/, /v/, /s/, /S/, etc.), por sua vez, são produzidas
quando ocorre uma turbulência no fluxo de ar devido à existência de uma constrição
ao longo do trato vocal. As fricativas podem ser vozeadas ou não-vozeadas. No
caso das não-vozeadas (ex: /f/,/s/, /S/) existe apenas o ruído de turbulência, ao
passo que nas vozeadas (ex: /v/, /z/, /Z/) ocorre ainda a vibração das pregas vocais.
21
As consoantes plosivas(/p/, /b/, /t/, /k/, etc.), por sua vez, são produzidas por meio de
uma obstrução total à passagem do ar ao longo do trato vocal, seguida de uma
liberação abrupta do ar retido. Elas também podem ser classificadas como vozeadas
(ex: /b/, /d/, /g/) ou não-vozeadas (ex.: /p/, /t/, /k/) Os fonemas aqui indicados
seguem a notação do Alfabeto Fonético Internacional (IPA).
22
5. ESTUDO DA LINGUAGEM
Os sons elementares, isto é, os sons fundamentais da voz humana
denominam-se fonemas, que se classificam em: vogais, consoantes e semivogais.
Quando representados por escrito, os fonemas denominam-se letras.
O conceito principal na emulação dos sons depende da criação de fonemas
para as sílabas da linguagem portuguesa nesse projeto. Para isso foi estudado os
componentes silábicas das palavras e suas representações fonéticas.
Para o entendimento do funcionamento dos módulos de análise textual, existe
a necessidade do estudo da linguagem que é apresentado nesse trabalho, no caso a
língua portuguesa. Para isso será mostrada a descrição de várias regras gramaticais
que servirão como base para a análise gramatical correta na pronúncia dos fonemas
silábicos.
Fonética e Fonologia são dois ramos da Lingüística, ciências que não se
confundem. A Fonética trata do aspecto material dos sons da linguagem, ou seja, da
substância do significante. A Fonologia trata dos sons com função ou significação
lingüística, isto é, os fonemas.
A Fonologia trata do som que, diferenciado, implica mudança de significado
num signo lingüístico. A Fonética trata dos sons da linguagem sem essa
preocupação.
Em suma: a Fonologia estuda os sons da língua; a Fonética estuda os sons da fala
5.1. Conceitos da Linguagem
Vogais são letras que se pronunciam sem o auxílio de outra letra, constituem-
se vogais: a, e, i, o, u.
Consoantes (com=junto; soante=que soa) são as letras que só podem soar
com auxílio de uma vogal.
Semivogais chamam-se as letras “i” e o “u” por partilharem da natureza a um
tempo das vogais e consoantes de acordo com a posição que ocupam. [20]
Fonemas são as entidades capazes de estabelecer distinção entre as
palavras. Exemplos: casa/capa, muro/mudo, dia/tia
A troca de um único fonema determina o surgimento de outra palavra ou um
som sem sentido. O fonema se manifesta no som produzido e é registrado pela letra,
23
é representado graficamente por ela. O fonema /z/, por exemplo, pode ser
representado por várias letras: z (fazenda), x (exagerado), s (mesa). [17]
5.2. Estudo das Vogais
As vogais são classificadas quanto a zona de articulação, timbre, papel da
boca e nariz e intensidade.
5.2.1. Quanto à zona de articulação
A zona de articulação está relacionada com a região da boca onde as vogais
são articuladas.
a- média é articulada com a língua abaixada, quase em repouso.
Ex.: a (pasta)
b- anteriores são articuladas com a língua elevada em direção ao palato
duro, próximo ao dentes.
Ex.: é (pé ), ê (dedo ), i (botina )
c- posteriores são articuladas quando a língua se dirige ao palato mole.
Ex.: ó (pó), ô (lobo), u ( resumo)
5.2.2. Quanto ao papel das cavidades bucal e nasal
A corrente de ar pode passar só pela boca (orais) ou simultaneamente pela
boca e fossas nasais ( nasais).
a- orais: (pata), (sapé), (veia), (vila), (sol), (aborto), (fluxo)
b- nasais: (fã), (tempo), (cinto), (sombrio), (fundo)
5.2.3. Quanto à intensidade
A intensidade está relacionada com a tonicidade da vogal.
a- tônicas: café, cama
b- átonas: massa, bote
5.2.4. Quanto ao timbre
O timbre está relacionado com a abertura da boca
a- abertas: (sapo), (neve), (bola)
b- fechadas: ê (mesa), ô (domador), i (bico), u (útero) e todas as nasais
24
c- reduzidas: são as vogais reduzidas no timbre já que são vogais átonas
(orais ou nasais, finais ou internas). Exemplos: (cara, cantei)
5.3. Estudo das Consoantes
As consoantes são classificadas de acordo com quatro critérios:
1-modo de articulação: é a forma pela qual as consoantes são
articuladas.Quanto ao modo de articulação, as consoantes podem ser oclusivas ou
constritivas.
a- Nas oclusivas existe um bloqueio total do ar.
b- Nas constritivas existe um bloqueio parcial do ar.
2-ponto de articulação: é o lugar onde a corrente de ar é articulada (lábios,
dentes, palato. . .) De acordo com o ponto onde é articulada, as consoantes são
classificadas em:
a- bilabiais- lábios + lábios.
b- labiodentais- lábios + dentes superiores.
c- linguodentais- língua + dentes superiores
d- alveolares- língua + alvéolos dos dentes.
e- palatais- dorso do língua + céu da boca
f- velares- parte superior da língua + palato mole
3-função das cordas vocais: se a cordas vocais vibrarem, a consoante será
sonora; no caso contrário, a consoante será surda.
5-função das cavidades bucal e nasal: caso o ar saia somente pela boca, as
consoantes serão orais; se sair também pelas fossas nasais, as consoantes serão
nasais.
Pode-se visualizar na tabela 1, o quadro de consoantes da língua portuguesa.
25
Consoantes
Papel das Cavidades Nasais
Orais Nasais
Constritivas Modo de Articulação Oclusivas
Fricativas Vibrantes Laterais
Papel da cordas vocais Surdas Sonoras Surdas Sonoras Sonoras Sonora Sonora
bilabiais p b m
labiodentais f v
linguodentais t d
alveolares
s
c
ç
s
z
r
rr l n
palatais x
ch
g
j lh nh
Ponto de articulação
velares c q
(k)
g
(guê)
Tabela 1 – Quadro das Consoantes e suas articulações
5.4. Dígrafos
É a união de duas letras representando um só fonema.Observe que no caso
dos dígrafos não há correspondência direta entre o número de letras e o número de
fonemas.
Dígrafos que desempenham a função de consoantes: ch (chuva), lh (molho),
nh(unha), rr(carro) e outros
Dígrafos que desempenham a função de vogais nasais: am (campo), en
(bento), om (tombo) e outros
5.5. Classificação dos fonemas
Os fonemas da língua portuguesa classificam-se em vogais, semivogais e
consoantes.
Vogais: são fonemas pronunciados sem obstáculo à passagem de ar,
chegando livremente ao exterior. Exemplos: pato, bota
26
Semivogais: são os fonemas que se juntam a uma vogal, formando com esta
uma só sílaba: Exemplos: couro, baile. Observe que só os fonemas /i/ e /u/ átonos
funcionam como semivogais. Para que não sejam confundidos com as vogais i e u
serão representados por [y] e [w] e chamados respectivamente de iode e vau.
Consoantes: são fonemas produzidos mediante a resistência que os órgãos
bucais (língua, dentes, lábios) opõem à passagem de ar. Exemplos: caderno,
lâmpada.
O idioma português utiliza 34 fonemas, sendo 13 vogais, 19 consoantes e 2
semivogais. Estão representados na tabela 2, a seguir:
Fonema *
Características fonéticas
Exemplos **
á Baixa, central, oral átomo, arte â Baixa, central, oral, semi-
fechada pano, ramo, lanho
ã Baixa, central, nasal antes, amplo, maçã, âmbito, ânsia
é Média, anterior, oral, aberta
métrica, peça.
ê Média, anterior, oral, fechada
medo, pêssego
? Média, anterior, nasal, fechada
sempre, êmbolo, centro, concêntrico, têm, também.**
ó Média, posterior, oral, aberta
ótima, ova.
ô Média, posterior, oral, fechada
rolha, avô
õ Média, posterior, nasal, fechada
ombro, ontem, cômputo, cônsul
í Alta, anterior, oral item, silvícola i Alta, anterior, nasal simples, símbolo, tinta,
síncrono ú Alta, posterior, oral uva, útero
Vogais
u Alta, posterior, oral algum, plúmbeo, nunca, renúncia, muito
m Nasal, sonora, bilabial Marca n Nasal, sonora, alveolar Nervo ñ Nasal, sonora, palatal Arranhado b Oral, oclusiva, bilabial,
sonora Barco
p Oral, oclusiva, bilabial, surda
Pato
Consoantes
d Oral, oclusiva, alveolar, sonora
Data
27
t Oral, oclusiva, alveolar, surda
Telha
g Oral, oclusiva, palatal, sonora
Gato
c Oral, oclusiva, palatal, surda
Carro, quanto
v Oral, constritiva, labiodental, sonora
Vento
f Oral, constritiva, labiodental, surda
Farelo
z Oral, constritiva, alveolar, sonora
zero, casa, exalar
s Oral, constritiva, alveolar, surda
seta, cebola, espesso, excesso, açúcar, auxílio, asceta
j Oral, constritiva, palatal, sonora
gelo, jarro
x Oral, constritiva, palatal, surda
xarope, chuva
r Oral, constritiva, vibrante, sonora, velar
rato, carroça
r Oral, constritiva, vibrante, sonora, dental
Variação
? Oral, constritiva, lateral, sonora, palatal
Cavalheiro
l Oral, constritiva, lateral, sonora, alveolar
Luz
y Oral, palatal, sonora uivo, mãe, área, têm, também, vivem ***
Semivogais
w Oral, velar, sonora automático, móvel, pão, freqüente,
Tabela 2 - Fonemas da Língua Portuguesa
5.5. Encontros Vocálicos
Há três tipos de encontros vocálicos: ditongo, hiato e tritongo.
Ditongo: é a junção de uma vogal + uma semivogal (ditongo decrescente), ou vice-
versa (ditongo crescente), na mesma sílaba. Ex.: noite (ditongo decrescente), quase
(ditongo crescente).
Hiato: é junção de duas vogais pronunciadas separadamente formando sílabas
distintas.
Ex.:saída, coelho
28
Tritongo: é a junção de semivogal + vogal + semivogal, formando uma só sílaba.
Ex.: Paraguai, argüiu.
5.6. Encontros Consonantais
Quando existe uma seqüência de duas ou mais consoantes em uma mesma
palavra, denomina-se essa seqüência de encontro consonantal.
O encontro pode acorrer:
- na mesma sílaba: cla-ri-da-de, fri-tu-ra, am-plo.
- em sílabas diferentes: af-ta, com-pul-só-rio
Na tabela 3, pode-se verificar as 19 consonâncias da língua portuguesa.
Consonâncias Representação Gráfica Exemplos
1. BE b bater, berro, bobo
c (antes de e, i) cedo, parecido
ç (antes de a, o, u) paço, cabeça, açúcar
s (inicial ou acompanhado
de consoante)
sapo, passo, falso
2. CE
x (em casos especiais) aproximar
3. DE d dado, adesão
4. FE f foi, farmácia
5. JE j, g (antes de e, i) já, gente
g (antes de a, o, u) gosto, gato 6. GUE
gu (antes de e, i) guerra
c (antes de a, o, u) cão
c (antes de consoante) cristão
7. QUE
que (antes de e, i) quero, orquestra
8. LE l luz, latim
9. ME m Maria
10. NE n nosso, inumano
11. PE p por, para
12. RRE (forte) r (inicial ou acompanhado rato, carne, carro, honra
29
de consoante)
13. RE (brando) r (entre vogais) caro, morada
14. TE t todo, teatro
15. VE v voto, vista
16. XE x, ch xarope, charque
z zero
s (entre vogais) rosa
17. ZE
x (em casos especiais) exemplo
18. LHE lh molhado, olho
19. NHE nh senhor, sonho
Tabela 3 - As 19 consonâncias da Língua Portuguesa
5.7. Regras de Divisão Silábica
Não se separam
as letras com que representa-se os dígrafos ch, lh e nh:
cha-ma, ma-lha, ma-nhã, a-char, fi-lho, a-ma-nhe-cer;
os encontros consonantais que iniciam sílaba:
a-blu-ção, cla-va, re-gra, a-bran-dar, dra-gão, tra-ve;
a consoante inicial seguida de outra consoante:
gno-mo, mne-mô-ni-co, psi-có-ti-co;
as letras com que representa-se os ditongos:
a-ni-mais, cá-rie, sá-bio, gló-ria, au-ro-ra, or-dei-ro, jó-ia, réu;
as letras com que representa-se os tritongos:
a-güen-tar, sa-guão, Pa-ra-guai, u-ru-guai-a-na, ar-güiu, en-xá-guam.
Separam-se:
as letras com que representa-se os dígrafos rr, ss, sc, sç, xc:
car-ro, pás-sa-ro, des-ci-da, cres-ça, ex-ce-len-te;
as letras com que representa-se os hiatos:
sa-ú-de, cru-el, gra-ú-na, re-cu-o, vô-o;
as consoantes seguidas que pertencem a sílabas diferentes:
ab-di-car, cis-mar, ab-dô-men, bis-ca-te, sub-lo-car, as-pec-to.
30
5.8. Implementação do sistema
A partir dos conhecimentos prévios alcançados com o estudo dos itens
anteriores, pode-se compreender como foi possível elaborar uma forma de
sintetização utilizando algumas conjunções fonéticas, também conhecidas como
fragmentos (mostradas na Tabela 4), que em conjunto com as regras gramaticais
implantadas no algoritmo tornaram possível a construção do sistema.
Tabela 4 - 179 fragmentos utilizados para criação do sistema de emulação
31
6. ESTUDO TEÓRICO
A partir do estudo teórico do problema é possível identificar os parâmetros
necessários para a construção do software, que é responsável pela análise do texto
e a escolha do melhor método de síntese para este problema para tanto é
necessário estudar e conhecer a síntese da fala.
6.1. Síntese de Fala
Pode-se definir um sistema de síntese de fala como sendo um sistema capaz
de produzir sinais de fala artificialmente. Para isso existem várias possibilidades de
implementação, cada qual depende das características desejadas.
Os fatores importantes a serem considerados são a qualidade, complexidade e
espaço em memória. Algumas aplicações exigem sinais apenas inteligíveis outras
exigem naturalidade e proximidade da fala natural.
Sistemas simples utilizam um vocabulário fixos e de tamanhos reduzidos,
outros utilizam-se de vocabulários extensos, como os sistemas de conversão texto-
fala concatenativa, utilizado neste trabalho.
Outro fator importante na diferenciação dos sistemas de síntese é a velocidade
de execução, especialmente crítica no caso dos sistemas que trabalham em tempo
real.
Pode-se citar o custo do sistema como um todo: quanto maior for a capacidade
de processamento e de armazenamento, mais alto será o custo do hardware
necessário para implementar o sistema.
A Figura 6 a seguir, ilustra as idéias que serão expostas a seguir, a respeito
das diferentes classes de problemas envolvidos na síntese de fala. A maneira mais
elementar de produzir um sinal de fala consiste em simplesmente reproduzir trechos
de mensagem pré-gravados. Nesse caso, para gerar uma sentença, o sistema
seleciona e reproduz uma seqüência de uma ou mais mensagens armazenadas
previamente.
32
Figura 6 - Síntese de Fala e seus diversos aspectos
A vantagem dessa estratégica é de ser extremamente simples de implementar,
sendo a única tarefa do algoritmo de síntese a de selecionar a seqüência de
mensagens e reproduzi-las em ordem de “leitura”. Além disso, a qualidade do sinal
de voz gerado é muito boa, pois o que se tem na verdade é um sinal de fala natural.
Outra vantagem é que o sistema apresenta um tempo de resposta bastante curto,
pois não existe quase nenhum tipo de processamento a ser executado: toda a tarefa
consiste em selecionar a seqüência adequada de mensagens.
No entanto, esse tipo de estratégia peca pela sua falta de flexibilidade. O
número de sentenças que podem ser geradas é pequeno, consistindo basicamente
da combinação das mensagens pré-gravadas entre si. Porém, não é possível efetuar
nenhum tipo de alteração prosódica na sentença gerada (alterações prosódicas são
modificações nos parâmetros de duração, freqüência fundamental e amplitude ao
longo da sentença, essenciais para garantir a naturalidade das frases sintetizadas).
Por fim, o custo de armazenamento necessário para implementar um sistema desse
tipo é alto. Num sistema computacional, por exemplo, é preciso armazenar cada
uma das mensagens sob forma digital. [12]
Ligar palavras pré-gravadas é provavelmente o modo mais fácil de produzir
sons sintéticos naturais e inteligíveis. No entanto as sínteses concatenativas são
geralmente limitadas para uma saída sonora e uma voz e geralmente requere mais
capacidade de memória do que outros métodos.
Esse tipo de estratégia se mostra suficiente para algumas aplicações mais
simples, como por exemplo os atendimentos telefônicos, amplamente utilizados,
como exemplo um sistema de acesso a saldos bancários por telefone. Nesse caso o
vocabulário seria composto por algumas frases introdutórias, como “Bom dia”, “Digite
33
sua senha”, “Obrigado”, etc., bem como por um conjunto de palavras a partir das
quais seriam formados os valores dos saldos (“um”, “dois”, “vinte”, “milhões”,
“centavos”, etc.). Muito embora o resultado da leitura seja artificial, pois a
concatenação das mensagens é feita sem alteração prosódica, o resultado da
síntese é perfeitamente aceitável. Para sistemas mais complexos e com
vocabulários maiores, no entanto, a estratégia acima descrita se torna inviável. [12]
Os sistemas de conversão texto-fala são capazes de gerar fala sintetizada a
partir de uma mensagem escrita. A utilização desse tipo de sistema é extremamente
abrangente pois, em princípio, qualquer tipo de mensagem pode ser representada
através de texto e, portanto qualquer tipo de mensagem pode ser sintetizada. Além
disso, o custo de armazenamento do sistema é infinitamente menor: um segundo de
fala armazenada em formato textual requer aproximadamente 75 bits, em oposição
aos cerca de 1000 bits necessários para armazenar fala parametrizada, ou aos
50000 bits utilizados para guardar a forma de onda digitalizada. Alguns sistemas de
conversão texto-fala utilizam-se de segmentos de fala pré-gravados menores do que
palavras como base para a geração do sinal de fala sintética. No entanto o número
de segmentos que compõem essa base não é grande, e o tamanho de cada
segmento é reduzido, o que faz com que o custo de armazenamento da base não
seja crítico. [12]
Por isso, neste trabalho foi utilizado o processo acima descrito, no qual tem-se
uma base de dados de segmentos pré-gravados que servirão de base para a
reprodução da voz através da análise textual. Apesar de que existem outros
métodos melhores para a qualidade da fala sintética, optou-se por este pela
simplicidade e qualidade sonora, visto que é utilizado um microcontrolador ao invés
de um microcomputador, que tem mais recursos de processamento e
armazenamento.
Um dos aspectos mais importantes na síntese concatenativa é encontrar o
correto tamanho de medida dos segmentos. A seleção é comumente um intercâmbio
entre segmentos longos e curtos. Quanto maior o segmento maior a naturalidade,
menos pontos de concatenação e bons controles de co-articulação são alcançados,
mais a memória é utilizada. Com segmentos menores, menor a capacidade de
memória necessária, mas os procedimentos de análise e amostras tornam-se mais
difíceis e complexos. Nos sistemas presentes os segmentos são normalmente
palavras, sílabas, semi-sílabas, fonemas, ditongos, tritongos, encontros
consonantais, tudo que foi visto no estudo da linguagem.
34
7. ESTUDO DO HARDWARE
Com o avanço da tecnologia e a utilização da eletrônica digital por grande parte
das empresas, o emprego de microcontroladores vêm sendo muito requisitado para
um melhor desenvolvimento da produção, diminuindo os custos e trazendo
benefícios para as empresas que utilizam esse sistema. É importante salientar que,
considerando a relação custo/benefício, os microcontroladores podem não só ser
usados em empresas de médio/grande porte, como podem também ser utilizados
em vários projetos de eletrônica, na substituição de vários componentes digitais,
obtendo-se assim no final do projeto um melhor acabamento – pois um
microcontrolador ocupa um menor espaço físico - e uma maior eficiência e
praticidade, uma vez que todos os comandos seriam executados via software. [7]
7.2. Especificação do Hardware
O sistema é composto de um microcontrolador 8031/8051/8951, teclado alfa-
numérico, display LCD, e um hardware para emulação do som.
O projeto do hardware constitui-se basicamente de cinco estágios: aquisição do
sinal do teclado, armazenamento da informação na memória e amostragem da
informação, interpretação da saída da memória e leitura dos fonemas armazenados
na memória flash, tratamento do sinal através da conversão digital-analógico para
geração de sinais sonoros referentes à informação digitada, filtro anti-imagem e
amplificação e saída sonora. Pode-se ver o esquemático do sistema através da
figura 7.
Figura 7 - Diagrama em Blocos das etapas do sistema
35
A aquisição do sinal é a etapa correspondente a detecção e interpretação das
teclas digitadas no teclado portátil via interrupção no sistema e análise dos 4 bits
codificados recebidos pela porta de comunicação do microcontrolador P1.
O armazenamento em memória constitui-se da gravação dos caracteres
digitados em memória interna (gravação temporária) ou em memória externa Flash
(permanente), pertencente ao módulo do sistema mínimo. Esta etapa é feita em
conjunto com a amostragem no Display, a medida que o usuário escreve no teclado,
a informação é gravada em memória e disponibilizada no display. Para elaboração
deste projeto foi utilizada a memória interna do microcontrolador.
A amostragem no Display tem o objetivo de informar o indivíduo visualmente
dos caracteres que ele está digitando e possibilitá-lo efetuar a correção dos mesmos
durante a escrita. O display possui uma memória interna possibilitando o envio do
próximo caractere ao invés de toda a string.
Foi necessário o estudo dos fonemas vocábulos e da composição das sílabas
a fim de simular a voz humana na emulação dos sons digitados. A partir disso houve
a necessidade da gravação dos segmentos em uma memória permanente tipo
Flash. Nesta etapa os segmentos inicialmente foram gravados em arquivos no
computador no formato wav em baixa resolução e freqüência, 22KHz, 8 bits mono.
Porém posteriormente verificou-se a possibilidade da utilização do CI ISD25XX da
Winbond, onde o XX representa o tempo de gravação sonora em segundos, pode
ser encontrado com 60/75/90/120 (utilizado CI ISD2590).
A etapa correspondente à interpretação e leitura dos fonemas constitui-se da
detecção de fonemas através de combinações existentes entre os caracteres
gravados em memória interna ou Flash e a localização da posição dessas sílabas
gravadas foneticamente na memória externa onde foram gravados os segmentos
fonéticos, possibilitando acesso a essa posição e a disponibilização desses dados
para a etapa de amplificação.
A etapa de filtro anti-imagem corresponde no processo pelo qual são filtrados
ruídos não pertencentes ao sinal, gerados no processo de conversão. Essa etapa foi
simplificada após escolha pelo CI ISD2590, pois este já possui filtro interno.
A etapa da conversão digital/analógico tem como objetivo converter a
informação sonora relativa ao vocábulo silábico digital para sinal analógico, para que
esse possa ser amplificado e disponibilizados no alto-falante do sistema.
36
As etapas de amplificação e saída sonora efetivamente irão tratar o sinal para
que este possa ser ouvido como um vocábulo reconhecido ao da sílaba digitada.
A representação do sistema completo pode ser observada na figura 8, abaixo:
Figura 8 - Representação Gráfica do Sistema
Como sistema de entrada tem-se o teclado alfa-numérico portátil e saída o
display LCD para visualização do texto e do som através das etapas de
endereçamento da memória Flash, conversão digital analógico, filtro, amplificação
do sinal e saída sonora através do speaker. Nesse processo o responsável pelo
controle de todas as etapas é o circuito mínimo do microcontrolador.
7.2. Microcontrolador 8031
O Intel 8051 é um microcontrolador clássico, e é um verdadeiro
microcomputador contendo E/S paralela, contadores / temporizadores, E/S serial,
RAM, e EPROM ou ROM (dependendo do tipo). A família 8051 é composta por
vários membros (a Intel se refere como a família MCS-51), cada um adaptado para
um tipo específico de sistema.
O 8031 é destinado para aplicações expandidas e usa memória externa. O
8031 usa três das quatro portas paralelas do chip para fazer o endereçamento
convencional e um barramento de dados com linhas apropriadas de controle.
Desde que o 8031 ainda contenha RAM, uma porta paralela, e uma porta serial
- até mesmo quando funciona como uma CPU principal de um circuito expandido - o
37
número de chips eventuais necessários para expandir o E/S ou memória é ainda
consideravelmente pequeno.
O 8031 não tem o programa armazenado no próprio chip. O sistema incluirá
uma EPROM externa e um “latch” de endereço, como visto na figura 9.
Considerando a queda de preço das EPROMs e o pesado custo do uso de ambos
os 8051s ou 8751s em pouca quantidade, o 8031 é uma alternativa viável apesar
dos chips adicionais. Para muitos sistemas pequenos, a combinação 8031/EPROM
é muito melhor em custo/benefício do que um 8051.
Figura 9 - Circuito Mínimo do 8031
Além do microprocessador, um sistema básico como este tem os seguintes
elementos:
Interrupções: são entradas a partir de um sinal externo que fazem com que o
processamento seja interrompido e seja iniciada uma sub-rotina específica. (Obs.: o
8051 tem interrupções com estrutura nesting, onde uma interrupção pode
interromper outra que está sendo atendida, desde que tenha maior prioridade).
Gerador de Reset: responsável por inicializar o sistema ao ligar ou quando
acionado.
Gerador de Clock: gera os pulsos necessários ao sincronismo do sistema.
38
Memória de Programa: memória onde o microprocessador vai procurar as
instruções a executar. Em sistemas dedicados costuma-se utilizar memórias ROM,
embora em alguns casos memórias RAM também sejam utilizadas.
Memória de Dados: memória onde o microprocessador lê e escreve dados durante
a operação normal. Geralmente é do tipo volátil, embora memórias não-voláteis
possam ser utilizadas.
Seleção de Endereços: lógica para escolher qual memória ou periférico o
microprocessador vai utilizar.
Portas de E/S: sua função é a comunicação com o mundo externo. Através delas
dispositivos como teclados, impressoras, displays, entre outros, comunicam-se com
o sistema.
39
7.3. Placa do Circuito Mínimo com o Microcontrolador 8031
Na placa do circuito Mínimo utilizado no desenvolvimento do projeto é possível
endereçar 32K posições de memória, visto que são utilizadas memórias RAM
(62256) e EPROM (27C256) que possuem organização de 32K endereços X 8 bits.
É possível também endereçar um hardware externo utilizando a expansão de
16 bits, neste caso, pode-se desabilitar a memória RAM da placa utilizando
endereços acima de 7FFFh, pois a partir desse endereço o bit A15 ficará em 1
levando o pino /CE da memória RAM para estado de desabilitação do chip.
Há o barramento de dados de expansão de 8 bits para troca de informações
com hardwares externos, utilizado por endereçamento.
Também há uma porta de E/S disponível (porta P1) que pode ser acessada a
qualquer momento sem necessitar de endereçamento.
Contudo, a placa ainda dispõe de entradas externas para os timers (Timer 0 e
Timer 1), entradas externas de interrupção (/INT0 e /INT1), pinos de RX e TX para
comunicação serial e pinos de /RD e /WR informando que operação está sendo
executada pelo microcontrolador (se escrita ou leitura na memória externa).
A placa ainda possui uma saída para alimentação de circuitos externos. Vale
lembrar que para a adição de outros circuitos externos que irão consumir corrente da
placa, o CI 7805 será mais exigido e poderá esquentar, então é necessária a fixação
de um dissipador de calor em sua carcaça.
Um cristal oscilador de 11,059MHz deve ser utilizado para que, quando for
utilizar o 8031 para comunicação serial, seja possível utilizar taxas de baud rate
entre 1200 e 19200 bits/s. Se for utilizado um cristal de 12MHz, a taxa de
transmissão possível será de 1200 ou, no máximo, 2400 bits/s. [6]
Neste projeto foi utilizado o sistema mínimo do 8031, porém para minimizar o
tamanho do sistema e reduzir o custo do projeto é recomendada a utilização do CI
8951, que tem a mesma função, porém não necessita de EPROM externa já que o
programa pode ficar armazenado dentro do CI, lembrando que como o CI é da
mesma família nenhuma alteração do programa é necessária.
Pode-se visualizar na figura 10 o esquemático do circuito mínimo.
40
Figura 10 – Esquemático do Circuito Mínimo do 8031
41
7.4. Interação com o teclado
Nesse projeto foram estudadas três alternativas de teclado, entre elas
podemos citar o teclado de matriz, interface serial, porém pela dificuldade de
encontrar no mercado um teclado que se adaptassem as funcionalidades exigidas e
de tamanho reduzido a um baixo custo, resolveu-se desenvolver um teclado
utilizando lógica combinacional a um baixo custo com 14 teclas de acesso.
Porém vale estudar as alternativas e mostrar as vantagens/desvantagens de
cada sistema de teclado.
• 7.4.1 Teclado Matricial
O teclado de matriz consiste em uma matriz de botões, neste caso as 16 teclas
estão dispostos sobre quatro filas e quatro colunas, conformando uma estrutura
matricial. Clicar uma destas teclas supõe a conexão elétrica entre uma fila e uma
coluna. Normalmente, todas as filas estão isoladas eletricamente das colunas e o
fato de clicar as teclas origina a conexão entre filas e colunas.
Na figura 11 abaixo verifica-se o esquemático do funcionamento do sistema.
Figura 11 - Teclado de Matriz
42
Este sistema não foi utilizado porque aumentaria a complexidade do sistema, já
que deveria ser conectado a 8 portas do microcontrolador para análise da tecla
digitada. Porém, para uso comercial seu uso se torna recomendável, pois utiliza uma
pequena dimensão de espaço e baixo consumo de energia. Porém seria necessário
a construção do sistema, pois o único tipo de teclado matricial encontrado
comercialmente é o teclado numérico.
• 7.4.2 Teclado Via Interface PS2 Serial
Para aquisição do sinal foi estudado a utilização de um teclado alfa-numérico portátil
que converte cada tecla digitada em código ASCII para que possa ser interpretado
pelo microcontrolador, como os usados em PC, porém portátil. Para isso é
necessário efetuar as ligações do teclado no sistema conforme figura 12. Para
estudo foi utilizando um teclado AT padrão IBM, conector Ps 2 macho.
O pino 3 é ligado na interface serial RX do microcontrolador os pinos 2 e 5 no
VCC e Terra respectivamente e o pino 1 no clock do microcontrolador.
Caso se utilize um conector Pin Din 5, os pinos 4 e 5 deverão ser ligados no
Terra e no VCC respectivamente, o pino 2 na interface serial RX e o pino 1 no clock
do microcontrolador.
Pin Descrição Pin Descrição
1 KBD Clock
1
KBD Clock
2 KBD Data 2 GND
3 N/C 3 KBD Data
4 GND 4 N/C
5 +5V (VCC) 5 +5V (VCC)
6 NC
Figura 12 - Descrição da Pinagem do Teclado
O teclado IBM envia códigos que são interpretados pelo PC, são chamados de
“scan codes”. Normalmente os “scan codes” dizem a BIOS do teclado quais teclas
43
foram pressionadas para 3 eventos, quando a tecla é clicada, quando mantém-se
pressionada e quando é libertada. Neste caso apenas o primeiro caso irá importar,
por exemplo a tecla “A” quando pressionada corresponde a 1C (hex) e esse sinal
correspondente a 1C é transmitido para o PC ou microcontrolador pela linha serial.
Pode-se visualizar os códigos hexadecimais gerados pelos “scan codes”,
mostrados na figura 13.
Figura 13 - Scan Codes do teclado AT [21]
O teclado se comunica através do canal serial com o microcontrolador a uma
taxa de 9600 bps, enviando 1 start-bit, 8 bits de dados e logo em seguida um stop-
bit, nas bordas de subida do sinal de clock, conforme pode-se ver na figura 14.
Ao pressionar de uma tecla, o teclado deverá gerar uma interrupção no
microcontrolador e enviar os dados dos scan codes através da interface serial do
microcontrolador.
Figura 14 - Modo de Comunicação Serial do Teclado [21]
Comercialmente, pode ser utilizado um teclado de contato, utilizando o envio
do sinal por modo serial. O que significa a diminuição das dimensões do teclado.
44
Após efetuar o estudo deste sistema, pode-se observar que os teclados
padrão IBM portáteis usados em Palm Top são muito caros, o que excluiu a
possibilidade da utilização deste sistema.
7.4.3 Teclado Matriz Combinacional
Em decorrência da dificuldade de se encontrar um teclado que se adequasse
às condições requeridas como: tamanho reduzido, baixo custo e simplicidade de
implementação, optou-se por desenvolver um teclado usando lógica combinacional,
para isso baseou-se na tabela 5 e tabela 6 abaixo:
D0 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 P4 P3 P2 P1 D0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 D1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 D2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 D3 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 D4 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 1 D5 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 D6 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 1 D7 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 D8 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 D9 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 D10 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 1 D11 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 D12 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 1 D13 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0
Tabela 5 - Codificação do Teclado
D0 A B C 0 D2 D E F 1 D4 G H I 2 D6 J K L 3 D8 M N O 4 D1 P Q R 5 D3 S T U 6 D5 V X W 7 D7 Y Z 8 9 D9 ENTER D10 ESPAÇO D11 <= D13 => D12 EMERGÊNCIA
Tabela 6 - Mapa Teclado
P1 = NOT (D0 + D2 + D4 + D6 + D8 + D10 + D12) P2 = NOT (D1 + D2 + D5 + D6 + D9 + D10 + D13) P3 = NOT (D3 + D4 + D5 + D6 + D11 + D12 + D13) P4 = NOT (D7 + D8 + D9 + D10 + D11 + D12 + D13) Int = P1 . P2 . P3 . P4
45
Através da fórmula descrita acima obtém-se 4 bits de dados que conectados a
porta P1 do microcontrolador, descrevem a tecla apertada pela interpretação do
conjunto de bits. Esses bits quando habilitados tem de estar com nível lógico 0.
Sendo que o bit representado pela variable Int é conectado a interrupção 0 do
microcontrolador, atendendo a rotina de verificação da tecla (leitura dos 4 bits da
porta P1), quando Int tem sinal nível lógico 0.
Abaixo, na figura 15 temos a lógica de controle equivalente ao circuito combinacional.
1
Teclado 16 teclas / 4 bits
B
1 1Tuesday, October 12, 2004
Title
Size Document Number Rev
Date: Sheet of
VCC
VCC
U5A
74LS08
1
23
U5B
74LS08
4
56
U5C
74LS08
910
8
U1A
74LS32
1
23
U1B
74LS32
4
56
U1C
74LS32
9
108
U1D
74LS32
12
1311
U2A
74LS32
1
23
U3A
74LS260
123
1213
5
U3B
74LS260
489
1011
6
U4A
74LS260
123
1213
5
U4B
74LS260
489
1011
6
J 3
CON5
12345
J7
GND
1
J8
VCC
1
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
100 Ohms
A B C 0
D E F 1
G H I 2
J K L 3
M N O 4
P Q R 5
S T U 6
V X W 7
Y Z 8 9
ENTER
ESPAÇO
<=
=>
CANCELAR
D3
D2
D1
D0
D4
D5
D6
D7
D8
D9
D10
D11
D12
D13
P3
D6
D8
D10
D12
D10
D13
D5
D6
D11
D12
D0D2D4
D6+D8D10+D12
D1D2D9
D10+D13D5+D6
D5+D6D11+D12
D3D4D13
D10+D13D11+D12
D7D8D9
P0
P1
P2
P3
INT 0
Figura 15 - Teclado Lógica Combinatória
46
7.5. Display LCD
Os módulos LCD são interfaces de saída muito úteis em sistemas
microprocessados. Estes módulos podem ser gráficos e a caracter. Os módulos LCD
gráficos são encontrados com resoluções de 122x32, 128x64, 240x64 e 240x128 dot
pixel, e geralmente estão disponíveis com 20 pinos para conexão. Os LCD comuns
(tipo caracter) são especificados em números de linhas por colunas.
Os módulos podem ser encontrados com LED backlight (iluminação de fundo)
para facilitar as leituras durante a noite. Neste caso, a alimentação deste LED faz-se
normalmente pelos pinos 15 e 16 para os módulos comuns e 19 e 20 para os
módulos gráficos, sendo os pinos 15 e 19 para ligação ao anodo e os pinos 16 e 20
para o catodo. A corrente de alimentação deste led varia de 100 a 200mA,
dependendo do modelo.
Estes módulos utilizam um controlador próprio, permitindo sua interligação
com outras placas através de seus pinos, onde deve ser alimentado o módulo e
interligado o barramento de dados e controle do módulo com a placa do usuário.
Naturalmente que além de alimentar e conectar os pinos do módulo com a placa do
usuário deverá haver um protocolo de comunicação entre as partes, que envolve o
envio de bytes de instruções e bytes de dados pelo sistema do usuário. [8]
A tabela 6 descreve cada pino do módulo ou do display digital para conexão
deste as outras placas:
Pino Função
Descrição
Pino Função
Descrição
Pino Função Descrição
1 Alimentação Terra ou GND
2 Alimentação VCC ou +5V
3 V0 Tensão para ajuste de contraste
4 RS Seleção: 1- Dado, 0 - Instrução
5 R/W Seleção: 1- Leitura, 0 – Escrita
6 E Chip Select 1 ou (1->0) – Habilita,
0 – Desabilitado
7 B0 LSB
8 B1
9 B2
Barramento
47
10 B3
11 B4
12 B5
13 B6
14 B7 MSB
De
Dados
15 A (quando existir) Anodo p/ LED backlight
16 K (quando existir) Catodo p/ LED backlight
Tabela 6 - Pinagem dos Módulos LCD
O módulos LCD é utilizado para a visualização dos caracteres digitados pelo
usuários, permitindo a este a visualização e correção das informações digitadas. A
figura 16 mostra a conexão do módulo LCD ao sistema montado até o momento.
Pode-se visualizar que os pinos de endereçamento A0 e A1 estão conectados aos
pinos 4 e 5, dessa forma existem 4 endereços distintos para a comunicação com o
microcontrolador, que podem ser visualizados através da tabela7.
ENDEREÇO R/W RS DESCRIÇÃO
4000h 0 0 Instrução – escrita no módulo
4001h 0 1 Dados – escrita no módulo
4002h 1 0 Instrução –leitura do módulo
4003h 1 1 Dados – leitura no módulo
Tabela 7 - Descrição dos endereços de ac 1
48
Figura 16 - Sistema LCD em conexão com o 8051
49
7.6. Memória Externa
Para a gravação dos conjuntos de fonemas, foi necessário utilizar uma
memória de alta capacidade. Para isso foram estudadas algumas memórias,
inicialmente o projeto foi baseado na utilização da memória Flash para gravação em
binário dos segmentos de som endereçáveis. Para isso foi necessário gravar em um
PC todos os segmentos de som em arquivos tipo Wav com baixa resolução e
tamanho de no máximo 5Kb. Estudou-se o protocolo Wav e com base foi
desenvolvido um software em linguagem C para fazer a “limpeza” do protocolo Wav
e deixá-lo somente a parte binária.
Após a gravação dos sons na memória Flash e se ter conhecimento do início e
fim de cada segmento, desenvolveu-se um programa em Assembler que analisa o
texto, reconhece os segmentos e faz o endereçamento desde a posição inicial à
final, byte a byte, para saída de dados da memória Flash. Esta saída digital tinha
que ser decodificada em analógica, filtrada e amplificada para saída por um speaker.
Para isso foi desenvolvido um hardware com memória Flash, decodificação
digital-analógica utilizando o DAC 0808 como mostra figura 17.
Figura 17 – Descrição do DAC 0808
Após analisar alternativas verificou-se a existência do CI da Winbond Eletronics
Corporation América (WECA) ISD25XX onde o XX representa o tempo de gravação
total do CI em segundos, comercialmente encontrado com 60/75/90/120 segundos.
50
Este CI possui características interessantes como armazenamento de sons,
endereçamentos individuais, no qual só é necessário o endereçamento da posição
inicial e ativação de 1 bit para ativação de saída sonora já que o término do
segmento é conhecido pelo CI, possui modo de baixo consumo, gravação do som no
próprio CI, decodificação e filtro anti-aliasing conforme mostra o diagrama em blocos
da linha ISD2560/75/90/120 conforme figura 18 e pinagem conforme figura 19.
Figura 18 - Diagrama em Blocos ISD25XX
Figura 19 - Pinagem do ISD25XX
A opção deste CI proporcionou um custo mais elevado do que o outro sistema
porém optou-se por esse sistema já que a prioridade deste projeto é o tamanho
51
reduzido e baixo consumo. Sendo assim os sons referentes aos segmentos silábicos
foram gravados na memória ISD2590.
O módulo do ISD25XX pode ser visualizado na figura 20. Tem características
de alta qualidade de gravação sonora, design simples e tempo de duração de
armazenamento do CI sem alimentação (mais de 100 anos).
Possui também gravação de mensagens endereçáveis, looping de mensagem,
gravação consecutiva com método de separação de mensagens, gravação
consecutiva com método de link, entre outros.
Figura 20 - Módulo ISD25XX
O layout da placa pode deste esquemático pode ser visualizado através da
figura 21.
52
Figura 21 - Layout Placa do Módulo ISD 25XX
O modo de operação básico do módulo é o modo de endereçamento individual
que permite gravação e reprodução de muitos sinais de áudio independentes em no
máximo de duração total e banda de freqüência dependendo o valor do CI onde: (i)
60s e 0,15/3,4 Khz para ISD2560, (ii) 90s e 0,15/2,3Khz para ISD2590, ou (iii) 120s
e 0,15/1,7 Khz para ISD25120 em células sucessivas de armazenamento em
memória, dividida em 600 linhas endereçáveis. Isto significa que um máximo de 600
mensagens independentes podem ser gravadas, cada um com tempo de duração
0,1s / 0,125s / 0,15s / 0,2s, respectivamente. O número atual de mensagens e as
suas durações dependem da seleção de endereço nos espaços de memória. O
endereçamento é feito com uma codificação binária de 10 endereços de entrada A0
– A9 conforme tabela 7 abaixo.
53
Tabela 7 - Mapa de Memória
No projeto os endereços de memória foram repartidos em 120 pedaços de 5
posições com 0,15s cada obtém-se 0,75s de tempo de gravação por segmento e
para mensagens longas como a de introdução do sistema ou qualquer frase pelo
menos 10 posições com 1,5s.
A vantagem do uso desse módulo usando o CI ISD25XX possibilita a
regravação de mensagens e gravação de palavras ou frases mais usadas pelo
usuário a qualquer momento, bastando apenas o endereçamento dessas e a
vinculação no programa.
7.7. Amplificação do Sinal
O sistema não possui capacidade de reprodução em alta potência portanto foi
necessário o desenvolvimento de um sistema de amplificação de áudio. Para isso
foram estudados 2 amplificadores, o amplificador Operacional 741 e o LM 386.
Sendo que desses o segundo tornou-se mais atrativo por não necessitar de uma
tensão negativa na alimentação (usado o CI PT5022A da National Instruments)
54
como o 741 e por seu baixo consumo de energia, porém vale estudar as duas
alternativas.
Para esse primeiro caso foi utilizado um circuito formado por um amplificador
operacional não inversor conforme figura 22, pois este permite um ganho no sinal de
acordo com R1 e R2 conforme a fórmula de ganho:
A equação acima comprova a controlabilidade do ganho em malha fechada
através do circuito de realimentação negativa.
Figura 22 - Esquemático do Amplificador Operacional Não-Inversor
Para a utilização deste circuito o resistor R1 será mantido em 1KΩ, ou
qualquer outro resistor e R2 será variável, contanto que para ter um ganho no sinal é
preciso fazer com que R2 seja maior do que R1, caso seja igual o ganho será de 2x.
Baseado nisso pode-se utilizar um resistor variável para ter um controle ajustável do
ganho e do volume na saída saturando em 5V.
Pode-se visualizar a elaboração deste primeiro circuito de amplificação
observando a figura 23, onde VIN é a tensão de entrada, correspondente à saída da
decodificação digital/analógica.
VCC 4,5V
+
-
U14
UA741
3
26
7 14 5
RV1
10KOhm
R11
RF
R12
RX
Saída Sonora
12
Vo
-4,5V
VIN
Figura 23 - Circuito de Amplificação usando 741
55
O circuito integrado LM386 permite a construção de pequenos amplificadores
de saída de áudio, com potência na faixa de 0,25 a 0,5 W, para os mais diversos
fins. Sua tensão de alimentação pode variar de 6V à 12V e drena apenas 24
miliwatts quando opera com alimentação de 6V.
O ganho interno do LM386 pode variar entre 20 à 200 vezes a tensão de
entrada.
Verifica-se que o CI ISD25XX tem saída em speaker 16 Ohms, para utilização
de speaker de 8 Ohms é necessário a utilização de um circuito. O circuito da figura
24 foi desenvolvido para saída com speaker de 8 Ohm utilizando amplificador LM386
com ganho variável de acordo com a variação de R3.
Figura 24 - Amplificador LM386 com Speaker 8 Ohm
7.8. Integração do Sistema
Como resultado final do projeto é possível verificar a integração do sistema
através do esquemático da figura 25. Nela pode-se verificar a interconexão de todos
os módulos para a produção da saída sintetizada correspondente ao sinal sonoro da
voz convertido após análise textual do texto digitado pelo usuário.
Próximo ao CI 8031 verifica-se um conjunto de conectores de 5 pinos ligados
aos 4 primeiros pinos da porta P1 do microcontrolador e um pino ligado a porta Int0.
Estes pinos correspondem aos 4 pinos de dados e o pino de interrupção do teclado
portátil, respectivamente.
56
Os dados digitados pelo teclado ficam armazenados na memória interna do
microcontrolador. Quando o usuário pressiona a tecla Enter o microcontrolador
verifica os dados em memória (digitados pelo usuário) e compara-os com a tabela
de fragmentos. Se a segmentação do texto corresponder aos fragmentos gravados
em memória, o microcontrolador endereça 4000h no barramento de saída que ativa
o latch 74HC573 para gravação dos dados do barramento de dados que são
correspondentes a posição dos fragmentos reconhecidos na memódia ISD25XX e
seta os pinos p1.4 e p1.5 que correspondem aos pinos de ativação da reprodução
sonora e ativação da reprodução do endereço setado.
Os dois bits mais significativos do ISD25XX são ligados aos pinos p1.6 e p1.7
mas poderiam ser conectados a outro 74HC573 ligado a outro endereçamento.
57
<Doc> 1
Sistema de Emulação de Voz Utilizando Micro Controlador 8031
C
1 1Sunday, November 07, 2004
Title
Size Document Number Rev
Date: Sheet o f
VCC_BAR
VCC_BAR
VCC_BAR
VCC_BAR
VCC_BAR
VCC_BAR
100nF
10uF 63V
10KOhm
J2
Display LCD
21
345
6
89
101112
7
1314
V C CGND
VOR/WRS
E N A
D6D5D4D3D2
D7
D1D0
J3
CON5
12345
Saída Sonora
1
2
U12
27C256
1 09876543
2 52 42 12 3
22 62 7
2 02 2
1
1112131516171819
A0A1
A2A3A4A5A6A7A8A9A10A11A12A13A14
CEOEVPP
O 0O 1
O 2O 3O 4O 5O 6O 7
U5
74LS373
3478
13141718
111
256912151619
D0D1
D2D3D4D5D6D7
OCG
Q0Q1
Q2Q3Q4Q5Q6Q7
Y 2
11Mhz
SW1
33pF
U8
74HC573
111
20
1918171615141312
23456789
OELE
VCC
1Q2Q3Q4Q5Q6Q7Q8Q
1D2D3D4D5D6D7D8D
U9D
74LS00
12
1311
33pF
U10A
74LS139
23
1
4567
AB
G
Y0Y1Y2Y3
U9A
74LS00
1
23
U4
80C31
31
19
18
9
12131415
12345678
3 93 83 73 63 53 43 33 2
2 12 22 32 42 52 62 72 8
1 71 62 93 01 11 0
40
2 0
EA/VP
X1
X2
RESET
INT0INT1T0T1
P1.0P1.1P1.2P1.3P1.4P1.5P1.6P1.7
P0.0P0.1
P0.2P0.3P0.4P0.5P0.6P0.7
P2.0P2.1P2.2P2.3P2.4P2.5P2.6P2.7
RDWR
PSENALE/P
TXDRXD
VCC
VSS
U9B
74LS00
4
56
U9C
74LS00
9
108
PLAYBACK
21
3
POWER DOWN
21
3
U7
ISD2560/75/90/120
8765
27
1 21 3
26
910
24
4321
1 62 8
1 4
2522
23
1 5
2 0
2 1
1 8
1 71 9
A7A6A5A4
P/R
VSSDVSSA
XCLK
A8A9
PD
A3A2A1A0
VCCAVCCD
SP+
#EOM#OVF
#CE
SP-
ANAIN
ANAOUT
MICREF
MICAGC
47KOhm47KOhm 47KOhm
SW2
SW DIP-10
1 2 3 4 5 6 7 8 9
20 19 18 17 16 15 14 13 12 11
10
J 4
CON3
123
SW1
1KOhm
10KOhm
10KOhm470KOhm
5,1 KOhm
220 uF
220 uF
100nF
100nF
220nF
100nF
J 6
CON1
1
MK1
Electret MIC
12
+
-
U11
LM386
3
25
6 1
4 8
7500 KOhm
500 KOhm
0,1 uF
0,1 uF
RV1100 kOhm
0,1uF
220 uF
0,047 uF
10 Ohm
A 9
A12
D5A 5
Barramento de Endereço [A0..A15]
D0
A 4
D2
D 5
A 0
A11
A 8
D2
Barramento de Dados [D0..D7]
A10
D3
D6A 7
D 4
A15
A13
A2A 3
A13
D 3
D7
A 1
D7
D 0
D 5
D 7
A 6
D3
D 2
A10
A11
D1
D 4
A 2
A 1
A4
A12
D 2
A 0
A7
A15
A 9
D 1
A6
A3
D5
D0
D4RESET
A14
D4
D 7
D 6
D 1A0D 0
D 3
EPROM
D6
A 8
A14
D1
D 6
A1
A5
A14
D3D4
D1D0
D2
#WR
D6D7
D5
A14
A 0A 1
D1D2
D4
D7
D5
D0
D3
D6
D 6
D 0
D 7
D 4D 3D 2
D 5
D 1
ACTIVE
RECORD
Sinal de
uma fonteexterna
P1.7P1.6
P1.7P1.6
P1.5P1.4
Interação com Teclado
Figura 25 - Esquemático da Integração do Sistema
58
8. ESPECIFICAÇÃO DO SOFTWARE
A linguagem de software que é utilizada é assembler do 8031/8051/8951, a
qual interage com o sistema, sendo responsável pela disponibilização ou não dos
dados em barramento, saída e aquisição de sinais, atendimento às interrupções,
entre outros.
É necessário a interação do sistema em tempo real, ou seja, a medida que o
usuário efetuar a digitação dos dados, tais informações devem estar armazenadas
em memória e quando o usuário pressiona a tecla emular, o sistema deve efetuar a
emulação sonora pausadamente para interpretação do som. Pode-se visualizar com
mais facilidade o sistema, observando-se o fluxograma abaixo.
Na 1a. etapa através do preenchimento de 3 posições de memória é possível
saber se o usuário preencheu os itens de nome, telefone emergencial e endereço,
só então liberando o sistema para a 2a. etapa (emulação sonora) que constituirá de
um loop aguardando a digitação da tecla Enter. A interrupção do teclado irá acionar
a leitura dos bits do teclado e gravar informações na memória para decodificação
desta incrementando sua posição a cada chamada de interrupção.
Inicio
sim
Consta em memória o nome do usuário?
não
sim
Consta em memória o telefone do usuário ?
não
sim
Consta em memória o endereço
do usuário?
não
sim
1a. etapa
2a.etapa
Enter ? Não
Reprodução do Som / Limpa
Display
Digite Texto Cursor
piscando
sim
Reprodução de Mensagem de Voz para teste do
sistema
59
Pode-se verificar a funcionalidade do sistema através da análise do exemplo
abaixo, onde X indica a posição inicial de memória e o outro lado da igualdade
representa os caracteres digitados.
Memória[X] = O
Memória[X+1] = l
Memória[X+2] = a
Memória[X+3] =
Memória[X+n] = ...
Sendo n<=Tamanho Máximo da palavra
Abaixo o esquemático do algoritmo para emulação do som correspondente a
saída do sistema.
Procedimento Emular()
Se (Memória[X] != vazio) então
Var = null;
n = 0;
Enquanto (n < Tamanho Máximo da Palavra) faça
Var = Var + Ler(Memória[X+n]);
Se (Formar Fonema(Var) == true) então
Tocar(Var);
Var = null;
Fim Se
Limpar(Memória[X+n]);
n = n+1;
Fim Enquanto
Fim Se
Fim Procedimento
Para fins de teste foi desenvolvido um programa criado em C++ Builder 5.0 sob
plataforma Windows, conforme figura 26 para que seja possível analisar a saída
sonora do circuito que passa pelo conversor DAC e amplificação, conforme a
entrada sonora do teclado, digitado pelo usuário. Sendo que a saída deste através
da porta paralela do microcomputador.
60
Figura 26 - Sistema de Teste do 1º módulo
61
9. RESULTADOS E DISCUSSÃO
A princípio foi utilizado para testes um programa feito em Borland Builder 5.0,
plataforma Windows para simular o comportamento do sistema utilizando
simplesmente a fonética das letras e síntese concatenativa conforme fragmentos da
tabela 4. Percebeu-se que o primeiro caso tornava o som indecifrável e a segunda
técnica de boa qualidade.
Comprovado o funcionamento do sistema, os sons gravados no
microcomputador PC, em formato wav foram gravados em memória EPROM e Flash
para testes utilizando microcontrolador. Percebeu-se que o hardware se tornara
grande e o sistema complexo. Neste momento buscaram-se alternativas e percebeu-
se que poderia ser utilizado um CI próprio para gravação e reprodução que fosse
simples de endereçar e manusear, então se observou a existência do CI ISD25XX
da Winbond Eletronics Corporation América.
Verificou-se que o CI ISD25XX tornou o sistema mais compacto e mais
simples, embora tenha encarecido o preço do projeto, optou-se pelo tamanho
reduzido. O sistema se tornou simples, inutilizando todo o conjunto Memória Flash,
DAC e Filtro, inclusive possibilitando novas alternativas como permitir ao próprio
usuário uma nova gravação de conjunto de segmentos ou palavras o que não seria
possível no outro sistema.
62
10. REFERÊNCIAS BIBLIOGRÁFICAS [1] Agência de Informação Frei Tito para a América Latina, 2001
http://www.adital.org.br/asp2/noticia.asp?idioma=PT¬icia=2039
[2] CTBC Telecom, 2004
http://www.ctbctelecom.com.br/ctbc/home.nsf/byuniq/CCGC4PUGQS
[3] Speed, Provedor de Acesso DVI, 2004
http://www.speeds.com.br/conteudo/tecnologia/tecn_160102.shtml
[4] BARATA, A. L. K.; PROENÇA, M. C. G. Métodos e técnicas de aprendizagem
acadêmica utilizados com pessoas portadoras de deficiência auditiva: uma análise
teórica. Belém – Pará. UNAMA. 2001. Disponível em WWW em
http://www.cts.org.br/download/Historia.pdf
[5] A luva falante, Wired News, 28/01/2004
http://www.feneis.com.br/clipping/2002/luvafalante.htm
[6] Manual da Placa 8031, Edson Pedro Ferlin
[7] SABER ELETRÔNICA ESPECIAL Nº 2 /JANEIRO/2001
[8] Display LCD, 2004
http://www.ime.eb.br/~pinho/micro/apostila/lcdport.pdf
[9] Revista Científica Periódica - Telecomunicações - Volume 4 – Número 2 –
Dezembro de 2001, Francisco J. Fraga
[10] Mosser,Von. Introduction to Speech Synthesis. Disponível por WWW em
www.clark.net/pub/mhsmedia/physics/intro.html (27/01/2000).
[11] Richard Sproat. Multilingual Text-to-Speech Synthesis. Kluwer Academic
Publishers, United States of America, 1998
63
[12] Simões, Flávio Olmos - Implementação de um Sistema de Conversão Texto-
Fala para o Português do Brasil – 1999
[13] Sami Lemmetty. Review of Speech Synthesis Technology. Disponível por WWW
em www.acoustics.hut.fi/~slemmett/dippa/chap1.html (27/01/2000).
[14] Thierry Dutoit. An Introduction to Text-to-Speech Synthesis. Kluwer Academic
Publishers, Netherland, 1997.
[15] Ronald A. Cole, Joseph Mariani, Hans Uszkoreit, Annie Zaenen, Victor Zue,
Giovanni Varile e Antonio Zampolli. Survey of the State of the art in Human
Language Technology. Disponível por WWW em
http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html (27/01/2000)
[16] Filho, Paulo Eduardo Ostermann - Desenvolvimento de Regras de Pronúncia
para a Síntese de Voz em Língua Portuguesa. Disponível por WWW em
http://www.inf.ufrgs.br/pos/SemanaAcademica/Semana2000/PauloOstermann/
[17] Gramática da Língua Portuguesa. Disponível por WWW em
http://www.portugues.com.br/
[18] Gramática Descritiva, Manosso, Radames. Disponível por WWW em
http://www.radames.manosso.nom.br/gramatica/fonemas.htm
[19] Métodos Experimentais da Física, Unicamp - 2000
http://www.ifi.unicamp.br/~kleinke/f540/e_amp1.htm#obj
[20] Almeida, Napoleão Mendes de, Gramática Metódica da Língua Portuguesa, 34a.
Edição – São Paulo SP: Saraiva, 1986
[21] Interfacing the PC's Keyboard, Craig Peacock – 19/10/2001.
http://www.beyondlogic.org/keyboard/keybrd.htm
[22] Conversor Digital Analógico, Unicamp 2000
http://www.ifi.unicamp.br/~kleinke/f540/e_amp4.htm
64
[23] Pertence Júnior, Antonio – Amplificadores Operacionais e Filtros Ativos, 6ª.
Edição, São Paulo SP: Artmed Editora S.A. 2003
[24] Silva Júnior, Vidal Pereira da, 1963 – Aplicações Práticas do Microcontrolador
8051, 7a. Edição – São Paulo SP: Érica, 1998
[25] Nicolosi, Denys Emílio Campion, 1956 – Microcontrolador 8051 Detalhado – 2a.
Edição – São Paulo SP: Érica, 2000
[26] Teoria sobre sinais analógicos (senoidais) e digitais
http://paginas.terra.com.br/lazer/py4zbz/teoria/teoria.htm
[27] Interface Porta Paralela - RogerCom
http://www.rogercom.com
[28] Teoremas sobre DAC e ADC da Unicamp
http://www.ifi.unicamp.br/~kleinke/f540/e_amp4.htm#ADC%20DAC
[29] Fant, G.; Acoustic Theory of Speech Production; Mouton's Gravenhague, 1960.
[30] Kent, R.D., Read, C.; The Acoustic Analysis of Speech; Singular Publishing
Group, Inc., San Diego, 1992.
Top Related