Download - Sistema de Síntese de Voz Microcontrolado Portátil...por Christian Gottlieb Krazenstein da Academia Imperial de St.n Petersburg. Este, inventou um instrumento que usava uma palheta

Centro Universitário Positivo - UnicenP Núcleo de Ciências Exatas e Tecnológicas – NCET

Engenharia da Computação Elcio Friedrich

Sistema de Síntese de Voz Microcontrolado Portátil

Curitiba 2004

Centro Universitário Positivo - UnicenP Núcleo de Ciências Exatas e Tecnológicas – NCET

Engenharia da Computação Elcio Friedrich

Sistema de Síntese de Voz Microcontrolado Portátil

Monografia apresentada à disciplina de Projeto Final, como requisito parcial à conclusão do Curso de Engenharia da Computação. Orientador: Prof. Maurício Schafranski.

Curitiba 2004

TERMO DE APROVAÇÃO

Elcio Friedrich

Sistema de Emulação de Voz Microcontrolado Portátil

Monografia aprovada como requisito parcial à conclusão do curso de

Engenharia da Computação do Centro Universitário Positivo, pela seguinte banca

examinadora:

Prof. Maurício Schafranski Prof. Adriana Cursino Thome Prof. José Carlos da Cunha

Curitiba, 10 de Maio de 2004

AGRADECIMENTOS

Gostaria de agradecer meu professor orientador Maurício Schafranski pela

orientação, ao pessoal do laboratório do Unicenp, principalmente o Mauricio Perreto,

por ter dado umas dicas na elaboração de algumas partes do hardware.

SUMÁRIO

1. Introdução.....................................................................................................................11

2. Objetivos .......................................................................................................................13

3. Histórico ........................................................................................................................14

4. Teoria acústica de produção da fala ........................................................................17

5. Estudo da Linguagem.................................................................................................22

5.1. Conceitos da Linguagem.....................................................................................................22

5.2. Estudo das Vogais ..............................................................................................................23

5.2.1. Quanto à zona de articulação............................................................................................23

5.2.2. Quanto ao papel das cavidades bucal e nasal.....................................................................23

5.2.3. Quanto à intensidade .......................................................................................................23

5.2.4. Quanto ao timbre.............................................................................................................23

5.3. Estudo das Consoantes .......................................................................................................24

5.4. Dígrafos ............................................................................................................................25

5.5. Classificação dos fonemas ..................................................................................................25

5.5. Encontros Vocálicos ...........................................................................................................27

5.6. Encontros Consonantais ......................................................................................................28

5.7. Regras de Divisão Silábica..................................................................................................29

5.8. Implementação do sistema ..................................................................................................30

6. Estudo teórico ..............................................................................................................31

6.1. Síntese de Fala ...................................................................................................................31

7. Estudo do hardware ....................................................................................................34

7.2. Especificação do Hardware.................................................................................................34

7.2. Microcontrolador 8031 .......................................................................................................36

7.3. Placa do Circuito Mínimo com o Microcontrolador 8031......................................................39

7.4. Interação com o teclado ......................................................................................................41 • 7.4.1 Teclado Matricial..........................................................................................................................................41 • 7.4.2 Teclado Via Interface PS2 Serial...............................................................................................................42

7.4.3 Teclado Matriz Combinacional..........................................................................................44

7.5. Display LCD......................................................................................................................46

7.6. Memória Externa ...............................................................................................................49

7.7. Amplificação do Sinal........................................................................................................53

7.8. Integração do Sistema.........................................................................................................55

8. Especificação do Software ..............................................................................................58

9. Resultados e Discussão ..................................................................................................61

10. Referências Bibliográficas.............................................................................................62

LISTA DE FIGURAS

Figura 1 - Máquina de Kempelen..........................................................................................................................................14 Figura 2 - Funcionamento do VODER.................................................................................................................................15 Figura 3 - Aparelho fonador humano ...................................................................................................................................17 Figura 4 - Trato vocal..............................................................................................................................................................18 Figura 5 - (a) Espectro do trem de pulsos glotal (b) Espectro do trem de pulsos glotal filtrado pela função de

transferência do trato vocal. ..........................................................................................................................................19 Figura 6 - Síntese de Fala e seus diversos aspectos...........................................................................................................32 Figura 7 - Diagrama em Blocos das etapas do sistema......................................................................................................34 Figura 8 - Representação Gráfica do Sistema .....................................................................................................................36 Figura 9 - Circuito Mínimo do 8031.....................................................................................................................................37 Figura 10 – Esquemático do Circuito Mínimo do 8031 ....................................................................................................40 Figura 11 - Teclado de Matriz................................................................................................................................................41 Figura 12 - Descrição da Pinagem do Teclado ...................................................................................................................42 Figura 13 - Scan Codes do teclado AT [21] ........................................................................................................................43 Figura 14 - Modo de Comunicação Serial do Teclado [21]..............................................................................................43 Figura 15 - Teclado Lógica Combinatória ...........................................................................................................................45 Figura 16 - Sistema LCD em conexão com o 8051 ...........................................................................................................48 Figura 17 – Descrição do DAC 0808....................................................................................................................................49 Figura 18 - Diagrama em Blocos ISD25XX .......................................................................................................................50 Figura 19 - Pinagem do ISD25XX ........................................................................................................................................50 Figura 20 - Módulo ISD25XX ...............................................................................................................................................51 Figura 21 - Layout Placa do Módulo ISD 25XX................................................................................................................52 Figura 22 - Esquemático do Amplificador Operacional Não-Inversor...........................................................................54 Figura 23 - Circuito de Amplificação usando 741 .............................................................................................................54 Figura 24 - Amplificador LM386 com Speaker 8 Ohm....................................................................................................55 Figura 25 - Esquemático da Integração do Sistema ...........................................................................................................57 Figura 26 - Sistema de Teste do 1º módulo .........................................................................................................................60

LISTA DE SIGLAS Bit Unidade de medida binária, 1 bit equivale ao sinal lógico 0 ou 1 D/A Digital to Analogic DAC Digital Analogic Converter dB Decibéis Ddp Diferença de potencial, sinônimo de V DIN Din Connector EPROM Erasable Programmable Read-Only Memory G Unidade de medida de Ganho GND Ground Hz Unidade de medida de freqüência em Hertz I Unidade de medida de Corrente L Comprimento LCD Liquid Crystal Display LED Light Emitting Diode NCET Núcleo de Ciências Exatas e Tecnológicas PIN Personal Identification Number R Unidade de medida de Resistência RAM Random Access Memory RD Read RX Receiver TX Transmitter VCC Virtual channel connection UNICENP Centro Universitário Positivo V Volts – Unidade de medida de tensão Vinp Tensão de Entrada VODER Voice Operation Demonstrator Vout Tensão de Saída Wav abreviação de Wave, tipo de arquivo de som do windows WR Write

LISTA DE SÍMBOLOS Ω Ohm λ Comprimento de Onda µ Micro

RESUMO

Este trabalho constitui-se da implementação de um sistema texto-fala portátil

para o português do Brasil utilizando o método de síntese concatenativa. O sistema

foi desenvolvido utilizando o microcontrolador 8031/8951 em conjunto com outros

módulos para efetuar a emulação sonora com base na digitação de um texto

O processo de conversão é elaborado desde a normalização do texto de

entrada até a geração do sinal acústico correspondente à fala sintetizada,

amplificação e reprodução sonora. Foram adotadas estratégias na construção dos

segmentos pré-gravados possibilitando a criação de uma pequena base de dados, o

que possibilitou a elaboração de um sistema simples.

O objetivo deste trabalho é ajudar pessoas surdo-mudas a se comunicarem

com os outros membros da sociedade para possibilitar a ultrapassagem de suas

incapacidades, tornando-as mais ativamente participativas na sociedade. O sistema

também possibilita inúmeras variedades de utilização, tais como fonética de palavras

de línguas estrangeiras, como também qualquer sistema que utiliza a linguagem da

fala para se comunicar.

ABSTRACT

This work consists of the implementation of a portable text-speak system to

the Brazil Portuguese using the method of concatenate synthesis. The system was

developed using the microcontroller 8031 in set with other modules to effect the

sonorous emulation on the basis of the digitations of a text.

The conversion process is elaborated since the normalization of the text of

entrance until the generation of the corresponding acoustic signal to speaks

synthesized, amplification and sonorous reproduction. Strategies in the construction

of the pay-recorded segments had been adopted making possible the creation of a

small base of data what it made possible the elaboration of a simple system.

The objective of this work is to help the deaf and dumb people to communicate

with the other members of the society making possible the ultraticket of its

incapacities, becoming them more actively participative in the society. The system

also makes possible innumerable varieties, such as phonetic of words of foreign

languages, as also any system that uses the language of speaks to communicate

itself.

11

1. INTRODUÇÃO

Hoje a comunicação é o modo comum de transferência de informações

utilizado pelas pessoas com o objetivo de trocar informações, influenciar o

comportamento, exprimir desejos e necessidades. É um processo contínuo que

ocorre no nosso ambiente natural. Pode ser completada através de diversos modos

e meios, como a fala, as expressões faciais, os sentimentos, as ações, símbolos,

gestos ou através da linguagem. Porém, a fala é o modo de comunicação mais

utilizado e o mais importante em nossa vida social.

O objetivo desse trabalho é de desenvolver um sistema de emulação de voz

ou síntese de voz, também conhecido como sistema “texto-fala”, onde a partir da

digitação de um texto, o sistema irá elaborar uma saída reproduzindo o som das

palavras digitadas. A finalidade deste sistema é imensa, possibilitando, por exemplo,

a aprendizagem das pronúncias das palavras para aquelas pessoas que estão

aprendendo novas línguas, como também ajudar a comunidade das pessoas surdo-

mudas, que hoje tem dificuldades de se comunicar com a sociedade, que na grande

maioria das vezes, desconhece a linguagem dos sinais.

O sistema de síntese de voz possui um vasto mercado, podendo ser utilizado

para ajudar pessoas com deficiência fono-auditiva ou visual, sistemas inteligentes

que permitem ao usuário fazer várias tarefas ao mesmo tempo como dirigir um carro

e ouvir o sistema informar sobre o melhor caminho a tomar sem tirar a atenção do

motorista, pode ser usado para aprender pronúncia de outras línguas,

telecomunicações, multimídia, enfim, existem infinidades de formas de utilização.

Nem todas as pessoas são capazes de falar ou de utilizarem a fala de modo a

serem compreendidas. Este é o caso das pessoas surdo-mudas, na qual este

trabalho se propõe a criar uma solução, com o intuito de ajudá-las a interagirem na

sociedade de forma mais igualitária. Hoje, alguns softwares de computadores

desempenham papéis importantes na vida dessas pessoas, já que possibilitam a

estas a ultrapassagem de suas incapacidades, tornando-as mais ativamente

participativas, seja nas atividades curriculares, profissionais, pessoais e para que

possam compartilhar do mesmo meio de comunicação com a sociedade.

12

O desenvolvimento de sistemas de síntese de fala a partir de textos, tem

vindo a contribuir poderosamente para aumentar a capacidade de comunicação de

pessoas com deficiências de fala, com vantagens do ponto de vista social sobre

outros meios de apoio baseados na visualização de mensagens.

Existem pessoas e empresas contribuindo nessa área como a CTBC Telecom

[2] que disponibiliza aparelhos especiais para deficientes auditivos e da fala visando

à comunicação destas pessoas através do telefone, a luva de Ryan Patterson [3]

capaz de traduzir a linguagem dos símbolos em linhas de texto, entre outros.

Este trabalho mostra como foi implementado um sistema texto-fala para o

português do Brasil utilizando o método de síntese concatenativa, na qual

segmentos de fala pré-gravados são concatenados. A opção por essa estratégia

deveu-se à maior simplicidade de implementação, como também pelo potencial que

ela apresenta de gerar fala com qualidade, conforme demonstrava a experiência

prévia de trabalhos realizados tanto pelos pesquisadores, pela comunidade científica

e através de testes na implementação deste trabalho. O processo de conversão é

realizado desde a normalização do texto de entrada até a geração do sinal acústico

correspondente à fala sintetizada, amplificação e reprodução sonora.

Diferentemente dos sistemas que se conhece na atualidade, este sistema foi

elaborado utilizando o microcontrolador 8031 e um hardware portátil, para otimizar o

manuseio do aparato para todos os fins de comunicação de indivíduos portadores de

deficiência vocal.

13

2. OBJETIVOS

Este trabalho tem por objetivo principal apresentar uma estratégia de

implementação de um sistema de conversão texto-fala para o português do Brasil.

As etapas do processo de conversão serão desde a normalização do texto de

entrada até a geração do sinal acústico correspondente à fala sintetizada,

amplificação e reprodução sonora.

Este projeto é destinado especificamente para o uso de um indivíduo surdo-

mudo, a fim de possibilitar a este, se comunicar com outras pessoas, principalmente

aquelas que desconhecem a linguagem dos sinais, permitindo a integração destas

em nossa sociedade.

O sistema também permitirá em caso de acidentes, a quem esta socorrendo

ter acesso às informações básicas deste indivíduo, através das informações

gravadas no sistema portátil, como: nome, telefone e endereço, para que este possa

pedir socorro.

O projeto é composto de um sistema mínimo com o microcontrolador 8031,

um display LCD, uma placa de interface entre o display e o microcontrolador uma

memória flash externa e um mini-teclado portátil.

14

3. HISTÓRICO

O primeiro trabalho em síntese de voz foi realizado no século XVIII, em 1779

por Christian Gottlieb Krazenstein da Academia Imperial de St.n Petersburg. Este,

inventou um instrumento que usava uma palheta vibrante e um constante fluxo de

ar, como o mecanismo de um órgão. Mais tarde em 1791, Wolfgang von Kempelen

de Viena criou uma máquina falante, a qual consistia de fole (pulmões), e uma

palheta (cordas vocais), como pode-se visualizar através da figura 1. [16]

Figura 1 - Máquina de Kempelen

A forma da câmara de ressonância poderia ser alterada manualmente para

gerar diferentes sons de voz, da mesma maneira como a posição da língua, dos

lábios, e maxilar alteram a forma do trato vocal. Em outras palavras, estas máquinas

foram baseadas no entendimento de algumas características chave do aparelho de

produção da voz. Esta máquina produziu mais que sons de vogais, chegando a

produzir sentenças completas. Trabalhadores especiais foram treinados por meses

para usar a máquina para gerar fala inteligível. [16]

Dez anos mais tarde, o alemão Kratzenstein construiu um aparelho capaz de

reproduzir os sons das vogais "a, e, i, o, u". Esse aparelho foi construído em função

de um concurso instituído pela Academia Imperial de São Petersburgo, e valeu o

primeiro prêmio ao alemão. O dispositivo era constituído por cinco cavidades

15

ressonantes excitadas por uma palheta vibrante. O formato das cavidades

determinava a vogal produzida. [12]

Já no século 20, mais precisamente em 1922, Stewart foi o responsável pelo

surgimento do primeiro dispositivo elétrico capaz de gerar alguns sons de fala

sintética.

Esse dispositivo consistia de dois circuitos ressoadores excitados por um sinal

sonoro de entrada: ajustando-se as freqüências de ressonância dos dois circuitos,

podia-se simular o som de cada uma das vogais, desde que as freqüências de

ressonância se aproximassem das freqüências dos dois primeiros formantes da

vogal correspondente. [12]

No ano de 1939, surgira o VODER nos laboratórios Bell Laboratories pelo

engenheiro Dudley, para a Feira Mundial na cidade de Nova York, foi inspirado a

partir de um sistema de análise do sinal de fala.

Era constituído de dois geradores de sons independentes (ou excitação), um

para sons periódicos (cordas vocais durante sons vozeados) e outro para ruído

(turbulência causada pelas constrições no trato vocal). Um filtro operado

manualmente imitava os efeitos do trato vocal[11]. Pessoas foram treinadas para

manusear o Voder para propósitos de demonstração. O treinamento foi bastante

longo. Este tinha um pedal de controle da freqüência operado pelo pé e 10 teclas

para operar o sistema de controle das ressonâncias. Pode-se visualiza-lo através da

figura 2.

Figura 2 - Funcionamento do VODER

16

Certamente, estas máquinas, como outras precursoras, incorporaram um

entendimento do aparelho de produção da voz. No entanto, os dispositivos foram

passos importantes para a construção de sistemas que sejam capazes de produzir

voz sintética com maior qualidade, produzindo sons de voz inteligíveis e utilizando

conceitos de controle independente de uma fonte periódica (ou emissão de ruído) e

a contribuição de uma variável de trato vocal.

Mais recentemente, surgiram novos métodos e formas de síntese de fala além

da síntese por formantes. A síntese concatenativa vem sendo utilizada com sucesso

em diversos sistemas de síntese, produzindo sinais de fala de alta qualidade. A

síntese articulatória, por sua vez, ainda se encontra em fase de estudos, e apesar de

ainda não estar sendo utilizada na prática, parece apontar para um caminho

bastante promissor. [12]

17

4. TEORIA ACÚSTICA DE PRODUÇÃO DA FALA

Esta teoria procura modelar matematicamente o processo de geração do sinal

de fala pelo aparelho fonador humano. As bases dessa teoria foram apresentadas

por Fant em 1960, através da publicação de "Acoustic Theory of Speech Production"

[24].

Pode-se dividir o aparelho fonador humano em três componentes principais:

pulmões, laringe e trato vocal (A faringe, boca (e língua) e as fossas nasais),

conforme figura 3.

Figura 3 - Aparelho fonador humano

pulmões: localizados no interior da caixa torácica, os pulmões controlam a

intensidade do fluxo de ar que passa pela laringe.

laringe: localiza-se logo acima da traquéia, formada por cartilagens e tecido

muscular. Dentre os músculos mais importantes podemos destacar as pregas

vocais, que representam um papel fundamental no processo de produção da fala.

As pregas vocais são formadas por dois pares de músculos. Durante a

respiração normal as pregas estão relaxadas e abertas; no processo de produção de

voz, no entanto, as pregas se tensionam e vibram com a passagem do ar. A taxa de

vibração das pregas vocais está diretamente relacionada com a freqüência

fundamental (grave/agudo) do sinal de voz: nos sons mais agudos, as pregas estão

mais contraídas, portanto vibram mais depressa. O comprimento das pregas

18

também influi na taxa de vibração; é por isso que as mulheres, cujas pregas vocais

são mais curtas que as dos homens, possuem um tom de voz normalmente mais

agudo.

trato vocal: porção do aparelho fonador humano que se estende desde a glote até

os lábios, conforme figura 4. Os diversos elementos formadores do trato vocal são

denominados de articuladores. O trato vocal funciona como uma caixa de

ressonância, que atenua ou amplifica certas freqüências do pulso produzido na glote

(laringe). O movimento dos articuladores determina o formato do trato vocal e, por

conseguinte, as suas características de ressonância.

Figura 4 - Trato vocal

A maneira mais simples de modelar o trato vocal consiste em considerá-lo

como sendo um tubo cilíndrico com seção transversal de área uniforme, com uma

extremidade aberta correspondente aos lábios e uma fonte de excitação sonora na

outra extremidade. Um sistema como o descrito acima funciona como uma caixa de

ressonância, onde certas freqüências do sinal sonoro gerado na entrada do tubo são

amplificadas, ao passo que outras são atenuadas.

As freqüências em que ocorre ressonância são dependentes do comprimento

do tubo: no caso de um tubo de comprimento L, as ressonâncias ocorrem para os

comprimentos de onda:

λ = 4L, 4L/3, 4L/5, 4L/7, etc.,

os quais correspondem às freqüências:

f = c/4L, 3c/4L, 5c/4L, 7c/4L, etc.,

19

onde c é igual à velocidade de propagação do som no meio em questão.

Considerando-se um valor de L igual a 17cm, que é um valor típico para o

comprimento do trato vocal, e fazendo-se c igual a 340m/s (velocidade do som no

vácuo), encontramos valores de ressonância em 500Hz, 1500HZ, 2500HZ, etc..

Essas freqüências de ressonância correspondem às freqüências onde ocorre a

máxima amplificação do sinal de entrada, e são normalmente denominadas de

formantes. Note que os valores dos formantes são independentes da fonte de

excitação: seus valores dependem única e exclusivamente da configuração do trato

vocal.

O espectro típico do sinal produzido na laringe é mostrado na Figura 5(a). Ele

corresponde a uma seqüência discreta de harmônicas, onde o espaçamento entre

as harmônicas é igual à freqüência fundamental. A energia dessas harmônicas tem

uma queda da ordem de 12dB/oitava, por isso a maior parte da energia do sinal

concentra-se nas baixas freqüências (até 10 kHz).

De acordo com o modelo fonte-filtro o sinal de fala pode ser considerado como

sendo o produto do espectro em freqüência do trem de pulsos produzido na laringe

pela função de transferência do trato vocal [30]. Assume-se, nesse caso, que a

laringe e o trato vocal funcionam como entidades independentes. Essa é, na

verdade, uma simplificação do modelo, pois na verdade existe um certo

acoplamento entre a laringe e o trato vocal, o que significa que a função de

transferência do filtro não é totalmente independente da fonte.

Figura 5 - (a) Espectro do trem de pulsos glotal (b) Espectro do trem de pulsos glotal

filtrado pela função de transferência do trato vocal.

Ao passar pelo trato vocal, portanto, o pulso produzido na laringe sofre um

processo de "filtragem", conforme ilustra a Figura 5(b). A curva sobre o espectro

representa a função de transferência do trato vocal convoluída com o espectro do

20

sinal glotal, e os picos dessa curva correspondem às freqüências de ressonância

(formantes).

Além do efeito de filtragem do trato vocal, devemos ainda levar em conta o

efeito da radiação. Este é um fenômeno que ocorre quando o som escapa dos lábios

em direção ao ambiente. O efeito de radiação é equivalente ao de um filtro passa-

altas, com amplificação da ordem de 6dB/oitava; para modelá-lo, basta acrescentar

um zero à função de transferência do trato vocal.

Levados em conta os aspectos acima discutidos, podemos descrever o

processo de produção de fala através da seguinte equação:

( ) ( ) ( ) ( ) f R f U f T f V ⋅ ⋅ =

onde V(f) é o espectro do sinal de fala, U(f) o espectro do pulso glotal, T(f) a

função de transferência do trato vocal e R(f) o efeito de radiação.

O modelo do tubo uniforme é suficiente para descrever o processo de geração

da vogal neutra conhecida por "schwa", (cujo padrão de formantes é equivalente

àquele obtido por meio do modelo). No entanto, o trato vocal humano não é rígido

nem tampouco possui seção transversal de área uniforme. A movimentação dos

articuladores (língua, lábios, mandíbula, etc.) durante o processo de produção da

fala determina alterações na área da seção transversal ao longo do tubo. O efeito

dessa alteração é a modificação do padrão de ressonância do trato: cada

configuração do trato corresponde a um padrão de formantes diferente, cada um

desses padrões correspondendo a uma vogal em particular.

Existem outros tipos de sons, além das vogais, que podem ser produzidos pelo

aparelho fonador humano. A produção desses sons também pode ser explicada por

meio do modelo fonte-filtro.

O processo de produção das vogais nasalizadas, por exemplo, é semelhante

ao das vogais orais; nesse caso, no entanto, ocorre uma abertura do véu palatino,

permitindo a passagem de ar também pela cavidade nasal. Podemos modelar o trato

vocal, nesse caso, não mais como sendo um tubo uniforme, mas sim como dois

tubos em paralelo. O efeito do acoplamento desse segundo tubo é a introdução de

pólos e zeros nasais à função de transferência do trato vocal.

As consoantes fricativas (/f/, /v/, /s/, /S/, etc.), por sua vez, são produzidas

quando ocorre uma turbulência no fluxo de ar devido à existência de uma constrição

ao longo do trato vocal. As fricativas podem ser vozeadas ou não-vozeadas. No

caso das não-vozeadas (ex: /f/,/s/, /S/) existe apenas o ruído de turbulência, ao

passo que nas vozeadas (ex: /v/, /z/, /Z/) ocorre ainda a vibração das pregas vocais.

21

As consoantes plosivas(/p/, /b/, /t/, /k/, etc.), por sua vez, são produzidas por meio de

uma obstrução total à passagem do ar ao longo do trato vocal, seguida de uma

liberação abrupta do ar retido. Elas também podem ser classificadas como vozeadas

(ex: /b/, /d/, /g/) ou não-vozeadas (ex.: /p/, /t/, /k/) Os fonemas aqui indicados

seguem a notação do Alfabeto Fonético Internacional (IPA).

22

5. ESTUDO DA LINGUAGEM

Os sons elementares, isto é, os sons fundamentais da voz humana

denominam-se fonemas, que se classificam em: vogais, consoantes e semivogais.

Quando representados por escrito, os fonemas denominam-se letras.

O conceito principal na emulação dos sons depende da criação de fonemas

para as sílabas da linguagem portuguesa nesse projeto. Para isso foi estudado os

componentes silábicas das palavras e suas representações fonéticas.

Para o entendimento do funcionamento dos módulos de análise textual, existe

a necessidade do estudo da linguagem que é apresentado nesse trabalho, no caso a

língua portuguesa. Para isso será mostrada a descrição de várias regras gramaticais

que servirão como base para a análise gramatical correta na pronúncia dos fonemas

silábicos.

Fonética e Fonologia são dois ramos da Lingüística, ciências que não se

confundem. A Fonética trata do aspecto material dos sons da linguagem, ou seja, da

substância do significante. A Fonologia trata dos sons com função ou significação

lingüística, isto é, os fonemas.

A Fonologia trata do som que, diferenciado, implica mudança de significado

num signo lingüístico. A Fonética trata dos sons da linguagem sem essa

preocupação.

Em suma: a Fonologia estuda os sons da língua; a Fonética estuda os sons da fala

5.1. Conceitos da Linguagem

Vogais são letras que se pronunciam sem o auxílio de outra letra, constituem-

se vogais: a, e, i, o, u.

Consoantes (com=junto; soante=que soa) são as letras que só podem soar

com auxílio de uma vogal.

Semivogais chamam-se as letras “i” e o “u” por partilharem da natureza a um

tempo das vogais e consoantes de acordo com a posição que ocupam. [20]

Fonemas são as entidades capazes de estabelecer distinção entre as

palavras. Exemplos: casa/capa, muro/mudo, dia/tia

A troca de um único fonema determina o surgimento de outra palavra ou um

som sem sentido. O fonema se manifesta no som produzido e é registrado pela letra,

23

é representado graficamente por ela. O fonema /z/, por exemplo, pode ser

representado por várias letras: z (fazenda), x (exagerado), s (mesa). [17]

5.2. Estudo das Vogais

As vogais são classificadas quanto a zona de articulação, timbre, papel da

boca e nariz e intensidade.

5.2.1. Quanto à zona de articulação

A zona de articulação está relacionada com a região da boca onde as vogais

são articuladas.

a- média é articulada com a língua abaixada, quase em repouso.

Ex.: a (pasta)

b- anteriores são articuladas com a língua elevada em direção ao palato

duro, próximo ao dentes.

Ex.: é (pé ), ê (dedo ), i (botina )

c- posteriores são articuladas quando a língua se dirige ao palato mole.

Ex.: ó (pó), ô (lobo), u ( resumo)

5.2.2. Quanto ao papel das cavidades bucal e nasal

A corrente de ar pode passar só pela boca (orais) ou simultaneamente pela

boca e fossas nasais ( nasais).

a- orais: (pata), (sapé), (veia), (vila), (sol), (aborto), (fluxo)

b- nasais: (fã), (tempo), (cinto), (sombrio), (fundo)

5.2.3. Quanto à intensidade

A intensidade está relacionada com a tonicidade da vogal.

a- tônicas: café, cama

b- átonas: massa, bote

5.2.4. Quanto ao timbre

O timbre está relacionado com a abertura da boca

a- abertas: (sapo), (neve), (bola)

b- fechadas: ê (mesa), ô (domador), i (bico), u (útero) e todas as nasais

24

c- reduzidas: são as vogais reduzidas no timbre já que são vogais átonas

(orais ou nasais, finais ou internas). Exemplos: (cara, cantei)

5.3. Estudo das Consoantes

As consoantes são classificadas de acordo com quatro critérios:

1-modo de articulação: é a forma pela qual as consoantes são

articuladas.Quanto ao modo de articulação, as consoantes podem ser oclusivas ou

constritivas.

a- Nas oclusivas existe um bloqueio total do ar.

b- Nas constritivas existe um bloqueio parcial do ar.

2-ponto de articulação: é o lugar onde a corrente de ar é articulada (lábios,

dentes, palato. . .) De acordo com o ponto onde é articulada, as consoantes são

classificadas em:

a- bilabiais- lábios + lábios.

b- labiodentais- lábios + dentes superiores.

c- linguodentais- língua + dentes superiores

d- alveolares- língua + alvéolos dos dentes.

e- palatais- dorso do língua + céu da boca

f- velares- parte superior da língua + palato mole

3-função das cordas vocais: se a cordas vocais vibrarem, a consoante será

sonora; no caso contrário, a consoante será surda.

5-função das cavidades bucal e nasal: caso o ar saia somente pela boca, as

consoantes serão orais; se sair também pelas fossas nasais, as consoantes serão

nasais.

Pode-se visualizar na tabela 1, o quadro de consoantes da língua portuguesa.

25

Consoantes

Papel das Cavidades Nasais

Orais Nasais

Constritivas Modo de Articulação Oclusivas

Fricativas Vibrantes Laterais

Papel da cordas vocais Surdas Sonoras Surdas Sonoras Sonoras Sonora Sonora

bilabiais p b m

labiodentais f v

linguodentais t d

alveolares

s

c

ç

s

z

r

rr l n

palatais x

ch

g

j lh nh

Ponto de articulação

velares c q

(k)

g

(guê)

Tabela 1 – Quadro das Consoantes e suas articulações

5.4. Dígrafos

É a união de duas letras representando um só fonema.Observe que no caso

dos dígrafos não há correspondência direta entre o número de letras e o número de

fonemas.

Dígrafos que desempenham a função de consoantes: ch (chuva), lh (molho),

nh(unha), rr(carro) e outros

Dígrafos que desempenham a função de vogais nasais: am (campo), en

(bento), om (tombo) e outros

5.5. Classificação dos fonemas

Os fonemas da língua portuguesa classificam-se em vogais, semivogais e

consoantes.

Vogais: são fonemas pronunciados sem obstáculo à passagem de ar,

chegando livremente ao exterior. Exemplos: pato, bota

26

Semivogais: são os fonemas que se juntam a uma vogal, formando com esta

uma só sílaba: Exemplos: couro, baile. Observe que só os fonemas /i/ e /u/ átonos

funcionam como semivogais. Para que não sejam confundidos com as vogais i e u

serão representados por [y] e [w] e chamados respectivamente de iode e vau.

Consoantes: são fonemas produzidos mediante a resistência que os órgãos

bucais (língua, dentes, lábios) opõem à passagem de ar. Exemplos: caderno,

lâmpada.

O idioma português utiliza 34 fonemas, sendo 13 vogais, 19 consoantes e 2

semivogais. Estão representados na tabela 2, a seguir:

Fonema *

Características fonéticas

Exemplos **

á Baixa, central, oral átomo, arte â Baixa, central, oral, semi-

fechada pano, ramo, lanho

ã Baixa, central, nasal antes, amplo, maçã, âmbito, ânsia

é Média, anterior, oral, aberta

métrica, peça.

ê Média, anterior, oral, fechada

medo, pêssego

? Média, anterior, nasal, fechada

sempre, êmbolo, centro, concêntrico, têm, também.**

ó Média, posterior, oral, aberta

ótima, ova.

ô Média, posterior, oral, fechada

rolha, avô

õ Média, posterior, nasal, fechada

ombro, ontem, cômputo, cônsul

í Alta, anterior, oral item, silvícola i Alta, anterior, nasal simples, símbolo, tinta,

síncrono ú Alta, posterior, oral uva, útero

Vogais

u Alta, posterior, oral algum, plúmbeo, nunca, renúncia, muito

m Nasal, sonora, bilabial Marca n Nasal, sonora, alveolar Nervo ñ Nasal, sonora, palatal Arranhado b Oral, oclusiva, bilabial,

sonora Barco

p Oral, oclusiva, bilabial, surda

Pato

Consoantes

d Oral, oclusiva, alveolar, sonora

Data

27

t Oral, oclusiva, alveolar, surda

Telha

g Oral, oclusiva, palatal, sonora

Gato

c Oral, oclusiva, palatal, surda

Carro, quanto

v Oral, constritiva, labiodental, sonora

Vento

f Oral, constritiva, labiodental, surda

Farelo

z Oral, constritiva, alveolar, sonora

zero, casa, exalar

s Oral, constritiva, alveolar, surda

seta, cebola, espesso, excesso, açúcar, auxílio, asceta

j Oral, constritiva, palatal, sonora

gelo, jarro

x Oral, constritiva, palatal, surda

xarope, chuva

r Oral, constritiva, vibrante, sonora, velar

rato, carroça

r Oral, constritiva, vibrante, sonora, dental

Variação

? Oral, constritiva, lateral, sonora, palatal

Cavalheiro

l Oral, constritiva, lateral, sonora, alveolar

Luz

y Oral, palatal, sonora uivo, mãe, área, têm, também, vivem ***

Semivogais

w Oral, velar, sonora automático, móvel, pão, freqüente,

Tabela 2 - Fonemas da Língua Portuguesa

5.5. Encontros Vocálicos

Há três tipos de encontros vocálicos: ditongo, hiato e tritongo.

Ditongo: é a junção de uma vogal + uma semivogal (ditongo decrescente), ou vice-

versa (ditongo crescente), na mesma sílaba. Ex.: noite (ditongo decrescente), quase

(ditongo crescente).

Hiato: é junção de duas vogais pronunciadas separadamente formando sílabas

distintas.

Ex.:saída, coelho

28

Tritongo: é a junção de semivogal + vogal + semivogal, formando uma só sílaba.

Ex.: Paraguai, argüiu.

5.6. Encontros Consonantais

Quando existe uma seqüência de duas ou mais consoantes em uma mesma

palavra, denomina-se essa seqüência de encontro consonantal.

O encontro pode acorrer:

- na mesma sílaba: cla-ri-da-de, fri-tu-ra, am-plo.

- em sílabas diferentes: af-ta, com-pul-só-rio

Na tabela 3, pode-se verificar as 19 consonâncias da língua portuguesa.

Consonâncias Representação Gráfica Exemplos

1. BE b bater, berro, bobo

c (antes de e, i) cedo, parecido

ç (antes de a, o, u) paço, cabeça, açúcar

s (inicial ou acompanhado

de consoante)

sapo, passo, falso

2. CE

x (em casos especiais) aproximar

3. DE d dado, adesão

4. FE f foi, farmácia

5. JE j, g (antes de e, i) já, gente

g (antes de a, o, u) gosto, gato 6. GUE

gu (antes de e, i) guerra

c (antes de a, o, u) cão

c (antes de consoante) cristão

7. QUE

que (antes de e, i) quero, orquestra

8. LE l luz, latim

9. ME m Maria

10. NE n nosso, inumano

11. PE p por, para

12. RRE (forte) r (inicial ou acompanhado rato, carne, carro, honra

29

de consoante)

13. RE (brando) r (entre vogais) caro, morada

14. TE t todo, teatro

15. VE v voto, vista

16. XE x, ch xarope, charque

z zero

s (entre vogais) rosa

17. ZE

x (em casos especiais) exemplo

18. LHE lh molhado, olho

19. NHE nh senhor, sonho

Tabela 3 - As 19 consonâncias da Língua Portuguesa

5.7. Regras de Divisão Silábica

Não se separam

as letras com que representa-se os dígrafos ch, lh e nh:

cha-ma, ma-lha, ma-nhã, a-char, fi-lho, a-ma-nhe-cer;

os encontros consonantais que iniciam sílaba:

a-blu-ção, cla-va, re-gra, a-bran-dar, dra-gão, tra-ve;

a consoante inicial seguida de outra consoante:

gno-mo, mne-mô-ni-co, psi-có-ti-co;

as letras com que representa-se os ditongos:

a-ni-mais, cá-rie, sá-bio, gló-ria, au-ro-ra, or-dei-ro, jó-ia, réu;

as letras com que representa-se os tritongos:

a-güen-tar, sa-guão, Pa-ra-guai, u-ru-guai-a-na, ar-güiu, en-xá-guam.

Separam-se:

as letras com que representa-se os dígrafos rr, ss, sc, sç, xc:

car-ro, pás-sa-ro, des-ci-da, cres-ça, ex-ce-len-te;

as letras com que representa-se os hiatos:

sa-ú-de, cru-el, gra-ú-na, re-cu-o, vô-o;

as consoantes seguidas que pertencem a sílabas diferentes:

ab-di-car, cis-mar, ab-dô-men, bis-ca-te, sub-lo-car, as-pec-to.

30

5.8. Implementação do sistema

A partir dos conhecimentos prévios alcançados com o estudo dos itens

anteriores, pode-se compreender como foi possível elaborar uma forma de

sintetização utilizando algumas conjunções fonéticas, também conhecidas como

fragmentos (mostradas na Tabela 4), que em conjunto com as regras gramaticais

implantadas no algoritmo tornaram possível a construção do sistema.

Tabela 4 - 179 fragmentos utilizados para criação do sistema de emulação

31

6. ESTUDO TEÓRICO

A partir do estudo teórico do problema é possível identificar os parâmetros

necessários para a construção do software, que é responsável pela análise do texto

e a escolha do melhor método de síntese para este problema para tanto é

necessário estudar e conhecer a síntese da fala.

6.1. Síntese de Fala

Pode-se definir um sistema de síntese de fala como sendo um sistema capaz

de produzir sinais de fala artificialmente. Para isso existem várias possibilidades de

implementação, cada qual depende das características desejadas.

Os fatores importantes a serem considerados são a qualidade, complexidade e

espaço em memória. Algumas aplicações exigem sinais apenas inteligíveis outras

exigem naturalidade e proximidade da fala natural.

Sistemas simples utilizam um vocabulário fixos e de tamanhos reduzidos,

outros utilizam-se de vocabulários extensos, como os sistemas de conversão texto-

fala concatenativa, utilizado neste trabalho.

Outro fator importante na diferenciação dos sistemas de síntese é a velocidade

de execução, especialmente crítica no caso dos sistemas que trabalham em tempo

real.

Pode-se citar o custo do sistema como um todo: quanto maior for a capacidade

de processamento e de armazenamento, mais alto será o custo do hardware

necessário para implementar o sistema.

A Figura 6 a seguir, ilustra as idéias que serão expostas a seguir, a respeito

das diferentes classes de problemas envolvidos na síntese de fala. A maneira mais

elementar de produzir um sinal de fala consiste em simplesmente reproduzir trechos

de mensagem pré-gravados. Nesse caso, para gerar uma sentença, o sistema

seleciona e reproduz uma seqüência de uma ou mais mensagens armazenadas

previamente.

32

Figura 6 - Síntese de Fala e seus diversos aspectos

A vantagem dessa estratégica é de ser extremamente simples de implementar,

sendo a única tarefa do algoritmo de síntese a de selecionar a seqüência de

mensagens e reproduzi-las em ordem de “leitura”. Além disso, a qualidade do sinal

de voz gerado é muito boa, pois o que se tem na verdade é um sinal de fala natural.

Outra vantagem é que o sistema apresenta um tempo de resposta bastante curto,

pois não existe quase nenhum tipo de processamento a ser executado: toda a tarefa

consiste em selecionar a seqüência adequada de mensagens.

No entanto, esse tipo de estratégia peca pela sua falta de flexibilidade. O

número de sentenças que podem ser geradas é pequeno, consistindo basicamente

da combinação das mensagens pré-gravadas entre si. Porém, não é possível efetuar

nenhum tipo de alteração prosódica na sentença gerada (alterações prosódicas são

modificações nos parâmetros de duração, freqüência fundamental e amplitude ao

longo da sentença, essenciais para garantir a naturalidade das frases sintetizadas).

Por fim, o custo de armazenamento necessário para implementar um sistema desse

tipo é alto. Num sistema computacional, por exemplo, é preciso armazenar cada

uma das mensagens sob forma digital. [12]

Ligar palavras pré-gravadas é provavelmente o modo mais fácil de produzir

sons sintéticos naturais e inteligíveis. No entanto as sínteses concatenativas são

geralmente limitadas para uma saída sonora e uma voz e geralmente requere mais

capacidade de memória do que outros métodos.

Esse tipo de estratégia se mostra suficiente para algumas aplicações mais

simples, como por exemplo os atendimentos telefônicos, amplamente utilizados,

como exemplo um sistema de acesso a saldos bancários por telefone. Nesse caso o

vocabulário seria composto por algumas frases introdutórias, como “Bom dia”, “Digite

33

sua senha”, “Obrigado”, etc., bem como por um conjunto de palavras a partir das

quais seriam formados os valores dos saldos (“um”, “dois”, “vinte”, “milhões”,

“centavos”, etc.). Muito embora o resultado da leitura seja artificial, pois a

concatenação das mensagens é feita sem alteração prosódica, o resultado da

síntese é perfeitamente aceitável. Para sistemas mais complexos e com

vocabulários maiores, no entanto, a estratégia acima descrita se torna inviável. [12]

Os sistemas de conversão texto-fala são capazes de gerar fala sintetizada a

partir de uma mensagem escrita. A utilização desse tipo de sistema é extremamente

abrangente pois, em princípio, qualquer tipo de mensagem pode ser representada

através de texto e, portanto qualquer tipo de mensagem pode ser sintetizada. Além

disso, o custo de armazenamento do sistema é infinitamente menor: um segundo de

fala armazenada em formato textual requer aproximadamente 75 bits, em oposição

aos cerca de 1000 bits necessários para armazenar fala parametrizada, ou aos

50000 bits utilizados para guardar a forma de onda digitalizada. Alguns sistemas de

conversão texto-fala utilizam-se de segmentos de fala pré-gravados menores do que

palavras como base para a geração do sinal de fala sintética. No entanto o número

de segmentos que compõem essa base não é grande, e o tamanho de cada

segmento é reduzido, o que faz com que o custo de armazenamento da base não

seja crítico. [12]

Por isso, neste trabalho foi utilizado o processo acima descrito, no qual tem-se

uma base de dados de segmentos pré-gravados que servirão de base para a

reprodução da voz através da análise textual. Apesar de que existem outros

métodos melhores para a qualidade da fala sintética, optou-se por este pela

simplicidade e qualidade sonora, visto que é utilizado um microcontrolador ao invés

de um microcomputador, que tem mais recursos de processamento e

armazenamento.

Um dos aspectos mais importantes na síntese concatenativa é encontrar o

correto tamanho de medida dos segmentos. A seleção é comumente um intercâmbio

entre segmentos longos e curtos. Quanto maior o segmento maior a naturalidade,

menos pontos de concatenação e bons controles de co-articulação são alcançados,

mais a memória é utilizada. Com segmentos menores, menor a capacidade de

memória necessária, mas os procedimentos de análise e amostras tornam-se mais

difíceis e complexos. Nos sistemas presentes os segmentos são normalmente

palavras, sílabas, semi-sílabas, fonemas, ditongos, tritongos, encontros

consonantais, tudo que foi visto no estudo da linguagem.

34

7. ESTUDO DO HARDWARE

Com o avanço da tecnologia e a utilização da eletrônica digital por grande parte

das empresas, o emprego de microcontroladores vêm sendo muito requisitado para

um melhor desenvolvimento da produção, diminuindo os custos e trazendo

benefícios para as empresas que utilizam esse sistema. É importante salientar que,

considerando a relação custo/benefício, os microcontroladores podem não só ser

usados em empresas de médio/grande porte, como podem também ser utilizados

em vários projetos de eletrônica, na substituição de vários componentes digitais,

obtendo-se assim no final do projeto um melhor acabamento – pois um

microcontrolador ocupa um menor espaço físico - e uma maior eficiência e

praticidade, uma vez que todos os comandos seriam executados via software. [7]

7.2. Especificação do Hardware

O sistema é composto de um microcontrolador 8031/8051/8951, teclado alfa-

numérico, display LCD, e um hardware para emulação do som.

O projeto do hardware constitui-se basicamente de cinco estágios: aquisição do

sinal do teclado, armazenamento da informação na memória e amostragem da

informação, interpretação da saída da memória e leitura dos fonemas armazenados

na memória flash, tratamento do sinal através da conversão digital-analógico para

geração de sinais sonoros referentes à informação digitada, filtro anti-imagem e

amplificação e saída sonora. Pode-se ver o esquemático do sistema através da

figura 7.

Figura 7 - Diagrama em Blocos das etapas do sistema

35

A aquisição do sinal é a etapa correspondente a detecção e interpretação das

teclas digitadas no teclado portátil via interrupção no sistema e análise dos 4 bits

codificados recebidos pela porta de comunicação do microcontrolador P1.

O armazenamento em memória constitui-se da gravação dos caracteres

digitados em memória interna (gravação temporária) ou em memória externa Flash

(permanente), pertencente ao módulo do sistema mínimo. Esta etapa é feita em

conjunto com a amostragem no Display, a medida que o usuário escreve no teclado,

a informação é gravada em memória e disponibilizada no display. Para elaboração

deste projeto foi utilizada a memória interna do microcontrolador.

A amostragem no Display tem o objetivo de informar o indivíduo visualmente

dos caracteres que ele está digitando e possibilitá-lo efetuar a correção dos mesmos

durante a escrita. O display possui uma memória interna possibilitando o envio do

próximo caractere ao invés de toda a string.

Foi necessário o estudo dos fonemas vocábulos e da composição das sílabas

a fim de simular a voz humana na emulação dos sons digitados. A partir disso houve

a necessidade da gravação dos segmentos em uma memória permanente tipo

Flash. Nesta etapa os segmentos inicialmente foram gravados em arquivos no

computador no formato wav em baixa resolução e freqüência, 22KHz, 8 bits mono.

Porém posteriormente verificou-se a possibilidade da utilização do CI ISD25XX da

Winbond, onde o XX representa o tempo de gravação sonora em segundos, pode

ser encontrado com 60/75/90/120 (utilizado CI ISD2590).

A etapa correspondente à interpretação e leitura dos fonemas constitui-se da

detecção de fonemas através de combinações existentes entre os caracteres

gravados em memória interna ou Flash e a localização da posição dessas sílabas

gravadas foneticamente na memória externa onde foram gravados os segmentos

fonéticos, possibilitando acesso a essa posição e a disponibilização desses dados

para a etapa de amplificação.

A etapa de filtro anti-imagem corresponde no processo pelo qual são filtrados

ruídos não pertencentes ao sinal, gerados no processo de conversão. Essa etapa foi

simplificada após escolha pelo CI ISD2590, pois este já possui filtro interno.

A etapa da conversão digital/analógico tem como objetivo converter a

informação sonora relativa ao vocábulo silábico digital para sinal analógico, para que

esse possa ser amplificado e disponibilizados no alto-falante do sistema.

36

As etapas de amplificação e saída sonora efetivamente irão tratar o sinal para

que este possa ser ouvido como um vocábulo reconhecido ao da sílaba digitada.

A representação do sistema completo pode ser observada na figura 8, abaixo:

Figura 8 - Representação Gráfica do Sistema

Como sistema de entrada tem-se o teclado alfa-numérico portátil e saída o

display LCD para visualização do texto e do som através das etapas de

endereçamento da memória Flash, conversão digital analógico, filtro, amplificação

do sinal e saída sonora através do speaker. Nesse processo o responsável pelo

controle de todas as etapas é o circuito mínimo do microcontrolador.

7.2. Microcontrolador 8031

O Intel 8051 é um microcontrolador clássico, e é um verdadeiro

microcomputador contendo E/S paralela, contadores / temporizadores, E/S serial,

RAM, e EPROM ou ROM (dependendo do tipo). A família 8051 é composta por

vários membros (a Intel se refere como a família MCS-51), cada um adaptado para

um tipo específico de sistema.

O 8031 é destinado para aplicações expandidas e usa memória externa. O

8031 usa três das quatro portas paralelas do chip para fazer o endereçamento

convencional e um barramento de dados com linhas apropriadas de controle.

Desde que o 8031 ainda contenha RAM, uma porta paralela, e uma porta serial

- até mesmo quando funciona como uma CPU principal de um circuito expandido - o

37

número de chips eventuais necessários para expandir o E/S ou memória é ainda

consideravelmente pequeno.

O 8031 não tem o programa armazenado no próprio chip. O sistema incluirá

uma EPROM externa e um “latch” de endereço, como visto na figura 9.

Considerando a queda de preço das EPROMs e o pesado custo do uso de ambos

os 8051s ou 8751s em pouca quantidade, o 8031 é uma alternativa viável apesar

dos chips adicionais. Para muitos sistemas pequenos, a combinação 8031/EPROM

é muito melhor em custo/benefício do que um 8051.

Figura 9 - Circuito Mínimo do 8031

Além do microprocessador, um sistema básico como este tem os seguintes

elementos:

Interrupções: são entradas a partir de um sinal externo que fazem com que o

processamento seja interrompido e seja iniciada uma sub-rotina específica. (Obs.: o

8051 tem interrupções com estrutura nesting, onde uma interrupção pode

interromper outra que está sendo atendida, desde que tenha maior prioridade).

Gerador de Reset: responsável por inicializar o sistema ao ligar ou quando

acionado.

Gerador de Clock: gera os pulsos necessários ao sincronismo do sistema.

38

Memória de Programa: memória onde o microprocessador vai procurar as

instruções a executar. Em sistemas dedicados costuma-se utilizar memórias ROM,

embora em alguns casos memórias RAM também sejam utilizadas.

Memória de Dados: memória onde o microprocessador lê e escreve dados durante

a operação normal. Geralmente é do tipo volátil, embora memórias não-voláteis

possam ser utilizadas.

Seleção de Endereços: lógica para escolher qual memória ou periférico o

microprocessador vai utilizar.

Portas de E/S: sua função é a comunicação com o mundo externo. Através delas

dispositivos como teclados, impressoras, displays, entre outros, comunicam-se com

o sistema.

39

7.3. Placa do Circuito Mínimo com o Microcontrolador 8031

Na placa do circuito Mínimo utilizado no desenvolvimento do projeto é possível

endereçar 32K posições de memória, visto que são utilizadas memórias RAM

(62256) e EPROM (27C256) que possuem organização de 32K endereços X 8 bits.

É possível também endereçar um hardware externo utilizando a expansão de

16 bits, neste caso, pode-se desabilitar a memória RAM da placa utilizando

endereços acima de 7FFFh, pois a partir desse endereço o bit A15 ficará em 1

levando o pino /CE da memória RAM para estado de desabilitação do chip.

Há o barramento de dados de expansão de 8 bits para troca de informações

com hardwares externos, utilizado por endereçamento.

Também há uma porta de E/S disponível (porta P1) que pode ser acessada a

qualquer momento sem necessitar de endereçamento.

Contudo, a placa ainda dispõe de entradas externas para os timers (Timer 0 e

Timer 1), entradas externas de interrupção (/INT0 e /INT1), pinos de RX e TX para

comunicação serial e pinos de /RD e /WR informando que operação está sendo

executada pelo microcontrolador (se escrita ou leitura na memória externa).

A placa ainda possui uma saída para alimentação de circuitos externos. Vale

lembrar que para a adição de outros circuitos externos que irão consumir corrente da

placa, o CI 7805 será mais exigido e poderá esquentar, então é necessária a fixação

de um dissipador de calor em sua carcaça.

Um cristal oscilador de 11,059MHz deve ser utilizado para que, quando for

utilizar o 8031 para comunicação serial, seja possível utilizar taxas de baud rate

entre 1200 e 19200 bits/s. Se for utilizado um cristal de 12MHz, a taxa de

transmissão possível será de 1200 ou, no máximo, 2400 bits/s. [6]

Neste projeto foi utilizado o sistema mínimo do 8031, porém para minimizar o

tamanho do sistema e reduzir o custo do projeto é recomendada a utilização do CI

8951, que tem a mesma função, porém não necessita de EPROM externa já que o

programa pode ficar armazenado dentro do CI, lembrando que como o CI é da

mesma família nenhuma alteração do programa é necessária.

Pode-se visualizar na figura 10 o esquemático do circuito mínimo.

40

Figura 10 – Esquemático do Circuito Mínimo do 8031

41

7.4. Interação com o teclado

Nesse projeto foram estudadas três alternativas de teclado, entre elas

podemos citar o teclado de matriz, interface serial, porém pela dificuldade de

encontrar no mercado um teclado que se adaptassem as funcionalidades exigidas e

de tamanho reduzido a um baixo custo, resolveu-se desenvolver um teclado

utilizando lógica combinacional a um baixo custo com 14 teclas de acesso.

Porém vale estudar as alternativas e mostrar as vantagens/desvantagens de

cada sistema de teclado.

• 7.4.1 Teclado Matricial

O teclado de matriz consiste em uma matriz de botões, neste caso as 16 teclas

estão dispostos sobre quatro filas e quatro colunas, conformando uma estrutura

matricial. Clicar uma destas teclas supõe a conexão elétrica entre uma fila e uma

coluna. Normalmente, todas as filas estão isoladas eletricamente das colunas e o

fato de clicar as teclas origina a conexão entre filas e colunas.

Na figura 11 abaixo verifica-se o esquemático do funcionamento do sistema.

Figura 11 - Teclado de Matriz

42

Este sistema não foi utilizado porque aumentaria a complexidade do sistema, já

que deveria ser conectado a 8 portas do microcontrolador para análise da tecla

digitada. Porém, para uso comercial seu uso se torna recomendável, pois utiliza uma

pequena dimensão de espaço e baixo consumo de energia. Porém seria necessário

a construção do sistema, pois o único tipo de teclado matricial encontrado

comercialmente é o teclado numérico.

• 7.4.2 Teclado Via Interface PS2 Serial

Para aquisição do sinal foi estudado a utilização de um teclado alfa-numérico portátil

que converte cada tecla digitada em código ASCII para que possa ser interpretado

pelo microcontrolador, como os usados em PC, porém portátil. Para isso é

necessário efetuar as ligações do teclado no sistema conforme figura 12. Para

estudo foi utilizando um teclado AT padrão IBM, conector Ps 2 macho.

O pino 3 é ligado na interface serial RX do microcontrolador os pinos 2 e 5 no

VCC e Terra respectivamente e o pino 1 no clock do microcontrolador.

Caso se utilize um conector Pin Din 5, os pinos 4 e 5 deverão ser ligados no

Terra e no VCC respectivamente, o pino 2 na interface serial RX e o pino 1 no clock

do microcontrolador.

Pin Descrição Pin Descrição

1 KBD Clock

1

KBD Clock

2 KBD Data 2 GND

3 N/C 3 KBD Data

4 GND 4 N/C

5 +5V (VCC) 5 +5V (VCC)

6 NC

Figura 12 - Descrição da Pinagem do Teclado

O teclado IBM envia códigos que são interpretados pelo PC, são chamados de

“scan codes”. Normalmente os “scan codes” dizem a BIOS do teclado quais teclas

43

foram pressionadas para 3 eventos, quando a tecla é clicada, quando mantém-se

pressionada e quando é libertada. Neste caso apenas o primeiro caso irá importar,

por exemplo a tecla “A” quando pressionada corresponde a 1C (hex) e esse sinal

correspondente a 1C é transmitido para o PC ou microcontrolador pela linha serial.

Pode-se visualizar os códigos hexadecimais gerados pelos “scan codes”,

mostrados na figura 13.

Figura 13 - Scan Codes do teclado AT [21]

O teclado se comunica através do canal serial com o microcontrolador a uma

taxa de 9600 bps, enviando 1 start-bit, 8 bits de dados e logo em seguida um stop-

bit, nas bordas de subida do sinal de clock, conforme pode-se ver na figura 14.

Ao pressionar de uma tecla, o teclado deverá gerar uma interrupção no

microcontrolador e enviar os dados dos scan codes através da interface serial do

microcontrolador.

Figura 14 - Modo de Comunicação Serial do Teclado [21]

Comercialmente, pode ser utilizado um teclado de contato, utilizando o envio

do sinal por modo serial. O que significa a diminuição das dimensões do teclado.

44

Após efetuar o estudo deste sistema, pode-se observar que os teclados

padrão IBM portáteis usados em Palm Top são muito caros, o que excluiu a

possibilidade da utilização deste sistema.

7.4.3 Teclado Matriz Combinacional

Em decorrência da dificuldade de se encontrar um teclado que se adequasse

às condições requeridas como: tamanho reduzido, baixo custo e simplicidade de

implementação, optou-se por desenvolver um teclado usando lógica combinacional,

para isso baseou-se na tabela 5 e tabela 6 abaixo:

D0 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 P4 P3 P2 P1 D0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 D1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 D2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 D3 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 D4 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 1 D5 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 D6 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 1 D7 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 D8 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 D9 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 D10 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 1 D11 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 D12 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 1 D13 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0

Tabela 5 - Codificação do Teclado

D0 A B C 0 D2 D E F 1 D4 G H I 2 D6 J K L 3 D8 M N O 4 D1 P Q R 5 D3 S T U 6 D5 V X W 7 D7 Y Z 8 9 D9 ENTER D10 ESPAÇO D11 <= D13 => D12 EMERGÊNCIA

Tabela 6 - Mapa Teclado

P1 = NOT (D0 + D2 + D4 + D6 + D8 + D10 + D12) P2 = NOT (D1 + D2 + D5 + D6 + D9 + D10 + D13) P3 = NOT (D3 + D4 + D5 + D6 + D11 + D12 + D13) P4 = NOT (D7 + D8 + D9 + D10 + D11 + D12 + D13) Int = P1 . P2 . P3 . P4

45

Através da fórmula descrita acima obtém-se 4 bits de dados que conectados a

porta P1 do microcontrolador, descrevem a tecla apertada pela interpretação do

conjunto de bits. Esses bits quando habilitados tem de estar com nível lógico 0.

Sendo que o bit representado pela variable Int é conectado a interrupção 0 do

microcontrolador, atendendo a rotina de verificação da tecla (leitura dos 4 bits da

porta P1), quando Int tem sinal nível lógico 0.

Abaixo, na figura 15 temos a lógica de controle equivalente ao circuito combinacional.

1

Teclado 16 teclas / 4 bits

B

1 1Tuesday, October 12, 2004

Title

Size Document Number Rev

Date: Sheet of

VCC

VCC

U5A

74LS08

1

23

U5B

74LS08

4

56

U5C

74LS08

910

8

U1A

74LS32

1

23

U1B

74LS32

4

56

U1C

74LS32

9

108

U1D

74LS32

12

1311

U2A

74LS32

1

23

U3A

74LS260

123

1213

5

U3B

74LS260

489

1011

6

U4A

74LS260

123

1213

5

U4B

74LS260

489

1011

6

J 3

CON5

12345

J7

GND

1

J8

VCC

1

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

100 Ohms

A B C 0

D E F 1

G H I 2

J K L 3

M N O 4

P Q R 5

S T U 6

V X W 7

Y Z 8 9

ENTER

ESPAÇO

<=

=>

CANCELAR

D3

D2

D1

D0

D4

D5

D6

D7

D8

D9

D10

D11

D12

D13

P3

D6

D8

D10

D12

D10

D13

D5

D6

D11

D12

D0D2D4

D6+D8D10+D12

D1D2D9

D10+D13D5+D6

D5+D6D11+D12

D3D4D13

D10+D13D11+D12

D7D8D9

P0

P1

P2

P3

INT 0

Figura 15 - Teclado Lógica Combinatória

46

7.5. Display LCD

Os módulos LCD são interfaces de saída muito úteis em sistemas

microprocessados. Estes módulos podem ser gráficos e a caracter. Os módulos LCD

gráficos são encontrados com resoluções de 122x32, 128x64, 240x64 e 240x128 dot

pixel, e geralmente estão disponíveis com 20 pinos para conexão. Os LCD comuns

(tipo caracter) são especificados em números de linhas por colunas.

Os módulos podem ser encontrados com LED backlight (iluminação de fundo)

para facilitar as leituras durante a noite. Neste caso, a alimentação deste LED faz-se

normalmente pelos pinos 15 e 16 para os módulos comuns e 19 e 20 para os

módulos gráficos, sendo os pinos 15 e 19 para ligação ao anodo e os pinos 16 e 20

para o catodo. A corrente de alimentação deste led varia de 100 a 200mA,

dependendo do modelo.

Estes módulos utilizam um controlador próprio, permitindo sua interligação

com outras placas através de seus pinos, onde deve ser alimentado o módulo e

interligado o barramento de dados e controle do módulo com a placa do usuário.

Naturalmente que além de alimentar e conectar os pinos do módulo com a placa do

usuário deverá haver um protocolo de comunicação entre as partes, que envolve o

envio de bytes de instruções e bytes de dados pelo sistema do usuário. [8]

A tabela 6 descreve cada pino do módulo ou do display digital para conexão

deste as outras placas:

Pino Função

Descrição

Pino Função

Descrição

Pino Função Descrição

1 Alimentação Terra ou GND

2 Alimentação VCC ou +5V

3 V0 Tensão para ajuste de contraste

4 RS Seleção: 1- Dado, 0 - Instrução

5 R/W Seleção: 1- Leitura, 0 – Escrita

6 E Chip Select 1 ou (1->0) – Habilita,

0 – Desabilitado

7 B0 LSB

8 B1

9 B2

Barramento

47

10 B3

11 B4

12 B5

13 B6

14 B7 MSB

De

Dados

15 A (quando existir) Anodo p/ LED backlight

16 K (quando existir) Catodo p/ LED backlight

Tabela 6 - Pinagem dos Módulos LCD

O módulos LCD é utilizado para a visualização dos caracteres digitados pelo

usuários, permitindo a este a visualização e correção das informações digitadas. A

figura 16 mostra a conexão do módulo LCD ao sistema montado até o momento.

Pode-se visualizar que os pinos de endereçamento A0 e A1 estão conectados aos

pinos 4 e 5, dessa forma existem 4 endereços distintos para a comunicação com o

microcontrolador, que podem ser visualizados através da tabela7.

ENDEREÇO R/W RS DESCRIÇÃO

4000h 0 0 Instrução – escrita no módulo

4001h 0 1 Dados – escrita no módulo

4002h 1 0 Instrução –leitura do módulo

4003h 1 1 Dados – leitura no módulo

Tabela 7 - Descrição dos endereços de ac 1

48

Figura 16 - Sistema LCD em conexão com o 8051

49

7.6. Memória Externa

Para a gravação dos conjuntos de fonemas, foi necessário utilizar uma

memória de alta capacidade. Para isso foram estudadas algumas memórias,

inicialmente o projeto foi baseado na utilização da memória Flash para gravação em

binário dos segmentos de som endereçáveis. Para isso foi necessário gravar em um

PC todos os segmentos de som em arquivos tipo Wav com baixa resolução e

tamanho de no máximo 5Kb. Estudou-se o protocolo Wav e com base foi

desenvolvido um software em linguagem C para fazer a “limpeza” do protocolo Wav

e deixá-lo somente a parte binária.

Após a gravação dos sons na memória Flash e se ter conhecimento do início e

fim de cada segmento, desenvolveu-se um programa em Assembler que analisa o

texto, reconhece os segmentos e faz o endereçamento desde a posição inicial à

final, byte a byte, para saída de dados da memória Flash. Esta saída digital tinha

que ser decodificada em analógica, filtrada e amplificada para saída por um speaker.

Para isso foi desenvolvido um hardware com memória Flash, decodificação

digital-analógica utilizando o DAC 0808 como mostra figura 17.

Figura 17 – Descrição do DAC 0808

Após analisar alternativas verificou-se a existência do CI da Winbond Eletronics

Corporation América (WECA) ISD25XX onde o XX representa o tempo de gravação

total do CI em segundos, comercialmente encontrado com 60/75/90/120 segundos.

50

Este CI possui características interessantes como armazenamento de sons,

endereçamentos individuais, no qual só é necessário o endereçamento da posição

inicial e ativação de 1 bit para ativação de saída sonora já que o término do

segmento é conhecido pelo CI, possui modo de baixo consumo, gravação do som no

próprio CI, decodificação e filtro anti-aliasing conforme mostra o diagrama em blocos

da linha ISD2560/75/90/120 conforme figura 18 e pinagem conforme figura 19.

Figura 18 - Diagrama em Blocos ISD25XX

Figura 19 - Pinagem do ISD25XX

A opção deste CI proporcionou um custo mais elevado do que o outro sistema

porém optou-se por esse sistema já que a prioridade deste projeto é o tamanho

51

reduzido e baixo consumo. Sendo assim os sons referentes aos segmentos silábicos

foram gravados na memória ISD2590.

O módulo do ISD25XX pode ser visualizado na figura 20. Tem características

de alta qualidade de gravação sonora, design simples e tempo de duração de

armazenamento do CI sem alimentação (mais de 100 anos).

Possui também gravação de mensagens endereçáveis, looping de mensagem,

gravação consecutiva com método de separação de mensagens, gravação

consecutiva com método de link, entre outros.

Figura 20 - Módulo ISD25XX

O layout da placa pode deste esquemático pode ser visualizado através da

figura 21.

52

Figura 21 - Layout Placa do Módulo ISD 25XX

O modo de operação básico do módulo é o modo de endereçamento individual

que permite gravação e reprodução de muitos sinais de áudio independentes em no

máximo de duração total e banda de freqüência dependendo o valor do CI onde: (i)

60s e 0,15/3,4 Khz para ISD2560, (ii) 90s e 0,15/2,3Khz para ISD2590, ou (iii) 120s

e 0,15/1,7 Khz para ISD25120 em células sucessivas de armazenamento em

memória, dividida em 600 linhas endereçáveis. Isto significa que um máximo de 600

mensagens independentes podem ser gravadas, cada um com tempo de duração

0,1s / 0,125s / 0,15s / 0,2s, respectivamente. O número atual de mensagens e as

suas durações dependem da seleção de endereço nos espaços de memória. O

endereçamento é feito com uma codificação binária de 10 endereços de entrada A0

– A9 conforme tabela 7 abaixo.

53

Tabela 7 - Mapa de Memória

No projeto os endereços de memória foram repartidos em 120 pedaços de 5

posições com 0,15s cada obtém-se 0,75s de tempo de gravação por segmento e

para mensagens longas como a de introdução do sistema ou qualquer frase pelo

menos 10 posições com 1,5s.

A vantagem do uso desse módulo usando o CI ISD25XX possibilita a

regravação de mensagens e gravação de palavras ou frases mais usadas pelo

usuário a qualquer momento, bastando apenas o endereçamento dessas e a

vinculação no programa.

7.7. Amplificação do Sinal

O sistema não possui capacidade de reprodução em alta potência portanto foi

necessário o desenvolvimento de um sistema de amplificação de áudio. Para isso

foram estudados 2 amplificadores, o amplificador Operacional 741 e o LM 386.

Sendo que desses o segundo tornou-se mais atrativo por não necessitar de uma

tensão negativa na alimentação (usado o CI PT5022A da National Instruments)

54

como o 741 e por seu baixo consumo de energia, porém vale estudar as duas

alternativas.

Para esse primeiro caso foi utilizado um circuito formado por um amplificador

operacional não inversor conforme figura 22, pois este permite um ganho no sinal de

acordo com R1 e R2 conforme a fórmula de ganho:

A equação acima comprova a controlabilidade do ganho em malha fechada

através do circuito de realimentação negativa.

Figura 22 - Esquemático do Amplificador Operacional Não-Inversor

Para a utilização deste circuito o resistor R1 será mantido em 1KΩ, ou

qualquer outro resistor e R2 será variável, contanto que para ter um ganho no sinal é

preciso fazer com que R2 seja maior do que R1, caso seja igual o ganho será de 2x.

Baseado nisso pode-se utilizar um resistor variável para ter um controle ajustável do

ganho e do volume na saída saturando em 5V.

Pode-se visualizar a elaboração deste primeiro circuito de amplificação

observando a figura 23, onde VIN é a tensão de entrada, correspondente à saída da

decodificação digital/analógica.

VCC 4,5V

+

-

U14

UA741

3

26

7 14 5

RV1

10KOhm

R11

RF

R12

RX

Saída Sonora

12

Vo

-4,5V

VIN

Figura 23 - Circuito de Amplificação usando 741

55

O circuito integrado LM386 permite a construção de pequenos amplificadores

de saída de áudio, com potência na faixa de 0,25 a 0,5 W, para os mais diversos

fins. Sua tensão de alimentação pode variar de 6V à 12V e drena apenas 24

miliwatts quando opera com alimentação de 6V.

O ganho interno do LM386 pode variar entre 20 à 200 vezes a tensão de

entrada.

Verifica-se que o CI ISD25XX tem saída em speaker 16 Ohms, para utilização

de speaker de 8 Ohms é necessário a utilização de um circuito. O circuito da figura

24 foi desenvolvido para saída com speaker de 8 Ohm utilizando amplificador LM386

com ganho variável de acordo com a variação de R3.

Figura 24 - Amplificador LM386 com Speaker 8 Ohm

7.8. Integração do Sistema

Como resultado final do projeto é possível verificar a integração do sistema

através do esquemático da figura 25. Nela pode-se verificar a interconexão de todos

os módulos para a produção da saída sintetizada correspondente ao sinal sonoro da

voz convertido após análise textual do texto digitado pelo usuário.

Próximo ao CI 8031 verifica-se um conjunto de conectores de 5 pinos ligados

aos 4 primeiros pinos da porta P1 do microcontrolador e um pino ligado a porta Int0.

Estes pinos correspondem aos 4 pinos de dados e o pino de interrupção do teclado

portátil, respectivamente.

56

Os dados digitados pelo teclado ficam armazenados na memória interna do

microcontrolador. Quando o usuário pressiona a tecla Enter o microcontrolador

verifica os dados em memória (digitados pelo usuário) e compara-os com a tabela

de fragmentos. Se a segmentação do texto corresponder aos fragmentos gravados

em memória, o microcontrolador endereça 4000h no barramento de saída que ativa

o latch 74HC573 para gravação dos dados do barramento de dados que são

correspondentes a posição dos fragmentos reconhecidos na memódia ISD25XX e

seta os pinos p1.4 e p1.5 que correspondem aos pinos de ativação da reprodução

sonora e ativação da reprodução do endereço setado.

Os dois bits mais significativos do ISD25XX são ligados aos pinos p1.6 e p1.7

mas poderiam ser conectados a outro 74HC573 ligado a outro endereçamento.

57

<Doc> 1

Sistema de Emulação de Voz Utilizando Micro Controlador 8031

C

1 1Sunday, November 07, 2004

Title

Size Document Number Rev

Date: Sheet o f

VCC_BAR

VCC_BAR

VCC_BAR

VCC_BAR

VCC_BAR

VCC_BAR

100nF

10uF 63V

10KOhm

J2

Display LCD

21

345

6

89

101112

7

1314

V C CGND

VOR/WRS

E N A

D6D5D4D3D2

D7

D1D0

J3

CON5

12345

Saída Sonora

1

2

U12

27C256

1 09876543

2 52 42 12 3

22 62 7

2 02 2

1

1112131516171819

A0A1

A2A3A4A5A6A7A8A9A10A11A12A13A14

CEOEVPP

O 0O 1

O 2O 3O 4O 5O 6O 7

U5

74LS373

3478

13141718

111

256912151619

D0D1

D2D3D4D5D6D7

OCG

Q0Q1

Q2Q3Q4Q5Q6Q7

Y 2

11Mhz

SW1

33pF

U8

74HC573

111

20

1918171615141312

23456789

OELE

VCC

1Q2Q3Q4Q5Q6Q7Q8Q

1D2D3D4D5D6D7D8D

U9D

74LS00

12

1311

33pF

U10A

74LS139

23

1

4567

AB

G

Y0Y1Y2Y3

U9A

74LS00

1

23

U4

80C31

31

19

18

9

12131415

12345678

3 93 83 73 63 53 43 33 2

2 12 22 32 42 52 62 72 8

1 71 62 93 01 11 0

40

2 0

EA/VP

X1

X2

RESET

INT0INT1T0T1

P1.0P1.1P1.2P1.3P1.4P1.5P1.6P1.7

P0.0P0.1

P0.2P0.3P0.4P0.5P0.6P0.7

P2.0P2.1P2.2P2.3P2.4P2.5P2.6P2.7

RDWR

PSENALE/P

TXDRXD

VCC

VSS

U9B

74LS00

4

56

U9C

74LS00

9

108

PLAYBACK

21

3

POWER DOWN

21

3

U7

ISD2560/75/90/120

8765

27

1 21 3

26

910

24

4321

1 62 8

1 4

2522

23

1 5

2 0

2 1

1 8

1 71 9

A7A6A5A4

P/R

VSSDVSSA

XCLK

A8A9

PD

A3A2A1A0

VCCAVCCD

SP+

#EOM#OVF

#CE

SP-

ANAIN

ANAOUT

MICREF

MICAGC

47KOhm47KOhm 47KOhm

SW2

SW DIP-10

1 2 3 4 5 6 7 8 9

20 19 18 17 16 15 14 13 12 11

10

J 4

CON3

123

SW1

1KOhm

10KOhm

10KOhm470KOhm

5,1 KOhm

220 uF

220 uF

100nF

100nF

220nF

100nF

J 6

CON1

1

MK1

Electret MIC

12

+

-

U11

LM386

3

25

6 1

4 8

7500 KOhm

500 KOhm

0,1 uF

0,1 uF

RV1100 kOhm

0,1uF

220 uF

0,047 uF

10 Ohm

A 9

A12

D5A 5

Barramento de Endereço [A0..A15]

D0

A 4

D2

D 5

A 0

A11

A 8

D2

Barramento de Dados [D0..D7]

A10

D3

D6A 7

D 4

A15

A13

A2A 3

A13

D 3

D7

A 1

D7

D 0

D 5

D 7

A 6

D3

D 2

A10

A11

D1

D 4

A 2

A 1

A4

A12

D 2

A 0

A7

A15

A 9

D 1

A6

A3

D5

D0

D4RESET

A14

D4

D 7

D 6

D 1A0D 0

D 3

EPROM

D6

A 8

A14

D1

D 6

A1

A5

A14

D3D4

D1D0

D2

#WR

D6D7

D5

A14

A 0A 1

D1D2

D4

D7

D5

D0

D3

D6

D 6

D 0

D 7

D 4D 3D 2

D 5

D 1

ACTIVE

RECORD

Sinal de

uma fonteexterna

P1.7P1.6

P1.7P1.6

P1.5P1.4

Interação com Teclado

Figura 25 - Esquemático da Integração do Sistema

58

8. ESPECIFICAÇÃO DO SOFTWARE

A linguagem de software que é utilizada é assembler do 8031/8051/8951, a

qual interage com o sistema, sendo responsável pela disponibilização ou não dos

dados em barramento, saída e aquisição de sinais, atendimento às interrupções,

entre outros.

É necessário a interação do sistema em tempo real, ou seja, a medida que o

usuário efetuar a digitação dos dados, tais informações devem estar armazenadas

em memória e quando o usuário pressiona a tecla emular, o sistema deve efetuar a

emulação sonora pausadamente para interpretação do som. Pode-se visualizar com

mais facilidade o sistema, observando-se o fluxograma abaixo.

Na 1a. etapa através do preenchimento de 3 posições de memória é possível

saber se o usuário preencheu os itens de nome, telefone emergencial e endereço,

só então liberando o sistema para a 2a. etapa (emulação sonora) que constituirá de

um loop aguardando a digitação da tecla Enter. A interrupção do teclado irá acionar

a leitura dos bits do teclado e gravar informações na memória para decodificação

desta incrementando sua posição a cada chamada de interrupção.

Inicio

sim

Consta em memória o nome do usuário?

não

sim

Consta em memória o telefone do usuário ?

não

sim

Consta em memória o endereço

do usuário?

não

sim

1a. etapa

2a.etapa

Enter ? Não

Reprodução do Som / Limpa

Display

Digite Texto Cursor

piscando

sim

Reprodução de Mensagem de Voz para teste do

sistema

59

Pode-se verificar a funcionalidade do sistema através da análise do exemplo

abaixo, onde X indica a posição inicial de memória e o outro lado da igualdade

representa os caracteres digitados.

Memória[X] = O

Memória[X+1] = l

Memória[X+2] = a

Memória[X+3] =

Memória[X+n] = ...

Sendo n<=Tamanho Máximo da palavra

Abaixo o esquemático do algoritmo para emulação do som correspondente a

saída do sistema.

Procedimento Emular()

Se (Memória[X] != vazio) então

Var = null;

n = 0;

Enquanto (n < Tamanho Máximo da Palavra) faça

Var = Var + Ler(Memória[X+n]);

Se (Formar Fonema(Var) == true) então

Tocar(Var);

Var = null;

Fim Se

Limpar(Memória[X+n]);

n = n+1;

Fim Enquanto

Fim Se

Fim Procedimento

Para fins de teste foi desenvolvido um programa criado em C++ Builder 5.0 sob

plataforma Windows, conforme figura 26 para que seja possível analisar a saída

sonora do circuito que passa pelo conversor DAC e amplificação, conforme a

entrada sonora do teclado, digitado pelo usuário. Sendo que a saída deste através

da porta paralela do microcomputador.

60

Figura 26 - Sistema de Teste do 1º módulo

61

9. RESULTADOS E DISCUSSÃO

A princípio foi utilizado para testes um programa feito em Borland Builder 5.0,

plataforma Windows para simular o comportamento do sistema utilizando

simplesmente a fonética das letras e síntese concatenativa conforme fragmentos da

tabela 4. Percebeu-se que o primeiro caso tornava o som indecifrável e a segunda

técnica de boa qualidade.

Comprovado o funcionamento do sistema, os sons gravados no

microcomputador PC, em formato wav foram gravados em memória EPROM e Flash

para testes utilizando microcontrolador. Percebeu-se que o hardware se tornara

grande e o sistema complexo. Neste momento buscaram-se alternativas e percebeu-

se que poderia ser utilizado um CI próprio para gravação e reprodução que fosse

simples de endereçar e manusear, então se observou a existência do CI ISD25XX

da Winbond Eletronics Corporation América.

Verificou-se que o CI ISD25XX tornou o sistema mais compacto e mais

simples, embora tenha encarecido o preço do projeto, optou-se pelo tamanho

reduzido. O sistema se tornou simples, inutilizando todo o conjunto Memória Flash,

DAC e Filtro, inclusive possibilitando novas alternativas como permitir ao próprio

usuário uma nova gravação de conjunto de segmentos ou palavras o que não seria

possível no outro sistema.

62

10. REFERÊNCIAS BIBLIOGRÁFICAS [1] Agência de Informação Frei Tito para a América Latina, 2001

http://www.adital.org.br/asp2/noticia.asp?idioma=PT&noticia=2039

[2] CTBC Telecom, 2004

http://www.ctbctelecom.com.br/ctbc/home.nsf/byuniq/CCGC4PUGQS

[3] Speed, Provedor de Acesso DVI, 2004

http://www.speeds.com.br/conteudo/tecnologia/tecn_160102.shtml

[4] BARATA, A. L. K.; PROENÇA, M. C. G. Métodos e técnicas de aprendizagem

acadêmica utilizados com pessoas portadoras de deficiência auditiva: uma análise

teórica. Belém – Pará. UNAMA. 2001. Disponível em WWW em

http://www.cts.org.br/download/Historia.pdf

[5] A luva falante, Wired News, 28/01/2004

http://www.feneis.com.br/clipping/2002/luvafalante.htm

[6] Manual da Placa 8031, Edson Pedro Ferlin

[7] SABER ELETRÔNICA ESPECIAL Nº 2 /JANEIRO/2001

[8] Display LCD, 2004

http://www.ime.eb.br/~pinho/micro/apostila/lcdport.pdf

[9] Revista Científica Periódica - Telecomunicações - Volume 4 – Número 2 –

Dezembro de 2001, Francisco J. Fraga

[10] Mosser,Von. Introduction to Speech Synthesis. Disponível por WWW em

www.clark.net/pub/mhsmedia/physics/intro.html (27/01/2000).

[11] Richard Sproat. Multilingual Text-to-Speech Synthesis. Kluwer Academic

Publishers, United States of America, 1998

63

[12] Simões, Flávio Olmos - Implementação de um Sistema de Conversão Texto-

Fala para o Português do Brasil – 1999

[13] Sami Lemmetty. Review of Speech Synthesis Technology. Disponível por WWW

em www.acoustics.hut.fi/~slemmett/dippa/chap1.html (27/01/2000).

[14] Thierry Dutoit. An Introduction to Text-to-Speech Synthesis. Kluwer Academic

Publishers, Netherland, 1997.

[15] Ronald A. Cole, Joseph Mariani, Hans Uszkoreit, Annie Zaenen, Victor Zue,

Giovanni Varile e Antonio Zampolli. Survey of the State of the art in Human

Language Technology. Disponível por WWW em

http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html (27/01/2000)

[16] Filho, Paulo Eduardo Ostermann - Desenvolvimento de Regras de Pronúncia

para a Síntese de Voz em Língua Portuguesa. Disponível por WWW em

http://www.inf.ufrgs.br/pos/SemanaAcademica/Semana2000/PauloOstermann/

[17] Gramática da Língua Portuguesa. Disponível por WWW em

http://www.portugues.com.br/

[18] Gramática Descritiva, Manosso, Radames. Disponível por WWW em

http://www.radames.manosso.nom.br/gramatica/fonemas.htm

[19] Métodos Experimentais da Física, Unicamp - 2000

http://www.ifi.unicamp.br/~kleinke/f540/e_amp1.htm#obj

[20] Almeida, Napoleão Mendes de, Gramática Metódica da Língua Portuguesa, 34a.

Edição – São Paulo SP: Saraiva, 1986

[21] Interfacing the PC's Keyboard, Craig Peacock – 19/10/2001.

http://www.beyondlogic.org/keyboard/keybrd.htm

[22] Conversor Digital Analógico, Unicamp 2000

http://www.ifi.unicamp.br/~kleinke/f540/e_amp4.htm

64

[23] Pertence Júnior, Antonio – Amplificadores Operacionais e Filtros Ativos, 6ª.

Edição, São Paulo SP: Artmed Editora S.A. 2003

[24] Silva Júnior, Vidal Pereira da, 1963 – Aplicações Práticas do Microcontrolador

8051, 7a. Edição – São Paulo SP: Érica, 1998

[25] Nicolosi, Denys Emílio Campion, 1956 – Microcontrolador 8051 Detalhado – 2a.

Edição – São Paulo SP: Érica, 2000

[26] Teoria sobre sinais analógicos (senoidais) e digitais

http://paginas.terra.com.br/lazer/py4zbz/teoria/teoria.htm

[27] Interface Porta Paralela - RogerCom

http://www.rogercom.com

[28] Teoremas sobre DAC e ADC da Unicamp

http://www.ifi.unicamp.br/~kleinke/f540/e_amp4.htm#ADC%20DAC

[29] Fant, G.; Acoustic Theory of Speech Production; Mouton's Gravenhague, 1960.

[30] Kent, R.D., Read, C.; The Acoustic Analysis of Speech; Singular Publishing

Group, Inc., San Diego, 1992.