Mineração de Dados Aplicada ao Sistema Integrado de...

Laboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem Computacional

Mineração de Dados Aplicada ao Sistema Integrado deAdministração Financeira do Governo Federal – SIAFI:

Detecção de Anomalias na Emissão de Notas de Empenho

Eduardo Chaves Ferreira

Orientador: Renato Simões Silva, D.Sc.

Co-orientador: Augusto César Noronha Rodrigues Galeão, D.Sc.

Petrópolis, RJ - BrasilJunho de 2008

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

MINERAÇÃO DE DADOS APLICADA AO SISTEMA INTEGRADO DEADMINISTRAÇÃO FINANCEIRA DO GOVERNO FEDERAL – SIAFI: DETECÇÃO DE

ANOMALIAS NA EMISSÃO DE NOTAS DE EMPENHO


TESE SUBMETIDA AO CORPO DOCENTE DO LABORATÓRIO NACIONAL DECOMPUTAÇÃO CIENTÍFICA COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA AOBTENÇÃO DO GRAU DE DOUTOR EM MODELAGEM COMPUTACIONAL

Aprovada por:

_________________________________________________Prof. Renato Simões Silva, D.Sc. (Presidente)

_________________________________________________Prof. Augusto César Noronha Rodrigues Galeão, D.Sc.

_________________________________________________Prof. Antônio José da Silva Neto, Ph.D.

_________________________________________________Prof. Emmanuel Piseces Lopes Passos, D.Sc.

_________________________________________________Prof. Nelson Francisco Favilla Ebecken, D.Sc.

_________________________________________________Prof. Paulo César Marques Vieira, D.Sc.

PETRÓPOLIS, RJ – BRASIL, JUNHO DE 2008

PETRÓPOLIS, RJ – BRASILJUNHO DE 2008

III

Ferreira, Eduardo Chaves

F383m Mineração de dados aplicada ao sistema integrado de administração financeira do governofederal – SIAFI : detecção de anomalias na emissão de notas de empenho / Eduardo Chaves Ferreira-- Petrópolis, RJ. : Laboratório Nacional de Computação Científica, 2008.

XIX, 297 p.: il. ; 29,7 cm.

Orientadores : Augusto César Noronha Rodrigues Galeão ; Renato Simões Silva.

Tese (doutorado) – Laboratório Nacional de Computação Científica, 2008.

1. Orçamento – Brasil - Exploração de dados (computação) 2. Orçamento – Brasil – Métodosestatísticos 3. Redes neurais (Computação) 4. Detecção de Anomalias I. Galeão, Augusto CésarNoronha Rodrigues II. Silva, Renato Simões III. MCT/LNCC; IV.Título

CDD – 352.409 81

IV

Dedicatória

Aos meus pais, Elza e Anibal, pela dedicaçãodurante toda a minha vida e, principalmente, pela

importância que sempre deram a minha educação.

A minha esposa Bianca, pela compreensão eapoio, antes e durante a realização deste trabalho, sem

você não teria sido possível alcançar meu objetivo.

V

Agradecimentos

• Ao Instituto Militar de Engenharia, onde fiz minha graduação e por terposteriormente permitido a realização do meu doutorado;

• Ao Laboratório Nacional de Computação Científica, onde encontrei umambiente agradável e receptivo, com profissionais de excepcional qualidade.Agradeço aos professores e aos demais funcionários, todos sempre atenciosose prestativos;

• Ao Tribunal de Contas da União, por ter permitido a realização destetrabalho;

• Ao professor Renato, não só pela amizade e orientação, como também pelaliberdade que sempre me deu na escolha dos temas do trabalho;

• Ao professor Galeão, pela orientação e sugestões dadas em relação aotrabalho;

• Aos professores que participaram das bancas de avaliação, em particular aoprofessor Emmanuel, que já havia sido meu professor na graduação, pelainspiração e conselhos;

• Aos colegas do TCU, pelo apoio e incentivo durante a realização do trabalho.Em particular a Daniel Dias Pereira, pela orientação referente ao tema daTese, sem a qual este trabalho não teria sido possível;

• Aos colegas de doutorado, em particular ao amigo Anderson, pela ajudadurante a realização das cadeiras e pelos conselhos sobre o trabalho final.

VI

Resumo da Tese apresentada ao LNCC/MCT como parte dos requisitos necessários para aobtenção do grau de Doutor em Ciência (D.Sc.)

MINERAÇÃO DE DADOS APLICADA AO SISTEMA INTEGRADO DEADMINISTRAÇÃO FINANCEIRA DO GOVERNO FEDERAL – SIAFI: DETECÇÃO DE

ANOMALIAS NA EMISSÃO DE NOTAS DE EMPENHO


Junho, 2008

Orientador: Renato Simões Silva, D.Sc.

Co-orientador: Augusto César Noronha Rodrigues Galeão, D.Sc.

Esta Tese tem por objetivo propor um modelo para a detecção automática de indícios deirregularidades na execução da despesa pública, baseado em dados extraídos do SistemaIntegrado de Administração Financeira do Governo Federal - SIAFI. O modelo proposto foidesenvolvido para atuar como ferramenta auxiliar ao trabalho de fiscalização daAdministração Pública executado pelo Tribunal de Contas da União.

As análises realizadas pelo modelo baseiam-se em dois procedimentos complementares:sistema especialista e mineração de dados. A primeira alternativa permite criar um repositóriode regras de conhecimento, extraídas da legislação e da experiência de analistas do TCU. Amineração de dados busca de forma automática informações não triviais, que não possam serfacilmente explicitadas através das regras de conhecimento.

A principal contribuição do trabalho é a sistematização do procedimento de detecção,detalhando os componentes do modelo e a interação entre eles. Com o objetivo de validar omodelo proposto, é feita a implementação do componente de mineração de dados,caracterizado no trabalho por um modelo matemático de comportamento quanto à execuçãoda despesa e por algoritmos que, utilizando o modelo de comportamento, permitem detectarindícios de irregularidades. O componente de mineração de dados foi implementado com ouso de técnicas estatísticas, redes neurais e lógica nebulosa.

VII

Abstract of Thesis presented to LNCC/MCT as a partial fulfillment of the requirements forthe degree of Doctor of Science (D.Sc.)

Data Mining Applied to the Sistema Integrado de Administração Financeira do GovernoFederal – SIAFI: Auditing the Application of Federal Funds


June, 2008

Advisor: Renato Simões Silva, D.Sc.

Co-advisor: Augusto César Noronha Rodrigues Galeão, D.Sc.

In this work we propose a model to automatically detect irregularities in application offederal funds that may cause losses to the public treasury. The model uses data from theSistema Integrado de Administração Financeira do Governo Federal - SIAFI. This model wascreated to help the Brazilian Court of Audit (TCU) in auditing the application of federalfunds.

The model has two modules, one is an expert system that will have the rules take formthe legislation and from the experience of experts from TCU. The other module is a datamining module, that is composed by Behavior model and the detection part that uses Statisticstechniques, Neural Networks and Fuzzy Logic to detect possible irregularities.

VIII

SUMÁRIO

LISTA DE ILUSTRAÇÕES..........................................................................XIV

LISTA DE TABELAS.................................................................................. XVII

LISTA DE ABREVIATURAS E SIGLAS................................................XVIII

1 INTRODUÇÃO ............................................................................................. 1

1.1 MOTIVAÇÃO ..............................................................................................................11.2 OBJETIVOS DO TRABALHO....................................................................................31.3 DESCRIÇÃO E ESCOPO DO TRABALHO...............................................................41.4 CONTRIBUIÇÕES.......................................................................................................61.5 ORGANIZAÇÃO DA TESE ........................................................................................7

2 TRABALHOS RELACIONADOS .............................................................. 9

2.1 INTRODUÇÃO ............................................................................................................92.2 SISTEMAS DETECTORES DE INTRUSÃO ...........................................................102.3 CLASSIFICAÇÃO NÃO SUPERVISIONADA: DETECÇÃO DE ANOMALIASPOR PROCEDIMENTOS ESTATÍSTICOS........................................................................12

2.3.1 Clusterização para a Criação de Perfis.....................................................................142.4 CLASSIFICAÇÃO NÃO SUPERVISIONADA: SIMULAÇÃO DE CASOSANÔMALOS ........................................................................................................................152.5 FORMALIZAÇÃO DO CONHECIMENTO ATRAVÉS DE REGRASNEBULOSAS .......................................................................................................................162.6 COMBINAÇÃO DE PROCEDIMENTOS ESTATÍSTICOS E DE INTELIGÊNCIACOMPUTACIONAL ............................................................................................................172.7 PROCESSOS DE TRABALHO PARA A EXECUÇÃO DE MINERAÇÃO DEDADOS .................................................................................................................................182.8 EMPREGO PRÁTICO DE TÉCNICAS AUTOMÁTICAS PARA A DESCOBERTADE IRREGULARIDADES...................................................................................................19

3 DESCOBERTA DE CONHECIMENTO.................................................. 24

3.1 INTRODUÇÃO ..........................................................................................................243.2 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS..........................24

3.2.1 Definições: Data Warehouse, linguagem SQL e ferramentas OLAP/OLTP...........263.3 PRIMEIRA ETAPA DE KDD: PRÉ-PROCESSAMENTO.......................................28

3.3.1 Representação dos dados .........................................................................................283.3.2 Tipos de variáveis ....................................................................................................303.3.3 Seleção e redução dos dados....................................................................................313.3.4 Limpeza de dados ....................................................................................................333.3.5 Codificação ..............................................................................................................33

3.4 SEGUNDA ETAPA DE KDD: MINERAÇÃO DE DADOS ....................................343.4.1 Tarefas da etapa de Mineração de Dados ................................................................35

IX

3.4.1.1 Análise de Séries Temporais .............................................................................363.4.1.2 Classificação......................................................................................................363.4.1.3 Regressão ..........................................................................................................383.4.1.4 Importância de atributos e extração de características ......................................383.4.1.5 Detecção de anomalias ou desvios ....................................................................393.4.1.6 Segmentação ou clusterização...........................................................................403.4.1.7 Análise de associações ou dependências e padrões seqüenciais .......................423.4.1.8 Sumarização e análise exploratória ...................................................................42

3.4.2 Métodos e Técnicas de Mineração de Dados...........................................................433.4.3 Algoritmos ...............................................................................................................45

3.5 TERCEIRA ETAPA DE KDD: PÓS-PROCESSAMENTO ......................................473.5.1 Linguagens de programação ....................................................................................483.5.2 Redes semânticas .....................................................................................................483.5.3 Lógica matemática ...................................................................................................483.5.4 Árvores de decisão...................................................................................................493.5.5 Estatística .................................................................................................................493.5.6 Regras de produção..................................................................................................493.5.7 Regras de associação................................................................................................503.5.8 Redes neurais artificiais ...........................................................................................503.5.9 Clusters ....................................................................................................................513.5.10 Representação baseada em instâncias...................................................................513.5.11 Casos.....................................................................................................................51

3.6 PROCESSO DE MINERAÇÃO DE DADOS: CRISP-DM.......................................523.6.1 Fases do modelo CRISP-DM...................................................................................53

4 TÉCNICAS E ALGORITMOS DE MINERAÇÃO DE DADOSUTILIZADOS.................................................................................................... 56

4.1 INTRODUÇÃO ..........................................................................................................564.2 ANÁLISE ESTATÍSTICA .........................................................................................57

4.2.1 Variáveis aleatórias..................................................................................................574.2.1.1 Distribuições discretas de probabilidade...........................................................594.2.1.2 Variáveis aleatórias contínuas...........................................................................594.2.1.3 Distribuições conjuntas .....................................................................................604.2.1.4 Cálculo das funções distribuição de probabilidade para variáveis discretas.....614.2.1.5 Medidas de tendência, dispersão e dependência para variáveis aleatóriasdiscretas ..........................................................................................................................62

4.2.2 Inferência estatística.................................................................................................644.2.3 Referências adicionais .............................................................................................65

4.3 CLUSTERIZAÇÃO....................................................................................................654.3.1 Formas de aprendizagem .........................................................................................664.3.2 Medidas de similaridade e critério de qualidade......................................................684.3.3 Algoritmo K-Means .................................................................................................694.3.4 Referências adicionais .............................................................................................70

4.4 REDES NEURAIS......................................................................................................704.4.1 Modelagem dos neurônios artificiais .......................................................................714.4.2 Definição da arquitetura da rede ..............................................................................714.4.3 Função custo ............................................................................................................724.4.4 Regra de aprendizagem............................................................................................72

X

4.4.5 Redes Backpropagation ...........................................................................................734.4.5.1 Treinamento ......................................................................................................74

4.4.6 Referências adicionais .............................................................................................784.5 SISTEMAS ESPECIALISTAS...................................................................................78

4.5.1 Representação do conhecimento..............................................................................804.5.2 Mecanismo de inferência .........................................................................................81

4.6 LÓGICA NEBULOSA ...............................................................................................814.6.1 Conjuntos nebulosos ................................................................................................824.6.2 Variáveis lingüísticas ...............................................................................................844.6.3 Operações com conjuntos nebulosos .......................................................................854.6.4 Relação e composição nebulosas .............................................................................85

4.7 SISTEMAS DE LÓGICA NEBULOSA.....................................................................864.7.1 Referências adicionais .............................................................................................90

5 ORÇAMENTO PÚBLICO......................................................................... 91

5.1 INTRODUÇÃO ..........................................................................................................915.2 ORÇAMENTO PÚBLICO .........................................................................................91

5.2.1 Plano Plurianual .......................................................................................................935.2.2 Lei de Diretrizes Orçamentárias ..............................................................................945.2.3 Lei Orçamentária Anual...........................................................................................94

5.3 CICLO ORÇAMENTÁRIO........................................................................................955.3.1 Elaboração da proposta orçamentária ......................................................................965.3.2 Discussão e aprovação da proposta orçamentária....................................................965.3.3 Execução da Lei Orçamentária ................................................................................965.3.4 Avaliação da execução orçamentária.......................................................................97

5.4 EXECUÇÃO ORÇAMENTÁRIA E FINANCEIRA .................................................975.4.1 Execução financeira .................................................................................................98

5.5 RECEITA PÚBLICA................................................................................................1005.5.1 Estágios ou fases da receita orçamentária..............................................................100

5.6 DESPESA PÚBLICA ...............................................................................................1015.6.1 Estágios ou fases da despesa orçamentária............................................................1035.6.2 Créditos adicionais.................................................................................................1065.6.3 Restos a pagar ........................................................................................................1065.6.4 Despesas de exercícios anteriores..........................................................................107

5.7 LICITAÇÕES............................................................................................................1075.8 CONTROLE DA ADMINISTRAÇÃO PÚBLICA ..................................................109

5.8.1 Tribunal de Contas da União .................................................................................1105.9 SISTEMAS DE INFORMAÇÃO DA ADMINISTRAÇÃO PÚBLICA..................112

5.9.1 SIAFI......................................................................................................................1145.9.1.1 Principais objetivos do sistema .......................................................................1145.9.1.2 Subsistemas do Siafi .......................................................................................1145.9.1.3 Principais documentos.....................................................................................115

5.9.2 Projeto Síntese .......................................................................................................116

6 MODELO PARA DETECÇÃO DE IRREGULARIDADES NAEXECUÇÃO DA DESPESA .......................................................................... 118

6.1 INTRODUÇÃO ........................................................................................................118

XI

6.1.1 Implementação prática para validação do modelo.................................................1196.2 INFORMAÇÕES DE ENTRADA DO MODELO...................................................1216.3 MÓDULOS DE DETECÇÃO ..................................................................................122

6.3.1 Módulo Sistema Especialista .................................................................................1236.3.2 Módulo de Mineração de Dados ............................................................................124

6.3.2.1 Procedimento geral de classificação usado no módulo de mineração ............1276.3.2.2 Implementação dos modelos de comportamento ............................................1296.3.2.3 Mecanismos de detecção de anomalias...........................................................131

6.4 VERIFICAÇÃO MANUAL PELO ANALISTA .....................................................1336.4.1 Retroalimentação ...................................................................................................134

6.5 VALIDAÇÃO DOS RESULTADOS .......................................................................135

7 ANÁLISE DA EMISSÃO DE NOTAS DE EMPENHO PELAADMINISTRAÇÃO PÚBLICA FEDERAL ................................................ 136

7.1 INTRODUÇÃO ........................................................................................................1367.1.1 Exportação de dados do Siafi.................................................................................1377.1.2 Eventos considerados.............................................................................................1417.1.3 Entidades e atributos ..............................................................................................143

7.2 NÚMERO DE NOTAS DE EMPENHO EMITIDAS POR ENTIDADE E SEUIMPACTO NA CRIAÇÃO DOS MODELOS....................................................................145

7.2.1 Quantidade de notas de empenho emitidas por órgão ...........................................1467.2.2 Quantidade de notas de empenho emitidas por unidade gestora ...........................1477.2.3 Quantidade de notas de empenho recebidas por favorecido..................................1497.2.4 Quantidade de notas de empenho emitidas por usuário.........................................1507.2.5 Influência do número de notas para a criação dos modelos...................................151

7.3 CATEGORIZAÇÃO DOS VALORES DAS NOTAS DE EMPENHO ..................1537.4 COMPORTAMENTO DA ADMINISTRAÇÃO PÚBLICA NA EMISSÃO DENOTAS DE EMPENHO.....................................................................................................156

7.4.1 Distribuição de notas de empenho por classe de valor ..........................................1577.4.2 Distribuição de notas de empenho e valores por modalidade de licitação ............1587.4.3 Distribuição de notas de empenho e valores por natureza da despesa...................1607.4.4 Distribuição de notas de empenho por natureza da despesa e valor ......................1637.4.5 Distribuição de notas de empenho por modalidade de licitação e valor................1647.4.6 Distribuição de notas de empenho por natureza da despesa e modalidade delicitação............................................................................................................................1657.4.7 Distribuição combinada de notas de empenho pelos três atributos .......................1667.4.8 Variação mensal na emissão de notas de empenho ...............................................168

7.4.8.1 Distribuição mensal de notas de empenho por modalidade de licitação.........1717.4.8.2 Distribuição mensal de notas de empenho por classe de valor .......................1727.4.8.3 Distribuição mensal de notas de empenho por natureza da despesa ...............173

7.5 ANÁLISE DA EMISSÃO DE NOTAS DE EMPENHO POR ÓRGÃOS EUNIDADES GESTORAS...................................................................................................174

7.5.1 Clusterização para seleção de órgãos.....................................................................1757.5.1.1 Clusterização por modalidade de licitação......................................................1767.5.1.2 Clusterização por classe de valor ....................................................................1777.5.1.3 Clusterização por natureza da despesa ............................................................177

7.5.2 Seleção de unidades gestoras .................................................................................1787.5.3 Distribuição de notas por modalidade de licitação para órgãos e UGs..................179

XII

7.5.4 Distribuição de notas por valor para órgãos e UGs ...............................................1837.5.5 Distribuição de notas por natureza da despesa para órgãos e UGs........................1857.5.6 Análise da emissão mensal de notas para órgãos e UGs .......................................187

7.6 ANÁLISE DE FAVORECIDOS E USUÁRIOS......................................................1897.7 CONCLUSÕES SOBRE A ANÁLISE DE COMPORTAMENTO DASENTIDADES ......................................................................................................................191

8 MODELOS PARA A EMISSÃO DE NOTAS DE EMPENHO NAADMINISTRAÇÃO PÚBLICA..................................................................... 194

8.1 INTRODUÇÃO ........................................................................................................1948.2 MODELO DA EMISSÃO DE NOTAS DE EMPENHO POR MATRIZ DEPROBABILIDADE.............................................................................................................195

8.2.1 Formalização estatística .........................................................................................1958.2.2 Cálculo dos valores da função de distribuição conjunta de probabilidade ............196

8.2.2.1 Observação quanto aos valores de probabilidade informados pelas matrizes 1998.2.2.2 Observação quanto ao suporte usado na construção das matrizes ..................201

8.2.3 Redução do número de elementos da matriz de probabilidade..............................2028.2.4 Aplicação da matriz de probabilidade....................................................................2038.2.5 Definição mensal das matrizes de probabilidade...................................................208

8.3 MODELO DA EMISSÃO DE NOTAS DE EMPENHO POR REDE NEURAL....2108.3.1 Treinamento da rede ..............................................................................................2128.3.2 Treinamento com notas de empenho simuladas ....................................................2148.3.3 Treinamento com matriz de probabilidade ............................................................2198.3.4 Treinamento com três atributos .............................................................................2208.3.5 Observação quanto ao número de notas usadas no treinamento da rede ...............225

8.4 COMPARAÇÃO DOS MODELOS POR MATRIZ DE PROBABILIDADE EREDES NEURAIS..............................................................................................................2268.5 ATUALIZAÇÃO DOS MODELOS.........................................................................228

9 DETECÇÃO DE ANOMALIAS NA EMISSÃO DE NOTAS DEEMPENHO ...................................................................................................... 231

9.1 INTRODUÇÃO ........................................................................................................2319.2 DETECÇÃO DE ANOMALIAS POR REGRAS.....................................................232

9.2.1 Aplicação de regras à saída do modelo de matrizes ..............................................2369.2.2 Aplicação de regras à saída do modelo de redes neurais .......................................2399.2.3 Comparação da aplicação de regras aos dois modelos de comportamento ...........2419.2.4 Sistemas especialistas nebulosos ...........................................................................247

9.3 DETECÇÃO DE ANOMALIAS POR REDE NEURAL.........................................2529.3.1 Aplicação de redes à saída do modelo de matrizes................................................2539.3.2 Aplicação de redes à saída do modelo de redes neurais ........................................255

9.4 COMPARAÇÃO DA CLASSIFICAÇÃO POR REGRAS COM ACLASSIFICAÇÃO POR REDES NEURAIS.....................................................................256

10 CONCLUSÕES E TRABALHOS FUTUROS ....................................... 258

10.1 CONCLUSÕES E CONTRIBUIÇÕES ....................................................................25810.2 TRABALHOS FUTUROS........................................................................................260

XIII

10.2.1 Análise do ciclo completo de execução da despesa ...........................................26010.2.2 Estudo de outros mandatos presidenciais ...........................................................26110.2.3 Implementação do módulo baseado em sistema especialista .............................26110.2.4 Estudo do modelo referente a usuários e fornecedores ......................................26210.2.5 Definição do suporte mínimo para a confiabilidade do modelo.........................26310.2.6 Análise das NEs que não representam criação de empenho...............................26310.2.7 Verificação dos problemas referentes à contabilidade pública ..........................26410.2.8 Definição dos mecanismos de atualização dos modelos ....................................26410.2.9 Estudo de ferramentas ........................................................................................26510.2.10 Aprimoramento dos algoritmos usados ..............................................................265

REFERÊNCIAS BIBLIOGRÁFICAS.......................................................... 266

APÊNDICE A – NOTAÇÕES........................................................................ 273

APÊNDICE B – DISTÂNCIA ENTRE PERFIS DE COMPORTAMENTO........................................................................................................................... 274

APÊNDICE C – DISTRIBUIÇÃO MENSAL DE NOTAS DE EMPENHO........................................................................................................................... 279

APÊNDICE D - EXEMPLO DE ANÁLISE DE NOTA DE EMPENHO . 284

APÊNDICE E – TREINAMENTO DAS REDES NEURAIS..................... 289

XIV

LISTA DE ILUSTRAÇÕESFigura 3-1: Etapas, funções, técnicas e algoritmos encontrados no processo de KDD............25Figura 3-2: Formas de representação propostas para os dados de entrada...............................29Figura 3-3: Camadas do modelo de referência CRISP-DM.....................................................53Figura 3-4: Ciclo de vida proposto para um projeto de DM ....................................................54Figura 4-1: Algoritmos de clusterização ..................................................................................67Figura 4-2: Representação das camadas, pesos e neurônios de uma rede neural .....................74Figura 4-3: Conjunto nebulosos representando temperatura alta .............................................83Figura 4-4: Representação dos conjuntos nebulosos................................................................84Figura 4-5: Sistema de lógica nebulosa....................................................................................87Figura 4-6: Conjuntos nebulosos para as variáveis lingüísticas probabilidade de órgão e

probabilidade de UG..........................................................................................................88Figura 4-7: Conjunto nebuloso de saída ...................................................................................89Figura 5-1: Fluxo orçamentário e respectivos documentos de lançamento no Siafi ................97Figura 5-2: Fluxo financeiro e respectivos documentos de lançamento no Siafi .....................98Figura 5-3: Fases ou estágios da despesa orçamentária .........................................................104Figura 5-4: Sistemas de informação usados no planejamento e execução do orçamento ......113Figura 5-5: Subsistemas do Siafi (BRASIL, MF, 2007) ........................................................115Figura 6-1: Modelo proposto para a detecção automática de indícios de irregularidades na

execução da despesa ........................................................................................................119Figura 6-2: Modelo simplificado para a detecção automática de anomalias na emissão de

notas de empenho.............................................................................................................121Figura 6-3: Detalhamento dos componentes do módulo de mineração de dados ..................129Figura 6-4: Modelos de comportamento ................................................................................129Figura 6-5: Detecção de anomalias ........................................................................................131Figura 7-1: Contribuições do capítulo atual para o modelo proposto ....................................137Figura 7-2: Tela de consulta à nota de empenho no Siafi. Somente os campos em negrito

foram utilizados no trabalho ............................................................................................141Figura 7-3: Relacionamento entre as entidades analisadas ....................................................144Figura 7-4: Histograma do número de NEs emitidas por órgão no ano de 2005 ...................146Figura 7-5: Histograma do número de NEs emitidas por UG no ano de 2005.......................148Figura 7-6: Histograma do número de NEs recebidas por favorecido no ano de 2005..........149Figura 7-7: Histograma do número de NEs emitidas por usuários no ano de 2005 ...............151Figura 7-8: Diferença entre a matriz de freqüência calculada com todas as NEs e as matrizes

calculadas com número menor de NEs............................................................................153Figura 7-9: Percentual de valores por modalidade de licitação..............................................154Figura 7-10: Percentual de notas de empenho por classe de valor .........................................158Figura 7-11: Percentual de notas de empenho por modalidade de licitação ..........................159Figura 7-12: Percentual de valores por modalidade de licitação............................................160Figura 7-13: Percentual de notas de empenho por natureza da despesa.................................161Figura 7-14: Percentual de valores por natureza da despesa ..................................................162Figura 7-15: Percentual de valores por natureza da despesa ..................................................163Figura 7-16: Distribuição combinada de notas de empenho por classe de valor e natureza da

despesa .............................................................................................................................164Figura 7-17: Distribuição combinada de notas de empenho por classe de valor e modalidade

de licitação .......................................................................................................................165

XV

Figura 7-18: Distribuição combinada de notas de empenho por modalidade de licitação enatureza da despesa..........................................................................................................166

Figura 7-19: Distribuição combinada de notas de empenho por modalidade de licitação, classede valor e natureza da despesa .........................................................................................167

Figura 7-20: Percentual de notas de empenho emitidas por mês ...........................................169Figura 7-21: Percentual de valores empenhados por mês ......................................................170Figura 7-22: Percentual de valores empenhados por mês ......................................................171Figura 7-23: Percentual mensal de notas de empenho referentes ao ano de 2006 por

modalidade de licitação....................................................................................................172Figura 7-24: Percentual mensal de notas de empenho referentes ao ano de 2006 por classe de

valor .................................................................................................................................173Figura 7-25: Percentual mensal de notas de empenho referentes ao ano de 2006 por natureza

da despesa ........................................................................................................................174Figura 7-26: Protótipos de distribuição de notas de empenho por modalidade de licitação,

formados a partir dos centros dos quatro clusters definidos ............................................176Figura 7-27: Protótipos de distribuição de notas de empenho por classe de valor, formados a

partir dos centros dos três clusters definidos ...................................................................177Figura 7-28: Protótipos de distribuição de notas de empenho por natureza da despesa,

formados a partir dos centros dos três clusters definidos ................................................178Figura 7-29: Percentual de notas de empenho e percentual de valores ..................................179Figura 7-30: Distribuição de NEs por modalidade de licitação para a Administração Pública,

TCU, Senado, DNIT e Ministério das Cidades................................................................180Figura 7-31: Percentual de notas de empenho emitidas nos anos de 2005 e 2006 por

modalidade de licitação para as duas UGs selecionadas no TCU ...................................182Figura 7-32: Percentual de notas de empenho por classe de valor para a Administração

Pública, TCU, Senado, DNIT e Ministério das Cidades..................................................183Figura 7-33: Percentual de notas de empenho emitidas no ano de 2006 por classe de valor

para as UGs selecionadas.................................................................................................184Figura 7-34: NEs por natureza da despesa para Administração, TCU, Senado, DNIT e

Ministério das Cidades em 2006......................................................................................185Figura 7-35: Percentual de notas de empenho emitidas no ano de 2006 por natureza da

despesa para as duas UGs selecionadas no TCU.............................................................186Figura 7-36: Percentual de notas de empenho emitidas mensalmente pela Administração

Pública, TCU, Senado, DNIT e Ministério das Cidades..................................................188Figura 7-37: Percentual de notas de empenho emitidas mensalmente pelas duas UGs em 2006

.........................................................................................................................................189Figura 7-38: Distribuição de NEs por modalidade de licitação (ML), classe de valor (CV),

natureza da despesa (ND) e mês para o Fundo de Imprensa Nacional no ano de 2006 ..190Figura 7-39: Distribuição de NEs por modalidade de licitação (ML), classe de valor (CV),

natureza da despesa (ND) e mês para um usuário emissor no ano de 2006 ....................191Figura 8-1: Contribuição do capítulo para o modelo de detecção, correspondendo à construção

dos dois modelos de comportamento para a emissão de notas de empenho....................194Figura 8-2: Processo completo para detecção de anomalia....................................................195Figura 8-3: Análise da matriz de probabilidade de um órgão ................................................200Figura 8-4: Probabilidades referentes à Administração Pública, favorecido, usuário, UG e

órgão (TCU).....................................................................................................................203Figura 8-5: Histogramas de probabilidade referentes a notas de empenho emitidas pelo TCU

nos anos de 2005 e 2006 ..................................................................................................205

XVI

Figura 8-6: Histogramas de probabilidade para notas de empenho emitidas pelo TCU ........210Figura 8-7: Processo completo para detecção de anomalia....................................................211Figura 8-8: Proporção de NEs emitidas pelo TCU no ano de 2005 em cada uma das 108

possíveis combinações de classe de valor e natureza da despesa ....................................214Figura 8-9: Resultado apresentado pela rede..........................................................................217Figura 8-10: Resultado apresentado pela rede........................................................................219Figura 8-11: Matriz de treinamento para a rede neural ..........................................................222Figura 8-12: Histogramas de probabilidades calculados pela rede treinada com NEs de 2005

emitidas pelo TCU ...........................................................................................................223Figura 8-13:Histogramas de probabilidades calculados pela rede treinada com NEs anômalas

usadas no treinamento......................................................................................................223Figura 8-14: Probabilidades calculadas por matriz (esquerda) e rede neural (direita) para as

NEs emitidas pela UG-Sede em 2006..............................................................................227Figura 8-15: Probabilidades calculadas por matriz (esquerda) e rede neural (direita) para as

NEs emitidas pela UG-ISC em 2006 ...............................................................................227Figura 9-1: Contribuição do capítulo atual no processo de detecção de indícios de

irregularidades..................................................................................................................232Figura 9-2: Processo completo para detecção de anomalia....................................................233Figura 9-3: Regras aplicadas à ponderação de probabilidades...............................................236Figura 9-4: Percentual de NEs simuladas (esquerda) e verdadeiras (direita) classificadas como

anômalas em função da variação do parâmetro de detecção ...........................................237Figura 9-5: Regras para ponderar as probabilidades oriundas do modelo de redes neurais...239Figura 9-6: Percentual de NEs simuladas (esquerda) e verdadeiras (direita) classificadas como

anômalas em função da variação do parâmetro de detecção ...........................................240Figura 9-7: Processo completo para detecção de anomalia....................................................241Figura 9-8: Conjuntos nebulosos criados a partir dos histogramas de probabilidade ............250Figura 9-9: Conjuntos nebulosos para normalidade ...............................................................251Figura 9-10: Processo completo para detecção de anomalia..................................................252Figura 9-11: Redes neurais usadas para ponderar as probabilidades oriundas do modelo de

matrizes ............................................................................................................................253Figura 9-12: Combinações de probabilidades fornecidas pelas matrizes para as quais a rede dá

como saída valores superiores a 0,5.................................................................................255Figura 9-13: Redes neurais usadas para ponderar as probabilidades oriundas do modelo de

redes .................................................................................................................................255Figura 9-14: NEs selecionadas como anômalas por redes neurais (marcadas com asterisco) e

por ponderação de probabilidade (marcadas com círculos).............................................257

XVII

LISTA DE TABELASTabela 3-1: Classificação das variáveis segundo Kantardzic (2003), Frank e Witten (2005) e

Dillon e Goldstein (1984) ..................................................................................................31Tabela 3-2: Tarefas de mineração de dados .............................................................................35Tabela 3-3: Matriz de confusão para um classificador binário ................................................37Tabela 3-4: Técnicas de mineração de dados aplicadas por tarefas .........................................44Tabela 3-5: Relação entre algoritmos e técnicas de mineração de dados.................................47Tabela 4-1: Pertinência da variável temperatura em relação ao conjunto temperatura alta .....83Tabela 4-2: Valores de pertinência...........................................................................................88Tabela 4-3: Resultado do mecanismo de inferência.................................................................89Tabela 5-1: Classificação da despesa pública orçamentária...................................................102Tabela 5-2: Classificação da despesa pública orçamentária quanto à natureza da despesa ...103Tabela 7-1: Campos exportados do arquivo SIAFI-EMPENHO e sua descrição ..................139Tabela 7-2: Quantidade de notas emitidas por evento/ano.....................................................143Tabela 7-3: Quantidade de notas de empenho emitidas por órgão no período analisado ......147Tabela 7-4: Quantidade de notas de empenho emitidas por unidade gestora.........................149Tabela 7-5: Quantidade de notas de empenho recebidas por favorecido ...............................150Tabela 7-6: Quantidade de notas de empenho emitidas por usuário no período analisado....151Tabela 7-7: Exemplos de notas de empenho de valor elevado, emitidas pela Administração

Pública .............................................................................................................................153Tabela 7-8: Percentual acumulado de valores por percentual de notas de empenho .............155Tabela 7-9: Percentuais anuais de notas de empenho emitidas por classe de valor ...............156Tabela 8-1: Probabilidades para a combinação de atributos presentes na NE e suporte

correspondente a cada entidade .......................................................................................198Tabela 8-2: A segunda e terceira coluna indicam a probabilidade máxima e mínima para cada

entidade no ano de 2005 ..................................................................................................205Tabela 8-3: Repetição dos cálculos da Tabela 8-2 considerando apenas as entidades com

suporte igual ou superior a 100........................................................................................207Tabela 8-4: Notas de empenho para as quais as probabilidades das entidades foram analisadas,

tomando por base o suporte mínimo de 100 ....................................................................208Tabela 8-5: Número de NEs emitidas pelo TCU no ano de 2005 em cada uma das 108

combinações possíveis de modalidade de licitação e classe de valor..............................213Tabela 8-6: Resultado da simulação da rede para todas as combinações dos atributos .........216Tabela 8-7: Resultado da simulação da rede para todas as combinações dos atributos .........218Tabela 9-1: Composição dos grupos de notas de empenho a serem analisados quanto à

combinação dos atributos.................................................................................................242Tabela 9-2: Percentual de notas detectadas como anômalas para o grupo 1..........................242Tabela 9-3: Percentual de notas detectadas como anômalas para o grupo 2..........................243Tabela 9-4: Percentual de notas detectadas como anômalas para o grupo 3..........................244Tabela 9-5: Percentual de notas detectadas como anômalas para o grupo 4..........................245Tabela 9-6: Percentual de notas detectadas como anômalas para o grupo 5..........................246Tabela 9-7: Percentual de notas detectadas como anômalas para o grupo 6..........................246Tabela 9-8: Percentual de notas detectadas como anômalas para o grupo 7..........................247

XVIII

LISTA DE ABREVIATURAS E SIGLASANA: Agência Nacional de ÁguasCRISP: Cross-Industry Standard Process for Data MiningCV: Classe de ValorDM: Data Mining ou Mineração de DadosDPOF: Decreto de Programação Orçamentária e FinanceiraDNIT: Departamento Nacional de Infra-estrutura de TransportesDW: Data WarehouseHTTP: HyperText Transfer ProtocolINSS: Instituto Nacional de Seguro SocialIPEA: Instituto de Pesquisa Econômica AplicadaIDS: Intrusion Detection SystemISC: Instituto Serzedello CorrêaKDD: Knowledge Discovery in DatabasesLDO: Lei de Diretrizes OrçamentáriasLOA: Lei orçamentária AnualLNCC: Laboratório Nacional de Computação CientíficaLRF: Lei de Responsabilidade FiscalMPOG: Ministério do Planejamento, Orçamento e GestãoML: Modalidade de LicitaçãoMPF: Ministério Público FederalMPT: Ministério Público do TrabalhoNC: Nota de Movimentação de CréditosND: Natureza da Despesa, também Nota de DotaçãoNE: Nota de EmpenhoNL: Nota de LançamentoNN: Neural NetworkOB: Ordem BancáriaOGU: Orçamento Geral da UniãoOLAP: On-Line Analytical ProcessingOLTP: On-Line Transactional ProcessingOSPF: Órgãos Setoriais de Planejamento FinanceiroPCA: Principal Component AnalysisPE: Nota de Pré-empenhoPFA: Programação Financeira AprovadaPPA: Plano PlurianualPPF: Propostas de Programação FinanceiraROC: Receiver Operating Characteristic [Curves]SE: Sistema EspecialistaSIAFI: Sistema Integrado de Administração FinanceiraSIDOR: Sistema Integrado de Dados OrçamentáriosSIGPlan:Sistema de Informações Gerenciais e de PlanejamentoSíntese: Sistema de Inteligência e Suporte ao Controle ExternoSOF: Secretaria de Orçamento Federal – MPOGSOM: Self-Organizing Maps ou Mapas Auto-OrganizáveisSPOA: Subsecretaria de Planejamento e AdministraçãoSPI: Secretaria de Planejamento e Investimentos

XIX

SQL: Structured Query Language ou Linguagem de Consulta EstruturadaSTN: Secretaria do Tesouro Nacional - Ministério da FazendaTCU: Tribunal de Contas da UniãoUG: Unidade Gestora

- 1 -

1 INTRODUÇÃO

1.1 MOTIVAÇÃO

Segundo Goldschmidt e Passos (2005), os avanços na área da Tecnologia da

Informação, em particular na coleta e armazenamento de dados, propiciam a criação de

grandes bases de dados, complexas e heterogêneas, que impõem o desenvolvimento de novas

ferramentas de análise, combinando técnicas estatísticas, matemáticas e da ciência da

computação, de forma a extrair conhecimento significativo dos dados.

Como apresentado ao longo do trabalho, existem diversos sistemas dentro da

Administração Pública que produzem e armazenam grandes volumes de dados. De particular

interesse para o presente trabalho são as informações relacionadas à despesa orçamentária.

Entre os sistemas que armazenam tais informações destaca-se o Sistema Integrado de

Administração Financeira do Governo Federal (Siafi), responsável pela execução

orçamentária, financeira, patrimonial e contábil dos órgãos e entidades da Administração

Pública. Tendo em vista sua quantidade, qualidade e abrangência, as informações contidas no

Siafi são fundamentais para a atividade de controle externo da Administração Pública,

exercida pelo Tribunal de Contas da União (TCU), como órgão auxiliar do Congresso

Nacional.

Em função da grande quantidade de dados armazenados no Siafi, torna-se impraticável

sua completa análise por especialistas através de métodos não automatizados. Se levados em

conta os dados armazenados nos demais sistemas da Administração Pública, o problema da

análise manual fica ainda mais crítico, tendo em vista que a informação encontra-se dispersa,

sendo o acesso, extração e consolidação dificultados pelos inúmeros padrões de

- 2 -

armazenamento e softwares de acesso adotados pelos órgãos e entidades que integram a

Administração (CARVALHO, 2005).

Com o objetivo de atenuar os problemas citados, o TCU instituiu em dezembro de 2003

um projeto para implantar o Sistema de Inteligência e Suporte ao Controle Externo (Síntese),

tendo em vista consolidar informações dispersas pelos vários sistemas da Administração

Pública por meio de um Data Warehouse (DW). O fato de existir uma base integrada de

dados através de um DW constitui por si só um grande auxílio ao trabalho de fiscalização pois

permite o acesso rápido às informações, com a possibilidade de realizar cruzamento de dados.

O foco inicial do projeto Síntese é a emissão de relatórios gerenciais que subsidiem as

fiscalizações. Em paralelo com a geração de relatórios, é também objetivo do projeto a

implantação de procedimentos que permitam a detecção automática de irregularidades nos

dados armazenados, favorecendo dessa forma a atuação tempestiva do TCU.

Como citado em Mota (2006), o acompanhamento da execução orçamentária deveria

ocorrer predominantemente sobre atos ainda não concretizados, verificando-se entretanto sua

realização sobre despesas já pagas, o que dificulta a identificação de possíveis falhas no

processo de execução da despesa e sua correção em tempo hábil. A utilização de mecanismos

automáticos para detecção de irregularidades permite simultaneamente aumentar o escopo da

fiscalização e tornar mais rápida a atuação do controle. A atuação abrangente e tempestiva do

controle externo possibilita muitas vezes impedir que a fraude se concretize ou pelo menos

reduzir os prejuízos causados pela mesma.

Os mecanismos de detecção automatizados, segundo sugerido em Dickerson et al.

(2001), podem ser implantados através de duas alternativas principais: uso de sistemas

especialistas e mineração de dados. A primeira alternativa permite criar um repositório de

regras de conhecimento, extraídas da legislação e da experiência de analistas de controle

- 3 -

externo, que possam ser usadas no procedimento de verificação. A mineração de dados busca

informações não triviais, que não possam ser facilmente explicitadas através de regras de

conhecimento. Considera-se que ambas as alternativas são necessárias e complementares num

procedimento de verificação.

1.2 OBJETIVOS DO TRABALHO

Em função das necessidades expostas, esta Tese tem por objetivo propor um modelo

para a detecção automática de indícios de irregularidades na execução da despesa

orçamentária, utilizando para análise, dados oriundos de sistemas de informação da

Administração Pública. Esse modelo consiste na definição de um conjunto de componentes

necessários no processo de detecção, bem como os mecanismos de integração entre esses

componentes. Tal modelo deverá auxiliar a atividade de controle externo desempenhada pelo

TCU, alinhando-se com o segundo objetivo apresentado para o projeto Síntese, qual seja, a

detecção automática de irregularidades nos dados armazenados no DW.

Deve-se destacar que os indícios de irregularidades por ventura detectados pelo modelo

não são prova conclusiva da existência de fraude. Podem indicar, dentre outras coisas, simples

mudanças de comportamento das entidades, fruto da mudança de legislação, de

administração, de propósitos institucionais, etc. Assim sendo, a lista de documentos

selecionados pelo modelo proposto deve ser posteriormente analisada por um especialista,

para verificar se realmente representam comportamentos irregulares ou se constituem eventos

lícitos porém de baixa probabilidade de ocorrência, tomando como referência o

comportamento passado das entidades em análise. Dessa forma, o modelo proposto será um

auxiliar no trabalho de auditoria realizado pelos analistas do TCU e não um substituto desses

profissionais.

- 4 -

Este trabalho objetiva também reforçar a parceria entre pesquisa acadêmica, em

particular na área de modelagem computacional, e uma área prática e de grande relevância

para o país, qual seja, o controle externo da Administração Pública. Nesse sentido o trabalho

reveste-se de caráter interdisciplinar, procurando dessa forma cumprir um dos objetivos do

programa de pós-graduação em modelagem computacional do Laboratório Nacional de

Computação Científica (LNCC).

Espera-se que o trabalho sirva de motivação para que outras atividades de pesquisa

sejam desenvolvidas no âmbito do TCU sobre controle automatizado da execução

orçamentária, tópico que apresenta vários desafios na área de modelagem, e que no entanto

tem recebido pouca atenção do meio acadêmico em geral, tendo em vista a pequena

quantidade de trabalhos publicados na área, como constatado no Capítulo 2. Considera-se

importante para despertar tal motivação que o trabalho apresente ao seu término resultados

práticos na detecção de irregularidades, não se limitando à proposta de um modelo teórico.

Esses resultados foram obtidos através da implementação de um protótipo, que serviu para

testar os conceitos propostos e validar o modelo apresentado.

1.3 DESCRIÇÃO E ESCOPO DO TRABALHO

Como citado anteriormente, este trabalho apresenta uma proposta de modelo genérico e

extensível, que objetiva realizar a detecção de indícios de irregularidades na execução da

despesa, através da verificação de documentos presentes em sistemas públicos de informação.

Esse enquadramento, além de genérico, exigiria para ser atingido na sua totalidade uma

quantidade de trabalho impraticável de ser realizado no escopo de uma tese de doutorado.

Tendo em vista tornar factível a realização de um estudo na área, e tendo em mente que

nenhum trabalho isolado seria capaz de abranger todos os aspectos desejados, foi feita uma

redução gradativa de escopo, permitindo a apresentação de um trabalho concreto e com

- 5 -

resultados práticos, sem no entanto perder seu caráter abrangente, possibilitando sua posterior

complementação por trabalhos futuros.

Uma primeira limitação foi quanto ao sistema de informação a ser analisado. Em função

da sua importância para a execução orçamentária, da disponibilidade do acesso e do

conhecimento do sistema por parte dos analistas do TCU, escolheu-se o Siafi para a realização

do estudo.

Uma segunda limitação diz respeito ao tipo de informação dentro do Siafi a ser

estudada. Na execução orçamentária, restringiu-se a pesquisa à execução da despesa.

Considerando seus três estágios (empenho, liquidação e pagamento), optou-se pelo estudo do

primeiro, através do documento que formaliza o empenho dentro do Siafi, qual seja, a nota de

empenho. Essa escolha teve como objetivo buscar a informação que permitisse a atuação mais

rápida do controle externo no combate a irregularidades. Sendo o primeiro estágio da

execução da despesa, a detecção de irregularidades na fase de empenho permite a atuação

tempestiva do TCU, possivelmente impedindo a realização do gasto. O estudo teve por base

as notas de empenho emitidas pela Administração Pública entre 2003 e 2006, englobando um

mandato presidencial.

Como terceira limitação, entre as duas alternativas de mecanismo de detecção propostos

no modelo criado (mineração de dados e sistemas especialistas), optou-se pela implementação

do primeiro, ficando a implantação do sistema especialista proposta para ser realizada em

trabalhos futuros. Foram pesquisados algoritmos de mineração de dados a serem testados,

concluindo-se pela utilização de algoritmos envolvendo análise estatística, redes neurais e

lógica nebulosa.

Na sua parte prática, este trabalho procurou seguir as fases de um processo tradicional

de descoberta de conhecimento em bases de dados (KDD), adaptando-o às necessidades e

- 6 -

particularidades do trabalho de controle externo realizado pelo TCU. Teve como foco

principal a fase de mineração de dados, com adaptação dos algoritmos existentes para

utilização no problema em questão.

1.4 CONTRIBUIÇÕES

A principal contribuição do trabalho é a proposta de um modelo, abrangente e genérico,

que permita a detecção automática de irregularidades na execução da despesa. Para validar o

modelo, foi implementado seu módulo de mineração de dados, usado na validação do estágio

de empenho da despesa. Tendo sido proposto de forma genérica, o modelo poderá no futuro

ser usado também para os estágios de liquidação e pagamento, englobando assim toda a

execução da despesa. O modelo apresentado, sem paralelo na literatura pesquisada, constitui

inovação na área de detecção de irregularidades na execução orçamentária.

Como segunda contribuição, foi verificada a viabilidade técnica da utilização de

mecanismos automáticos de detecção de irregularidades como auxiliares do controle externo

exercido pelo TCU. Como apresentado anteriormente, a disponibilização de grandes massas

de informação aumenta o trabalho do controle externo, que por sua vez deve apresentar

soluções cada vez mais eficientes e rápidas para a análise e detecção de irregularidades. As

grandes massas de dados, apesar de constituírem um desafio, são também fontes importantes

de informações, desde que existam mecanismos adequados para a busca e extração

automatizada de informações relevantes. O trabalho teve grande preocupação de alcançar um

objetivo prático, qual seja, a implementação de um protótipo funcional para a detecção de

indícios de irregularidades. Ainda que os algoritmos usados não tenham sido plenamente

otimizados, ficou provada sua eficiência na seleção de notas de empenho anômalas, conforme

os testes realizados.

- 7 -

Foram criados modelos de comportamento referentes à emissão de notas de empenho,

para a Administração Pública como um todo e para alguns órgãos e unidades gestoras

individualmente. Tendo em vista que o Siafi não possui relatórios que facilitem a realização

de análises cruzadas e visualização de informações, esta terceira contribuição é de grande

importância no trabalho de auditoria, pois permite uma visão abrangente das entidades,

comparações entre os órgãos e destes com a Administração Pública. Em função da

importância dos modelos de comportamento, sugere-se sua apresentação através de relatórios,

de forma a subsidiar a análise dos auditores em relação aos documentos identificados como

anômalos pelo sistema.

O modelo proposto pode ser usado de imediato para a detecção, em tempo real, de

eventos anômalos na emissão de notas de empenho, com a conseqüente melhoria na

tempestividade do controle externo. Pode ser usado também como ferramenta auxiliar nos

procedimentos de auditoria, fornecendo uma lista de possíveis irregularidades a serem

investigadas durante a realização de fiscalizações.

1.5 ORGANIZAÇÃO DA TESE

Tendo em vista ser um trabalho interdisciplinar, procurou-se fazer uma exposição

teórica detalhada dos principais conceitos de cada área envolvida, permitindo assim uma

melhor compreensão do modelo proposto. A Tese pode ser dividida em três partes principais:

- Processo de descoberta de conhecimento;

- Finanças públicas e controle externo;

- Proposta e implementação do modelo para a detecção de indícios de irregularidades.

A primeira parte da Tese, referente ao processo de descoberta de conhecimento, engloba

os Capítulos 2, 3 e 4. O Capítulo 2 faz a revisão bibliográfica, apresentando trabalhos

relacionados com o tema da Tese. O Capítulo 3 resume o processo de descoberta de

- 8 -

conhecimento, descrevendo as principais tarefas da mineração de dados. O Capítulo 4

apresenta os algoritmos de mineração utilizados neste trabalho.

A segunda parte do trabalho, referente a finanças públicas, ao controle da

Administração e a sistemas de informação, é apresentada no Capítulo 5. Esse capítulo expõe

noções sobre orçamento e finanças públicas, trazendo sua fundamentação legal. Apresenta

também os mecanismos de controle externo da Administração e sistemas de informação

voltados a atender as necessidades dos órgãos públicos, com particular ênfase dada ao Siafi e

ao projeto Síntese.

A união das duas partes teóricas anteriores ocorre através da proposta de um modelo

consolidado para detecção de indícios de irregularidades na execução da despesa, apresentado

no Capítulo 6. Sua implementação parcial, no que se refere ao módulo de mineração de dados,

é realizada nos Capítulos 7, 8 e 9.

O Capítulo 7 traz um estudo sobre o comportamento da Administração Pública em

relação à emissão de notas de empenho. Baseado nessa análise foi possível, no Capítulo 8,

criar os modelos matemáticos que caracterizam tal comportamento. O Capítulo 9 utiliza os

algoritmos escolhidos no Capítulo 4 em conjunto com os modelos de comportamento

definidos no Capítulo 8 com o objetivo de detectar irregularidades nas notas de empenho

emitidas pela Administração Pública.

O fecho do trabalho, realizado no Capítulo 10, apresenta as conclusões e sugestões para

trabalhos futuros.

- 9 -

2 TRABALHOS RELACIONADOS

2.1 INTRODUÇÃO

Para fundamentar o modelo de detecção proposto na Tese, procurou-se trabalhos

relacionados com o uso de mecanismos automáticos para a identificação de comportamentos

irregulares, ou desviantes do comportamento normal, aplicados em várias áreas do

conhecimento. Embora não diretamente relacionada ao tema da Tese, a área de segurança de

redes de computadores oferece uma gama abrangente de modelos de detecção que, se

modificados adequadamente, servem como inspiração para vários componentes do modelo

proposto. Foram portanto analisados inicialmente trabalhos relacionados com sistemas

detectores de intrusão em redes, particularmente no que se refere ao uso de sistemas

especialistas e mineração de dados como mecanismos de detecção.

Em função da priorização dada à implementação do módulo de mineração de dados, a

pesquisa bibliográfica selecionou principalmente trabalhos relacionados com esse tema, sem

descartar contudo outras áreas conexas, em particular sistemas especialistas, que subsidiassem

a posterior complementação do modelo proposto.

Tendo em vista que o procedimento prático a ser implementado relaciona-se com a

classificação de documentos (notas de empenho) e considerando não existir uma base de

dados contendo registros diferenciando notas anômalas e normais, pesquisou-se

preferencialmente algoritmos de classificação com treinamento não supervisionado. Durante a

pesquisa foram selecionados dois trabalhos abordando esse tipo de treinamento: a detecção

estatística de outliers e a simulação de casos anômalos.

Procurou-se trabalhos que combinassem diferentes técnicas de mineração, por exemplo

procedimentos estatísticos e de inteligência computacional, permitindo o emprego integrado

de ambas. Outra combinação estudada foi a de sistemas especialistas com técnicas de

- 10 -

mineração de dados, a qual é largamente citada nos artigos sobre sistemas detectores de

intrusão. Em função do conhecimento acumulado pelos analistas de controle externo na

auditoria de contas, pesquisou-se formas de representar tal conhecimento, preferencialmente

através de regras, utilizadas na criação de sistemas especialistas.

A pesquisa concentrou-se também na busca de artigos relacionados a processos de

trabalho que guiem a execução da mineração de dados, realizada na parte prática da Tese.

Por fim, foram estudados casos reais de emprego de técnicas de mineração de dados na

descoberta de irregularidades, de forma a verificar sua eficiência e aplicabilidade em situações

práticas.

Vale destacar que este capítulo não esgota a pesquisa bibliográfica. Parte do material

pesquisado, principalmente no que se refere a processos, técnicas e algoritmos de mineração

de dados, está referenciado nos Capítulos 3 e 4, que tratam especificamente do assunto. Da

mesma forma, o material específico sobre orçamento público será apresentado no Capítulo 5.

2.2 SISTEMAS DETECTORES DE INTRUSÃO

Segundo Lane (2000), estudos sobre sistemas detectores de intrusão (Intrusion

Detection System - IDS) vêm sendo realizados desde a década de oitenta. Apesar de não estar

diretamente ligado ao tema da Tese, o assunto guarda várias semelhanças com o trabalho pois,

em ambos os casos, através da análise de um conjunto selecionado de eventos, pretende-se

classificar aqueles considerados não apropriados, segundo algum critério estabelecido. No

caso do IDS, o objetivo do sistema é detectar eventos que possam comprometer a segurança

da rede, vista como um todo, ou de computadores específicos. Para realizar tal detecção, a

literatura propõe o uso combinado de regras com mecanismos de verificação de

comportamentos anômalos.

- 11 -

Como exemplo, Dickerson et al. (2001) afirmam que a implementação de um sistema

detector de intrusão pode ser feita de duas formas: detecção de uso inadequado (misuse

detection) e detecção de anomalias (anomaly detection). Na primeira é criada uma base de

regras com assinaturas de ataques conhecidos. Eventos de rede são comparados com a base de

regras e alarmes são disparados caso alguma regra seja encontrada, compatível com o evento

em análise. Na segunda forma, detecção de anomalia, procura-se detectar eventos não usuais

em relação ao comportamento normal da rede, aprendido durante a fase de treinamento.

Segundo os autores, a vantagem da primeira forma de detecção é a precisão na

identificação dos ataques e a alta taxa de detecção, com baixo número de falsos positivos. Sua

desvantagem é que somente consegue detectar ataques conhecidos. Até mesmo pequenas

variações na forma desses ataques podem passar despercebidos, por não se adequarem

precisamente à nenhuma regra estabelecida. Já em relação à detecção de anomalia, é um

mecanismo mais flexível, não necessitando de informações de um especialista sobre todas as

possibilidades de ataque. O sistema aprende por si só o comportamento usual da rede,

bastando informar um limite de variação (threshold) para que alarmes sejam disparados. Em

contrapartida pode produzir uma taxa elevada de alarmes para situações que, apesar de pouco

usuais, não sejam ataques verdadeiros. Esse excesso de alertas impede a verificação criteriosa,

podendo gerar descrédito em relação ao sistema de detecção.

Segundo Lane (2000), sistemas baseados em regras vêm sendo utilizados por um longo

período, sendo a maior parte da pesquisa atual dedicada à detecção de anomalia. No caso

específico do trabalho do autor, é utilizado um mecanismo baseado em clusterização e

modelos de Markov para a detecção de comportamentos anômalos.

Em Javitz e Valdes (1993), os autores propõem que medidas estatísticas sejam usadas

em conjunto com um componente baseado em regras. Dessa forma, este último capturaria

- 12 -

tentativas de invasão conhecidas e documentadas, enquanto as medidas estatísticas

detectariam novas formas de invasão.

Em Bloedorn et al. (2001) os autores falam especificamente sobre o uso de mineração

de dados aplicado à detecção de intrusão. São citadas técnicas de mineração a serem

consideradas, infra-estrutura requerida e conhecimentos necessários por parte dos

especialistas envolvidos.

2.3 CLASSIFICAÇÃO NÃO SUPERVISIONADA: DETECÇÃO DE

ANOMALIAS POR PROCEDIMENTOS ESTATÍSTICOS

Em Javitz e Valdes (1993) é apresentado um algoritmo chamado Next-Generation

Intrusion-Detection Expert System (NIDES), cujo objetivo é fazer a detecção de violações de

segurança em redes de computadores através de métodos estatísticos. Os conceitos

apresentados pelos autores foram amplamente usados nesta Tese, na implementação do

modelo estatístico de comportamento, que é parte do módulo de mineração de dados.

O trabalho dos autores propõe a criação automática de perfis sobre o comportamento

normal, ou pelo menos esperado, de vários objetos (usuários, grupos, computadores, etc).

Cada perfil consiste de medidas estatísticas (freqüência, média, covariância, etc) em relação a

atributos selecionados dos objetos monitorados, sendo desnecessário portanto guardar toda a

série histórica, minimizando os requisitos de armazenamento.

Cada registro de auditoria recebido, representado por um vetor no espaço n-dimensional

(n corresponde à quantidade de atributos medidos), é comparado com os vetores armazenados

nos perfis do objeto. A distância do registro de auditoria (distância euclidiana) em relação ao

perfil armazenado define o nível de anomalia. O nível de detecção é controlado por

parâmetros ajustáveis, específicos para cada objeto monitorado.

- 13 -

A base estatística sofre atualização em intervalos determinados, normalmente diários.

Um fator de decaimento diminui a importância de medidas antigas e permite que o sistema

adapte-se a novos padrões de comportamento. Esse fator é normalmente configurado para

reduzir à metade a importância das medidas armazenadas a cada 30 dias.

Cada registro de auditoria é caracterizado por uma medida única (T2) que resume seu

grau de anomalia. Tais medidas são armazenadas em uma base de dados. Usando valores

históricos de T2 pode-se estabelecer limites de alerta, buscando uma quantidade tratável de

falsos positivos. Para evitar a sobrecarga de alertas, avisos são gerados somente quando o

valor de T2 ultrapassa determinado nível preestabelecido, e não toda vez que um registro

individualmente supera tal limite.

O valor de T2 é calculado pela média dos quadrados de uma série de medidas Si, cada

qual representando o nível de anomalia relacionado a uma medida específica (uso de CPU,

número de arquivos acessados, erros de login, etc). Os autores propõem também uma segunda

medida (L2), indicando um nível de desvio na correlação histórica entre as medidas Si.

As medidas Si são realizadas nas seguintes categorias:

• Intensidade – número de registros de auditoria recebidos num intervalo de tempo. Por

exemplo número de acessos a um arquivo específico em um minuto;

• Distribuição – indica a distribuição de eventos por categoria numa unidade de tempo. Por

exemplo indica que na última hora foram gerados 100 registros de uso de CPU, 300 de

acesso à rede e 200 sobre acesso a arquivos;

• Medidas categóricas – indicam os nomes dos recursos acessados. Exemplo, o nome dos

arquivos utilizados durante o último dia;

• Medidas de contagem – indicam valores simples de medidas como o tempo de utilização

de CPU, da rede, etc.

- 14 -

O valor final de Si é normalizado, permitindo que os vários Si possam ser comparados

em bases iguais.

2.3.1 Clusterização para a Criação de Perfis

Javitz e Valdes (1993) propõem a criação de clusters para a detecção de anomalias

através do registro de pontos no espaço n-dimensional, sendo cada ponto resultado de um

conjunto de n medidas de interesse (uso de CPU, número de arquivos abertos, etc). Tais

medidas seriam capturadas durante um período de tempo, formando conjuntos de pontos no

espaço, posteriormente divididos em clusters. Cada cluster receberia uma medida de

probabilidade, proporcional ao número de pontos presentes no mesmo. Uma medida de

anomalia seria montada considerando eventos recentes, sendo tanto maior conforme tais

eventos estivessem em clusters com baixa probabilidade ou não fossem alocados a nenhum

dos clusters definidos.

Os autores apontam dificuldades em tal proposta em função de dois problemas

levantados em seu trabalho. O primeiro refere-se à criação de uma grande quantidade de

clusters, pois consideram que cada objeto gerenciado (usuários, computadores, etc) deveria ter

clusters individuais definidos, em função da impossibilidade de generalização. Segundo os

autores, o grande número de clusters implicaria em grandes áreas de armazenamento e tempo

elevado de processamento para sua atualização. Outro problema citado é a definição da

métrica correta para medida de distâncias entre pontos, o que impacta na geometria dos

clusters formados e no conjunto de eventos que ocupariam o mesmo cluster.

Em Ntoutsi et al. (2006) é proposta a modelagem e monitoramento do comportamento

espaço-temporal de clusters. No trabalho são analisadas transformações nos clusters: extinção,

modificação de localização e do número de componentes de clusters pré-definidos, mudança

de forma e densidade, migração dos elementos para outros clusters e surgimento de novos

- 15 -

clusters. Tais modificações ao longo do tempo, segundo os autores, poderiam ser usadas para

identificação de fraudes.

Bakiras, Kalnis e Mamoulis (2005) apresentam em seu trabalho o problema do

acompanhamento da trajetória de clusters ao longo do tempo. Seu estudo pressupõe que a

identidade dos clusters permanece inalterada ao longo do tempo, diferente da proposta de

Ntoutsi et al. (2006), mudando apenas sua composição e geometria. Os autores propõem a

definição formal do movimento de clusters e três algoritmos que permitem sua descoberta e

análise automática.

2.4 CLASSIFICAÇÃO NÃO SUPERVISIONADA: SIMULAÇÃO DE

CASOS ANÔMALOS

Em Abe, Zadrozny e Langford (2006) é apresentada a proposta de redução do problema

de detecção de outliers a um problema de classificação simples, através da criação de

exemplos de comportamentos anômalos artificialmente gerados. São apontadas no entanto

dificuldades quanto à geração artificial de exemplos pois tais casos podem não espelhar

relacionamentos ocultos nos dados reais, ressaltando os autores o cuidado quanto à escolha da

distribuição amostral dos exemplos artificiais.

Entre as distribuições possíveis, os autores optaram por utilizar a distribuição uniforme,

considerando o espaço limitado pelos máximos possíveis dos valores dos atributos

envolvidos. Caso tal espaço não possa ser definido no problema em análise, é sugerida sua

criação através da definição de fronteiras limitadas a 10% além do máximo e aquém do

mínimo observado no problema em questão.

Tais exemplos anômalos são fornecidos para o treinamento do algoritmo de

classificação, juntamente com exemplos reais, estes últimos considerados eventos "normais".

- 16 -

Conhecendo-se exemplos anômalos e normais é possível utilizar algoritmos com aprendizado

supervisionado.

2.5 FORMALIZAÇÃO DO CONHECIMENTO ATRAVÉS DE REGRAS

NEBULOSAS

Em Dickerson et al. (2001) é apresentada uma proposta de trabalho sobre detecção de

intrusão utilizando lógica nebulosa. Os autores afirmam que para realizar a detecção de

intrusão de forma mais confiável são necessárias múltiplas fontes de monitoramento. Sistemas

nebulosos são usados para realizar a correlação entre as múltiplas fontes de informação. Sua

utilização, segundo os autores, é vantajosa porque permite combinar entradas de fontes

variadas, permite superar a dificuldade de estabelecer limites precisos para a geração de

alarmes e porque o nível de alerta a ser gerado pode muitas vezes também ser impreciso.

Após a coleta de dados na fase de treinamento (duas semanas), os autores construíram

os conjuntos nebulosos para cada atributo medido. Foram criados cinco conjuntos por

atributo, com formato triangular, onde os pontos de início, fim e meio foram calculados com o

uso do algoritmo "Fuzzy C-Means".

Os autores denominam um "sistema nebuloso" como uma coleção de regras nebulosas.

Tais regras foram montadas por um especialista em segurança. Um exemplo de regra usada no

trabalho é: "SE a contagem de hosts destino é ALTA E a contagem de portas usadas é

MÉDIA-BAIXA ENTÃO a possibilidade de um ataque tipo scan é ALTA".

Lourenço (1998) propõe em seu trabalho o uso de regras nebulosas como aprimoradoras

de um processo estatístico de previsão. Seu trabalho será analisado na Seção 2.6.

- 17 -

2.6 COMBINAÇÃO DE PROCEDIMENTOS ESTATÍSTICOS E DE

INTELIGÊNCIA COMPUTACIONAL

O trabalho apresentado em Lourenço (1998) descreve um modelo de previsão de curto

prazo de carga elétrica reunindo técnicas de inteligência computacional e métodos estatísticos.

O modelo é composto de três módulos: um classificador, um previsor e um aprimorador de

previsão.

O classificador é implementado por redes neurais artificiais com aprendizado não-

supervisionado do tipo self-organizing maps (SOM). Sua função é incorporar sazonalidades

da série temporal de interesse a partir de categorias criadas com os dados de entrada,

agrupando dias com características semelhantes de carga elétrica no sistema. As informações

dos grupos são utilizadas posteriormente pelo previsor e pelo aprimorador de previsão.

O módulo previsor emprega modelos estatísticos, combinando métodos de média

móvel, amortecimento exponencial e auto-regressivos. O terceiro módulo consiste de um

sistema de lógica nebulosa, utilizando variáveis climáticas explicativas (temperatura,

luminosidade, precipitação, etc) no aprimoramento da previsão obtida. Permite dessa forma

introduzir variáveis causais, em linguagem natural, para tentar justificar alguns

comportamentos da carga e assim melhorar a previsão.

Haft et al. (1998) propõem o uso de três métodos com combinação de técnicas para a

detecção de fraudes: redes neurais com treinamento supervisionado, estimação de densidade

de probabilidade por misturas gaussianas e redes bayesianas juntamente com a aplicação da

regra de Bayes. As três técnicas são usadas em paralelo e de forma independente pelos

autores. Uma descrição mais detalhada do trabalho será feita na Seção 2.8.

- 18 -

2.7 PROCESSOS DE TRABALHO PARA A EXECUÇÃO DE

MINERAÇÃO DE DADOS

A principal metodologia encontrada, apresentada em Chapman et al. (2000), foi o

modelo CRISP-DM (CRoss-Industry Standard Process for Data Mining), o qual organiza o

trabalho de mineração em um conjunto de tarefas descritas em quatro níveis de abstração:

fases, tarefas genéricas, tarefas específicas e instâncias de processo. No nível mais elevado,

suas principais fases são: compreensão do negócio, compreensão dos dados, preparação dos

dados, modelagem, avaliação e implantação. Trata-se de um processo iterativo e cíclico, com

possibilidade de movimentação entre as fases e processos subseqüentes. A metodologia

CRISP-DM, escolhida para guiar a parte prática da Tese, será melhor detalhada na Seção 3.6.

Em Goldschmidt e Passos (2005) é sugerida uma metodologia dividida em cinco etapas,

executadas em quatro momentos. No primeiro momento define-se o que fazer sobre a base de

dados, executando as etapas de "levantamento inicial", responsável pelo exame preliminar da

base de dados, e de "definição de objetivos", responsável pela identificação das tarefas de DM

a serem executadas e formulação de requisitos quanto ao modelo de conhecimento. No

segundo momento define-se como será feita a mineração, através da etapa "planejamento das

atividades", a qual é responsável pela definição dos planos de ação associados aos objetivos

escolhidos. No terceiro momento, englobado na etapa de "execução dos planos de ação",

aplicam-se os métodos de KDD. No quarto e último momento ocorre a etapa de "avaliação de

resultados". A metodologia é iterativa e interativa, permitindo o retorno a etapas anteriores

buscando melhores resultados.

Kantardzic (2003) define o processo de mineração de dados em um conjunto de cinco

passos. No primeiro é estabelecido o problema a ser abordado e formuladas as primeiras

hipóteses, ressaltando a necessidade da interação entre o especialista em DM e o especialista

- 19 -

na aplicação. O segundo passo proposto consiste na coleta de dados que, segundo o autor,

divide-se na geração controlada de dados pelo especialista e na coleta observacional, sem a

influência do especialista. O terceiro passo é o pré-processamento dos dados, citando

exemplificativamente as tarefas de detecção de outliers, modificação de escala, codificação e

seleção de atributos. O quarto passo é a estimação de modelos, através da implementação de

técnicas de DM, e a seleção do modelo mais apropriado para o problema. O quinto e último

passo é a interpretação do modelo para a extração de conclusões, destacando a importância de

que o modelo criado seja compreensível, de forma a subsidiar com segurança a tomada de

decisões.

2.8 EMPREGO PRÁTICO DE TÉCNICAS AUTOMÁTICAS PARA A

DESCOBERTA DE IRREGULARIDADES

Em Bolton e Hand (2002) é feito um estudo das principais áreas onde são necessárias

técnicas estatísticas e de aprendizado de máquina para detecção de fraude. São citadas as

áreas de fraude em cartões de crédito, lavagem de dinheiro, fraude em telecomunicações,

intrusão em computadores e fraudes médicas, entre outras.

Uma das principais áreas de emprego prático de técnicas de DM é a detecção de

intrusão, que corresponde a um conjunto de técnicas que podem ser usadas para identificar

ataques a computadores e infra-estruturas de rede (ERZOT et al., 2003). Em seu trabalho, os

autores fazem um estudo comparativo de vários algoritmos usados para detecção de

anomalias, tanto supervisionados como não supervisionados (FRIED et al., 2000).

Em Brugger (2004) é feito um abrangente estudo sobre sistemas IDS, sobre bases de

dados disponíveis para pesquisa e sobre a extração de atributos relevantes para detecção de

intrusão. Alguns métodos de mineração de dados são propostos, ressaltando a importância do

- 20 -

uso conjunto de vários algoritmos para obter-se melhores resultados. De particular interesse

para o presente trabalho é a relação de técnicas apresentadas pela autora. A primeira, técnica

estatística, também chamada "top-down", é empregada quando existe alguma idéia sobre as

relações buscadas, citando-se como exemplos modelos multivariados, processos de Markov,

séries temporais e redes bayesianas. A segunda técnica citada pela autora é o aprendizado de

máquina, também referido como "bottom-up", usado quando se deseja aprender padrões sem

conhecimento a priori sobre os mesmos. São citados como exemplos de técnicas nessa

categoria: geração indutiva de regras, algoritmos genéticos, lógica nebulosa e redes neurais. A

terceira técnica citada refere-se à clusterização, dividida pela autora em clusterização

hierárquica, estatística, por exemplos, baseada em distância e conceitual. A quarta e última

técnica citada é Support Vector Machines (SVM).

Em Steensma et al. (2003) é apresentado um estudo sobre uso inadequado e fraudulento

de cartões de crédito institucionais do Departamento de Defesa Americano. O estudo utiliza

técnicas de mineração de dados para identificar transações de compra com alta probabilidade

de serem abusivas ou fraudulentas. O autor estima que em 2002, no âmbito do Departamento

de Defesa, em torno de 214 mil usuários realizaram aproximadamente onze milhões de

compras, estimadas em 6,6 bilhões de dólares. Através de técnicas de DM, foram

identificados 2.036 usuários com transações suspeitas no segundo semestre de 2001, dos quais

1.357 tiveram suas transações de compra investigadas individualmente por auditores,

resultando em 182 usuários relacionados por uso indevido, totalizando cinco milhões de

dólares em operações fraudulentas.

Seu trabalho traz contribuições no sentido de incorporar a geração de avisos por e-mail

sobre a ocorrência de transações com possíveis irregularidades. Os e-mails, compostos por

formulários, são preenchidos por auditores que informam ser a transação apropriada ou não,

- 21 -

fundamentando tal opinião. As respostas são armazenadas em bases de dados, associadas às

compras para as quais as questões foram formuladas, permitindo a posterior criação de regras

que identifiquem possíveis transações irregulares ou liberem transações aparentemente

anormais, consideradas legais pelos especialistas. Com isso o sistema é realimentado de forma

quase automática, criando um ciclo de correções que levam à melhoria na tomada de decisões.

O autor sugere que o uso intensivo das técnicas de mineração de dados pode levar a

detecção prematura das operações irregulares, permitindo a execução de medidas corretivas e

possivelmente impedindo o gasto indevido. Não foram citadas no trabalho as técnicas de DM

usadas.

Outro trabalho analisado foi o estudo de caso referente ao desenvolvimento de modelos

para o reconhecimento de padrões de insolvência no pagamento de contas de telefones fixos.

Os autores, Ebecken, Evsukoff e Pinheiro (2006), criaram dois modelos com o objetivo de

segmentar os usuários insolventes e realizar a previsão de insolvência baseada em perfis de

comportamento.

O primeiro modelo proposto pelos autores foi um modelo não supervisionado de

clusterização, baseado em SOM, treinado para identificar grupos de usuários insolventes

(atraso no pagamento superior a três dias) com características semelhantes. O treinamento foi

realizado somente com exemplos de insolvência, resultando em cinco grupos com perfis bem

definidos. O objetivo desse primeiro modelo é permitir a adoção de medidas de cobrança

diferenciadas por grupo.

O segundo modelo criado baseou-se em redes neurais tipo Backpropagation, utilizando

treinamento supervisionado e objetivando a predição de insolvência. O treinamento das redes

foi antecedido pela segmentação dos usuários em dez grupos com perfis de comportamento

semelhantes, através de SOM. Cada grupo teve uma rede específica treinada, permitindo uma

- 22 -

melhoria na taxa de identificação das mesmas, principalmente no que se refere a maus

pagadores.

Haft et al. (1998) propõem em seu trabalho três métodos para a detecção de fraude no

uso de telefonia celular, mais especificamente acesso e uso de serviços de forma ilegal. O

primeiro, baseado em redes neurais com treinamento supervisionado, é usado para classificar

os usuários entre possíveis fraudadores e não fraudadores. As informações usadas no

treinamento da rede foram a média e desvio padrão da duração das chamadas, número de

chamadas por dia e duração máxima das chamadas, calculados durante o período de

observação para vários usuários. Os casos de fraude foram marcados para o treinamento da

rede. A saída da rede corresponde à probabilidade do usuário, com o comportamento

caracterizado pelas estatísticas citadas, ser fraudulento ou não. Segundo os autores, esse

método de detecção permite a descoberta de 85% dos casos de fraude sem produzir falsos

alarmes.

O segundo método, um modelo de mistura gaussiana para estimação de densidade de

probabilidade, é usado para modelar o comportamento passado dos usuários da rede, levando

em conta os atributos: número de chamadas e sua duração durante três períodos do dia,

considerando separadamente chamadas locais e de longa distância, resultando em 12

atributos. Cada usuário teve seu modelo customizado a partir de um modelo genérico,

variando a proporção das componentes gaussianas na mistura. Baseando-se no perfil

individual de cada usuário, pode ser avaliado seu comportamento atual, classificando-o como

anômalo ou normal. Segundo os autores, esse método de detecção permite a descoberta de

70% dos casos de fraude sem produzir falsos alarmes.

Os autores propõem ainda um modelo baseado em duas redes bayesianas, a primeira,

modelando um comportamento fraudulento, foi gerada através do conhecimento de um

- 23 -

especialista; a segunda, refletindo um comportamento não fraudulento, foi criada baseada nos

dados disponíveis dos usuários. Esta última sofreu posteriormente adaptações para se adequar

ao comportamento individual de cada usuário. Usando o comportamento atual do usuário

como entrada das duas redes pode-se calcular as probabilidades desse comportamento ocorrer

num contexto de uso normal e fraudulento. Essas probabilidades são utilizadas na regra de

Bayes para inferir a probabilidade de fraude dado o comportamento do assinante. Segundo os

autores, esse método de detecção permite a descoberta de 75% dos casos de fraude sem

produzir falsos alarmes.

- 24 -

3 DESCOBERTA DE CONHECIMENTO

3.1 INTRODUÇÃO

O objetivo do presente capítulo é apresentar as etapas do processo de Descoberta de

Conhecimento em Bases de Dados (Knowledge Discovery in Databases - KDD). Inicialmente

será feita uma breve definição de KDD, abordando os principais termos utilizados na área.

Em seguida será analisado o processo de KDD, descrevendo suas etapas e funções, focando

principalmente nas tarefas da etapa de mineração de dados. A divisão do processo de KDD

em três etapas seguiu a orientação apresentada em Goldschmidt e Passos (2005). Tal divisão

foi espelhada na organização do capítulo, cuidando a Seção 3.3 do pré-processamento, a 3.4

da mineração de dados e a 3.5 do pós-processamento. Ao final do capítulo, na Seção 3.6, será

apresentada a metodologia CRISP-DM.

3.2 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS

Segundo Goldschmidt e Passos (2005), tendo em vista permitir a análise de grandes

quantidades de dados armazenados nos atuais sistemas de informação, de forma automática e

inteligente, surge uma nova área denominada "Descoberta de Conhecimento em Bases de

Dados".

O processo de KDD envolve várias etapas: definição do problema; seleção, limpeza e

pré-processamento dos dados; sua transformação; realização da mineração de dados (DM)

para extrair padrões e relacionamentos; a interpretação dos modelos descobertos e a avaliação

dos resultados. A fronteira precisa da etapa de mineração de dados dentro de KDD é de difícil

determinação uma vez que para alguns o pré-processamento é intrínseco ao procedimento de

DM (HAND; MANNILA; SMYTH, 2001). Para outros, pré-processamento, mineração de

- 25 -

dados e pós-processamento são etapas operacionais que conjuntamente caracterizam o

processo de descoberta de conhecimento (GOLDSCHMIDT; PASSOS, 2005).

A definição apresentada em Goldschmidt e Passos (2005), bem como o restante da

taxonomia utilizada por esses autores serão adotados nesta Tese. O processo de KDD será

dividido para estudo nas três etapas operacionais já citadas: pré-processamento, mineração de

dados e pós-processamento. Cada etapa é decomposta em funções ou tarefas, sendo esta

última a denominação específica adotada para as funções na etapa de mineração de dados.

Funções e tarefas são implementadas através de um conjunto de algoritmos, fundamentados

em técnicas de mineração. A Figura 3-1 apresenta a taxonomia e a relação das principais

funções de cada etapa, além de uma relação exemplificativa de técnicas e algoritmos.

Funções ou Tarefas

Etapas de KDD

Pré-processamento

Seleção de Dados

Enriquecimento

Codificação

Limpeza

Mineração de Dados

Análise de Séries Temporais

Importância de Atributos

Regressão

Classificação

Detecção de Anomalias

Análise de Associações

Clusterização

Análise Exploratória

Pós-processamento

Simplificação doModelo

Organização eApresentação dos

Resultados

Transformação doModelo

Técnicas de MineraçãoMétodos

EstatísticosÁrvores de

DecisãoRegras deAssociação

RedesNeurais

Técnicas deClusterização

AlgoritmosGenéticos

LógicaFuzzy

SériesTemporais

Técnicas Baseadasem Instâncias

Técnicas deVisualização

Raciocínio Baseadoem Casos

Processos deMarkov

AlgoritmosInferênciaBayesiana

C4.5 Apriori SOMK-MeansRule

EvolverWang-Mendel

Box-Jenkins

K-NN Scatter PlotRaciocínio Baseado

em CasosHMM

Figura 3-1: Etapas, funções, técnicas e algoritmos encontrados no processo de KDD

- 26 -

3.2.1 Definições: Data Warehouse, linguagem SQL e ferramentas OLAP/OLTP

Data Warehouse (DW) é um repositório de dados para uma organização, criado a partir

de um conjunto de bases de dados integradas, cujo objetivo é dar suporte à tomada de

decisões estratégicas. Armazena dados históricos da organização, refletindo vários aspectos

do negócio (KANTARDZIC, 2003).

Outra definição de DW, encontrada em Goldschmidt e Passos (2005, p. 165), afirma

que "DW é um conjunto de dados baseados em assuntos, integrados, não-volátil, variável em

relação ao tempo, e destinado a auxiliar em decisões de negócio". Na mesma referência são

citadas duas diferenças entre DW e bases de dados tradicionais, a partir das quais são criados

os DWs. A primeira diferença relaciona-se à granularidade da informação, bases operacionais

armazenam informações detalhadas sobre o negócio em nível transacional, DW armazena

informações consolidadas, em nível adequado para a necessidade das aplicações executadas

sobre ele. Uma segunda diferença diz respeito à atualização da informação, bases de dados

operacionais são atualizadas constantemente, em tempo real, à medida que as transações de

negócio ocorrem, enquanto o DW somente é atualizado no momento da carga de um novo

conjunto de dados, associando nesse momento um novo rótulo temporal às informações

carregadas.

Apesar da existência de um DW não ser pré-requisito para DM, na prática, a tarefa de

mineração torna-se muito mais simples tendo acesso a um DW pois sua existência diminui ou

elimina a fase de preparação de dados para DM, que constitui uma das fases mais demoradas

e trabalhosas do processo (KANTARDZIC, 2003). Como citado em Goldschmidt e Passos

(2005), a passagem de informações do ambiente operacional para o DW exige muitas vezes a

transformação e consolidação de dados, através de ferramentas que facilitam o processo de

extração, transformação e carga.

- 27 -

Uma organização pode ter vários DWs departamentais, chamados Data Marts. Estes são

DWs criados para atender as necessidades de grupos de usuários específicos

(KANTARDZIC, 2003). São, como descrito em Goldschmidt e Passos (2005), porções físicas

ou lógicas do DW da empresa, criadas para atender áreas específicas da organização.

O acesso ao DW pode ocorrer através da linguagem SQL (Structured Query Language),

ferramentas OLAP (On-Line Analytical Processing) ou mineração de dados, estando as três

formas de acesso relacionadas, conforme explicado a seguir.

SQL é uma linguagem utilizada para manipulação de informações em bancos de dados

relacionais. É utilizada quando se sabe exatamente o que se está procurando. Através dela

pode-se impor restrições ou filtros aos dados, extraindo uma determinada informação

específica. De forma diferente, DM é apropriada para consultas exploratórias, através das

quais tenta-se extrair informações ocultas, sobre as quais tem-se pouco ou nenhum

conhecimento. Constata-se portanto que SQL e DM são técnicas complementares de acesso

ao DW (KANTARDZIC, 2003).

Ferramentas e métodos OLAP permitem que usuários analisem dados no DW, provendo

múltiplas visões das informações armazenadas através de técnicas avançadas de visualização.

Nessas visões, às diferentes dimensões dos dados correspondem diferentes características do

negócio. Tanto ferramentas OLAP como DM provêem respostas que são derivadas dos dados,

porém as ferramentas OLAP restringem-se a cálculos realizados sobre os dados, como numa

planilha, não ocorrendo aprendizado ou extração de novas informações. OLAP ajuda o

usuário final a tomar suas próprias conclusões baseadas em dados gráficos condensados. DM

visa à extração de informações novas, não obtidas através de cálculos simples ou

visualizações. Ferramentas OLAP são parte do trabalho de DM mas não substitutas

(KANTARDZIC, 2003).

- 28 -

Cabe por último fazer a distinção entre ferramentas OLAP e OLTP (On-Line

Transactional Processing), estas últimas empregadas para acesso às bases transacionais,

enquanto as primeiras são usadas para acesso ao DW.

3.3 PRIMEIRA ETAPA DE KDD: PRÉ-PROCESSAMENTO

Segundo Goldschmidt e Passos (2005), esta etapa engloba as funções relacionadas à

captação, à organização e ao tratamento dos dados, objetivando a preparação dos mesmos

para a etapa de mineração. Serão abordadas a seguir algumas funções presentes nessa etapa.

3.3.1 Representação dos dados

Em Dillon e Goldstein (1984) é apresentada uma primeira forma de representação dos

dados de entrada para o processo de KDD, considerando três possíveis dimensões para as

informações capturadas: objetos em análise, atributos analisados em cada objeto e o momento

no qual a medida é realizada. Cria-se assim um cubo de dados com três eixos, cada qual

representando um dos elementos descritos acima (objetos, atributos e tempo). Num ponto do

espaço formado pelos três eixos, temos o valor de uma medida realizada (xijk), indicando que

um objeto i tem seu atributo j medido no tempo k. Ver Figura 3-2, primeira representação.

Também em Dillon e Goldstein (1984) é proposta uma segunda forma de representação,

onde a dimensão tempo é eliminada. Essa simplificação é possível, segundo os autores,

quando não ocorre variação temporal nos atributos estudados, quando é feita uma agregação

desses valores, por exemplo calculando a média ao longo do tempo, ou quando o tempo torna-

se simplesmente mais um dos atributos. O cubo de dados apresentado anteriormente reduz-se

a uma matriz de dados, onde cada elemento xij representa o valor medido para o atributo j do

objeto i. Ver Figura 3-2, segunda representação.

- 29 -

Uma terceira forma de representação, apresentada em Berkhin (2002), consiste em

considerar que cada medida ou amostra será representada em um espaço p-dimensional, onde

cada eixo representa um atributo sendo medido e cada ponto no espaço representa a existência

de um objeto com valores de atributos correspondentes às coordenadas do ponto. Para incluir

a dimensão temporal basta incluir um novo eixo representando o tempo, construindo assim

um espaço (p+1)-dimensional. Nessa terceira representação, um conjunto de dados D é

formado por pontos xi, cada qual composto por p atributos, xi = (xi1, ..., xip). Ver Figura 3-2,

terceira representação.

NE

Atributo

Anoxijk

0002 00030001

2003

2004

2005

2006

ND

ML

Atributo

CVML

NE

0003

0002

xij

CV

0001

ML

ND

CV xijk

... 121

1

2

...

9

...

1

100

ND

1o Representação 2o Representação 3o Representação

Figura 3-2: Formas de representação propostas para os dados de entrada

Uma quarta e última forma de representar os dados de entrada corresponde a uma

modificação da terceira representação. Considerando ainda um espaço p-dimensional, cada

eixo correspondendo a um dos p atributos analisados, ao invés de considerar cada ponto do

espaço como indicativo da existência de um objeto, pode-se considerar que cada ponto do

espaço registra o número de ocorrências de objetos com idêntica combinação de medidas,

calculado durante um intervalo de tempo.

A quarta representação foi a adotada no trabalho, tendo sido estudadas notas de

empenho (objetos), realizando-se medidas sobre o valor das notas, modalidade de licitação e

natureza da despesa (atributos), ao longo de quatro anos (tempo), cada ponto do espaço

- 30 -

consolida o número de notas emitidas com igual valor para os três atributos durante

determinado intervalo de tempo.

3.3.2 Tipos de variáveis

Segundo Kantardzic (2003), uma divisão básica das variáveis usadas em DM são

variáveis numéricas e categóricas. As primeiras incluem variáveis reais ou inteiras, citando

como exemplos: idade, comprimento, etc. Variáveis categóricas incluem símbolos utilizados

para representar um conjunto discreto de valores, listando como exemplos: sexo, país, cor,

etc. Segundo o autor, as variáveis numéricas possuem as propriedades de igualdade (a = b),

ordenação (a > b) e distância (d(a,b)). As variáveis categóricas só possuem obrigatoriamente

a propriedade de igualdade, podendo em algumas situações possuir ordenação e/ou distância.

Em Dillon e Goldstein (1984), Frank e Witten (2005) e Kantardzic (2003) é colocada

uma classificação mais apurada em relação aos tipos das variáveis. Partindo de dois grupos

básicos: variáveis contínuas (quantitativas ou métricas) e variáveis discretas (qualitativas), são

elas subdivididas em cinco grupos segundo suas propriedades, conforme apresentado na

Tabela 3-1.

Numa aplicação típica de DM são usados vários tipos de variáveis simultaneamente

(qualitativas e quantitativas), tomando o cuidado de escolher os algoritmos adequados para

cada uma, ou transformando variáveis qualitativas em quantitativas ou vice-versa, de acordo

com o algoritmo escolhido.

- 31 -

Tabela 3-1: Classificação das variáveis segundo Kantardzic (2003), Frank e Witten (2005) e Dillon eGoldstein (1984)

Características Exemplos Propriedades suportadas

Esc

ala

dein

terv

alo O ponto zero é colocado

arbitrariamente emqualquer posição.

Datas.

Igualdade, ordenação edistância, com restrições a

algumas operações (não fazsentido considerar o dobro

do ano 1990).

Con

tínu

as, q

uant

itat

ivas

ou m

étri

cas

Esc

ala

dera

zão

Possui um zero absoluto.Comprimento e

tempo decorrido.Igualdade, ordenação e

distância.

Esc

ala

nom

inal Usa símbolos, caracteres

ou números pararepresentar diferentes

estados ou classes.

Cep. Igualdade.

Esc

ala

ordi

nal Semelhantes à escala

nominal, incluindo oconceito de ordenação.

Nível deescolaridade.

Igualdade e Ordenação.

Dis

cret

as o

u qu

alit

ativ

as

Per

iódi

cas

Semelhante à escalanominal, incluindo oconceito de distância.

Dias da semana oudo mês (não

constituindo umadata completa).

Igualdade e Distância.

3.3.3 Seleção e redução dos dados

A função de seleção tenta identificar as informações mais relevantes para o processo de

KDD entre as existentes na base de dados. De forma simplificada, pode ser implementada

através da seleção das tabelas de banco a serem utilizadas. Essa seleção encontra-se muitas

vezes relacionada ao conhecimento do especialista na área em análise. Como exemplo, neste

trabalho coube ao especialista definir as tabelas a serem exportadas do Siafi, que trariam

maior contribuição para a detecção de anomalias no tratamento de notas de empenho.

Depois de selecionadas as tabelas mais relevantes para a análise do problema, pode-se

ainda realizar uma segunda etapa de seleção, através da escolha de atributos (redução vertical)

e seleção de registros (redução horizontal).

- 32 -

Na redução vertical tenta-se selecionar um subconjunto de atributos entre os disponíveis

para a análise. Essa seleção pode servir para diminuir o tempo e complexidade dos

procedimentos de KDD, permitir que determinados algoritmos possam ser utilizados (em

função dos tipos de dados permitidos pelo algoritmo) e criar modelos de conhecimento mais

concisos e precisos. Neste trabalho, foi feita a redução vertical na escolha dos campos

referentes à emissão de notas que seriam analisados.

Caso não se disponha de um especialista para fazer a seleção, pode-se utilizar duas

técnicas na redução de atributos: Análise de Componentes Principais (Principal Component

Analysis – PCA) e Análise de Fatores (Factor Analysis). Segundo o exposto em Dillon e

Goldstein (1984), o objetivo primário do PCA é construir uma combinação linear das

variáveis originais que seja responsável pela maior parte possível do total de variação

decorrente das variáveis originais. Na análise de fatores o interesse fica centrado na parte da

variação total que uma variável em particular compartilha com as demais variáveis do

conjunto original. Um exemplo da utilização de PCA neste trabalho pode ser visto no

Apêndice E.

Na redução horizontal, tenta-se reduzir o número de registros a serem trabalhados no

processo de KDD. Essa redução pode ocorrer pela escolha (aleatória ou não) de um conjunto

de registros ou pela agregação de informações, que permite sumarizar um conjunto de casos

num único registro. Neste trabalho, a redução horizontal ocorreu mediante a agregação de

informações, conforme exposto na Seção 3.3.1 (quarta forma de representação).

Outro procedimento útil para a redução de dados é a redução de valores, que consiste

em diminuir o universo de possíveis valores de um atributo, reduzindo ou não o número de

registros. No caso de variáveis nominais pode-se usar um processo de abstração, substituindo

os valores originais, mais detalhados, por valores genéricos, com redução de atributos. Por

- 33 -

exemplo, pode-se substituir um conjunto de atributos referentes a endereço por um único

atributo contendo a cidade. Pode-se também substituir valores específicos por genéricos, sem

redução do número de atributos, por exemplo substituindo peças de vestuário (tênis, sapato,

etc) por um valor genérico (calçado). No caso de variáveis não nominais pode-se substituir os

valores originais por outros que representem faixas de valores.

Neste trabalho, as duas técnicas anteriores de redução de valores foram usadas. Na

categorização dos valores das notas de empenho, foram criadas faixas de valores, conforme

exposto na Seção 7.3. Na categorização da natureza da despesa foi proposta a utilização de

valores genéricos para substituir os valores originais, conforme apresentado na Seção 8.2.3.

3.3.4 Limpeza de dados

Tenta assegurar a qualidade dos dados selecionados. Procura corrigir informações

ausentes, inconsistentes e errôneas. São exemplos de casos que necessitam de limpeza:

valores que fujam do padrão normal do atributo (outliers), registros com discrepâncias entre

os valores de seus atributos e por último valores fora do domínio do atributo.

A limpeza de outliers merece um comentário especial pois nem sempre sua retirada é

adequada para o procedimento de mineração. Por exemplo, o objetivo do presente trabalho é a

detecção de anomalias, ou seja, localização de outliers dentro do conjunto de dados. Assim

sendo, não deve ser feita a retirada indiscriminada desses elementos na fase de pré-

processamento, pois o objetivo das tarefas de mineração de dados (próxima fase do KDD) é

justamente sua detecção.

3.3.5 Codificação

Torna os dados compatíveis para serem usados como entradas para os algoritmos de

mineração de dados. O procedimento de codificação divide-se em transformação de variáveis

- 34 -

numéricas em categóricas e vice-versa. Um exemplo da primeira, já citado na redução de

dados, consiste em codificar valores em categorias representando faixas. Exemplos de

codificação de variáveis categóricas em numéricas ocorrem na codificação de estado civil,

sexo, etc.

Neste trabalho, como citado anteriormente, ocorreu a categorização por faixa dos

valores das notas de empenho (Seção 7.3). Outra codificação realizada foi a transformação

dos valores da natureza da despesa, originalmente uma variável categórica, em uma variável

numérica.

3.4 SEGUNDA ETAPA DE KDD: MINERAÇÃO DE DADOS

Segundo Kantardzic (2003), mineração de dados é a busca por informações novas e não

triviais em grandes volumes de dados. É um esforço cooperativo de homens e computadores.

Melhores resultados são alcançados com o balanceamento do conhecimento humano, na

descrição dos problemas e objetivos, com a capacidade de busca dos computadores. Ainda

segundo a mesma referência, DM é um processo de descoberta de modelos, sumários e

valores, derivados a partir de uma coleção de dados.

Em Hand, Mannila e Smyth (2001), DM é definida como a análise de grandes conjuntos

de dados com o objetivo de encontrar relacionamentos ocultos e sumarizar os dados de forma

que sejam compreensíveis e úteis. Os relacionamentos e sumários obtidos através de DM são

normalmente chamados de modelos ou padrões (patterns).

Segundo Larose (2005), DM é o processo de descoberta de correlações, padrões e

tendências através da pesquisa em grandes repositórios de dados, usando tecnologias de

reconhecimento de padrões assim como técnicas estatísticas e matemáticas.

- 35 -

3.4.1 Tarefas da etapa de Mineração de Dados

A Tabela 3-2 apresenta as principais tarefas de DM estudadas. Na primeira coluna da

tabela é feita a junção de tarefas em macro-atividades, a serem estudadas conjuntamente nas

seções referenciadas.

Tabela 3-2: Tarefas de mineração de dados. As referências citadas são: A – Taft et al. (2005); B – Ye(2003); C – Kantardzic (2003); D – Hand, Mannila e Smyth (2001); E – Frank e Witten (2005); F – Larose(2005); G – Bay et al. (2000); H – Goldschmidt e Passos (2005); I – Chapman et al. (2000)

ReferênciasSeção

Tarefas, problemas ou funções daetapa de mineração de dados A B C D E F G H I

0 Análise de séries temporais X X

3.4.1.2 Classificação X X X X X X X X X

3.4.1.3 Regressão X X X X X X

Extração de características X3.4.1.4

Importância de atributos X X

3.4.1.5 Detecção de anomalias ou desvios X X X X X

3.4.1.6 Clusterização ou segmentação X X X X X X X X

Descoberta de seqüências X

Análise, descoberta, descrição oumodelagem de associações

X X X X X3.4.1.7

Análise ou modelagem dedependências

X X X

Identificação de similaridades X

Descoberta de padrões X X X

Descrição de dados X X

Descrição de conceitos X

Sumarização X X X

3.4.1.8

Análise exploratória X X

- 36 -

Conforme apresentado na tabela, é conveniente categorizar os procedimentos de DM

através de tarefas, que correspondem aos diferentes objetivos do analista. De modo geral,

cada tarefa de KDD extrai um tipo diferente de conhecimento da base de dados, logo cada

tarefa requer um conjunto de algoritmos diferentes para a extração de conhecimento (LOPES,

1999).

3.4.1.1 Análise de Séries Temporais

Segundo Valente (1995, p. 5), "Uma série temporal {xt} é uma família de variáveis

aleatórias assumindo valores em R, indexadas por t ∈ Z, onde R denota o conjunto dos

números reais e Z o conjunto dos números inteiros". Segundo o autor, pode ser decomposta

em quatro movimentos básicos: tendência geral, movimentos cíclicos (periódicos ou não),

movimentos sazonais e movimentos randômicos.

A análise de séries temporais é usada para prever o valor de atributos contínuos ao

longo do tempo, modelando tendências e comportamentos cíclicos (YE, 2003). Além de

previsão, esta tarefa pode ser usada para descrição, caracterizando a série através de

informações sobre autocorrelação, modelo da série, sazonalidade, estacionariedade, etc.

3.4.1.2 Classificação

Segundo Goldschmidt e Passos (2005, p. 13), "[...] consiste em descobrir uma função

que mapeie um conjunto de registros em um conjunto de rótulos categóricos predefinidos,

denominados classes". Posteriormente a função criada pode ser empregada para a

classificação de novos registros. As classes predefinidas podem ter sido criadas por separação

manual, feita por especialista no domínio, ou de forma automática, por técnicas de

segmentação.

Na classificação, exemplos ou casos, constituídos por um conjunto de atributos

independentes e um ou mais atributos dependentes, são separados em categorias (classes) que

- 37 -

representam os possíveis valores discretos do atributo dependente. Pode-se ter uma

classificação binária, quando o atributo dependente só assume dois valores, ou classificação

de múltiplas classes. O atributo de saída pode ter valores numéricos (representando as

categorias) ou propriamente categóricos. Os atributos de entrada podem ser categóricos ou

contínuos.

O processo de aprendizado dos algoritmos de classificação é normalmente

supervisionado pois durante o treinamento deve-se informar as categorias correspondentes à

variável dependente. Posteriormente o modelo treinado pode ser usado para previsão.

O processo de classificação pode ser interpretado também como reconhecimento de

padrões. Um conjunto de atributos (representando um padrão) é fornecido e o método de DM

deve verificar se o padrão de entrada é reconhecido ou não (classificação binária) ou a que

classe pertence determinado padrão.

Uma forma de avaliar o classificador, como descrita em Goldschmidt e Passos (2005), é

através da matriz de confusão, onde cada elemento da matriz xij representa o número de casos

classificados como pertencentes à classe j e que pertençam à classe i. Os elementos da

diagonal da matriz correspondem às classificações corretas enquanto os demais são

classificações erradas. Quando o classificador procura detectar se um elemento pertence ou

não a uma única classe, a matriz de confusão é resumida na Tabela 3-3.

Tabela 3-3: Matriz de confusão para um classificador binário

Verdadeiros PositivosElementos corretamente classificados como

pertencentes à classe

Falsos NegativosElementos pertencentes à classe classificados

erroneamente como não pertencentes

Falsos PositivosElementos não pertencentes à classe

classificados erroneamente como pertencentes

Verdadeiros NegativosElementos não pertencentes à classeclassificados corretamente como tal

- 38 -

3.4.1.3 Regressão

Semelhante à classificação, com o atributo dependente assumindo valores numéricos

(inteiros ou reais) ao invés de categóricos. Na classificação pode-se também utilizar como

saída valores numéricos (representando as categorias) mas sem os conceitos de ordenação e

distância, que caracterizam a regressão. Por outro lado, atributos de saída contínuos podem

ser discretizados, transformando um procedimento de regressão em classificação. O resultado

do processo de aprendizado é uma função que mapeia as variáveis de entrada nos valores reais

da variável dependente.

O processo de aprendizado dos algoritmos para regressão é normalmente

supervisionado pois durante o treinamento deve-se informar os valores correspondentes à

variável dependente. Posteriormente o modelo treinado pode ser usado para previsão.

Regressão pode ser interpretada como uma aproximação de função. Uma função

desconhecida f(x) é representada pelo modelo construído durante o aprendizado, baseado nas

entradas xi e nos valores da função f(xi). Posteriormente, novos valores x' são fornecidos ao

modelo que responde com o valor aproximado f(x'). A função f pode ser válida globalmente

ou caracterizada localmente, pode ser também classificada como linear ou não linear.

3.4.1.4 Importância de atributos e extração de características

A importância de atributos determina quais atributos contribuem mais ou menos para a

classificação ou regressão e posterior predição. Os atributos menos importantes podem ser

retirados do processo de DM tornando-o mais rápido e mais eficiente. A importância de

atributos é tipicamente um procedimento descritivo, que ajuda a detectar os atributos mais

importantes para uma fase posterior do trabalho de DM. Para um exemplo prático consultar o

Apêndice E.

- 39 -

A extração de características objetiva descrever os dados originais baseado numa nova

coleção de características. Uma característica corresponde a uma combinação de atributos da

amostra original.

Conforme descrito por Taft et al. (2005), o objetivo principal de ambas as técnicas é

tornar mais eficiente o procedimento de DM, seja pela redução no número de atributos

originais, seja pela criação de novos atributos que possuam mais informações para o

procedimento de DM.

3.4.1.5 Detecção de anomalias ou desvios

Um primeiro desafio na definição desta tarefa é a conceituação de eventos anormais e

anômalos. Bay et al. (2005, p. 132) resume algumas definições:

"Anomalias são eventos que não são esperados baseado no conhecimento de eventos prévios, os quais são

considerados normais. Como eventos freqüentes são considerados normais, anomalias são usualmente raras.

Baseado em eventos normais, métodos de mineração de dados podem gerar, de forma automática, modelos de

normalidade para identificar desvios, os quais podem ser considerados anomalias".

"Uma anomalia é um evento que desvia substancialmente de um modelo conhecido em algum domínio.

Anomalias são eventos gerados por um processo que é significativamente diferente do processo conhecido".

"Anomalias são observações com baixa tendência de ocorrência com respeito ao modelo considerado

como gerador das observações e com respeito também às demais observações disponíveis".

Na detecção de anomalias normalmente não se tem informação sobre a classe anômala,

só sobre a classe "normal". Cria-se então um perfil para a classe normal e analisa-se o desvio

dos exemplos em relação a essa classe. Se houvesse informações suficientes sobre as duas

classes, poder-se-ia criar modelos para ambas, usando um processo de classificação simples.

Por outro lado, quando não existem exemplos suficientes da classe anômala, não se pode criar

um modelo adequado para representá-la, pode-se apenas trabalhar com o modelo da classe

"normal" e inferir um limite para o desvio em relação a essa classe. Elementos que se afastam

da classe normal mais que o limite preestabelecido são considerados como "outliers".

- 40 -

Segundo Goldschmidt e Passos (2005), a detecção de anomalias difere das demais

tarefas de KDD em relação à informação buscada. Enquanto as demais tarefas procuram

descobrir padrões repetitivos, a detecção de anomalia procura descobrir padrões com pouca

ocorrência, que sejam suficientemente distintos dos demais padrões normalmente registrados.

A detecção de anomalias é o principal objetivo da parte prática desta Tese, sendo

empregada na detecção de indícios de irregularidades na emissão de notas de empenho. Esse

tema será apresentado no Capítulo 9.

3.4.1.6 Segmentação ou clusterização

Determina agrupamentos naturais ou clusters baseado em um conjunto de exemplos de

entrada. Um cluster é uma coleção de objetos similares segundo algum critério (por exemplo

distância euclidiana). Bons algoritmos de clusterização maximizam a similaridade intracluster

e reduzem a similaridade intercluster.

A segmentação pode eventualmente ser feita manualmente, baseando-se na experiência

do especialista no domínio da aplicação e possivelmente nos resultados da sumarização.

Quando realizado através de técnicas de clusterização, é um processo não supervisionado pois

o algoritmo busca determinar automaticamente as categorias ou clusters existentes nos dados

sem usar nenhuma informação prévia sobre a qual cluster os dados pertencem. A vantagem do

uso da clusterização em comparação com a segmentação manual é a possibilidade de detectar

estruturas ocultas, anteriormente não detectadas pelo especialista.

Clusterização difere da classificação. Nesta última o objetivo é a criação de modelos

que permitam a classificação de objetos entre classes já conhecidas. A clusterização objetiva

identificar as classes desconhecidas, e não necessariamente criar modelos para classificação.

- 41 -

A segmentação pode também ser usada para simplificar a aplicação de outras técnicas

de DM. Através da formação de grupos homogêneos torna-se mais fácil a aplicação de outras

técnicas de DM individualmente em cada grupo.

Uma variante do procedimento de clusterização tradicional é chamada targeted

clustering, na qual tenta-se criar clusters que sejam diferenciados em relação ao valor de um

determinado atributo, normalmente de significado expressivo para o negócio. No processo de

clusterização normal, os agrupamentos criados, apesar de distintos segundo a métrica

escolhida, podem não ter significado para o negócio. A criação de clusters segundo

determinadas variáveis pode ser feito elevando o valor de determinados atributos segundo a

métrica utilizada.

Segundo Goldschmidt e Passos (2005), o processo de clusterização normalmente requer

que o usuário do algoritmo informe o número de agrupamentos desejado. O algoritmo de

clusterização procura então separar os registros entre o número de grupos informado. Caso o

número não corresponda a agrupamentos reais, o algoritmo poderá criar grupos com baixo

número de elementos, que não representam agrupamentos reais. Por isso o procedimento pode

ser iterativo, fazendo várias tentativas com números diferentes de clusters até que se chegue a

grupos que caracterizem efetivamente os dados reais. Para tanto é necessário estabelecer

medidas de desempenho que indiquem a qualidade dos agrupamentos definidos pelo

algoritmo.

Os algoritmos usados na tarefa de clusterização serão estudados na Seção 4.3. Seu

emprego prático na Tese será apresentada no Capítulo 7, consistindo na criação de

agrupamentos de órgãos públicos com procedimentos semelhantes na execução da despesa.

- 42 -

3.4.1.7 Análise de associações ou dependências e padrões seqüenciais

Segundo Goldschmidt e Passos (2005, p. 13), "representam a busca por itens que

freqüentemente ocorram de forma simultânea em transações de banco de dados". Segundo

Chapman et al. (2000), consiste em encontrar modelos que descrevam dependências ou

associações entre itens de dados ou eventos.

É bastante utilizado na análise de cesta de compras, onde são inferidas correlações entre

produtos comprados simultaneamente. Essas informações são usadas posteriormente para

marketing, disposição de produtos em lojas, criação de catálogos (TAFT et al., 2005).

Outra área de emprego da técnica é na análise de navegação em páginas Web. No caso

tenta-se detectar que caminhos são mais comuns durante a navegação. Com isso pode-se criar

menus personalizados ou caminhos mais curtos para a informação (TAFT et al., 2005).

Regras de associação têm o formato YX → , onde X e Y são conjuntos de itens, e a

ocorrência dos itens em X induz a ocorrência dos itens em Y. Dois conceitos importantes em

relação a regras são suporte e confiança. O primeiro indica a freqüência mínima de ocorrência

conjunta de X e Y em relação ao total de registros para que a regra seja aceita. Confiança é a

freqüência com que Y aparece como conseqüente em relação a X para que a regra seja válida.

Na análise de associações descobre-se correlações entre atributos sem levar em conta

ordenação ou tempo. Segundo Goldschmidt e Passos (2005), a descoberta de seqüências é

uma extensão da tarefa de descoberta de associações, buscando não somente a co-ocorrência

de itens mas seqüências de itens semelhantes em várias transações ocorridas ao longo do

tempo.

3.4.1.8 Sumarização e análise exploratória

Segundo Chapman et al. (2000), a sumarização tenta identificar descrições mais

compactas e concisas sobre o conjunto de dados. A análise exploratória objetiva compreender

- 43 -

a natureza dos dados e encontrar hipóteses para informações ocultas. Para ambas é

conveniente que sejam realizadas nas etapas iniciais do processo de KDD pois subsidiam

outras tarefas de DM.

Algumas vezes podem ser o objetivo principal de um projeto de DM embora na maioria

das vezes seja apenas um dos primeiros passos do projeto. São normalmente procedimentos

não supervisionados, iterativos, sem um objetivo definido a não ser obter maior conhecimento

sobre os dados em análise.

Utilizam normalmente ferramentas visuais e estatística descritiva. Pode-se também usar

técnicas de amostragem para analisar grandes massas de dados (HAND; MANNILA;

SMYTH, 2001). Segundo Goldschmidt e Passos (2005), a sumarização pode ser casada com a

clusterização, aplicando a primeira a cada agrupamento definido pela clusterização.

A sumarização e análise exploratória foram largamente usadas neste trabalho para

permitir a compreensão do funcionamento da Administração Pública no que se refere à

emissão de notas de empenho. O Capítulo 7 concentra-se na execução dessas duas tarefas de

mineração de dados. Tal compreensão do funcionamento da Administração foi fundamental

para a criação dos modelos matemáticos, apresentados no Capítulo 8, que permitiram a

posterior detecção de anomalias por desvios de comportamento em relação aos modelos,

realizada no Capítulo 9.

3.4.2 Métodos e Técnicas de Mineração de Dados

Segundo Goldschmidt e Passos (2005, p. 17), "[...] técnica de KDD se refere a qualquer

teoria que possa fundamentar a implementação de um método de KDD [...]". Métodos de

KDD são tratados na literatura indistintamente como "Técnicas de KDD" ou "Metodologias

de KDD". Tais métodos ou técnicas servem para executar as tarefas de DM descritas

- 44 -

anteriormente. Aos métodos de mineração correspondem normalmente determinados

algoritmos.

A Tabela 3-4 apresenta alguns métodos ou técnicas encontrados na pesquisa

bibliográfica, relacionando-os com as tarefas de DM anteriormente citadas. Muitas vezes as

técnicas se confundem com as tarefas e com os algoritmos correspondentes. Procurou-se, na

medida do possível, manter a taxonomia adequada na criação da tabela.

Tabela 3-4: Técnicas de mineração de dados aplicadas por tarefas. As tarefas são: 1 – Séries temporais; 2 -Classificação; 3 - Regressão; 4 – Importância de atributos; 5 – Detecção de anomalias; 6 - Clusterização; 7– Análise de associações e dependências; 8 – Análise exploratória. As referências citadas são: A – Taft etal. (2005); B – Ye (2003); C – Kantardzic (2003); D – Hand, Mannila e Smyth (2001); E – Frank e Witten(2005); F – Larose (2005); G – Bay et al. (2000); H – Goldschmidt e Passos (2005); I – Chapman et al.(2000); J – Lopes (1999); L – Zhang (2001); M – Baras e Radosavac (2003); N – Ye (2000); O – Radamas(2003); P - Ankerst (2000); Q – Wangenheim e Wangenheim (2003)

Tarefas de Mineração de DadosTécnicas de Mineração de Dados

1 2 3 4 5 6 7 8

Métodos estatísticos (B, C, E, F, H, J) X X X X X X X

Técnicas de clusterização (C, D, E, I) X

Árvores e regras de decisão(A, B, C, E, F, H, I, J)

X

Regras de associação (B, C, D, E, F) X

Redes neurais (B, C, E, F, H, I, J, O) X X X X X

Algoritmos genéticos (C, H, I, J) X X

Inferência nebulosa (C, H, J) X

Análise de séries temporais (B) X

Técnicas baseadas em instâncias (E, H) X

Técnicas de visualização (I, P) X X X X

Raciocínio baseado em casos (I, Q) X

Processos de Markov (B, L, M, N) X X X

- 45 -

Não serão analisadas todas as técnicas citadas. Algumas delas, que servem para

fundamentar os algoritmos efetivamente usados no trabalho, serão estudadas no Capítulo 4.

3.4.3 Algoritmos

Conforme citado em Goldschmidt e Passos (2005, p. 52), "[...] a etapa de mineração de

dados compreende a aplicação de algoritmos sobre os dados procurando abstrair

conhecimento". A escolha dos algoritmos é impactada por vários fatores: o tipo de variável de

entrada, a forma de representação do conhecimento produzido e o tipo de aprendizado

utilizado.

O tipo de variável de entrada é relevante para a escolha pois determinados algoritmos

possuem restrições sobre os tipos de valores com que conseguem trabalhar. Alguns algoritmos

só aceitam variáveis categóricas, outros aceitam somente numéricas. O tipo da variável,

embora aceito pelo algoritmo, pode influenciar em seu desempenho. Uma forma de conciliar

os tipos de variáveis com o algoritmo escolhido é atuar na etapa de pré-processamento,

através da transformação de dados.

Em relação à representação do conhecimento, pode ser necessário que o modelo criado

pelo algoritmo seja compreensível pelo especialista no negócio. Modelos como os criados por

redes Backpropagation não são diretamente interpretáveis, diferente dos modelos criados por

árvores e regras de decisão. Para contornar esse problema, pode-se atuar na fase de pós-

processamento, através da transformação de modelos.

Por fim, deve-se analisar na escolha do algoritmo o tipo de aprendizado. Algoritmos de

mineração de dados normalmente aprendem a partir dos exemplos disponibilizados numa base

de treinamento. Esses exemplos podem conter ou não informações sobre a saída esperada para

cada registro. Em função dessa informação, divide-se o aprendizado em supervisionado e não

supervisionado.

- 46 -

O aprendizado supervisionado é usado para estimar uma dependência desconhecida

entre entradas e saídas conhecidas. Os algoritmos supervisionados, baseando-se em valores de

entrada e nos respectivos valores de saída, criam um modelo que relaciona ambos os valores.

Classificação e regressão são exemplos de tarefas nas quais utiliza-se esse tipo de algoritmo

(KANTARDZIC, 2003).

No aprendizado não supervisionado somente os valores de entrada são apresentados ao

algoritmo, não sendo fornecidos os valores de saída correspondentes. Cabe ao algoritmo

construir um modelo que represente a estrutura "natural" ou relacionamentos implícitos

existentes entre as variáveis de entrada. Neste tipo de algoritmo não existe um "professor"

fornecendo as saídas correspondentes às entradas, daí o nome não supervisionado

(KANTARDZIC, 2003).

Para simplificar a análise dos algoritmos, convém agrupá-los em técnicas genéricas, que

correspondem às teorias que fundamentaram a criação dos mesmos. Outra classificação

importante diz respeito às tarefas de mineração de dados nas quais os algoritmos são

utilizados.

Está fora do escopo deste trabalho realizar uma análise detalhada dos algoritmos

citados. Na Tabela 3-5 são apresentados algoritmos, as técnicas nas quais estão embasados e

as referências para obtenção de maiores detalhes sobre cada um deles. A relação apresentada é

meramente exemplificativa, não englobando todos os possíveis algoritmos associados a cada

técnica.

No Capítulo 4 serão apresentados com maiores detalhes os algoritmos efetivamente

utilizados neste trabalho, com o aprofundamento mínimo necessário para a compreensão do

restante do trabalho. Mesmo nesses casos recomenda-se consultar as referências aqui

apresentadas.

- 47 -

Tabela 3-5: Relação entre algoritmos e técnicas de mineração de dados. As referências citadas são: A –Taft et al. (2005); B – Ye (2003); C – Kantardzic (2003); D – Hand, Mannila e Smyth (2001); E – Frank eWitten (2005); F – Larose (2005); G – Bay et al. (2000); H – Goldschmidt e Passos (2005); I – Chapman etal. (2000); J – Lopes (1999); L – Zhang (2001); M – Baras e Radosavac (2003); N – Ye (2000); O –Radamas (2003); P - Ankerst (2000); Q – Kohonen (2001)

Técnicas Exemplos de algoritmos com as respectivas referências

Métodos estatísticos

Inferência bayesiana (B, C, E, H, A, J); Regressão/classificação lineare logística (C, E); Análise multivariada (F); ANOVA (C); Linear

discriminant analysis (C); PCA (B, D); Factor Analysis; MinimumDescription Length (A)

Técnicas declusterização

Por divisão, aglutinação, partição e incremental (C); Estimativa dedensidade (D); K-Means (E, F, H, A); O-Cluster (A)

Árvores e regras dedecisão

CLS (C); ID3 (C, J); C4.5 (C, F, H); C5.0 (E, F); CART –Classification and Regression Trees (F);

Regras de associaçãoApriori (C, F, H, A, J); GSP (H); DHP (H); Basic (J); Cumulate (J);

Stratify (J); Estimate (J); EstMerge (J);

Redes neuraisSelf-Organizing Maps (C, F, H, O, Q); Backpropagation (E, F, H);

RBF – Radio-Basis Function (E, J); SVM (H, A); Redes neuraisprobabilísticas (J)

Algoritmosgenéticos

Rule evolver (H, J)

Inferência nebulosa Wang-Mendel (H)

Análise de sériestemporais

Box-Jenkins (I)

Técnicas baseadasem instâncias

K-Nearest Neighbors (E, F, H, I)

Técnicas devisualização

Algoritmos geométricos (scatter plot, survey plot), baseados em ícones(stick figure, Chernoff's faces), baseados em pixels e hierárquicos

(Dimensional stacking) (C, P)

Processos de MarkovHiden Markov Processes (B); Hidden Markov Model (L, M); Cadeias

de Markov (N)

3.5 TERCEIRA ETAPA DE KDD: PÓS-PROCESSAMENTO

Segundo Goldschmidt e Passos (2005, p. 55), "[...] envolve a visualização, a análise e a

interpretação do modelo de conhecimento gerado pela etapa de mineração de dados". Como

exemplos de operações realizadas nessa etapa, pode-se citar: simplificação do modelo,

transformação do modelo e apresentação dos resultados.

- 48 -

A representação do conhecimento, fruto do procedimento de KDD é de particular

importância nesta fase do processo. Segundo Passos (1989), representação do conhecimento é

um conjunto de convenções sintáticas e semânticas que possibilitam descrever coisas. As

primeiras especificam os símbolos que podem ser usados e as maneiras como podem ser

arranjados. As convenções semânticas especificam os significados incorporados nos símbolos.

Em Frank e Witten (2005) é utilizado o termo "representação de padrões", indicando o

resultado do processo de aprendizado de máquina, realizado através de um conjunto de

técnicas aplicadas aos dados de entrada. A seguir serão descritas algumas das principais

formas de representação do conhecimento.

3.5.1 Linguagens de programação

Segundo Passos (1989), são a representação de procedimentos voltados para a solução

de problemas específicos. Sua sintaxe é normalmente especificada pela forma de Backus-

Naur (BNF - Backus-Naur-Form), conforme descrito em Norvig e Russell (2004), e sua

semântica pela descrição de como os comandos da linguagem são usados para obter algo.

3.5.2 Redes semânticas

Segundo Passos (1989, p. 43), "[...] modela o conhecimento como um conjunto de

pontos chamados nós ou nodos, conectados por ligações chamadas arcos [...]". Nodos

representam objetos, conceitos ou eventos. Arcos representam relações entre os nodos, por

exemplo: "é um" e "é parte".

3.5.3 Lógica matemática

Segundo Passos (1989, p. 29), "[...] é o estudo matemático e filosófico mais antigo

sobre a natureza do raciocínio e do conhecimento [...]". Sua forma mais simples é a lógica

proposicional ou sentencial, na qual as expressões, chamadas proposições, podem assumir os

- 49 -

valores "falso" e "verdadeiro". Proposições simples podem ser combinadas por conectores

lógicos (E, OU, Não, Implica, Equivale) para formar proposições compostas.

A lógica de predicados, também chamada de lógica de primeira ordem, estende o poder

de representação da lógica proposicional, permitindo não só expressar proposições

verdadeiras ou falsas, como também objetos e generalizações sobre classes de objetos.

Através de um motor de inferência, usando conhecimento dedutivo da lógica (resolução,

modus ponens, etc), a representação será usada para fazer deduções.

3.5.4 Árvores de decisão

Como apresentado em Frank e Witten (2005), árvores de decisão são formadas por nós

ligados por arcos. Cada nó realiza o teste de um ou mais atributos dos dados de entrada. Os

testes são feitos através de comparações com constantes ou dos atributos entre si. O resultado

do teste conduz sucessivamente a outros nós onde o procedimento anterior é repetido. No

final dos ramos da árvore encontram-se nós chamados "folhas", que indicam a classificação

específica das instâncias que alcançaram aquele nó.

3.5.5 Estatística

Segundo Spiegel (1978), um conjunto de dados em análise pode ser descrito, numa

visão estatística, através de funções de distribuição de probabilidade, que caracterizam o

padrão de comportamento das instâncias analisadas. Pode-se utilizar também medidas de

tendência (média), dispersão (variância) e dependência (covariância). Mais detalhes sobre

representação estatística serão apresentados na Seção 4.2.

3.5.6 Regras de produção

Segundo Passos (1989), representam o conhecimento através de pares condição-ação.

As regras, formadas por um antecedente ("se") e um conseqüente ("então"), formam uma base

- 50 -

de conhecimento. Tal base é usada em sistemas especialistas para produzir conhecimento

novo, não armazenado na base, através de mecanismos de inferência chamados motores de

inferência. Mais detalhes sobre regras de produção serão apresentados na Seção 4.5.

3.5.7 Regras de associação

Segundo Frank e Witten (2005), representam regularidades encontradas nos dados

analisados. Da mesma forma que as regras de produção, são formadas por pares se-então.

Diferente das regras de produção, as regras de associação são criadas diretamente a partir dos

dados, e não do conhecimento de especialistas.

Como pequenas coleções de dados podem gerar grande número de regras, é necessário

estabelecer restrições a sua criação. Tais restrições são representadas pela cobertura, também

chamada de suporte, indicando o número de instâncias para as quais o antecedente é aplicado.

A segunda restrição é a acurácia, ou confiança, indicando a proporção de previsões corretas

em relação ao total de instâncias para as quais a regra pode ser aplicada.

3.5.8 Redes neurais artificiais

Segundo Larose (2005), redes neurais são uma forma de imitar o aprendizado não linear

encontrado nos neurônios reais. Através de algoritmos de aprendizado, os pesos associados às

conexões dos neurônios artificiais são modificados até que a rede possa representar o padrão

encontrado nos dados de treinamento. Assim sendo, a representação do conhecimento está

presente nos pesos da rede treinada.

Diferente de outros métodos de representação, o conhecimento armazenado não é

facilmente explicitado, nem pode ser usado para justificar a classificação de novas instâncias,

como ocorre por exemplo no caso da representação por regras. Mais detalhes sobre redes

neurais serão apresentados na Seção 4.4.

- 51 -

3.5.9 Clusters

Clusters são agrupamentos de instâncias com características próximas entre si e

diferentes das demais instâncias não pertencentes a determinado cluster. A representação dos

dados ocorre através dos clusters descobertos, ou mais precisamente por vetores (protótipos)

que representam o comportamento médio das instâncias que constituem o agrupamento. Mais

sobre o processo de clusterização será visto na Seção 4.3.

3.5.10 Representação baseada em instâncias

Segundo Frank e Witten (2005), a forma mais simples de aprendizado é a memorização.

Uma vez que um conjunto de instâncias tenham sido memorizadas juntamente com as

respectivas classes, uma nova instância será classificada baseado na busca pela ocorrência

mais próxima armazenada.

A característica diferenciadora dessa representação é que não é construído um modelo

explícito, baseado em regras, árvores, etc; para representar os dados. Outra diferença é o

momento do aprendizado, nas demais representações as generalizações são feitas durante um

período de treinamento. Na representação baseada em instâncias, como não há modelo

construído, não há treinamento, o aprendizado ocorre no momento da classificação da nova

instância, através da busca em memória e do critério de comparação adotado.

Conceitualmente falando, não se poderia utilizar o termo "aprendizado" pois não são criadas

representações dos padrões encontrados nos dados. Um exemplo de técnica baseada nesta

representação é a dos k vizinhos mais próximos (k-nearest-neighbor).

3.5.11 Casos

Segundo Wangenheim e Wangenheim (2003), "[...] casos representam tipicamente a

descrição de uma situação (problema) conjuntamente com as experiências adquiridas

- 52 -

(solução) durante a sua resolução [...]". O problema é representado por um conjunto de

atributos e seus respectivos valores, a solução é representada pelas ações realizadas. Casos são

armazenados em bases de casos, contendo experiências positivas, descrevendo estratégias de

solução bem sucedidas na resolução do problema descrito, e contendo opcionalmente

experiências negativas, indicando tentativas frustradas de solução do problema. Quando um

novo problema é apresentado, a base de casos é pesquisada para encontrar casos similares,

cuja solução é adaptada para o problema atual. Supõe-se que problemas com descrição similar

apresentam soluções também similares.

3.6 PROCESSO DE MINERAÇÃO DE DADOS: CRISP-DM

Segundo Chapman et al. (2000), CRoss-Industry Standard Process for Data Mining

(CRISP-DM) é um processo padronizado para execução das atividades de mineração de

dados, independente do problema em análise, ferramentas ou setor da indústria. Surgiu em

1996 quando o mercado de informática começou a oferecer ferramentas e serviços visando à

mineração de dados.

O objetivo de descrever o processo em maiores detalhes é o fato de ter sido usado, ainda

que implicitamente, na parte prática da Tese, orientando os procedimentos de descoberta de

conhecimento e mineração de dados.

O modelo se propõe a oferecer um conjunto de passos que possam ser utilizados em

qualquer trabalho de mineração. Vale destacar que o modelo não surgiu no mundo acadêmico,

seu desenvolvimento veio através de experiências de mercado com projetos reais de DM.

A metodologia é descrita em termos de um modelo hierárquico de processo, consistindo

de um conjunto de tarefas descritas em quatro níveis de abstração: fases, tarefas genéricas,

tarefas especializadas e instâncias de processo (ver Figura 3-3).

- 53 -

Fases

Tarefas Genéricas

Tarefas Específicas

Instâncias de Processo

Modelo deProcesso

Mapeamento

Processo

Figura 3-3: Camadas do modelo de referência CRISP-DM

O nível mais alto (Fases) é constituído por seis fases, cada qual formada por um

conjunto de tarefas genéricas. Esse segundo nível (Tarefas Genéricas) é proposto de forma

genérica de forma a cobrir todas as possíveis situações em que se utilize DM. O terceiro nível

(Tarefas Especializadas) descreve como as tarefas do nível genérico podem ser realizadas

numa aplicação específica. O quarto nível (Instância de Processo) registra as ações, decisões e

resultados obtidos através da execução de uma tarefa especializada num caso prático.

3.6.1 Fases do modelo CRISP-DM

O modelo é dividido em seis fases no nível mais elevado, as quais são inter-relacionadas

conforme a Figura 3-4. A figura ressalta a natureza cíclica do processo de DM e a

possibilidade de navegação entre diferentes fases, indicando que não é um processo rígido em

termos de seqüência de fases. A seguir é apresentado um resumo de cada uma das fases e suas

tarefas genéricas.

- 54 -

Compreensãodo Negócio

Compreensãodos Dados

Preparaçãodos Dados

Modelagem

Avaliação

Implantação

Dados

Figura 3-4: Ciclo de vida proposto para um projeto de DM conforme o modelo de referência CRISP-DM

A fase de compreensão do negócio foca no entendimento dos objetivos e requisitos do

projeto, na perspectiva do negócio. Em seguida converte a compreensão inicial num problema

de DM e na criação de um plano preliminar para alcançar os objetivos levantados. Suas

tarefas genéricas são: determinar os objetivos do negócio, verificando a real necessidade do

cliente; verificar os recursos disponíveis em termos de pessoal, dados, hardware e software;

determinar os objetivos da mineração de dados e criar o plano de projeto.

A fase de compreensão dos dados inicia com a coleta de dados e procede com

atividades que permitem que o analista se torne familiar com os dados, identificando

problemas com a qualidade dos dados, faça as primeiras descobertas e detecte subconjuntos

que permitam formular hipóteses sobre informações ocultas. Suas tarefas genéricas são: coleta

inicial de dados; descrição superficial dos dados; exploração dos dados, aprofundando a

descrição anterior e verificação da qualidade dos dados.

A fase de preparação dos dados cobre todas as atividades necessárias para a construção

do conjunto final de dados que será usado pelas ferramentas de DM. Suas tarefas genéricas

são: seleção dos dados a serem usados; limpeza dos dados; criação de novos campos como

- 55 -

atributos derivados, transformação de valores, etc; integração de dados, combinando

informações de múltiplas tabelas e formatação dos dados de forma a torná-los compatíveis

com os próximos procedimentos.

Na fase de modelagem é feita a seleção e aplicação de várias técnicas, com a calibração

dos parâmetros e criação de modelos que representem as informações contidas nos dados.

Suas tarefas genéricas são: seleção das técnicas de DM a serem utilizadas; gerar

procedimentos de teste para verificar a qualidade e validade dos resultados; executar as

técnicas selecionadas fazendo o ajuste de parâmetros e avaliação dos resultados iniciais, feita

pelo especialista em DM, focando a acurácia e generalidade do modelo criado.

Na fase de avaliação, após a seleção de um ou mais modelos, é importante avaliá-los e

verificar se atendem aos objetivos de negócio. Suas tarefas genéricas são: avaliação dos

resultados, do ponto de vista dos objetivos de negócio inicialmente levantados; revisão do

processo e determinação dos próximos passos do projeto, avaliando se o modelo obtido pode

ser implantado ou se é necessário realizar novas iterações para aprimorá-lo.

Na fase de implantação é feita a colocação do modelo descoberto no processo produtivo

da empresas. Pode variar da simples geração de relatórios gerenciais até a incorporação dos

modelos através dos sistemas da empresa. Esta fase refere-se à aplicação de modelos de DM

no processo decisório. Suas tarefas genéricas são: planejamento da implantação; planejamento

do monitoramento e manutenção; preparação dos relatórios finais e revisão do projeto.

- 56 -

4 TÉCNICAS E ALGORITMOS DEMINERAÇÃO DE DADOS UTILIZADOS

4.1 INTRODUÇÃO

Conforme descrito na introdução, este trabalho propõe um modelo para detecção

automática de irregularidades na execução da despesa, dividido em dois módulos principais:

sistemas especialistas e mineração de dados. O objetivo deste capítulo é apresentar as técnicas

e algoritmos necessários para a construção dos dois módulos.

O primeiro deles, sistema especialista, será abordado superficialmente. Embora não

implementado na parte prática do trabalho, seu uso foi proposto formalmente no Capítulo 6

como parte integrante do modelo de detecção, ficando seu desenvolvimento como sugestão

para trabalhos futuros. Por ter sido incluído no modelo, torna-se importante apresentar sua

fundamentação teórica, permitindo assim uma melhor compreensão do mecanismo de

detecção. O capítulo enfatiza principalmente as técnicas usadas na construção do módulo de

mineração de dados: clusterização, técnicas estatísticas, redes neurais e sistemas nebulosos.

A clusterização foi utilizada para identificar conjuntos de órgãos com comportamento

semelhante quanto à execução da despesa, permitindo a escolha de quatro deles, cada um

pertencente a um conjunto, para análise detalhada de comportamento, feita no Capítulo 7. Tal

análise permitiu a construção dos dois modelos de comportamento no módulo de mineração

de dados. A análise estatística foi utilizada na construção de um desses modelos, cuja criação

será apresentada na Seção 8.2. Redes neurais foram utilizadas para criar o segundo modelo de

comportamento, procedimento detalhado na Seção 8.3.

O mecanismo de detecção de anomalia, segundo componente do módulo de mineração

de dados, foi também implementado a partir de duas técnicas. A primeira implementação foi

feita através de regras e sistemas de lógica nebulosa, apresentados na Seção 9.2. Redes

- 57 -

neurais foram a segunda escolha de implementação para o mecanismo de detecção, conforme

colocado na Seção 9.3.

Vale destacar que, em função das diversas técnicas citadas, não será possível o estudo

aprofundado de cada uma delas. O capítulo se propõe a fazer uma apresentação superficial

dos temas, com o objetivo de prover uma fundamentação mínima para aqueles que não têm

conhecimento das técnicas descritas. Para um maior aprofundamento dos temas, ao final de

cada item são colocadas referências a trabalhos específicos.

4.2 ANÁLISE ESTATÍSTICA

4.2.1 Variáveis aleatórias

Para conceituar variáveis aleatórias, convém antes definir alguns itens básicos,

indispensáveis para sua compreensão. Todas as definições apresentadas ao longo da Seção 4.2

foram extraídas de Mukhopadhyay (2000) e Trosset (2004), não sendo posteriormente

repetidas as referências.

Iniciando pelo conceito de experimento aleatório, que é aquele em que os resultados não

são essencialmente os mesmos, ainda que as condições de realização se mantenham

parcialmente as mesmas.

O conjunto de todos os resultados possíveis de um experimento aleatório é chamado

espaço amostral, sendo cada resultado possível denominado ponto amostral. Quando o espaço

amostral é finito ou infinito enumerável é chamado espaço discreto, se infinito não-

enumerável é chamado espaço não-discreto ou contínuo.

Um evento é um subconjunto do espaço amostral. Um evento composto de um único

elemento é chamado evento simples ou elementar.

- 58 -

Probabilidade é a medida de certeza com que podemos esperar a ocorrência de

determinado evento, resultado de um experimento aleatório. Recebe um número no intervalo

de zero a um.

Chega-se então ao conceito de variável aleatória. Dada uma função que atribua a cada

ponto de um espaço amostral um número, essa função é chamada variável aleatória, variável

estocástica, ou, mais precisamente, função aleatória ou função estocástica. Pode-se definir

então uma variável aleatória como uma função real das saídas do experimento aleatório.

Uma variável aleatória que assume um número finito ou infinito enumerável de valores

é chamada variável aleatória discreta. Quando assume um número infinito não-enumerável de

valores é chamada de variável aleatória contínua.

Pode-se considerar os seguintes exemplos ilustrativos dos conceitos apresentados:

a) Tendo como experimento aleatório a jogada de dois dados, a soma dos valores obtidos é

uma variável aleatória discreta;

b) Considerando como experimento aleatório a transmissão eletrônica de uma mensagem, o

tempo total necessário para transmiti-la é uma variável aleatória contínua;

c) Tomando como experimento aleatório a emissão de uma nota de empenho por um órgão

da Administração Pública e registrando-se a modalidade de licitação utilizada. O espaço

amostral correspondente a esse experimento seria o conjunto de doze possíveis

modalidades utilizáveis (convite, dispensa, concurso, etc). Um evento simples seria o uso

da modalidade convite, com probabilidade hipotética de 0,4. Definido-se uma função que

atribua a cada evento simples desse espaço amostral um número, no exemplo dado

variando de um a doze (convite – 1, dispensa – 2, etc), essa função, segundo a definição

anterior, seria uma variável aleatória discreta.

- 59 -

4.2.1.1 Distribuições discretas de probabilidade

Sendo X uma variável aleatória discreta, podendo assumir valores x1, x2, x3, ...,

dispostos em ordem crescente de magnitude, a cada um desses valores pode-se atribuir

probabilidades fk, representando a probabilidade da variável aleatória X assumir cada um dos

valores xk, para k = 1, 2, .... Pode-se então definir a função distribuição de probabilidade f(x),

dada por:

( ) ( )xXPxf == , para x = xk

( ) 0=xf , para os demais valores (4-1)

A função f possui as seguintes propriedades:

( ) 0≥xf

( ) 1=∑x

xf (4-2)

A função de distribuição acumulada para uma variável aleatória discreta X, dada por

F(x), é definida como:

( ) ( )xXPxF ≤= , onde x é um número real. (4-3)

Usando a função distribuição de probabilidade f, pode-se definir a função de

distribuição acumulada F como:

( ) ( ) ( )∑≤

=≤=xu

ufxXPXF (4-4)

4.2.1.2 Variáveis aleatórias contínuas

Sendo X uma variável aleatória contínua, a probabilidade de X tomar um determinado

valor específico é, em geral, zero. Para chegar a uma definição de distribuição de

probabilidade contínua, considera-se a probabilidade de X estar compreendida entre dois

valores diferentes. Considerando a função f(x) com as seguintes propriedades:

( ) 0≥xf

- 60 -

( ) 1=∫+∞

∞−

dxxf (4-5)

Define-se a probabilidade de X estar entre a e b por:

( ) ( )∫=<<

b

a

dxxfbXaP (4-6)

A função f(x) que satisfaz as condições anteriores é chamada função de distribuição de

probabilidade para a variável aleatória contínua, também chamada de função de densidade de

probabilidade, ou simplesmente função de densidade.

A função de distribuição acumulada para a variável aleatória contínua X, dada por F(x),

é definida como:

( ) ( ) ( ) ( )∫∞−

=≤<∞−=≤=

x

duufxXPxXPxF (4-7)

4.2.1.3 Distribuições conjuntas

Considerando duas ou mais variáveis aleatórias discretas, por simplicidade apresentando

a seguir o caso particular de duas, tem-se a função de probabilidade conjunta se X e Y dada

por:

( ) ( )yYxXPyxf === ,, (4-8)

onde:

( ) 0, ≥yxf e

( )∑∑ =x y

yxf 1,

Se X e Y são variáveis aleatórias independentes, tem-se:

( ) ( ) ( )yYPxXPyYxXP ===== , (4-9)

A função de distribuição acumulada conjunta de X e Y é definida como:

( ) ( ) ( )∑∑≤ ≤

=≤≤=xu yv

vufyYxXPyxF ,,, (4-10)

- 61 -

Para X e Y variáveis aleatórias contínuas, a função de probabilidade conjunta ou função

de densidade conjunta é dada por:

( ) 0, ≥yxf (4-11)

( ) 1, =∫ ∫+∞

∞−

+∞

∞−

dxdyyxf (4-12)

A probabilidade de X estar entre a e b, e de Y estar entre c e d, é dada por:

( ) ( )∫ ∫= =

=<<<<

b

ax

d

cy

dxdyyxfdYcbXaP ,, (4-13)

A função de distribuição acumulada conjunta de X e Y, no caso contínuo, é dada por:

( ) ( ) ( )∫ ∫−∞= −∞=

=≤≤=

x

u

y

v

dudvvufyYxXPyxF ,,, (4-14)

Se X e Y são variáveis aleatórias independentes, tem-se:

( ) ( ) ( )yYPxXPyYxXP ≤≤=≤≤ , (4-15)

4.2.1.4 Cálculo das funções distribuição de probabilidade para variáveis discretas

A determinação dos valores da função distribuição de probabilidade pode ocorrer de

duas formas: probabilidade "a priori" ou através de funções de distribuição conhecidas.

Na primeira forma, através da probabilidade derivada da freqüência ou "a priori", se

após n repetições de um experimento, considerando n suficientemente grande, observam-se h

ocorrências de determinado evento, então a probabilidade do evento é h/n. Essa probabilidade

é chamada probabilidade empírica. Tratando-se de variável aleatória discreta, assumindo um

conjunto finito de valores, pode-se tabelar a probabilidade da variável assumir cada um dos

valores através do método empírico. Por esse método, somam-se as probabilidades dos

eventos simples que dão origem a determinado valor da variável aleatória, repetindo o

procedimento para cada valor possível desta variável.

- 62 -

No exemplo (c) apresentado na Seção 4.2.1, considerando a variável aleatória que

representa a modalidade de licitação usada numa dada compra, pode-se aplicar o cálculo

anterior da seguinte forma: para cada uma das doze modalidades de licitação (concurso,

convite, etc) calcula-se a probabilidade através da freqüência (h/n). Como os valores da

variável aleatória (xk, k = 1, 2, ..., 12) estão associados a eventos simples, os valores da função

de distribuição correspondem aos doze valores possíveis de probabilidade empírica para os

eventos simples.

Em casos especiais, as probabilidades de ocorrência podem ser parametrizadas, criando-

se funções de distribuição de probabilidade conhecidas. Para exemplificar, considere a função

de probabilidade binomial, caracterizando a variável aleatória X que representa o número de

sucessos em x provas de um total de n, cada qual com probabilidade de sucesso de valor p,

dada por:

( ) ( ) ( ) xnx ppx

nxXPxf −

−

=== 1 (4-16)

Nesse caso não há a necessidade de realizar a tabulação descrita na primeira forma uma

vez que a função informa automaticamente a probabilidade para cada valor da variável

aleatória. Também nesse exemplo o cálculo de p pode ser feito através da freqüência (h/n),

como descrito na primeira forma.

4.2.1.5 Medidas de tendência, dispersão e dependência para variáveis aleatórias

discretas

Dada uma variável aleatória X, podendo tomar os valores x1,...,xn, define-se esperança

matemática de X, comumente designada como média de X, por:

( ) ( )∑=

==n

jjj xfxXE

1

µ (4-17)

onde:

- 63 -

f é a função distribuição de probabilidade de X.

Quando a variável aleatória pode assumir um número infinito contável de valores, pode

ocorrer da soma infinita ( )∑x

xfx não ser bem definida. Como no escopo deste trabalho tal

situação não ocorre, ou seja, as variáveis aleatórias definidas possuem número finito de

valores, esta situação não será abordada. Remete-se à leitura da referência citada para

detalhamento do problema.

Como medida de dispersão dos valores da variável aleatória em redor da média tem-se a

variância, definida como segundo momento da variável aleatória X ou valor esperado da

variável X2. A variância é definida como:

( ) [ ]( )[ ] [ ] [ ]( ) ( ) ( )∑=

−=−=−==n

jjjx xfxXEXEXEXEXVar

1

22222 µσ (4-18)

Outra medida de dispersão da variável aleatória é o desvio padrão, medida mais fácil de

interpretar que a variância pois possui a mesma unidade de medida que a variável aleatória. O

desvio padrão é definido como:

( )XVarx =σ (4-19)

Mais genericamente, define-se o momento de ordem n da variável aleatória X como

[ ]nXE , ou seja, o valor esperado de Xn. Segundo a definição, a média é o primeiro momento

de X e a variância, conforme já citado, o segundo momento.

Dadas duas variáveis aleatórias X e Y, define-se como medida de dependência entre elas

a covariância e o coeficiente de correlação, representados respectivamente por:

[ ] [ ] [ ] [ ] ( )( ) ( )∑∑ −−=−−=−=x y

yxYXXY yxfyxYXEYEXEXYE ,))(( µµµµσ (4-20)

YX

XYXY

σσ

σρ = (4-21)

- 64 -

4.2.2 Inferência estatística

População é o conjunto de dados representando todas as observações possíveis, amostra

é o conjunto de dados representando apenas uma parte dessas observações. Inferência

estatística significa inferir fatos acerca de uma população a partir de resultados observados na

amostra. Valores calculados a partir da população são chamados parâmetros populacionais

(como exemplo a média populacional µ ). Quando esses mesmos valores são calculados a

partir da amostra denominam-se estatísticas amostrais (como exemplo a média amostral x ).

Em paralelo com os parâmetros populacionais apresentados na seção anterior, pode-se

defini-los como estatísticas amostrais segundo as equações seguintes.

Média amostral:

n

xx

n

ii∑

== 1 (4-22)

Desvio padrão amostral:

1

)(1

2

−

−

=∑

=

n

xxs

n

ii

(4-23)

Variância amostral:

∑=

−−

==n

iiXXX xx

nss

1

22 )(1

1(4-24)

22 )(1∑∑ −= x

nxsXX (4-25)

Covariância amostral:

∑=

−−−

==n

iiiYXXY yyxx

nss

1

))((1

1(4-26)

))((1

∑∑∑ −= yxn

xysXY (4-27)

- 65 -

Coeficiente de correlação amostral:

YX

XY

YYXX

XYXY ss

s

ss

sr == (4-28)

∑ ∑

∑−−

−−=

22 )()(

))((

yyxx

yyxxrXY (4-29)

4.2.3 Referências adicionais

Mukhopadhyay (2000) traz um estudo aprofundado sobre probabilidade e funções de

distribuição. Faz também uma abordagem sobre variáveis aleatórias, teste de hipótese,

intervalos de confiança e determinação de tamanho de amostras. Trosset (2004) traz um

estudo semelhante ao apresentado em Mukhopadhyay (2000), enfatizando os temas

probabilidade e variáveis aleatórias. Mukhopadhyay (2000) faz uma abordagem teórica dos

temas, apresentando sua fundamentação matemática detalhada, enquanto Trosset (2004) traz

uma abordagem mais prática, com a apresentação de vários exemplos de aplicação.

Fukunaga (1990) e Webb (2002) utilizam a teoria estatística para a detecção de padrões,

apresentando ambos os autores técnicas semelhantes, tais como: estimação paramétrica e não-

paramétrica de densidade, análise linear e não-linear de discriminantes, métodos baseados em

árvores e clusterização.

4.3 CLUSTERIZAÇÃO

Clusterização é a divisão de dados em grupos de objetos similares dentro de um mesmo

cluster e dissimilares em relação a objetos pertencentes a outros clusters (BERKHIN, 2002).

Segundo Estivill-Castro (2002) os objetos são agrupados baseando-se na minimização das

similaridades interclasse e maximização das similaridades intraclasse. Em ambas as

definições anteriores, a similaridade é medida segundo algum critério estabelecido, por

- 66 -

exemplo a distância euclidiana entre os objetos. O aprendizado é em geral não

supervisionado. O modelo gerado pelo algoritmo é formado pelos clusters descobertos ou as

estruturas utilizadas para representá-los.

Segundo Valente (1995), clusterização é um procedimento importante como auxiliar na

extração de informações em situações onde há pouco conhecimento inicial sobre a estrutura

dos dados em estudo, atuando principalmente nas primeiras etapas da análise para adquirir

noções sobre a natureza dos dados em estudo. O objetivo imediato é a sumarização e

compreensão dos dados, podendo ser também usado para classificação de novos pontos.

4.3.1 Formas de aprendizagem

Segundo Valente (1995), a escolha do procedimento de aprendizagem é influenciada

pelo conhecimento prévio ou não de quatro fatores relacionados aos agrupamentos (clusters

ou subgrupos):

• Localização dos centróides dos subgrupos, caso não sejam conhecidos devem ser

arbitrados pelo algoritmo e posteriormente reposicionados;

• Matriz de espalhamento dos subgrupos, que define a forma dos agrupamentos;

• Probabilidade prévia dos subgrupos, que indica o quão provável é a ocorrência de

cada agrupamento;

• Número total de subgrupos, caso não seja conhecido é arbitrado pelo especialista no

domínio ou determinado automaticamente pelo algoritmo.

Os algoritmos de clusterização podem ser divididos em duas grandes categorias, quais

sejam, métodos globalmente sensíveis e métodos localmente sensíveis. Os primeiros tentam

representar os clusters por centróides e classificam os dados de forma a otimizar um critério

de similaridade entre as amostras e os centróides das classes. Métodos localmente sensíveis

utilizam estruturas locais dos dados, baseando-se por exemplo na densidade de probabilidade.

- 67 -

Em Berkhin (2002) é apresentada uma divisão detalhada dos algoritmos de

clusterização, conforme apresentado na Figura 4-1. Na primeira categoria encontram-se os

algoritmos hierárquicos que constroem uma árvore de clusters, conhecida como dendograma,

permitindo a análise dos dados em diferentes níveis de granularidade. Subdividem-se em

aglomerativos (bottom-up) e divisivos (top-down). Os primeiros começam com clusters de um

único ponto e recursivamente aglomeram novos pontos até a formação final dos clusters. Os

divisivos começam com um cluster englobando todos os dados e recursivamente dividem-no,

criando clusters menores. O processo recursivo continua até alcançar um critério de parada,

geralmente o número de clusters desejado.

Algoritmos deClusterização

OutrasTécnicas

HierárquicosBaseados em

Grid

Agromerativos

Divisivos

Particionamentoe Realocação

Baseados emDensidade

K-Means

Probabilísticos

K-Medoids

Conectividade

FunçãoDensidade

SOMHierárquica

Particionamento

Figura 4-1: Algoritmos de clusterização

Algoritmos baseados em particionamento e realocação dividem os dados em vários

subconjuntos os quais passam por um processo iterativo de otimização, incluindo esquemas

de realocação que redistribuem os pontos entre os clusters. Subdividem-se em probabilísticos

e função objetivo. Os primeiros consideram que o conjunto de dados origina-se de uma

mistura de várias populações cujas distribuições de probabilidade e respectivos parâmetros

precisam ser determinados. Pontos ao redor da média de cada distribuição (suposta unimodal)

constituem centros naturais para os clusters. O segundo grupo, formado por algoritmos

iterativos, são baseados em função objetivo, selecionando pontos representativos de cada

- 68 -

cluster. Dependendo de como é feita a escolha do representante, têm-se os métodos K-

Medoids e K-Means.

Algoritmos baseados em densidade consideram que um cluster é um componente denso

e conectado, o qual pode crescer em qualquer direção. A separação entre os clusters ocorre

pela descoberta de regiões nas quais a densidade é inferior a um limite estabelecido. A

vantagem desse tipo de método é a possibilidade de criação de clusters com qualquer formato.

A principal desvantagem é a dificuldade em interpretar os agrupamentos formados.

Subdividem-se em métodos que consideram a conectividade baseada em densidade e funções

densidade.

Algoritmos baseados em grid dividem o espaço em segmentos retangulares, chamados

cubos, células ou regiões. O particionamento dos dados é conseqüência dos pontos

pertencerem a determinados segmentos. A implementação dos algoritmos de segmentação

pode ser feita de forma hierárquica ou por particionamento.

O autor cita ainda outras técnicas, entre as quais destaca-se o uso de redes neurais

artificiais do tipo Self-Organizing Maps (SOM).

4.3.2 Medidas de similaridade e critério de qualidade

Duas características básicas da grande maioria dos algoritmos de clusterização são uma

medida de similaridade, para julgar a proximidade entre os elementos sendo agrupados, e uma

função critério, para medir a qualidade do particionamento efetuado.

Grande parte das definições de clusterização emprega a palavra similaridade para

definir agrupamentos. Essa similaridade deve ser objetivamente medida para permitir o

correto julgamento por parte do algoritmo. A medida mais utilizada de similaridade é a

distância entre pares de pontos, normalmente sendo empregada a distância euclidiana, assim

definida em Valente (1995):

- 69 -

( ) ( )ijT

ijij VXVXd −−= (4-30)

onde:

Xj, j = 1 ... n, é a amostra observada e

Vi, i = 1 ... c, é o centróide do subgrupo, calculado pela média das posições dos pontos

pertencentes ao subgrupo.

A função critério mede a qualidade da partição criada após cada iteração do algoritmo

de clusterização, servindo normalmente como critério de parada. As funções mais utilizadas

são a soma dos erros quadráticos e matrizes de espalhamento. A seguir é apresentado o

critério da soma dos erros quadráticos:

( ) ∑ ∑= ∈

−=C

i XXi

i

VXVJ1

2(4-31)

onde:

V = [V1 ... Vc] é a matriz de centróides de subgrupos;

Xi = {X | X pertence ao subgrupo i};

c é o número de subgrupos;

2. é a norma euclidiana e

∑∈

=iXXi

i Xn

V1

4.3.3 Algoritmo K-Means

Os algoritmos K-Medoid e K-Means baseiam-se na escolha de um ponto como

representante de cada cluster. Os algoritmos realocam pontos entre clusters em função da sua

proximidade com os pontos representantes de cada agrupamento, possivelmente recalculando

os respectivos representantes (BERKHIN, 2002).

- 70 -

No algoritmo K-Means, possivelmente a ferramenta mais usada para clusterização em

aplicações científicas, os representantes dos clusters são os centróides, ou seja, a média

(ponderada ou não) dos pontos que constituem o cluster. Iterativamente os pontos são

realocados em função da proximidade com os centróides, os quais são posteriormente

recalculados. As iterações continuam até um critério de parada, que pode ser o término da

realocação de pontos (BERKHIN, 2002). A escolha da posição inicial dos centróides é

normalmente feita de forma arbitrária pelo algoritmo. O número de centróides deve ser

estabelecido pelo analista do problema.


O artigo apresentado em Berkhin (2002) traz uma excelente categorização dos

algoritmos usados para clusterização. Fukunaga (1990) e Webb (2002) apresentam a

fundamentação estatística sobre o tema, além de fazerem também a categorização dos

algoritmos. Webb (2002) faz uma boa explicação sobre o algoritmo K-Means. Frank e Witten

(2005) e Ye (2003) realizam a abordagem do tema sob o ponto de vista de sua utilização

como técnica de mineração de dados.

4.4 REDES NEURAIS

Segundo a definição apresentada em Hecht-Nielsen (1990, p. 2):

"[...] uma rede neural é uma estrutura de processamento de informação, paralela e distribuída, consistindo

de elementos de processamento [...] interconectados via canais unidirecionais de sinais, chamados conexões.

Cada elemento de processamento possui uma única conexão de saída, cujo sinal é distribuído por tantas

conexões colaterais quanto desejado, todas trafegando o mesmo sinal – o sinal de saída do elemento de

processamento. [...] O processamento da informação executado nos elementos de processamento pode ser

definido arbitrariamente com a restrição que deve ser completamente local [...]".

- 71 -

Segundo Valente (1995), a correta conceituação de redes neurais deve incluir algumas

características fundamentais, tais como a modelagem dos neurônios, a definição da topologia,

a definição de uma função custo que avalie a saída da rede e a regra de aprendizagem. Tais

características serão apresentadas a seguir, conforme as definições apresentadas em Valente

(1995) e Beale, Demuth e Hagan (2007).

4.4.1 Modelagem dos neurônios artificiais

Um dos modelos de neurônio artificial mais usado é o combinador semilinear. O cálculo

da saída do modelo inicia com a combinação linear das entradas xi, ponderadas pelos pesos

sinápticos wi, mais um termo chamado "bias" (b). Tal combinação serve como entrada para

uma função possivelmente não linear g, conhecida como função de ativação, cuja saída y

corresponde ao resultado do processamento do modelo. As operações descritas podem ser

representadas da seguinte forma:

+= ∑

=

N

iii bxwgy

1

(4-32)

4.4.2 Definição da arquitetura da rede

A forma de associação dos neurônios na rede caracteriza sua arquitetura. Uma primeira

caracterização da arquitetura ocorre quando existe um circuito fechado no grafo orientado que

representa a rede, criando uma arquitetura realimentada ou recorrente (redes feedback). Caso

não exista tal fechamento no circuito, a rede é dita não realimentada (redes feedforward).

Outra definição quanto à topologia diz respeito à hierarquia das camadas. Uma rede na

qual os neurônios de uma camada comunicam-se exclusivamente com os neurônios da

camada seguinte é dita hierárquica. Caso contrário é chamada não hierárquica.

- 72 -

De particular interesse para o trabalho será o estudo da arquitetura multicamada,

hierárquica, não realimentada e totalmente conectada; estudada no tópico sobre redes

Backpropagation.

4.4.3 Função custo

A função custo avalia a estimativa produzida pela rede, medindo a diferença entre o

vetor de saída esperado y e o vetor de saída fornecido pela rede x:

( )∑=i

ii yxdE , (4-33)

Uma das mais empregadas é a soma dos quadrados das diferenças entre os elementos

do vetor de saída desejado e o obtido:

( )2

2

1∑ −=

iii yxE (4-34)

Outros critérios para a estimativa do resultado da rede podem ser usados, como o

critério de Minkowski-r, que generaliza o anterior:

( )r

iii yx

rE ∑ −=

1(4-35)

4.4.4 Regra de aprendizagem

O algoritmo de aprendizado aplicado à rede neural objetiva ajustar um conjunto de

parâmetros livres, normalmente representados pelos pesos, fazendo com que a rede consiga

inferir uma estrutura de processamento a partir dos dados em estudo. Os procedimentos de

aprendizado podem ser divididos em duas categorias básicas: supervisionados e não

supervisionados.

Procedimentos supervisionados são aqueles que exigem um conjunto de treinamento

formado por padrões de entrada e as saídas correspondentes. Através do fornecimento desses

- 73 -

padrões combinados, a rede adapta-se ao problema proposto. Um exemplo de treinamento

supervisionado é o algoritmo de retropropagação de erros (Backpropagation).

Procedimentos não supervisionados são aqueles que criam modelos a partir de um

conjunto de entradas, procurando detectar regularidades nesse conjunto de dados, sem receber

os estímulos de saída correspondentes. Um exemplo de rede que utiliza este tipo de

treinamento são os mapas auto-organizáveis (SOM – Self-Organizing Maps).

4.4.5 Redes Backpropagation

Segundo Beale, Demuth e Hagan (2007), o algoritmo Backpropagation é uma

generalização da regra de aprendizado de Widrow-Hoff, aplicada a redes multicamada com

funções de transferência diferenciáveis. Backpropagation padrão é um algoritmo gradiente

descendente, no qual os pesos da rede são alterados na direção negativa do gradiente de erro.

Existem variações do algoritmo baseadas em outras técnicas de otimização, tais como o

gradiente conjugado e métodos de Newton. O termo "Backpropagation" refere-se à forma

como o gradiente é calculado para redes multicamada.

Segundo Valente (1995), redes baseadas no algoritmo de aprendizado Backpropagation

são multicamada, hierárquicas (o sinal de entrada segue de forma unidirecional até a saída

sem loops entre as camadas) e totalmente conectadas (as saídas de todos os neurônios de uma

camada são entregues como entradas a todos os neurônios da camada seguinte). A Figura 4-2

apresenta um exemplo de arquitetura para redes Backpropagation.

- 74 -

Camada de entradaCamada oculta

(uma ou mais camadas) Camada de saída

Neurônio 1

Neurônio 2

Neurônio 3

Neurônio A

Neurônio B

Neurônio Z

Figura 4-2: Representação das camadas, pesos e neurônios de uma rede neural

Conforme apresentado na figura, redes Backpropagation são formadas por três tipos de

camada. A primeira, chamada camada de entrada, possui um neurônio para cada atributo

recebido, ou seja, um neurônio para cada componente do vetor de entrada. Excepcionalmente

atributos categóricos com representação binária podem necessitar de mais que um neurônio,

um para cada bit. Os neurônios da primeira camada servem somente para distribuir as

entradas para os neurônios da camada seguinte.

A rede possui uma ou mais camadas ocultas. O número de neurônios por camada e o

número de camadas são variáveis em função do problema em análise. Poucos neurônios e/ou

poucas camadas implicam em menor poder de processamento e mais generalização. Mais

neurônios e/ou camadas ocultas representam maior poder de processamento ao preço de ter

diminuída a capacidade de generalização da rede.

A rede possui ainda uma camada de saída, onde o número de neurônios depende do

objetivo para o qual a rede foi criada e da codificação usada na saída. Para regressão, um

neurônio é normalmente suficiente (dependendo da codificação). Para classificação pode ser

usado um neurônio, no caso de classificação binária, ou múltiplos neurônios, um por classe.

4.4.5.1 Treinamento

Os neurônios das camadas ocultas e de saída possuem pesos associados às entradas.

Esses pesos terão seus valores alterados durante o processo de aprendizagem. Cada neurônio

- 75 -

dessas camadas recebe como entrada uma combinação linear das saídas dos neurônios da

camada anterior. A ponderação é feita pelos pesos associados às ligações do neurônio com a

camada anterior:

∑= iiawx (4-36)

onde:

wi representa o peso de uma conexão e

ai representa a entrada recebida de um neurônio da camada anterior.

A entrada é fornecida para uma função de ativação. A saída dessa função é o resultado

do processamento do neurônio. Funções diferentes podem ser usadas nas várias camadas. Três

funções de transferência normalmente usadas são a logarítmica sigmóide, tangente hiperbólica

e linear, definidas respectivamente como:

( )xe

xf−+

=1

1(4-37)

( ) 1)1(

22

−+

=− xe

xf (4-38)

( ) xxf = (4-39)

Nas camadas ocultas, a saída dos neurônios, resultante de sua função de ativação, é

fornecida a camada seguinte. Na camada de saída, o resultado da função de ativação é

comparado com o resultado esperado da rede e um valor de erro é determinado. Como

exemplo pode-se utilizar o erro quadrático:

( )( )2

2

1xfyE −= (4-40)

Os pesos da camada de saída são ajustados de forma a minimizar o erro calculado:

( ) ( )i

ii dw

dEtwtw η−=+1 (4-41)

onde:

- 76 -

η representa a taxa de aprendizagem e

( )( )( )

ii dw

xdfxfy

dw

dE−=

Para a função sigmóide:

( )( )

( ) ( )( )xfxfdx

xdfxf −== 1' (4-42)

Como:

∑= iiawx

Tem-se que:

( )( ) i

i

axfdw

xdf '=

Logo:

( )( ) ( ) ii

axfxfydw

dE '−= (4-43)

O erro da camada de saída é retropropagado para a camada oculta de forma que seus

pesos sejam também ajustados. Esse ajuste é feito da seguinte forma:

( )( ) ( )ijijij dw

dxxfxfy

dw

dx

dx

dE

dw

dE '−== (4-44)

onde:

( )∑=i

ii xfwx ;

wi são os pesos do neurônio de saída;

f(xi) é a saída do neurônio i da camada oculta;

( )

ij

ii

ij dw

xdfw

dw

dx= e

( )( ) ( ) ii

ij

ii

ij

i axfdw

dxxf

dw

xdf '' ==

- 77 -

Logo:

( )( ) ( ) ( ) iiiij

axfwxfxfydw

dE ''−= (4-45)

O critério de parada do treinamento pode ser um nível de erro mínimo da camada de

saída. Pode-se também estabelecer um número máximo de ciclos de treinamento caso o nível

de erro não seja alcançado. O treinamento não garante que a rede atingirá uma solução ótima,

ou seja, um mínimo global de erro.

Duas modificações podem ser feitas no procedimento de aprendizagem padrão. A

primeira é a introdução de uma taxa de aprendizagem (possivelmente variável ao longo do

treinamento) que calibre o ajuste dos pesos em cada ciclo. Uma segunda modificação é a

incorporação de um termo de momentum, que incorpora à modificação atual dos pesos uma

parcela da modificação anterior. Com isso cria-se um fator de inércia na direção das correções

anteriores.

Uma desvantagem do uso de redes Backpropagation, apontada em Larose (2005), é que

o modelo criado, representado pelos pesos da rede, não tem uma interpretação compreensível

como no caso das regras e árvores de decisão. O autor sugere a existência de técnicas, como

análise de sensibilidade, que permitiriam uma interpretação parcial do modelo.

Outra desvantagem citada pelo autor é o longo tempo necessário para ajuste dos

parâmetros da rede, tais como: sua arquitetura, funções de transferência, taxa de

aprendizagem e momentum; além do tempo de treinamento para cada combinação de

parâmetros testada. Para tentar solucionar esse problema, Curran e O'Riordan (2002) propõem

a utilização de algoritmos genéticos como auxiliares na construção de redes neurais. Os

autores apresentam várias possibilidades de utilização, tais como a evolução automática da

arquitetura, das funções de transferência e da taxa de aprendizagem. Apresentam também a

possibilidade de substituição do algoritmo Backpropagation por algoritmos genéticos na

- 78 -

determinação dos pesos da rede, ou sua utilização combinada, aplicando Backpropagation

numa fase final de refinamento dos pesos. Uma possibilidade interessante proposta pelos

autores é o uso combinado de vários esquemas, por exemplo a evolução simultânea e

automática dos pesos e da arquitetura, permitindo a criação de redes sem a intervenção

humana. Evidentemente, quanto maior o número de elementos da rede simultaneamente

tratados, maior a complexidade do procedimento, podendo chegar a um problema intratável.

Em contrapartida às desvantagens citadas, Kantardzic (2003) coloca como vantagem do

uso de redes a possibilidade de criação de modelos não lineares, possivelmente de alta

complexidade, cujos parâmetros são parcialmente ajustados de forma automática pelo

algoritmo de aprendizado.


O trabalho de Hecht-Nielsen (1990) é importante para a fundamentação conceitual e

matemática do tema. Kohonen (2001) traz a apresentação específica de redes SOM que,

embora não tenham sido usadas na Tese, foram estudadas como alternativa para o

procedimento de clusterização, para o qual optou-se pelo uso do algoritmo K-Means. Um

texto mais acessível sobre o tema é Larose (2005), onde é feita uma abordagem prática com a

colocação de vários exemplos.

4.5 SISTEMAS ESPECIALISTAS

Segundo Buckley e William (2005), sistemas especialistas (SEs) são programas de

computador concebidos para tornar disponível o conhecimento de especialistas para não

especialistas.

Segundo Passos (1989), é um programa destinado a solucionar problemas em um campo

específico do conhecimento, utilizando uma base de conhecimento do domínio, raciocínio

- 79 -

inferencial e com desempenho comparável ao especialista humano. Tem como uma de suas

principais características a capacidade de explicar como deduziu a resposta através de seu

mecanismo de inferência. Ainda segundo o autor, as principais diferenças de SEs em relação à

programação convencional são: o uso de heurísticas (tentativa e erro) e o foco em dados.

Em relação ao uso de heurísticas, os SEs não são simplesmente aplicadores de regras de

produção, conforme explicado pelo autor citado:

"Sistemas especialistas têm que ter experiência anterior, intuição e criação [...]. O que não acontece

quando se resolve um problema usando programação convencional onde um único algoritmo é programado para

resolver um determinado programa, não sendo necessário pesquisar o espaço de soluções possíveis, pois os

passos da solução do problema estão explicitados nos algoritmos." (PASSOS, 1989, p. 97).

Em relação ao foco nos dados, os SEs enfatizam a estrutura lógica do problema,

gerando um conjunto de sentenças para descrever o problema, diferente da programação

tradicional, que foca na construção de procedimentos com o objetivo de resolver os problemas

apresentados (PASSOS, 1989).

Ainda segundo esse autor, um SE ideal tem como principais componentes: o

processador de linguagem natural, responsável pela interação com o usuário; o justificador,

responsável pela explicação ao usuário sobre a solução encontrada para o problema; a base de

conhecimento, formada por fatos e regras; o quadro negro, representando a área de trabalho

do sistema e meio de comunicação entre processos especializados; o mecanismo de

inferência, formado pelo interpretador de regras e pelo seqüenciador das mesmas; o

reforçador de consistência, responsável pela verificação de casos semelhantes já resolvidos e

catalogação de novos casos. O mecanismo de inferência e a representação do conhecimento

serão abordados nas próximas seções.

- 80 -

4.5.1 Representação do conhecimento

Segundo Buckley e William (2005), existem várias maneiras de representar o

conhecimento em sistemas especialistas, entre as quais destacam-se: representação por regras

e redes semânticas ou associativas. Na visão de Passos (1989), a representação do

conhecimento em tais sistemas pode ser feita através de lógica matemática, regras de

produção, redes semânticas e quadros e roteiros.

Ainda segundo Passos (1989), a maioria dos SEs adota regras de produção como forma

de representação do conhecimento pois a estrutura das regras é semelhante à forma das

pessoas explicarem como resolvem seus problemas. Tais regras, do tipo "condição – ação",

formam a base de conhecimento dos SEs. São formadas por um antecedente ("se"),

representando a condição, e por um conseqüente ("então"), representando a ação. Durante a

execução dos SEs, se o antecedente da regra for satisfeito, o conseqüente será executado.

Segundo o mesmo autor, em SEs baseados em regras de produção, a dedução de tais

regras pode ocorrer de duas formas: encadeamento para frente (dirigido para o dado) e

encadeamento para trás (dirigido para o objetivo).

O encadeamento para frente "[...] é um método de inferência (de dedução) que começa

com o conhecimento inicial (dados, fatos) e aplica as regras para gerar um novo

conhecimento, até que tenha chegado a uma solução para o problema ou nenhuma inferência

adicional possa ser feita [...]" (PASSOS, 1989, p. 37).

O encadeamento para trás "[...] começa com o objetivo que se quer provar e que é

recursivamente particionado em sub-objetivos mais simples, até que uma solução é

encontrada ou todos os objetivos foram particionados em seus componentes mais simples

[...]" (PASSOS, 1989, p. 38).

- 81 -

4.5.2 Mecanismo de inferência

Segundo definição apresentada em Passos (1989, p. 58), mecanismo de inferência é:

"[...] um método formal (no caso da lógica formal) ou heurístico (no caso de representação de

conhecimento por: regras de produção, rede semântica, quadros) que podem ser programados

para serem usados como manipuladores de bases de conhecimento com o fim de deduzirmos

algo que não está armazenado naquela base de fatos e conhecimentos".

O motor de inferência, segundo Passos (1989, p. 70), "[...] pode ser construído pelos

processos de encadeamento para frente, que é usado para descobrir conseqüências de novos

fatos, e de encadeamento para trás, onde a prova da hipótese é buscada na base de fatos na

[base] de regras [...]".

O funcionamento simplificado do motor de inferência é descrito em Passos (1989) com

as seguintes operações: recebimento dos comandos que se deseja provar; verificação na base

de fatos se o objetivo já existe (em caso afirmativo encerra-se o processamento); verificação

na base de regras se existem regras que podem ser usadas para provar o objetivo e, se a

conclusão pode ser provada, é passada para o usuário.

4.6 LÓGICA NEBULOSA

Segundo Goldschmidt e Passos (2005, p. 183), lógica nebulosa é "[...] uma teoria

matemática que tem como principal objetivo permitir a modelagem do modo aproximado de

raciocínio, imitando a habilidade humana de tomar decisões em ambientes de incerteza e

imprecisão". Tais informações são características de expressões lingüísticas empregadas por

especialistas ao descrever determinada situação. São exemplos de expressões imprecisas:

"pressão média", "temperatura alta", "muito jovem", etc.

Segundo Zadeh et al. (2007), lógica nebulosa tem dois diferentes significados. Num

sentido estrito, é um sistema lógico, extensão da lógica multivalorada. No sentido amplo, é

- 82 -

um sinônimo de teoria de conjuntos nebulosos, relacionada com conjuntos de objetos sem

fronteiras bem definidas, com graus variados de pertinência. Neste último sentido será

conduzida a análise seguinte.

Outro conceito relacionado com lógica nebulosa, também apresentado em Zadeh et al.

(2007), são as regras nebulosas. Tais regras são usadas conjuntamente com o conceito de

sistemas especialistas para formar os sistemas especialistas nebulosos, também chamados de

sistemas de lógica nebulosa.

Serão apresentados nas próximas seções alguns conceitos básicos de lógica nebulosa

envolvendo conjuntos nebulosos. Tais conceitos serão usados na Seção 4.7 para a construção

de sistemas de lógica nebulosa.

4.6.1 Conjuntos nebulosos

Segundo a Teoria de Conjuntos, uma das formas de representação de um conjunto A é

através de sua função característica ou de pertinência. Conforme apresentado em Lourenço

(1998), sendo A um conjunto do universo de discurso U e sendo x um elemento de U, denota-

se a função de pertinência de A por:

( )

( ) Axx

Axx

A

A

∉=

∈=

,0

,1

µ

µ (4-46)

Essa função indica se um dado elemento pertence ou não ao conjunto. Segundo a lógica

clássica, um elemento pertence ou não pertence a um conjunto, não existindo possibilidade de

situação intermediária (GOLDSCHMIDT; PASSOS, 2005).

Conforme exposto em Lourenço (1998), generalizando o conceito anterior de modo que

a função característica possa assumir um número infinito de valores no intervalo [0, 1], tem-se

o conceito de conjunto nebuloso. Um conjunto nebuloso F, definido em U, é caracterizado por

- 83 -

uma função de pertinência ( )xFµ que assume valores no intervalo [0, 1]. Representa-se F

por:

( )( ){ }UxxxF F ∈= |,µ (4-47)

A função de pertinência nesse caso é uma curva que define o grau de pertinência para

cada ponto do espaço de entrada em relação ao conjunto nebuloso (ZADEH et al., 2007).

Esse conjunto pode ser representado graficamente, conforme apresentado na Figura 4-3,

ou por pares ordenados contendo um elemento genérico x e seu grau de pertinência ( )xFµ ,

conforme apresentado na Tabela 4-1.

Temperatura (oC)

Pertinência

0

1

40 5030

alta

Figura 4-3: Conjunto nebuloso representando temperatura alta

Tabela 4-1: Pertinência da variável temperatura em relação ao conjunto temperatura alta

Temperatura (oC) 25 30 35 40 45 50 55

Pertinência ao conjuntonebuloso temperatura alta

0 0 0,5 1 0,5 0 0

Existem vários formatos para a representação de conjuntos nebulosos, sendo a escolha

determinada pela compatibilidade entre o formato e o conceito representado

(GOLDSCHMIDT; PASSOS, 2005). Em Lourenço (1998) são citados os formatos triangular,

trapezoidal e gaussiano como os mais usados.

- 84 -

4.6.2 Variáveis lingüísticas

Segundo Lourenço (1998, p. 30), são "[...] aquelas cujos valores podem ser palavras ou

sentenças em uma linguagem específica". São usualmente decompostas em um conjunto de

termos cobrindo seu universo de discurso. Segundo Goldschmidt e Passos (2005, p. 168),

"[...] é um objeto utilizado para representar de modo impreciso um conceito de determinado

problema".

Baseado no exemplo exposto em Lourenço (1998), tem-se a variável lingüística

"temperatura", que pode ser decomposta no conjunto {baixa, normal, alta}. Tomando como

universo de discurso U = [5oC, 50oC], pode-se representá-la por conjuntos nebulosos

conforme apresentado na Figura 4-4.

Temperatura (0C)

Pertinência

0

1

40 5010

alta

20 30

normalbaixa

22

0,25

0,75

Figura 4-4: Representação dos conjuntos nebulosos referentes à variável lingüística "temperatura"

Na Figura 4-4 percebe-se que um mesmo valor de temperatura pode estar

simultaneamente em dois conjuntos nebulosos, com seus respectivos graus de pertinência. No

exemplo, a temperatura 22oC pertence ao mesmo tempo aos conjuntos "temperatura baixa" e

"temperatura normal" com pertinências respectivamente de 0,75 e 0,25.

Uma observação apontada em Lourenço (1998) refere-se ao número de conjuntos

nebulosos usados para representar a variável lingüística (no exemplo foram usados três

- 85 -

conjuntos). A escolha é arbitrária, sendo maior a resolução conforme o maior número de

conjuntos, aumentando conseqüentemente a complexidade computacional do sistema.

4.6.3 Operações com conjuntos nebulosos

Como apresentado em Lourenço (1998) e Goldschmidt e Passos (2005), sendo A e B

conjuntos nebulosos, caracterizados por suas funções de pertinência ( )xAµ e ( )xBµ , as

seguintes operações podem ser definidas:

• Operador nebuloso de união (T-Conorm ou S-Norm), correspondente ao operador

lógico "OU", pode ser definido das seguintes formas:

( ) ( ) ( )[ ]xxx BABA µµµ ,max=∪ (4-48)

( ) ( ) ( )[ ]xxx BABA µµµ +=∪ ,1min (4-49)

• Operador nebuloso de interseção (T-Norm), correspondente ao operador lógico "E",

pode ser definido das seguintes formas:

( ) ( ) ( )[ ]xxx BABA µµµ ,min=∩ (4-50)

( ) ( ) ( )xxx BABA µµµ ∗=∩ (4-51)

• Operador nebuloso de complemento, correspondente ao operador lógico "Não",

pode ser definido da seguinte forma:

( ) ( )xx AAµµ −=1 (4-52)

As definições anteriores de função de pertinência, embora não sejam as únicas

possíveis, são as mais encontradas na literatura para os respectivos operadores.

4.6.4 Relação e composição nebulosas

Segundo apresentado em Lourenço (1998), dados dois universos do discurso U e V, a

relação nebulosa R(U, V) é um subconjunto nebuloso no espaço produto U x V, caracterizado

pela função de pertinência ( ) VyUxyxR ∈∈ ,,,µ , definido como:

- 86 -

( ) ( )( ) ( ){ }UxVyxyxyxVUR R ∈= ,|,,,),( µ (4-53)

Uma composição nebulosa das relações R(U, V) e S(V, W), denotada por RoS, é aquela

descrita pela função de pertinência ( )zxRoS ,µ , denotada por:

( ) ( ) ( )[ ]zyyxzx SRVyRoS ,,sup, µµµ ∗= ∈ (4-54)

Essa composição é chamada sup-star de R e S, sendo o operador sup correspondente ao

máximo quando U, V e W são universos discretos. O operador star corresponde ao mínimo ou

produto.

4.7 SISTEMAS DE LÓGICA NEBULOSA

Segundo Lourenço (1998), um sistema de lógica nebulosa é aquele capaz de manipular

dados numéricos (informações precisas) e conhecimento lingüístico (informações imprecisas)

simultaneamente. Tais sistemas mapeiam de forma não-linear valores numéricos de entrada

em valores numéricos de saída.

São compostos de quatro componentes: fuzificador, regras, mecanismo de inferência e

defuzificador. A Figura 4-5 representa esquematicamente os componentes de um sistema de

lógica nebulosa.

Como descrito pelo autor, o componente fuzificador é responsável pelo mapeamento

dos dados numéricos de entrada em conjuntos nebulosos. O conhecimento lingüístico é

expresso através de um conjunto de regras "se - então", baseadas em variáveis lingüísticas.

Tais regras podem ser estabelecidas por especialistas ou extraídas dos dados numéricos. O

mecanismo de inferência realiza a combinação das regras, mapeando conjuntos nebulosos em

conjuntos nebulosos. O defuzificador mapeia conjuntos nebulosos em variáveis numéricas

que correspondem à saída do sistema.

- 87 -

Sistema de lógica nebulosa

Fuzificador

Defuzificador

Mecanismo deinferência

Dados numéricos(Entradas precisas)

Conjuntosnebulosos

Conjuntosnebulosos

Regrasnebulosas

Dados numéricos(Saídas precisas)

Figura 4-5: Sistema de lógica nebulosa

Para exemplificar o uso do sistema, utilizar-se-á um exemplo baseado na emissão de

notas de empenho. Definem-se inicialmente duas variáveis lingüísticas de entrada do sistema:

probabilidade de emissão de uma nota de empenho por um dado órgão e por uma dada UG,

ambas pertencentes ao universo [0, 1]. Criam-se então três conjuntos nebulosos para

representar cada variável, referentes a probabilidades consideradas baixas, médias e altas.

Importante ressaltar que os limites desses conjuntos não são os mesmos para as duas variáveis

linguísticas de entrada, variando em função das particularidades de cada uma. A Figura 4-6

apresenta os dois conjuntos nebulosos propostos.

Dadas as entradas do sistema, por exemplo 0,07 para probabilidade do órgão e 0,28 para

probabilidade da UG, pode-se usar o módulo fuzificador para determinar a pertinência desses

valores em relação aos conjuntos nebulosos. Com os dados apresentados e considerando os

conjuntos da Figura 4-6, ter-se-ia os valores de pertinência da Tabela 4-2.

- 88 -

Probabilidadeórgão

pertinência

0

1

10,1

alta

0,05 0,45

médiabaixa

0,40,07

0,25

0,50

0

1

10,3

alta

0,2 0,5

médiabaixa

0,4 ProbabilidadeUG

pertinência

0,28

0,30

0,40

Figura 4-6: Conjuntos nebulosos para as variáveis lingüísticas probabilidade de órgão e probabilidade deUG

Tabela 4-2: Valores de pertinência

ProbabilidadePertinência ao conjunto

probabilidade baixaPertinência ao conjunto

probabilidade média

Órgão 0,07 0,50 0,25

UG 0,28 0,30 0,40

Considerando um conjunto de regras definidas pelo especialista tais como:

• Regra 1 – Se probabilidade de órgão baixa e probabilidade de UG baixa então

anomalia alta;

• Regra 2 – Se probabilidade de órgão média e probabilidade de UG média então

anomalia média.

- 89 -

Usando o mecanismo de inferência aplicado aos dados de entrada ter-se-ia o resultado

da Tabela 4-3.

Tabela 4-3: Resultado do mecanismo de inferência

Pertinência órgão Pertinência UG Resultado pelo mínimo

Regra 1 0,50 baixa 0,30 baixa 0,30 anomalia alta

Regra 2 0,25 média 0,40 média 0,25 anomalia média

Montando o conjunto nebuloso de saída do mecanismo de inferência ter-se-ia como

resultado a Figura 4-7.

pertinência

anomalia0

1

0,7 10,3

alta

0,5

médiabaixa

0,25

0,30

Figura 4-7: Conjunto nebuloso de saída

Para obter uma saída exata em relação ao valor da anomalia utiliza-se o módulo

defuzificador. Uma das formas de obter a saída exata, como sugerido em Lourenço (1998), é

através do cálculo pelo centróide, cuja equação é dada por:

( )

( )∫∫

=dyy

dyyyy

µ

µ_

(4-55)

- 90 -


Kantardzic (2003) faz uma apresentação detalhada sobre conceitos de lógica nebulosa.

Liebowitz et al. (1997) aborda o tema de sistemas especialistas. Buckley e Willian (2005),

além de abordarem os dois assuntos citados de forma introdutória, realizam a junção dos dois

temas, propondo a criação de sistemas especialistas nebulosos.

- 91 -

5 ORÇAMENTO PÚBLICO

5.1 INTRODUÇÃO

O objetivo do capítulo é fazer uma introdução à execução orçamentária no Brasil. Sendo

um tema muito abrangente, serão tratados apenas os assuntos diretamente relacionados com a

Tese, em particular a descrição do ciclo orçamentário e o detalhamento da execução da

despesa.

O capítulo objetiva também apresentar as formas de controle existentes sobre a

Administração Pública, principalmente em relação à contratação de produtos e serviços. A

normatização do tema é estabelecida em grande parte pela Lei no 8.666/93 (BRASIL, 1993),

que institui normas sobre licitações e contratos da Administração. A verificação do

cumprimento dessa e de outras normas relacionadas cabe ao controle interno de cada órgão e

externamente ao Tribunal de Contas da União (TCU).

Para desempenhar a função de controle, os órgãos responsáveis utilizam informações

registradas em sistemas de informação da Administração, entre os quais destaca-se o Siafi,

cujos dados subsidiaram a execução desta Tese. Tais sistemas serão relacionados ao final do

capítulo, dando-se maior ênfase à descrição do Siafi, pela sua importância para a realização

do trabalho.

5.2 ORÇAMENTO PÚBLICO

Segundo Lima (2003, p. 19), orçamento público é

"[...] o planejamento feito pela Administração Pública para atender, durante determinado período, aos

planos e programas de trabalho por ela desenvolvidos, por meio da planificação das receitas a serem obtidas e

pelos dispêndios a serem efetuados, objetivando a continuidade e a melhoria quantitativa e qualitativa dos

serviços prestados à sociedade [...]".

- 92 -

Segundo Mota (2006, p. 23), é

"[...] o ato administrativo revestido de força legal que estabelece um conjunto de ações a serem realizadas,

durante um período de tempo determinado, estimando o montante das fontes de recursos a serem arrecadados

pelos órgãos e entidades públicas e fixando o montante dos recursos a serem aplicados pelos mesmos na

consecução dos seus programas de trabalho, a fim de manter ou ampliar serviços públicos, bem como realizar

obras que atendam às necessidades da população [...]".

Ainda segundo Mota (2006), o orçamento autoriza o recebimento de recursos

financeiros e a realização de gastos. Os recursos não vêm junto com o orçamento, vão se

tornando disponíveis à medida que os contribuintes recolhem seus tributos. Com a

disponibilização efetiva dos recursos pode a Administração efetuar o pagamento de seus

gastos. O ingresso de dinheiro nos cofres públicos e sua posterior utilização para o pagamento

dos gastos caracteriza a execução orçamentária.

O Orçamento Geral da União (OGU) inclui o orçamento fiscal, orçamento da

seguridade social e orçamento de investimento das empresas estatais federais (BRASIL,

MPOG, 2006). Seu planejamento e execução são realizados por um conjunto de órgãos,

divididos em órgãos centrais e setoriais. Como órgãos centrais destacam-se a SPI (Secretaria

de Planejamento e Investimentos - órgão central de planejamento), SOF (Secretaria de

Orçamento Federal - órgão central de orçamento) e STN (Secretaria do Tesouro Nacional -

órgão central de programação financeira e contabilidade). Como órgãos setoriais existem as

subsecretarias de orçamento, planejamento e finanças, sujeitas à orientação normativa e

supervisão técnica dos órgãos centrais, sem prejuízo da subordinação ao órgão em cuja

estrutura administrativa estiverem integrados.

A Constituição Federal de 1988 (BRASIL, 1988) atribuiu ao Poder Executivo a

responsabilidade pelo sistema de planejamento e orçamento. Segundo o art. 165 da

Constituição, leis de iniciativa do Poder Executivo estabelecem o Plano Plurianual (PPA), as

- 93 -

Diretrizes Orçamentárias (LDO) e o Orçamento Anual (LOA). Além dessas, destacam-se na

organização orçamentária a Lei no 4.320/64 (BRASIL, 1964), que estabelece normas gerais de

direito financeiro para elaboração e controle orçamentário; o Decreto-Lei no 200/67

(BRASIL, 1967), que dispõe sobre a organização da Administração Federal; o Decreto no

93.872/86 (BRASIL, 1986), que dispõe sobre a unificação dos recursos de caixa do Tesouro

Nacional e consolida a legislação pertinente e a Lei Complementar no 101/00 (BRASIL,

2000), que estabelece normas de finanças públicas voltadas para a responsabilidade na gestão

fiscal.

5.2.1 Plano Plurianual

O PPA é o planejamento orçamentário de quatro anos, cuja vigência se estende até o

primeiro exercício financeiro do mandato presidencial subseqüente ao de sua criação, visando

à continuidade dos planos e programas instituídos pelo governo anterior (LIMA, 2003). Deve

estabelecer, de forma regionalizada, as diretrizes, objetivos e metas da Administração Pública

para as despesas de capital e relativas aos programas de duração continuada. Nenhum

investimento, cuja execução ultrapasse um exercício financeiro, poderá ser iniciado sem

prévia inclusão no PPA, ou sem lei que autorize a inclusão (BRASIL, 1988).

O projeto de lei do PPA deve ser enviado pelo Presidente da República ao Congresso

Nacional até o dia 31 de agosto do primeiro ano de mandato (BRASIL, MPOG, 2006). O

Poder Legislativo tem até o dia 15 de dezembro (término da Sessão Legislativa) para devolver

o PPA ao Poder Executivo para fins de sanção e publicação (MOTA, 2006). Sua vigência irá

até 31 de dezembro do primeiro ano do governo subseqüente (BRASIL, MF, 2006).

Segundo Castro (2004), o primeiro PPA foi elaborado no governo Fernando Collor para

vigorar de 1991 a 1995, não tendo se tornado efetivamente um orientador da ação

governamental. O segundo PPA, denominado "Brasil em ação", foi elaborado no governo

- 94 -

Fernando Henrique Cardoso para o quadriênio 1996 - 1999. O terceiro PPA, também no

governo Fernando Henrique, denominado "Avança Brasil", foi elaborado para o período 2000

- 2003. Empossado o governo Lula, foi criado o PPA denominado "Brasil de todos" para o

quadriênio 2004 - 2007.

5.2.2 Lei de Diretrizes Orçamentárias

Segundo Lima (2003, p. 28), a LDO

"compreende o conjunto de metas e prioridades da Administração Pública Federal, incluindo as despesas

de capital para o exercício financeiro subseqüente, orientando a elaboração da LOA, dispondo sobre as

alterações da legislação tributária e estabelecendo a política de aplicação das agências oficiais de fomento.

Estabelece a partilha dos recursos orçamentários entre os três poderes e o Ministério Público, bem como os

parâmetros para administração da dívida pública".

Funciona como elo de ligação entre o PPA, que atua como plano de governo, e a LOA,

que é o instrumento de execução desse plano.

O Projeto da LDO deve ser enviado pelo Poder Executivo ao Congresso Nacional até o

dia 15 de abril de cada ano. O Poder Legislativo tem até o dia 30 de junho para devolver a

LDO ao Poder Executivo para fins de sanção e publicação (BRASIL, MPOG, 2006).

Com base na LDO aprovada pelo Legislativo, a SOF elabora a proposta orçamentária

para o ano seguinte, em conjunto com os Ministérios e as unidades orçamentárias dos Poderes

Legislativo e Judiciário (BRASIL, MPOG, 2006).

5.2.3 Lei Orçamentária Anual

A LOA é o orçamento propriamente dito, cuja proposta é de iniciativa do Presidente da

República, consolidando informações dos vários órgãos da Administração Pública Federal

(LIMA, 2003). Compreende o orçamento fiscal referente aos Poderes da União, o orçamento

de investimento das empresas em que a União, direta ou indiretamente, detenha maioria do

- 95 -

capital social com direito a voto e o orçamento da seguridade social, este último incluindo as

áreas de saúde, previdência e assistência social.

O Projeto da LOA deve ser enviado ao Congresso Nacional até 31 de agosto de cada

ano e deve ser votado até o final de cada Legislatura. Depois de aprovado pelo Congresso, o

projeto é sancionado pelo Presidente da República e se transforma em Lei. A LOA entra em

vigor a partir de primeiro de janeiro do ano seguinte (BRASIL, MPOG, 2006).

A LOA estima as receitas e autoriza as despesas de acordo com a previsão de

arrecadação. Pode ocorrer durante o ano a necessidade de despesas acima do limite previsto

na lei, sendo necessária lei que autorize o crédito adicional. Da mesma forma, os gastos

podem sofrer restrições em função da redução na arrecadação, sendo editados decretos pelo

Poder Executivo, chamados Decretos de Contingenciamento, em que são autorizadas somente

despesas no limite das receitas arrecadadas.

5.3 CICLO ORÇAMENTÁRIO

O ciclo orçamentário compreende as diversas etapas pelos quais passa o orçamento,

desde o surgimento da proposta da LOA, passando pela aprovação, sanção, publicação,

execução, até o acompanhamento e avaliação pelos controles interno e externo (MOTA,

2006).

O ciclo orçamentário abrange um período de tempo superior ao exercício financeiro

pois o envio do projeto da LOA é feito antes do início do exercício e sua avaliação somente

poderá ser feita após a execução do orçamento (MOTA, 2006).

São quatro as etapas principais do ciclo orçamentário: elaboração da proposta, discussão

e aprovação da proposta, execução do orçamento e controle e avaliação da execução do

orçamento (VIEIRA et al., 2004). A seguir serão apresentadas as quatro etapas.

- 96 -

5.3.1 Elaboração da proposta orçamentária

A elaboração da proposta orçamentária inicia com a criação de propostas iniciais por

parte das unidades gestoras. As propostas iniciais são consolidadas no nível de órgão ou

ministério e encaminhadas ao órgão central do sistema de orçamento da União, a SOF. Esta

por sua vez consolida as propostas setoriais do Poder Executivo com as dos Poderes

Legislativo e Judiciário. Nesse momento surge o projeto da LOA, obedecidas as diretrizes da

LDO, a ser submetido pelo Presidente da República ao Congresso Nacional (MOTA, 2006).

5.3.2 Discussão e aprovação da proposta orçamentária

No Congresso inicia-se a segunda etapa do ciclo com a apreciação da Comissão Mista

de Orçamento, comissão permanente do Congresso composta de deputados e senadores.

Apresentadas as emendas e emitido o parecer da comissão, a proposta é apreciada pelo

plenário das duas Casas do Congresso. Aprovado em plenário, o projeto é enviado ao

Presidente da República para sanção e publicação. Se todas as etapas forem desenvolvidas

dentro dos prazos, a Lei Orçamentária começará a ser executada a partir do início do exercício

financeiro (MOTA, 2006).

5.3.3 Execução da Lei Orçamentária

Na terceira etapa do ciclo, a STN, por intermédio do SIAFI, contabiliza a dotação

orçamentária, permitindo às unidades gestoras emitir empenhos, descentralizar dotações,

liquidar despesas, emitir ordens bancárias, arrecadar receitas, etc (MOTA, 2006).

A execução da Lei Orçamentária pode ser dividida em execução orçamentária e

execução financeira, vistas na Seção 5.4.

- 97 -

5.3.4 Avaliação da execução orçamentária

A última etapa do ciclo consiste no acompanhamento e avaliação do processo de

execução, que pode ser interno, quando realizado no próprio órgão, ou externo, quando

realizado pelo Congresso Nacional, auxiliado pelo TCU (MOTA, 2006). Mais detalhes sobre

a avaliação feita pelo TCU serão apresentados na Seção 5.8.1.

5.4 EXECUÇÃO ORÇAMENTÁRIA E FINANCEIRA

Publicada a LOA inicia-se a terceira etapa do ciclo orçamentário: a execução

orçamentária e financeira. A primeira corresponde à utilização dos créditos consignados no

orçamento. Créditos representam dotações ou autorizações de gastos ou sua descentralização.

A execução financeira corresponde à utilização dos recursos financeiros com o objetivo de

atender a realização das ações orçamentárias atribuídas a cada unidade. Recursos representam

dinheiro ou saldo de disponibilidade financeira. Sendo assim criam-se dois fluxos entre os

órgãos centrais e setoriais, o fluxo de créditos e o fluxo de recursos. A Figura 5-1 e Figura 5-2

representam respectivamente os fluxos orçamentário e financeiro.

Descentralização Orçamentária(Fluxo de créditos)

SOF/MPOG

Órgão Setorial

Unidade Vinculada

Dotação[Nota de Dotação - ND]

Descentralização interna ou provisão[Nota de Movimentação de Crédito - NC]

Outro Órgão

Descentralização externa ou destaque[Nota de Movimentação de Crédito - NC]

Figura 5-1: Fluxo orçamentário e respectivos documentos de lançamento no Siafi

- 98 -

Descentralização Financeira(Fluxo de recursos)

STN/MF

Órgão Setorial

Unidade Vinculada

Cota[Ordem Bancária - OB e

Nota de Lançamento - NL]

Sub-repasse[OB e NL]

Outro Órgão

Repasse[OB e NL]

Figura 5-2: Fluxo financeiro e respectivos documentos de lançamento no Siafi

Após a sanção presidencial à Lei Orçamentária aprovada pelo Congresso Nacional e

seguindo a orientação do art. 8o da Lei de Responsabilidade Fiscal (BRASIL, 2000), o Poder

Executivo mediante decreto deve estabelecer em até trinta dias a programação financeira e o

cronograma de desembolso mensal por órgãos, observadas as metas de resultados fiscais

dispostas na Lei de Diretrizes Orçamentárias. Após a publicação da LDO, deve também a

SOF encaminhar à STN as informações sobre o orçamento aprovado, as quais são

disponibilizadas para os órgãos da Administração Pública através do SIAFI.

5.4.1 Execução financeira

Segundo (BRASIL, MF, 2006), a execução financeira

"[...] compreende um conjunto de atividades com o objetivo de ajustar o ritmo de execução do orçamento

ao fluxo provável de recursos financeiros. Assegurando a execução dos programas anuais de trabalho, realizados

por meio do SIAFI, com base nas diretrizes e regras estabelecidas pela legislação vigente [...]".

Segundo Vieira et al. (2004, p. 23), a execução financeira

"[...] compreende a utilização efetiva dos recursos para a realização dos programas de trabalho definidos

no orçamento. A movimentação de recursos entre as unidades do sistema de programação financeira é executada

através de liberações de cotas, de repasses e de sub-repasses [...]".

- 99 -

A Programação Financeira se realiza em três níveis distintos, sendo a Secretaria do

Tesouro Nacional o órgão central, contando ainda com a participação das Subsecretarias de

Planejamento, Orçamento e Administração (ou equivalentes os órgãos setoriais - OSPF) e as

Unidades Gestoras Executoras (UGE).

Compete ao Tesouro Nacional estabelecer as diretrizes para a elaboração e formulação

da programação financeira mensal e anual, bem como a adoção dos procedimentos

necessários a sua execução. Aos órgãos setoriais competem a consolidação das propostas de

programação financeira dos órgãos vinculados (UGE) e a descentralização dos recursos

financeiros recebidos do órgão central. Às Unidades Gestoras Executoras cabe a realização da

despesa pública nas suas três etapas, ou seja: o empenho, a liquidação e o pagamento

(BRASIL, MF, 2006).

Com base no Decreto de Programação Orçamentária e Financeira (DPOF), as Unidades

Orçamentárias registram mensalmente no Siafi suas Propostas de Programação Financeira

(PPF) para o mês seguinte, que serão analisadas pela STN. Após a análise e respectivos

ajustes, a STN registra no Siafi a Programação Financeira Aprovada (PFA), contendo os

cronogramas de desembolso que serão obedecidos no mês em análise (LIMA, 2003),

propiciando o acompanhamento das saídas da conta única em favor dos Órgãos Setoriais de

Programação Financeira (OSPF). Estes, por sua vez, descentralizam os limites da PFA às

unidades executoras (LIMA, 2003).

Segundo Brasil (1999), as liberações de recursos da STN aos OSPF e destes para as

unidades gestoras supervisionadas serão efetivadas mediante a concessão de limites de saque

à conta única do Tesouro Nacional, através de registro em conta contábil.

Deve-se ressaltar que o fluxo de caixa do Tesouro inclui não só o cronograma de

desembolso (fluxo de despesa) como também o fluxo de receitas.

- 100 -

5.5 RECEITA PÚBLICA

Segundo Vieira et al. (2004, p. 6), "O Regulamento Geral de Contabilidade Pública

conceitua como receita da União todos os créditos de qualquer natureza que o governo tem

direito de arrecadar em virtude de leis gerais e especiais, de contratos e quaisquer títulos de

que derivem direitos a favor do Estado".

Em Mota (2006), a receita pública é conceituada como o conjunto de ingressos de

recursos financeiros, dividindo-se em orçamentários, aqueles que devem fazer parte da lei de

orçamento para que possam ser utilizados, e extra-orçamentários, aqueles que representam

obrigações a pagar a terceiros, não podendo fazer parte do orçamento. Como exemplos dos

primeiros são citados: receita tributária, de prestação de serviços, de contribuições sociais, de

juros, de alienação de bens, etc. Como exemplos de ingressos extra-orçamentários são citados:

recebimento de depósitos e cauções, salários não reclamados, depósitos não identificados, etc.

Segundo a Lei 4.320/64, pertencem ao exercício financeiro as receitas nele arrecadadas,

estabelecendo para o reconhecimento da receita o regime de caixa.

Segundo o Manual Técnico de Orçamento (BRASIL, 2004), a receita pode ser

classificada segundo sua natureza em categoria econômica, fonte, subfonte, rubrica, alínea e

subalínea. Como exemplo o código 1.1.1.2.04.01 indica como categoria "receita corrente",

como fonte "receita tributária", como subfonte "imposto", como rubrica "imposto sobre

patrimônio e renda", como alínea "renda e proventos" e como subalínea "pessoa física".

5.5.1 Estágios ou fases da receita orçamentária

Há na literatura especializada divergência sobre o número e denominação das fases

pelas quais passa a receita orçamentária. Segundo Kohama (2003) a receita percorre três

estágios: previsão, lançamento e arrecadação, incluindo nesta última o recolhimento. Segundo

Vieira et al. (2004), a receita orçamentária passa por quatro fases denominadas de estágios:

- 101 -

previsão, lançamento, arrecadação e recolhimento. O primeiro ocorre ainda na fase de

formulação orçamentária, o segundo, terceiro e quarto pertencem à fase de execução

orçamentária. Segundo Mota (2006), a receita orçamentária pode ser dividida nos estágios

previsão, arrecadação e recolhimento.

A previsão representa a estimativa de receita quando da elaboração da proposta

orçamentária, encerrando-se com o lançamento fiscal. Este último representa o ato

administrativo do Poder Executivo que consiste na identificação do devedor, discriminação da

espécie, valor e vencimento do tributo. A arrecadação é o ato pelo qual o contribuinte

comparece perante o agente arrecadador e realiza o pagamento do tributo. O recolhimento

representa a entrega diária do produto da arrecadação por parte dos agentes arrecadadores ao

Tesouro Público.

5.6 DESPESA PÚBLICA

Segundo Angélico (1995), a despesa pública é todo pagamento efetuado a qualquer

título pelos agentes pagadores. Em Mota (2006), esses pagamentos são classificados em

desembolso orçamentário, quando autorizados pela Lei do Orçamento (LOA), e desembolso

extra-orçamentário, quando autorizados por via administrativa ou outros instrumentos

normativos. Como exemplos dos primeiros são citados: despesa de pessoal, encargos sociais,

juros, serviços de terceiros, amortização da dívida, etc. Como exemplos de desembolsos

extra-orçamentários são citados: devolução de depósitos e cauções de terceiros, quitação de

retenções e consignações, etc.

Ainda segundo Mota (2006), cabe diferenciar as despesas orçamentárias efetivas e não-

efetivas. Nas primeiras ocorre desembolso financeiro ou assunção de obrigações sem

incorporação de elementos ativos ou desincorporação de elementos passivos, ou seja, são

fatos modificativos diminutivos, produzindo alteração do patrimônio líquido. São exemplos as

- 102 -

despesas com pessoal, encargos sociais e serviços de terceiros. Nas despesas orçamentárias

não-efetivas o patrimônio líquido não é alterado, tratando-se portanto de fatos permutativos.

São exemplos a aquisição de material e concessão de empréstimos.

Conforme exposto em Mota (2006) e Giacomoni (2005), a despesa pública orçamentária

(efetiva e não-efetiva) pode ser classificada segundo apresentado na Tabela 5-1 e Tabela 5-2.

Tabela 5-1: Classificação da despesa pública orçamentária

Classificação Resumo

Institucional

Responde à indagação “Quem” é o responsável pela programação.Permite conhecer a aplicação dos recursos por órgão e unidade orçamentária.É codificada com cinco dígitos (xx.xxx) sendo os dois primeiros indicativosdo órgão e os três últimos da unidade orçamentária.Exemplo: 01.101 – Câmara dos Deputados.

Funcional

Responde à indagação “Em que área” de ação governamental a despesa serárealizada.É codificada com cinco dígitos (xx.xxx) sendo os dois primeiros indicativosda função e os três últimos da subfunção.Exemplo: 10.304 - função saúde, subfunção vigilância sanitária.

Programática

Responde à indagação “Para que” os recursos são alocados.Divide-se em Programa (codificado em quatro dígitos) e Ação (codificadaem quatro dígitos), que pode ser uma atividade (realizada de modo contínuoe permanente), projeto (realizado num período limitado de tempo) ouoperação especial.Exemplo: 0580 2674 – representação judicial e extrajudicial da união.

ClassificaçãoEconômica ouNatureza da

Despesa

Responde às indagações “O que” será adquirido e “Qual” o efeito econômicoda realização da despesa.Divide-se em categoria econômica, grupo da despesa, modalidade deaplicação e elemento de despesa.É codificada com seis dígitos (x.x.xx.xx). A Lei 4.320/64 (BRASIL, 1964)traz a classificação econômica ou natureza da despesa conforme apresentadona Tabela 5-2.Exemplo: 3.3.90.30 – material de consumo.

- 103 -

Tabela 5-2: Classificação da despesa pública orçamentária quanto à natureza da despesa

CategoriaEconômica

Grupo Modalidade de AplicaçãoElemento

da Despesa

9- Reserva decontingência

9 99 99

3- Corrente1- Pessoal e encargos sociais2- Juros e encargos da dívida3- Outras despesas correntes

4- Capital4- Investimento5- Inversões financeiras6- Amortização da dívida

20- Transferências à União30- Transferências a Estados40- Transferências a Municípios50- Transferências a instituiçõesprivadas sem fins lucrativos60- Transferências a instituiçõesprivadas com fins lucrativos70- Transferências a instituiçõesmultigovernamentais80- Transferências ao exterior90- Aplicações diretas99- A definir

Vários

5.6.1 Estágios ou fases da despesa orçamentária

Segundo Mota (2006) e Kohama (2003), a despesa orçamentária é dividida em três

estágios de execução: empenho, liquidação e pagamento. Deve-se considerar ainda um

primeiro estágio, anterior à execução, correspondente à fixação da despesa. Segundo Vieira et

al. (2004), a execução da despesa é dividida em cinco fases: registro dos créditos e dotações,

descentralização de créditos, empenho, liquidação e pagamento. As três últimas fases são

chamadas estágios.

A Figura 5-3 procura conciliar as duas definições anteriores, apresentando as fases (ou

estágios) e os respectivos documentos de lançamento no Siafi. Em seguida são apresentadas

as definições sobre cada fase ou estágio.

- 104 -

Empenho

Liquidação

Pagamento

[NE]

[OB]

[NL]

Fases ou Estágios da Despesa Orçamentária

Registro dos Créditose Dotações (Fixação)

Descentralização deCréditos

Execução

[NC]

[ND]

Figura 5-3: Fases ou estágios da despesa orçamentária com os respectivos documentos de lançamento noSiafi

Segundo Mota (2006), no estágio de fixação estabelece-se o limite de gastos a serem

efetuados pelos órgãos públicos. Esse estágio termina com a publicação da LOA e é

registrado contabilmente no Siafi pela Nota de Dotação (ND).

Segundo Lima (2003, p. 47)

"Após a publicação da LOA, a Secretaria de Orçamento Federal (SOF) procede aos ajustes dos elementos

de despesas dos programas aos dispositivos da Lei. Efetuados os ajustes necessários baseados nas orientações do

Decreto de Programação Orçamentária e Financeira (DPOF), é deflagrado o processo de execução. Através do

DPOF o governo fixa no início de cada exercício, os limites de empenho de dotações orçamentárias e de

pagamento de despesas para cada unidade orçamentária. A programação financeira, segundo a Lei no 4.320/64,

incluirá um quadro de cotas trimestrais de despesa que cada Unidade Orçamentária ficará autorizada a utilizar.

Temos assim um cronograma anual de desembolso financeiro que permite às unidades saber de antemão o

volume de recursos que poderá empenhar e o limite de seus pagamentos".

A descentralização de créditos "é a movimentação das dotações consignadas em Lei,

colocando-as disponíveis aos ordenadores de despesa para que esses possam, por conta de tais

créditos, emitir empenhos" (LIMA, 2003, p. 51). A descentralização pode ser externa, quando

ocorre entre órgãos diferentes ou entre unidades orçamentárias de órgãos diferentes. A

descentralização pode ser também interna, quando ocorre no sentido vertical, ou seja, na

estrutura interna de um órgão ou Ministério. A descentralização interna é a sistemática

- 105 -

comum verificada na execução orçamentária. A descentralização é concretizada por meio de

uma Nota de Movimentação de Créditos (NC), e sua contrapartida do lado financeiro é o

Repasse.

"O empenho da despesa é o ato emanado de autoridade competente que cria para o

Estado obrigação de pagamento pendente ou não de implementação de condição" (BRASIL,

1964, p. 1). O empenho é obrigatório, prévio a realização da despesa e não poderá exceder o

limite de créditos concedidos. A Nota de Empenho (NE) é o documento utilizado para fins de

registro da operação de empenho de uma despesa. Os empenhos, segundo sua natureza e

finalidade, são classificados em ordinário, global e estimativo.

O empenho ordinário atende despesas com montante previamente conhecido e cujo

pagamento deva ocorrer de uma só vez. O empenho global atende despesas com montante

previamente conhecido mas de pagamento parcelado. Exemplos: aluguéis, salários, pensões,

etc. O empenho estimativo atende despesas cujo valor não se possa determinar previamente.

Quando o valor do empenho for insuficiente deve ser reforçado com a emissão de novo

empenho, pelo valor não coberto, mencionando o original. Quando o valor estimado for

superior à despesa deve ser feita a anulação parcial. Segundo Kohama (2003), no momento do

recebimento da conta, onde está o valor do gasto efetivo, é necessário emitir outro documento,

que pode ser subempenho ou ordem de pagamento.

O empenho poderá ser anulado no decorrer do exercício, parcialmente, quando seu valor

exceder o montante da despesa realizada, ou totalmente, quando o serviço não tiver sido

prestado, o material não tiver sido entregue ou ainda quando tiver sido emitido

incorretamente. Poderá também ser anulado no encerramento do exercício, quando se referir a

despesas não liquidadas, salvo as que se enquadrarem nas condições previstas para inscrição

em restos a pagar.

- 106 -

A liquidação, segundo Lima (2003, p. 137), refere-se

"[...] à comprovação de que o credor cumpriu todas as obrigações constantes do empenho, ou seja,

forneceu o bem ou executou o serviço contratado. É nesse estágio que se verifica que o contratante cumpriu o

implemento de condição. No sistema Siafi, a liquidação será aprovada contabilmente por meio de Nota de

Lançamento (NL)"

Feita a liquidação é necessário providenciar a ordem de pagamento, que segundo a Lei

no 4.320/64 é o despacho exarado por autoridade competente, determinando que a despesa

seja paga. O Pagamento consiste na entrega de recursos equivalentes à dívida líquida ao

credor, mediante ordem bancária (OB). O pagamento só poderá ser efetuado após sua regular

liquidação.

Em Kohama (2003) é destacado o fato da realização da despesa ocorrer com a

liquidação e não com o pagamento, uma vez que na liquidação encerra a contabilização no

sistema orçamentário e inicia a contabilização no sistema financeiro.

5.6.2 Créditos adicionais

Segundo a Lei no 4.320/64, créditos adicionais são autorizações de despesas não

computadas ou insuficientemente dotadas na LOA. Dividem-se em: créditos suplementares,

destinados a reforço de dotações orçamentárias; créditos especiais, destinados a despesas para

as quais não há dotação orçamentária específica e créditos extraordinários, destinados a

despesas urgentes e imprevisíveis, em caso de guerra, comoção interna ou calamidade

pública.

5.6.3 Restos a pagar

Segundo o art. 36 da Lei no 4.320/64, consideram-se restos a pagar as despesas

empenhadas mas não pagas dentro do exercício financeiro, ou seja, até 31 de dezembro.

Segundo Lima (2003, p. 148)

- 107 -

"Conforme sua natureza, as despesas inscritas em restos a pagar podem ser classificadas em: processadas,

aquelas já liquidadas, ou seja, o credor já cumpriu suas obrigações dentro do exercício, faltando apenas o

pagamento; não processadas, aquelas não liquidadas, ou seja, dependem do cumprimento da obrigação por parte

do credor. A inscrição de valores em restos a pagar terá validade até 31 de dezembro do ano subseqüente. Após

essa data, os saldos remanescentes serão automaticamente cancelados, permanecendo em vigor, no entanto, o

direito do credor por 5 (cinco) anos, a partir da inscrição".

5.6.4 Despesas de exercícios anteriores

São as dívidas resultantes de compromissos gerados em exercícios anteriores aqueles

em que deve ocorrer o pagamento e que não estejam inscritos em restos a pagar. São

exemplos as despesas de exercícios encerrados, para as quais o orçamento respectivo

consignava crédito próprio com saldo suficiente, e cujo empenho tenha sido considerado

insubsistente e anulado no encerramento do exercício correspondente, mas que, dentro do

prazo estabelecido, o credor tenha cumprido sua obrigação. Outro exemplo são os restos a

pagar com prescrição interrompida, ou seja, despesas cuja inscrição em restos a pagar tenha

sido cancelada, mas ainda vigente o direito do credor.

5.7 LICITAÇÕES

Segundo Mello (2007, p. 505), licitação é

"[...] o procedimento administrativo pelo qual uma pessoa governamental, precisando alienar, adquirir ou

locar bens, realizar obras ou serviços, [...], segundo condições por ela estipuladas previamente, convoca

interessados na apresentação de propostas, a fim de selecionar a que se revele mais conveniente em função de

parâmetros antecipadamente estabelecidos e divulgados".

Ainda segundo Mello (2007), compete à União, aos Estados, aos Municípios e ao

Distrito Federal legislar sobre a matéria, cabendo à primeira editar normas gerais sobre a

matéria, conforme o art. 22 da Constituição. A Lei no 8.666/93 institui normas sobre licitações

e contratos da Administração Pública obrigatórias em todo o país.

- 108 -

Em seu art. 1o estatui que suas normas aplicam-se aos três Poderes, incluindo órgãos da

administração direta, autarquias, fundações públicas, empresas públicas, sociedades de

economia mista e demais entidades controladas direta ou indiretamente pela União, Estados,

Distrito Federal e Municípios.

Segundo seu art. 2o, as obras, serviços, inclusive de publicidade, compras, alienações,

concessões, permissões e locações da Administração Pública, quando contratadas com

terceiros, serão necessariamente precedidas de licitação, ressalvadas as hipóteses previstas na

lei. Segundo Mello (2005), a própria Lei no 8.666/93 prevê casos de dispensa de licitação (art.

24) e inexigibilidade (art. 25). A primeira justifica-se quando seria possível realizá-la,

entretanto, existem razões de interesse público para que se deixe de efetuá-la. A

inexigibilidade resulta da inviabilidade da competição, dada a singularidade do objeto ou do

ofertante.

As modalidades de licitação previstas na Lei no 8.666/93 são: concorrência, tomada de

preços, convite, concurso e leilão. Essas modalidades serão analisadas a seguir.

Concorrência é a modalidade de licitação entre quaisquer interessados que, na fase

inicial de habilitação preliminar, comprovem possuir os requisitos mínimos de qualificação

exigidos no edital para execução de seu objeto.

Tomada de preços é a modalidade de licitação entre interessados devidamente

cadastrados ou que atenderem a todas as condições exigidas para cadastramento até o terceiro

dia anterior à data do recebimento das propostas, observada a necessária qualificação.

Convite é a modalidade de licitação entre interessados do ramo pertinente ao seu objeto,

cadastrados ou não, escolhidos e convidados em número mínimo de três pela unidade

administrativa, a qual afixará, em local apropriado, cópia do instrumento convocatório e o

- 109 -

estenderá aos demais cadastrados na correspondente especialidade que manifestarem seu

interesse com antecedência de até vinte e quatro horas da apresentação das propostas.

Concurso é a modalidade de licitação entre quaisquer interessados para escolha de

trabalho técnico, científico ou artístico, mediante a instituição de prêmios ou remuneração aos

vencedores, conforme critérios constantes de edital publicado na imprensa oficial com

antecedência mínima de quarenta e cinco dias.

Leilão é a modalidade de licitação entre quaisquer interessados para a venda de bens

móveis inservíveis para a Administração ou de produtos legalmente apreendidos ou

penhorados, ou para a alienação de bens imóveis prevista no art. 19 da Lei no 8.666/93, a

quem oferecer o maior lance, igual ou superior ao valor da avaliação.

A Lei no 10.520/2002 (BRASIL, 2002) institui, no âmbito da União, Estados, Distrito

Federal e Municípios, nos termos do art. 37, inciso XXI, da Constituição Federal, modalidade

de licitação denominada pregão, para aquisição de bens e serviços comuns qualquer que seja o

valor estimado da contratação, em que a disputa pelo fornecimento é feita por meio de

propostas e lances em sessão pública. Em seu art. 1o, parágrafo único, a Lei no 10.520/2002

define bens e serviços comuns aqueles cujos padrões de desempenho e qualidade possam ser

objetivamente definidos pelo edital, por meio de especificações usuais no mercado.

5.8 CONTROLE DA ADMINISTRAÇÃO PÚBLICA

Filho (2007, p. 808) define controle da Administração Pública como "[...] o conjunto de

mecanismos jurídicos e administrativos por meio dos quais se exerce o poder de fiscalização e

de revisão da atividade administrativa em qualquer das esferas de Poder".

Segundo Mello (2007), a Administração Pública se sujeita a controles internos,

exercidos por órgãos da própria Administração, e controles externos, efetuados por órgãos

- 110 -

alheios à Administração, compreendendo o controle parlamentar direto, o controle exercido

pelo Tribunal de Contas e o controle jurisdicional.

O controle interno é o exercido pela própria Administração, no acompanhamento e

revisão de seus atos e práticas administrativas, efetuado por um segmento administrativo

formalizado ou não no organograma das instituições.

O controle jurisdicional, tendo como titular o Poder Judiciário, objetiva solucionar

pendências jurídicas, em respeito ao princípio da não-exclusão da apreciação de qualquer

ameaça ou lesão de direito por parte de tal Poder, estabelecida no art. 5o, inciso XXXV, da

Constituição Federal.

O controle parlamentar direto, também chamado de controle externo político, é o

exercido diretamente pelo Congresso Nacional sobre a totalidade da Administração Pública.

Citam-se como exemplos: a sustação de atos e contratos do Executivo, as comissões

parlamentares de inquérito, o julgamento das contas do Executivo, a suspensão e destituição

do Presidente e Ministros, etc.

O controle externo técnico corresponde à instância de controle independente,

personificada pelos Tribunais de Contas, dedicando-se à fiscalização orçamentária, financeira,

patrimonial e operacional, auxiliando o controle político empreendido pelo Poder Legislativo.

No âmbito federal é exercido pelo Tribunal de Contas da União.

5.8.1 Tribunal de Contas da União

Segundo o art. 70 da Constituição Federal, a fiscalização contábil, financeira,

orçamentária, operacional e patrimonial da União e das entidades da administração direta e

indireta, quanto à legalidade, legitimidade, economicidade, aplicação das subvenções e

renúncia de receitas, será exercida pelo Congresso Nacional, mediante controle externo, e

pelo sistema de controle interno de cada Poder. Em seu parágrafo único, o citado artigo

- 111 -

estabelece que prestará contas qualquer pessoa física ou jurídica, pública ou privada, que

utilize, arrecade, guarde, gerencie ou administre dinheiros, bens e valores públicos ou pelos

quais a União responda, ou que, em nome desta, assuma obrigações de natureza pecuniária.

Em seu art. 71, a Constituição Federal estabelece que o controle externo, a cargo do

Congresso Nacional, será exercido com o auxílio do Tribunal de Contas da União. Conclui-se

pelo exposto nos dois artigos citados que o Congresso Nacional possui a titularidade

constitucional para exercer o controle externo enquanto o TCU atua como órgão auxiliar do

Congresso no controle externo.

Nos incisos do art. 71, a Constituição estabelece as atribuições do TCU, sendo

apresentadas a seguir algumas delas com as respectivas explicações:

• Apreciar as contas prestadas anualmente pelo Presidente da República, mediante

parecer prévio. Destaque-se que o Presidente da República presta contas ao

Congresso Nacional, sendo função do TCU realizar a análise técnico-jurídica das

contas, apresentando parecer conclusivo ao Congresso para que este faça o

julgamento das contas;

• Julgar as contas dos administradores e demais responsáveis por dinheiros, bens e

valores públicos da administração direta e indireta. Esse julgamento diz respeito à

legalidade, regularidade e economicidade;

• Apreciar, para fins de registro, a legalidade dos atos de pessoal, tais como admissão

e concessões de aposentadorias, reformas e pensões;

• Realizar, por iniciativa própria, da Câmara dos Deputados, do Senado Federal, de

comissão técnica ou de inquérito, inspeções e auditorias de natureza contábil,

financeira, orçamentária, operacional e patrimonial, nas unidades administrativas

dos Poderes Legislativo, Executivo e Judiciário. Cabe destacar a diferença entre

- 112 -

inspeções e auditorias. As primeiras têm o objetivo de suprimir lacunas e omissões

de informações ou esclarecer dúvidas ou apurar denúncias em relação aos

responsáveis por atos administrativos sujeitos à jurisdição do Tribunal. As auditorias

têm por objetivo obter dados de natureza contábil, financeira, orçamentária e

patrimonial; conhecer a organização e o funcionamento dos órgãos e entidades;

avaliar, do ponto de vista do desempenho operacional, suas atividades e sistemas;

avaliar os resultados alcançados pelos programas e projetos governamentais;

• Fiscalizar a aplicação de quaisquer recursos repassados pela União mediante

convênio, acordo, ajuste ou outros instrumentos congêneres, a Estado, ao Distrito

Federal ou a Município;

• Aplicar aos responsáveis, em caso de ilegalidade de despesa ou irregularidade de

contas, as sanções previstas em lei, assinalando prazo para que o órgão ou entidade

adote as providências necessárias ao exato cumprimento da lei;

• Sustar, se não atendido, a execução do ato impugnado.

5.9 SISTEMAS DE INFORMAÇÃO DA ADMINISTRAÇÃO PÚBLICA

A Administração Pública possui um conjunto de sistemas de informação que a auxiliam

no desempenho de suas atividades, tanto de planejamento como de execução. Esses sistemas

são fonte importante de informações para procedimentos de mineração de dados. Destacam-se

a seguir os principais sistemas, sendo o Siafi, pela sua importância e por ter sido objeto de

estudo deste trabalho, analisado a parte.

Para a realização do planejamento orçamentário destacam-se três sistemas de

informação. Na realização do planejamento plurianual destaca-se o Sistema de Informações

Gerenciais e de Planejamento (SIGPlan), sob responsabilidade da Secretaria de Planejamento

e Investimentos do Ministério do Planejamento. Na elaboração da LOA e da LDO destaca-se

- 113 -

a utilização do Sistema Integrado de Dados Orçamentários (SIDOR), sob responsabilidade da

Secretaria de Orçamento Federal do Ministério do Planejamento. Na etapa de execução

orçamentária destaca-se o Sistema Integrado de Administração Financeira do Governo

Federal (SIAF), sob responsabilidade da Secretaria do Tesouro Nacional do Ministério da

Fazenda. A Figura 5-4 representa a utilização dos três sistemas.

Ministério da Fazenda

Ministério do Planejamento, Orçamento e Gestão

Planejamento Orçamentário- Autorização para o recebimento de recursos financeiros- Autorização para a realização de gastos

SOF SIDOR

STN SIAFIExecução Orçamentária

- Arrecadação da receita- Realização da despesa

Plano PlurianualSPI SIGPlan

Figura 5-4: Sistemas de informação usados no planejamento e execução do orçamento

Para o acompanhamento das atividades da Administração Pública destacam-se ainda os

sistemas:

• Sisbacen – Sistemas de Informações do Banco Central;

• Siscomex – Sistema Integrado de Comércio Exterior;

• Siasg – Sistema Integrado de Administração de Serviços Gerais;

• Spiu – Sistema de Patrimônio da União;

• Siape – Sistema Integrado de Administração de Pessoal;

• Infoseg – Sistema de Integração Nacional de Informações de Justiça e Segurança

Pública;

• Sinapi – Sistema Nacional de Preços de Referência;

• Dívida – Sistema de Acompanhamento de Dívida Ativa;

- 114 -

• Sisobi – Sistema de Controle de Óbitos;

• Renavan – Cadastro Nacional de Veículos.

5.9.1 SIAFI

Segundo Mota (2006, p. 193), o Sistema Integrado de Administração Financeira do

Governo Federal (Siafi) é

"[...] o sistema de teleinformática que processa a execução orçamentária, financeira, patrimonial e

contábil dos órgãos e entidades da Administração Federal, com a utilização de técnicas eletrônicas de tratamento

de dados, objetivando minimizar custos e proporcionar eficiência e eficácia à gestão dos recursos alocados no

Orçamento geral da União".

5.9.1.1 Principais objetivos do sistema

Ainda segundo Mota (2006), os principais objetivos do Siafi são:

• Prover os órgãos da Administração Pública de mecanismos para o registro e controle

orçamentário, financeiro e patrimonial;

• Agilizar a programação financeira;

• Integrar e compartilhar informações dos diversos órgãos pertencentes ao sistema;

• Permitir que as informações sobre a contabilidade pública estejam disponíveis a

todos os níveis da Administração Pública e a sociedade em geral.

5.9.1.2 Subsistemas do Siafi

Para facilitar o trabalho de todas as Unidades Gestoras, o SIAFI foi concebido para se

estruturar por exercícios. Cada ano equivale a um sistema diferente, ou seja, a regra de

formação do nome do sistema é a sigla SIAFI acrescida de quatro dígitos referentes ao ano do

sistema que se deseja acessar: SIAFI2000, SIAFI2001, SIAFI2002, etc.

Por sua vez, cada sistema está organizado por subsistemas (atualmente 21, apresentados

na Figura 5-5) e estes, por módulos. Dentro de cada módulo estão agregadas inúmeras

- 115 -

transações, que guardam entre si características em comum. Nesse nível de transação é que

são efetivamente executadas as diversas operações do SIAFI, desde entrada de dados até

consultas.

Figura 5-5: Subsistemas do Siafi (BRASIL, MF, 2007)

5.9.1.3 Principais documentos

São apresentados a seguir alguns dos documentos emitidos pelo sistema:

• Nota de Dotação (ND) – faz o registro do orçamento da despesa;

• Nota de Movimentação de Crédito (NC) – realiza movimentação de créditos

orçamentários para dentro do mesmo órgão ou órgão externo;

• Nota de Pré-Empenho (PE) – torna o crédito correspondente indisponível

temporariamente para empenho;

• Nota de Empenho (NE) – faz a emissão de empenho, reforço de empenho emitido a

menor ou anulação de empenho emitido a maior;

• Nota de Lançamento (NL) – utilizado para fatos que não envolvam movimentação

financeira, tais como previsão de receita e apropriação de despesa;

- 116 -

• Ordem Bancária (OB) – utilizada nos desembolsos financeiros dos órgãos, tais como

transferências financeiras entre órgãos, pagamento de fornecedores, pagamento de

pessoal, etc.

5.9.2 Projeto Síntese

O projeto Síntese foi instituído em 2003 com o objetivo principal de implantar um

sistema de inteligência e suporte ao controle externo, baseado em tecnologia Data

Warehouse. Na implantação do projeto foram selecionadas as seguintes áreas:

• Contas Públicas - Lei de Responsabilidade Fiscal (LRF);

• Plano de Fiscalização;

• Fiscalização de Pessoal;

• Certificação de Gestão Pública;

• Fiscalização de Obras.

Segundo descrito em Carvalho (2005, p.1):

"[...] atualmente, os dados necessários às atividades de controle externo encontram-se dispersos em

sistemas geridos e mantidos por diversos órgãos da Administração Pública, cujo acesso e manutenção é

dificultado pela diversidade de padrões de organização, codificação, plataformas tecnológicas e bancos de dados.

O Síntese viabilizará tal obtenção de dados, utilizando-se das funcionalidades inerentes da tecnologia data

warehousing. Permitirá, ainda, o cruzamento de dados de diversas fontes, realização de análise de tendências,

comparação de informações, análise de dados nos diversos níveis de agregação, entre outras funcionalidades".

O funcionamento do projeto, também segundo descrito em Carvalho (2005, p.2),

seguirá os passos tradicionais de um procedimento de KDD, quais sejam:

"[...] serão realizadas extrações de dados em bancos de dados dos sistemas de informação mantidos por

diversos órgãos públicos. Posteriormente, esses dados sofrerão transformações para compatibilizar codificações

e formatos, realizar classificações, agrupar registros e agregar valores. Os dados transformados alimentarão o

data warehouse, que é um banco de dados modelado especificamente para consultas analíticas".

- 117 -

Os benefícios citados pelo autor decorrentes da implantação do projeto Síntese são,

entre outros:

• Melhoria no planejamento das ações de controle, pela identificação correta das áreas que

requerem maior concentração de esforços (considerando parâmetros tais como risco,

materialidade e relevância);

• Possibilidade de detecção de indícios de fraude por meio de tratamento estruturado de

dados do Data Warehouse;

• Realização da atividade de controle externo eletrônico, com base nas informações dos

diversos sistemas e seus cruzamentos, possibilitando, por exemplo, o acompanhamento do

cumprimento da LRF.

Esta Tese vem contribuir para o segundo tópico citado anteriormente, detecção de

indícios de fraude, através de mecanismos automatizados de verificação, conforme o modelo

proposto no Capítulo 6.

- 118 -

6 MODELO PARA DETECÇÃO DEIRREGULARIDADES NA EXECUÇÃO DA

DESPESA

6.1 INTRODUÇÃO

Como descrito no Capítulo 1, o problema a ser abordado na Tese é a detecção

automática de indícios de irregularidades na execução da despesa orçamentária, de forma a

subsidiar o trabalho de controle externo executado pelo TCU. A detecção automática permite

aumentar o escopo da fiscalização em número de documentos verificados e concentrar a

atenção dos analistas na validação manual somente daqueles eventos que apresentem fortes

indícios de irregularidades, conseqüentemente reduzindo o tempo da fiscalização, em função

da rápida localização dos indícios e da redução do tempo de análise.

Para solucionar o problema apresentado, propõe-se a adoção de um modelo baseado em

dois módulos de verificação: Mineração de Dados (DM) e Sistema Especialista (SE). Tais

módulos receberiam num primeiro momento informações diretamente do Siafi, sendo numa

fase posterior integrados ao DW Síntese. Também com o objetivo de auxiliar o trabalho do

analista, é proposta a apresentação de relatórios de comportamento e informações estatísticas,

relacionados com as entidades apontadas nos documentos marcados para análise manual. O

modelo completo é apresentado na Figura 6-1.

A contribuição pretendida pelo modelo proposto é a adaptação das técnicas citadas

(sistema especialista e mineração de dados) para que possam ser adequadamente utilizadas

como mecanismo de verificação de irregularidades na execução da despesa. Tais

modificações foram resultado do estudo conduzido ao longo da Tese, não só quanto aos

aspectos teóricos de KDD e orçamento público, como também quanto à utilização dessas

técnicas aplicadas aos dados de quatro anos de execução orçamentária. O modelo assim

- 119 -

criado não possui paralelo na literatura pesquisada, constituindo proposta inovadora na

detecção de irregularidades na execução da despesa.

Mineração de DadosInformação não trivial, sem regras claras

Sistema EspecialistaRegras extraídas da legislação e do conhecimento de especialistas

SiafiExecução da

Despesa

Analista

Modelo deComportamentoModelo de

ComportamentoMecanismo para

Detecção deAnomalias


ComportamentoModelo deComportamento

Atualização das Regras

Atualização dos Modelos

Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade

NE/NL/OB

NE/NL/OB

Figura 6-1: Modelo proposto para a detecção automática de indícios de irregularidades na execução dadespesa, baseado na atuação complementar de um módulo de mineração de dados com um sistemaespecialista. O modelo propõe ainda a apresentação de relatórios de comportamento para subsidiar adecisão do analista quanto à presença de irregularidades nos documentos relacionados. As siglas NE, NL eOB significam respectivamente Nota de Empenho, Nota de Lançamento e Ordem Bancária

6.1.1 Implementação prática para validação do modelo

Na implementação prática realizada para validação, optou-se por desenvolver apenas

parte do modelo proposto. Dois motivos principais guiaram essa escolha: ter ao término da

Tese um protótipo que, apesar de não totalmente otimizado, permitisse a execução prática da

detecção de irregularidades e desenvolver inicialmente os componentes do modelo que

oferecessem maior risco futuro de implementação e menor risco atual em relação ao tempo de

desenvolvimento. Essa limitação entretanto não afeta a possibilidade de validar a proposta de

modelo, permitindo comprovar sua aplicabilidade aos dados reais coletados.

Com relação a primeira motivação da redução de escopo, como apresentado no Capítulo

1, um dos objetivos da Tese era demonstrar a viabilidade do emprego de técnicas

automatizadas para a detecção de irregularidades. Para isso considerou-se necessário

apresentar como fruto deste trabalho, além do estudo teórico, um protótipo que conseguisse

- 120 -

realizar tal detecção. Apesar dos algoritmos usados não terem sido completamente

otimizados, nem testado um grande número de técnicas de mineração, os resultados

apresentados foram satisfatórios e motivadores quanto à continuação da pesquisa.

Ainda sobre a redução de escopo, entre os dois módulos de detecção propostos, optou-

se pelo desenvolvimento do módulo de DM. A escolha deste último deveu-se à maior

complexidade na sua implementação, em função principalmente da variedade de técnicas

disponíveis e a incerteza quanto aos resultados possíveis de serem alcançados. Por outro lado,

as regras para a criação do módulo SE são parcialmente conhecidas, oriundas da legislação,

de acórdãos do TCU, do conhecimento dos analistas, dentre outras fontes, conseqüentemente

representam um menor risco técnico para implementação. O levantamento das regras, apesar

de não ser tarefa tecnicamente complexa, poderia tomar um tempo considerável, superior ao

período de execução desta Tese, não permitindo com isso o término da construção do

protótipo como desejado.

A Figura 6-2 apresenta as partes do modelo original a serem implementadas na Tese

após a redução de escopo descrita. Nela é apresentado um maior detalhamento do módulo de

mineração de dados, constando os dois modelos de comportamento (probabilístico e por redes

neurais) e os dois mecanismos de detecção (regras nebulosas e redes neurais) escolhidos para

implementação dentro do módulo de DM.

No restante do capítulo será apresentada a descrição de cada componente do modelo

proposto, sua fundamentação teórica, a justificativa mais detalhada para a não implementação

de algumas partes do modelo e a localização, dentro da Tese, dos capítulos onde os módulos

selecionados para implementação foram desenvolvidos.

- 121 -


SiafiEmpenho da

Despesa

Analista

Modelo Probabilístico

Modelo por Redes Neurais


NE Detecção de Anomaliaspor Regras Fuzzy

Detecção de Anomaliaspor Redes Neurais

Figura 6-2: Modelo simplificado para a detecção automática de anomalias na emissão de notas deempenho. Representam as partes do modelo original a serem efetivamente implementadas. A sigla NEsigneifica Nota de Empenho

6.2 INFORMAÇÕES DE ENTRADA DO MODELO

A execução da despesa, conforme descrito no Capítulo 5, é dividida em três fases:

empenho, liquidação e pagamento. Os documentos de lançamento no Siafi dos eventos dessas

três fases são respectivamente a nota de empenho (NE), nota de liquidação (NL) e ordem

bancária (OB). Cada um desses documentos possui informações sobre a caracterização da

despesa (modalidade de licitação, natureza da despesa, valor, data, etc) e sobre as entidades

envolvidas no evento (órgão, unidade gestora, favorecido e usuário). Como apresentado na

Figura 6-1, o modelo proposto recebe como entrada os três documentos citados (NEs, NLs e

OBs) e realiza sua verificação nos dois módulos principais: sistema especialista e módulo de

mineração de dados.

Optou-se no trabalho pela análise somente das notas de empenho (Figura 6-2). A

escolha deriva do fato desse documento pertencer à primeira fase da execução da despesa,

permitindo, caso seja detectada alguma irregularidade, a atuação imediata do controle,

evitando possivelmente o gasto ou pelo menos reduzindo o prejuízo ao erário. A mesma

sistemática adotada para o tratamento de NEs pode ser usada para verificar os demais

documentos, criando modelos análogos de comportamento no módulo DM e novas regras de

validação no módulo SE.

- 122 -

Vale ressaltar que os três documentos (NE, NL e OB) são interdependentes,

constituindo etapas de um fluxo único, qual seja, a execução da despesa. A detecção de

possíveis irregularidades pode ser realizada independentemente em cada fase. Torna-se porém

mais eficiente quando todo o fluxo é analisado conjuntamente. Para que o modelo proposto

cumpra adequadamente seu papel de detecção de irregularidades, é recomendável que numa

próxima fase do trabalho as NLs e OBs sejam contempladas pelo procedimento de

verificação, não só de forma independente, como citado no parágrafo anterior, mas também

de forma integrada.

6.3 MÓDULOS DE DETECÇÃO

A adoção de dois módulos de detecção, SE e DM, deveu-se às experiências encontradas

na pesquisa bibliográfica, como em Javitz e Valdes (1993), Dickerson et al. (2001), Lane

(2000) e Haft et al. (1998). De particular relevância foi o estudo de sistemas detectores de

intrusão, descritos na Seção 2.2 deste trabalho, nos quais sugere-se reiteradamente a utilização

de um módulo baseado em regras e outro baseado em detecção de anomalias.

Os dois módulos propostos para detecção são complementares, enquanto o SE captura

situações já previstas de ilegalidade através das regras pré-definidas, o módulo de DM detecta

possíveis irregularidades ainda não identificadas pelos especialistas ou pela legislação, além

de poder também detectar as situações previstas de ilegalidade, desde que tais situações

caracterizem um comportamento anormal da entidade em análise.

A proposta do módulo de relatórios e análises estatísticas, que subsidia a decisão do

analista, foi fruto da utilização prática do piloto implementado com o módulo de DM. A

análise dos documentos apontados pelo modelo acaba por se tornar um gargalo no processo

de verificação, em função da necessidade de realizar um levantamento histórico do

comportamento das entidades envolvidas na realização da despesa classificada como

- 123 -

irregular. A simples apresentação dos relatórios criados durante o trabalho de compreensão

dos dados facilita em muito o julgamento do especialista. A utilização desses relatórios, além

de aproveitar o trabalho já realizado na Tese, será no futuro conseqüência natural do uso do

DW Síntese (ver Seção 5.9.2). Para melhor compreensão do uso prático dos relatórios, sugere-

se a leitura do Apêndice D, onde é feita a análise de uma nota de empenho classificada como

anômala pelo sistema.

6.3.1 Módulo Sistema Especialista

O sistema especialista será responsável por armazenar o conjunto de regras extraídas da

legislação, de acórdãos do TCU e do conhecimento dos analistas. A legislação sobre

contratação pública, conforme descrito no Capítulo 5, apresenta regras bem definidas em

relação a alguns comportamentos, permitidos ou proibidos, relacionados a execução da

despesa. Tais regras dizem respeito à natureza da despesa a ser usada na contratação de cada

produto, à inexigibilidade ou dispensa de licitação de acordo com o tipo da compra ou

fornecedor, à modalidade de licitação a ser utilizada em função do produto e valor da compra,

etc. Só a leitura da Lei 8.666/93 já fornece um amplo conjunto de regras, complementadas

pelo restante da legislação sobre o tema, pelos acórdãos do TCU, por decretos

regulamentadores da Administração, etc.

Outra importante fonte de conhecimento para a criação de regras é a experiência dos

analistas em controle externo, acumulada ao longo de várias fiscalizações. Tais regras

permitiriam compartilhar o conhecimento de vários analistas, consolidando informações que

atualmente encontram-se dispersas e sob risco de serem perdidas na medida em que não sejam

documentadas. As regras criadas pelos analistas permitem identificar situações que, apesar de

não consideradas ilegais pela legislação, merecem atenção especial durante as fiscalizações.

- 124 -

Essas situações constituem comportamentos já identificados em fiscalizações anteriores por

representarem indícios de irregularidades, embora sob a aparência de procedimentos legais.

As regras baseadas no conhecimento dos analistas podem ser definidas individualmente

para cada órgão, fornecedor ou unidade gestora, contemplando particularidades de cada

entidade. Esse conhecimento fica normalmente restrito aos analistas que lidam diretamente

com as entidades em questão, não sendo difundidas para os demais auditores. Diferente das

regras criadas pelos analistas, as regras extraídas da legislação têm aplicabilidade genérica,

não incorporando particularidades de cada entidade. Portanto estas últimas são mais

adequadas para capturar situações explícitas de fraude, enquanto as primeiras aplicam-se a

casos em que a irregularidade foi camuflada através de procedimentos de aparente legalidade.

As regras de conhecimento permitem não só identificar eventos com indícios de

ilegalidade como também descartar da análise manual eventos que aparentemente são

irregulares mas legalmente permitidos. Tal fato foi constatado diversas vezes durante os testes

do módulo de mineração de dados. Houve várias indicações de possíveis irregularidades que

foram posteriormente descartadas durante a verificação manual feita pelo analista, por

conterem informações sabidamente regulares, porém de ocorrência rara. O descarte desses

eventos poupa trabalho do analista, diminuindo o número de falsos positivos apresentados

pelo sistema. O módulo especialista funcionará dessa forma complementando o módulo de

mineração de dados, convalidando ou rejeitando as decisões tomadas por este último.

Como já citado na introdução do capítulo, o módulo sistema especialista não foi

contemplado no sistema piloto implementado durante a Tese.

6.3.2 Módulo de Mineração de Dados

O módulo de mineração de dados serve para identificar documentos que, apesar de

aparentemente legais (não identificados pelo sistema especialista), indicam comportamentos

- 125 -

que fogem aos procedimentos normais das entidades envolvidas na despesa, considerando

como normais os procedimentos executados pelas entidades durante a fase de treinamento dos

modelos de comportamento. Tais comportamentos podem indicar desde uma simples

mudança nos procedimentos de contratação da entidade até um indício de irregularidade a ser

investigada.

No módulo de DM, em função da diversidade de técnicas e algoritmos existentes na

área, optou-se por propor uma arquitetura aberta, ou seja, sem preestabelecer quais algoritmos

ou técnicas deveriam ser usados, indicando apenas a necessidade de dois componentes

principais e definindo-se as informações que seriam trocadas entre eles. Os dois componentes

definidos na arquitetura são: a modelagem do comportamento das entidades quanto à

execução da despesa e o mecanismo de detecção de anomalia que, através da comparação do

documento em análise com o modelo de comportamento, possa informar, segundo parâmetros

configuráveis pelo analista, a anomalia ou normalidade do documento.

O objetivo da separação do módulo de DM em dois componentes foi permitir que

técnicas diferentes pudessem ser usadas na modelagem do comportamento e na detecção de

anomalias, como exemplificado em Lourenço (1998) e Brugger (2004). No presente trabalho,

conforme apresentado na Figura 6-2, optou-se por realizar duas implementações para cada

componente, permitindo assim uma comparação mínima de desempenho entre técnicas

diferentes.

Em implementações futuras, não necessariamente os dois componentes devam ser

criados isoladamente, podendo ser o modelo de comportamento e o componente de detecção

integrados num único elemento. Vale destacar que, mantendo os componentes separados, é

possível reaproveitar implementações anteriores de um dos componentes, implementações já

testadas e validadas, não necessitando obrigatoriamente desenvolver sempre os dois

- 126 -

componentes a cada nova técnica a ser testada. A implementação do piloto desenvolvido na

Tese demonstra tal facilidade pois ambos os modelos de comportamento criados podem ser

usados pelos dois algoritmos de detecção.

Para que os modelos de comportamento possam ser usados de forma independente dos

algoritmos de detecção é necessário estabelecer o comportamento genérico esperado de cada

componente e uma interface padronizada para a troca de informações entre os dois elementos.

No presente trabalho definiu-se que o componente de modelo de comportamento,

independente da técnica de modelagem utilizada, deve ser capaz de receber como entrada

informações de caracterização da despesa e sobre as entidades envolvidas, todas presentes na

nota de empenho em análise, e fornecer na saída dois vetores com cinco componentes, o

primeiro indicando a probabilidade de cada uma das entidades citadas na nota ter emitido um

empenho com as características apresentadas, o segundo vetor contendo o suporte utilizado na

criação dos modelos das respectivas entidades. Ambos os vetores serão descritos nas seções

seguintes.

Da mesma forma, os algoritmos de detecção, independente da técnica escolhida, devem

receber como entrada os dois vetores já citados, a identificação das entidades envolvidas,

além de um conjunto de parâmetros opcionais fornecidos pelo analista. A combinação das

probabilidades presentes no primeiro vetor determina a normalidade da nota. O vetor de

suportes auxilia o algoritmo a julgar se as probabilidades informadas para as entidades são

confiáveis ou não. A identificação das entidades permite que os algoritmos de detecção

utilizem mecanismos diferentes para cada entidade. Como saída, o componente de detecção

informa se considera a nota analisada anômala ou não, possivelmente fornecendo informações

adicionais que justifiquem a classificação.

- 127 -

A definição das técnicas a serem usadas para a implementação do módulo de DM foi

fortemente influenciada pela ausência de uma base de documentos classificados como

irregulares. Caso houvesse uma base de dados contendo registros de notas anômalas e

normais, poder-se-ia utilizar algoritmos relacionadas à classificação simples, com treinamento

supervisionado. No entanto, durante a execução da Tese, não se dispunha de tal base contendo

exemplos de ambas as categorias. Em função dessa limitação optou-se por duas alternativas

para o módulo de DM: a detecção estatística de outliers e a simulação de casos anômalos para

uso em treinamento supervisionado de algoritmos de classificação. Tais alternativas estão

presentes tanto na implementação dos modelos de comportamento como no mecanismo de

detecção.

Caso houvesse uma base de documentos pré-classificados, seriam alteradas as técnicas

usadas na implementação dos dois componentes do módulo de DM, porém o modelo proposto

permaneceria válido uma vez que independe das técnicas e algoritmos usados em sua

implementação.

6.3.2.1 Procedimento geral de classificação usado no módulo de mineração

Formalizando o procedimento de classificação realizado globalmente pelo módulo de

DM, seu objetivo é, dada uma NE, estabelecer se a mesma é normal ou anômala.

Considerando uma nota de empenho como um conjunto de informações: NE = {favorecido,

usuário, unidade gestora, órgão, data, valor, modalidade de licitação, natureza da despesa},

procurou-se definir um procedimento que faça a classificação da nota em anômala ou normal,

tomando como base a probabilidade de ocorrência da combinação de informações presentes

na NE e alguns parâmetros de corte fornecidos pelo usuário do sistema.

O cálculo da probabilidade considera as entidades envolvidas, a combinação dos valores

dos atributos e o histórico de NEs usadas no treinamento. A classificação fornecida é um

- 128 -

indicativo da legitimidade da NE, ou pelo menos informa a freqüência de ocorrência da

combinação de valores dos atributos presentes na nota, baseando-se no histórico usado no

treinamento.

Em relação às informações presentes na NE, observa-se que quatro delas são indicativos

de entidades: favorecido, usuário, unidade gestora e órgão. Assim, para a determinação da

normalidade da NE, são consultados cinco modelos de comportamento, correspondentes às

quatro entidades citadas, além do modelo da Administração Pública como um todo.

Ainda sobre os parâmetros da nota, além das informações sobre entidades, observam-se

ainda quatro atributos: data, valor, natureza da despesa e modalidade de licitação. Esses

valores servem como indexadores para buscar, dentro de cada um dos cinco modelos de

comportamento criados para as entidades, a probabilidade de ocorrência da combinação de

valores desses atributos, resultando conseqüentemente em cinco probabilidades, cada qual

referente a uma das entidades citadas no parágrafo anterior.

Da combinação das cinco probabilidades referentes às entidades citadas na nota obtém-

se a saída do procedimento de classificação, qual seja, um indicativo de anomalia ou de

normalidade da NE. A combinação das probabilidades e suportes é realizada no mecanismo

para detecção de anomalias, configurado segundo parâmetros fornecidos pelo analista. A

Figura 6-3 apresenta esquematicamente os passos descritos, detalhando o conteúdo do módulo

de mineração de dados.

- 129 -


Data, ML, ND e CVNE

Parâmetros fornecidospelo analista

AnômalaNormal

Favorecido, Usuário,UG e Órgão

Probabilidade esuporte por

entidade

Modelo deComportamento

Modelo deComportamento

Modelo paraFavorecido

Modelo paraUsuário

Modelo paraUG

Modelo paraAdministração

Pública

Modelo paraÓrgão

Mecanismo paraDetecção deAnomalias

Mecanismo paraDetecção deAnomalias

Combinação deProbabilidades

Figura 6-3: Detalhamento dos componentes do módulo de mineração de dados

6.3.2.2 Implementação dos modelos de comportamento

Os modelos de comportamento foram criados, conforme apresentado na Figura 6-4, de

duas formas: matrizes de probabilidade e redes neurais.


Detecção de AnomaliasModelo de Comportamento


Modelo por RedesNeurais

Detecção de Anomaliaspor Regras


Figura 6-4: Modelos de comportamento

No primeiro modelo, foram criados perfis estatísticos para representar o modelo de

comportamento para cada entidade, segundo o exposto em Javitz e Valdes (1993). Foram

criados perfis independentes para cada uma das entidades envolvidas na execução da despesa,

conforme recomendado no trabalho dos autores. Os perfis foram montados através da

- 130 -

probabilidade calculada para favorecidos, usuários, UGs, órgãos e a probabilidade geral da

Administração, em função da freqüência de ocorrência da combinação de valores dos

atributos Data, ML, ND e CV, presentes nas NEs emitidas no período de treinamento. Nesse

caso o modelo de comportamento para cada entidade é representado por uma matriz de

probabilidades.

Na segunda forma de criação dos modelos de comportamento, utilizou-se uma rede

neural do tipo Backpropagation, como sugerido em Haft et al. (1998). A rede foi treinada para

"aprender" o comportamento das entidades citadas, usando como base de treinamento as NEs

emitidas durante um ano, e considerando a combinação de valores dos atributos Data, ML,

ND e CV, num procedimento semelhante ao adotado na construção das matrizes de

probabilidade. Lembrando que o treinamento da rede Backpropagation é supervisionado,

procurou-se suprir a falta do conjunto de exemplos de comportamentos irregulares através da

criação simulada de tais casos. Essa proposta fundamenta-se no trabalho de Abe, Zadrozny e

Langford (2006). Da mesma forma que no modelo estatístico, foram criados modelos

individuais para cada entidade, ou seja, treinadas redes neurais exclusivas para classificar o

comportamento de cada órgão, UG, usuário e favorecido.

Apesar de ambos os modelos de comportamento terem sido criados em função da

combinação dos atributos da nota, a possibilidade informada pela rede neural para cada

combinação não corresponde exatamente à probabilidade informada pela matriz. Tal diferença

será abordada na Seção 8.4, onde é feita a comparação das duas abordagens.

A necessidade de criação de perfis independentes por entidade, tanto no caso de

matrizes de probabilidade como no de redes neurais, surgiu após o procedimento de

clusterização de órgãos, quando ficou aparente a existência de comportamentos diferenciados

e característicos por grupo. A necessidade de criação de perfis únicos por entidade ficou

- 131 -

definitivamente comprovada quando foram analisados os comportamentos individuais de

favorecidos, órgãos e UGs. A correta caracterização do comportamento só seria possível, com

detalhamento suficiente para permitir a detecção de anomalias, através do desenvolvimento de

modelos individualizados, como foi efetivamente implementado na Tese.

A criação dos modelos de comportamento, tanto por métodos estatísticos como por

redes neurais, é detalhada no Capítulo 8.

6.3.2.3 Mecanismos de detecção de anomalias

O mecanismo de detecção de anomalias foi criado, conforme apresentado na Figura 6-5,

de duas formas: através de regras e redes neurais.


Detecção de AnomaliasModelo de Comportamento



Detecção de Anomaliaspor Regras


Figura 6-5: Detecção de anomalias

Em função da modelagem individual de comportamento, para cada nota de empenho

analisada são fornecidas cinco informações sobre a probabilidade de ocorrência da despesa

nela caracterizada, quatro referentes às entidades citadas na nota e mais a probabilidade

fornecida pelo modelo global da Administração Pública. São fornecidas ainda cinco

informações referentes ao suporte, permitindo ao componente de detecção julgar a

confiabilidade das probabilidades.

Cabe ao componente de detecção realizar a combinação ponderada das cinco

probabilidades e informar sobre a anomalia ou não do documento de despesa como um todo.

Tal componente foi implementado por regras nebulosas, conforme apresentado em Dickerson

et al. (2001), e por redes neurais, conforme exposto em Haft et al. (1998).

- 132 -

Na implementação por regras nebulosas, de forma semelhante à proposta apresentada

para o sistema especialista, o analista cria regras de combinação de probabilidade segundo sua

experiência prática de auditoria. A diferença entre as regras nos dois módulos é que, no

sistema especialista, as regras são derivadas dos procedimentos de compra, estabelecidos na

legislação ou definidos pelo próprio analista. As regras nebulosas têm o objetivo de combinar

probabilidades fornecidas pelos modelos individuais de comportamento. O uso de regras

nebulosas facilita a combinação das probabilidades, sem que o analista tenha que lidar com

valores absolutos.

O segundo mecanismo de detecção, implementado por redes neurais Backpropagation,

visou realizar a ponderação das probabilidades fornecidas pelos modelos de comportamento

de forma automática, sem a necessidade de criação de regras explícitas de ponderação.

Devido à falta de uma base de treinamento com notas irregulares, foram geradas

probabilidades simuladas para tais notas, permitindo o treinamento supervisionado das redes

neurais.

Em ambos os mecanismos de detecção, o uso combinado das cinco probabilidades

oriundas de modelos diferentes objetiva dar mais segurança à classificação realizada pelo

modelo. A combinação de fontes diversas se torna mais necessária em função da inexistência

de bases de treinamento para os modelos, filtradas quanto à presença de documentos com

irregularidades. Tais documentos, caso existam em quantidade suficiente, poderiam

influenciar na caracterização do comportamento da entidade, fazendo com que seu modelo

fornecesse probabilidade alta de normalidade para eventos irregulares. A correlação de

probabilidades oriundas de modelos diferentes reduz o risco da classificação incorreta de um

documento.

- 133 -

Os mecanismos de detecção, por regras nebulosas e redes neurais, bem como os testes e

comparações, foram implementados no Capítulo 9.

6.4 VERIFICAÇÃO MANUAL PELO ANALISTA

Os documentos marcados como anômalos por um dos módulos de detecção, SE ou DM,

devem passar pela verificação manual do analista, para concluir-se ou não pela ocorrência de

irregularidades. A automatização de todo o processo de verificação de irregularidades sem a

presença do auditor, conforme exposto no Capítulo 1, não é recomendável.

Para facilitar o trabalho manual de verificação, é conveniente apresentar informações

adicionais sobre o comportamento das entidades citadas no documento selecionado como

irregular. Tais informações dizem respeito ao comportamento histórico da entidade quanto à

execução da despesa e medidas estatísticas que possam auxiliar no julgamento do auditor.

Sugere-se a apresentação de relatórios sobre as quatro entidades citadas na nota e sobre a

Administração Pública como um todo.

A necessidade do módulo de informações históricas e estatísticas (módulo de relatório

de comportamento) surgiu durante a avaliação prática do piloto implementado com o módulo

de DM. O analista, confrontado com uma informação simples de probabilidade quanto à

possível presença de irregularidade fornecida pelo modelo, pode ficar inseguro para decidir

quanto à existência de ilegalidade sem consultar informações adicionais referentes ao

documento. O próprio sistema poderia fornecer algumas informações extras, justificando a

classificação do documento como anômalo, principalmente quando a possível irregularidade

foi detectada pelo módulo baseado em Sistema Especialista, o qual possibilita informar a

regra, ou conjunto de regras, usadas para classificar a nota.

Já o módulo baseado em mineração de dados, particularmente os componentes

implementados com redes neurais, não são adequados para prover informação detalhada sobre

- 134 -

a classificação. Mesmo o componente implementado com regras nebulosas, apesar de permitir

a explicitação das regras usadas, realiza a classificação baseado em correlação de

probabilidades que, informadas sem contextualização, pouco acrescentam para fundamentar a

decisão.

A consulta às informações adicionais não é simples de ser realizada através do SIAFI,

pois o sistema não provê relatórios com essa finalidade. A existência de um DW, nos moldes

do proposto pelo projeto Síntese, facilitaria a criação de tais relatórios. Nos testes do modelo

proposto foram usados os próprios relatórios criados durante a execução da Tese, visando à

compreensão dos dados (ver capítulo 7). Como já citado no início do capítulo, o Apêndice D

fornece um exemplo prático da utilização desses relatórios.

6.4.1 Retroalimentação

Caso uma irregularidade seja confirmada pelo analista, o sistema deve ser

retroalimentado conforme exposto em Steensma et al. (2003). Se a anomalia tiver sido

apontada somente pelo módulo de DM, possivelmente uma nova regra tenha que ser criada no

SE para representar a irregularidade recém descoberta e ainda não documentada através de

uma regra específica. Caso a anomalia tenha sido detectada somente pelo SE, possivelmente

os modelos e mecanismos de detecção do módulo de DM tenham que sofrer alterações em

seus parâmetros. Deve ser verificado também se o comportamento irregular foi incorporado

aos modelos de comportamento pela presença de casos anômalos semelhantes na base de

treinamento.

Na hipótese de falsos positivos, principalmente gerados pelo módulo de DM, pode ser

necessário criar regras de liberação no módulo SE, informando ao modelo sobre casos

excepcionais que, apesar de anômalos, são aceitáveis do ponto de vista legal.

- 135 -

6.5 VALIDAÇÃO DOS RESULTADOS

A validação dos resultados diz respeito ao teste do piloto implementado com o módulo

de mineração de dados. Para que tal validação pudesse ser conclusiva, seria necessária a

presença de exemplos normais e irregulares, verificando-se a capacidade do sistema realizar a

classificação corretamente. Infelizmente, durante a execução da Tese, não havia disponível

uma base com tais exemplos pré-classificados.

Para contornar o problema optou-se por testar o modelo proposto com as notas de

empenho emitidas pelo TCU no ano de 2006. Tais notas não possuem irregularidades, porém

tal ausência não invalida o teste do modelo, pois o objetivo do módulo de mineração é

detectar casos anômalos, não necessariamente irregulares. A medida da anomalia dos

documentos é muitas vezes um conceito subjetivo, tendo o sistema sido avaliado inicialmente

conforme sua capacidade de selecionar notas que seriam também relacionadas por verificação

manual feita por um especialista.

Uma segunda avaliação foi feita através do uso de notas de empenho simuladas,

medindo-se a capacidade do sistema em diferenciá-las das notas reais. Nessa última avaliação

foi analisada tanto a proporção de notas verdadeiras classificadas como anômalas (falsos

positivos) como a proporção de notas simuladas não classificadas como anômalas (falsos

negativos). Essas duas proporções serviram para comparar o piloto implementado em relação

a outros trabalhos encontrados na revisão bibliográfica.

Com a utilização efetiva do sistema e a retroalimentação proposta, será naturalmente

criada uma base de exemplos irregulares, permitindo posteriormente uma melhor avaliação do

modelo e a calibração dos parâmetros usados nos algoritmos. Tal base é fundamental para o

teste do módulo de detecção por sistema especialista, a ser implementado futuramente.

- 136 -

7 ANÁLISE DA EMISSÃO DE NOTAS DEEMPENHO PELA ADMINISTRAÇÃO

PÚBLICA FEDERAL

7.1 INTRODUÇÃO

O capítulo tem por objetivo analisar o comportamento da Administração Pública no que

tange à emissão de notas de empenho (NEs), tomando por base o período de 2003 a 2006. O

estudo objetiva subsidiar a criação dos modelos de comportamento, desenvolvidos no

Capítulo 8, e fundamentar as decisões tomadas na escolha e modificação dos algoritmos

aplicados na identificação de anomalias, descritos no Capítulo 9.

As informações foram obtidas através de consulta e exportação de dados via Siafi. A

análise está direcionada a três atributos da nota de empenho, quais sejam, a modalidade de

licitação (ML), a natureza da despesa (ND) e o valor da nota (CV). Esses atributos foram

selecionados com base na opinião de especialistas, como sendo os que mais contribuiriam

para o procedimento de verificação de possíveis irregularidades. As entidades cujo

comportamento foi analisado são órgãos públicos, unidades gestoras (UGs), favorecidos e

usuários do sistema, além da Administração Pública como um todo.

Serão apresentadas as diferenças de comportamentos entre os órgãos, entre órgãos e

suas UGs, entre as UGs de um mesmo órgão e entre essas entidades e a média da

Administração Pública. O estudo procura demonstrar a impossibilidade da criação de um

modelo único de comportamento, a ser usado pelos algoritmos de detecção, que seja genérico

o suficiente para representar o comportamento de toda a Administração Pública, sendo

necessária a criação de modelos individuais por entidade.

O capítulo apresenta ainda a variação de comportamento ao longo do ano na emissão de

NEs pelas entidades citadas (movimentos sazonais), devendo tal variação ser considerada na

- 137 -

criação dos modelos. Aponta também para o fato de haver variação de comportamento na

emissão de NEs ao longo dos quatro anos (tendência geral), forçando a criação de

mecanismos para a atualização dos modelos.

A Figura 7-1 traz o modelo para detecção de irregularidades proposto na Tese,

ressaltando na figura as contribuições do capítulo para sua implementação. Como já citado, a

análise das entidades públicas serve para subsidiar a criação dos modelos de comportamento

do módulo de mineração de dados e para gerar as informações presentes nos relatórios que

auxiliam a verificação manual do analista.



SiafiExecução da

Despesa

Analista









NE/NL/OB

NE/NL/OB

Figura 7-1: Contribuições do capítulo atual para o modelo proposto

7.1.1 Exportação de dados do Siafi

A exportação dos dados do Siafi foi realizada utilizando o módulo extrator de dados do

sistema, através da transação CONARQ. Essa transação possibilita aos usuários realizar a

extração de dados diretamente das tabelas que subsidiam as demais operações do sistema. A

vantagem de exportar os dados do Siafi, ao invés de analisá-los dentro do próprio sistema, é a

possibilidade de realizar o tratamento da informação em ferramentas matemáticas mais

adequadas, uma vez que o Siafi não oferece recursos de mineração de dados nem ferramentas

adequadas para visualização.

- 138 -

Utilizou-se como fonte de dados para exportação o arquivo SIAFI-EMPENHO. Os

dados exportados são do período de 2003 a 2006. Deve-se observar que após o término da

implantação do projeto Síntese, os dados poderão ser obtidos diretamente do DW.

Os dados exportados são disponibilizados em arquivos no formato texto, cada linha do

arquivo correspondendo a uma nota de empenho. Para que fosse possível realizar a análise das

NEs, os arquivos exportados passaram por uma fase de pré-processamento, com o objetivo de

eliminar inconsistências e filtrar parte das NEs. Em seguida, as informações foram importadas

para o programa Matlab, onde ocorreram as análises apresentadas neste trabalho.

O período escolhido, compreendendo os anos de 2003 a 2006, corresponde a um

mandato presidencial, relacionado ao qual espera-se caracterizar o comportamento da

Administração Pública na emissão de empenhos. Mais especificamente objetiva-se analisar as

diferenças entre os quatro anos de um mesmo mandato, diferenças que possam afetar os

algoritmos de identificação de anomalias ou que forcem a atualização de seus parâmetros.

Essas possíveis variações de comportamento dizem respeito à entrada em vigor de um novo

Plano Plurianual (PPA), às eleições estaduais realizadas na metade do período, à eleição

presidencial ocorrida no último ano do mandato e à própria dinâmica de funcionamento do

governo ao longo dos quatro anos.

Entre as várias informações disponíveis no arquivo SIAFI-EMPENHO, optou-se pela

análise dos atributos descritos na Tabela 7-1. Deve-se ressaltar que o arquivo citado possui

outros campos que, embora não tenham sido utilizados neste trabalho, podem conter

informações relevantes e mereceriam uma maior atenção em trabalhos futuros. Algumas

dessas informações foram relacionadas no Capítulo 10.

- 139 -

Tabela 7-1: Campos exportados do arquivo SIAFI-EMPENHO e sua descrição

Campo Descrição

IT-CO-USUARIO

Usuário emitente da NE. Campo alfanumérico com 11 posições, queguarda o CPF ou código do usuário responsável pela emissão dodocumento.

GR-UG-GESTAO-NA-

NUMERO

Campo com 23 posições a ser desmembrado nas seguintes informações:• Unidade gestora emitente (6 posições)• Gestão de emissão (5 posições)• Ano da emissão• Número da NE

O número da NE é único para uma dada UG e gestão, dentro de umdeterminado ano.

IT-DA-EMISSAO

Data de emissão da NE.

IT-CO-FAVORECIDO

Código do favorecido para o qual a NE foi emitida. Possui 14 posições,podendo representar:• Um CPF, no caso de pessoa física• Um CNPJ, no caso de pessoa jurídica• Uma inscrição genérica, representando um código atribuído dentro do

sistema para entidades isentas de CNPJ ou pessoas físicas que nãopossuem CPF

• Um código UG-GESTÃO, quando o favorecido encontra-se dentro daprópria Administração e não foi identificado pelo CNPJ

GR-CODIGO-EVENTO

Evento da NE. Representa um entre os seguintes tipos:• 40.1.091 Empenho da Despesa• 40.1.092 Reforço do Empenho da Despesa• 40.1.093 Anulação de Empenho• 40.1.094 Cancelamento por Insuficiência de Recursos Financeiros• 40.1.095 Outros Cancelamentos• 40.1.096 Empenho da Despesa Pré-Empenhada• 40.1.097 Reforço do Empenho da Despesa Pré-Empenhada• 40.1.098 Anulação do Empenho da Despesa Pré-Empenhada• 40.1.191 Utilização de Limite Financeiro

Somente as NEs cujos tipos são 091 e 096 foram usadas no trabalho.

- 140 -

GR-NATUREZA-

DESPESA

Natureza da despesa (ND) da NE. Traz codificadas informações sobre:• Categoria Econômica (uma posição)• Grupo (uma posição)• Modalidade de Aplicação (duas posições)• Elemento da Despesa (duas posições)

O Capítulo 5 faz uma descrição sobre o significado da natureza da despesa.

IT-VA-TRANSACAO

Valor da NE. O campo exportado inclui os centavos mas não há marcadorde casa decimal. O valor bruto recebido foi dividido por 100 para obter-seo valor correto.

IT-IN-MODALIDADE

-LICITACAO

Modalidade de licitação (ML) utilizada na NE. Assume um dos seguintesvalores:• 01 – Concurso• 02 – Convite• 03 – Tomada de preço• 04 – Concorrência• 06 – Dispensa de licitação• 07 – Inexigibilidade• 08 – Não se aplica• 09 – Suprimento de fundo• 11 – Consulta• 12 – Pregão

O Capítulo 5 faz uma descrição sobre as modalidades de licitação.

A Figura 7-2 traz uma tela de consulta de nota de empenho no Siafi. A figura serve para

visualizar os demais campos não usados do arquivo SIAFI-EMPENHO, em negrito estão

aqueles utilizados no trabalho. As informações foram alteradas para preservar o sigilo dos

dados.

- 141 -

__ SIAFI2005-DOCUMENTO-CONSULTA-CONNE (NOTA DE EMPENHO)_______________________24/02/07 09:23 USUARIO : EDUARDOF

DATA EMISSAO: ddmmmaa NUMERO: aaaaNExxxxxxUG EMITENTE: xxxx (NOME-UG)GESTAO EMITENTE : XXXXX

FAVORECIDO: xxxx-xx (NOME-FAVORECIDO)

OBSERVACAODESPESA COM DIARIA …

EVENTO ESF PTRES FONTE ND UGR PI V A L O RXXXXXX X XXXXXX XXXXXXXXXX xxxx XXXXXX XXXXXX xxxx,xx

TIPO : ORDINARIO MODALIDADE: xxxx (MODALIDADE-LICITAÇÃO)AMPARO : INCISO :PROCESSO : XXXXXXXXXX PRECATORIO :UF BENEFICIADA : xx MUNICIPIO BENEF. :ORIGEM MATERIAL :REFERENCIA DISPENSA: NUM.CV/CR/TP:

LANCADO POR: xxxx (USUÁRIO) UG : XXXXXX DDMMMAA XX:XX

Figura 7-2: Tela de consulta à nota de empenho no Siafi. Somente os campos em negrito foram utilizadosno trabalho

7.1.2 Eventos considerados

Conforme apresentado na Tabela 7-1, as NEs podem corresponder a nove eventos

diferentes. Neste trabalho foram estudados os eventos "40.1.091 - Empenho da Despesa" e

"40.1.096 - Empenho da Despesa Pré-Empenhada", não tendo sido feita nenhuma distinção,

durante as análises, entre as notas oriundas das duas categorias pois tal separação é irrelevante

para o procedimento de detecção, uma vez que o foco da análise é a criação do empenho,

representada de igual forma pelos dois eventos. Foram descartadas as notas referentes às

anulações (40.1.093 e 40.1.098), aos cancelamentos (40.1.094 e 40.1.095), aos reforços

(40.1.092 e 40.1.097) e à utilização de limite financeiro (40.1.191). Os eventos descartados

seria melhor analisados em um procedimento que levasse em conta o ciclo de vida da nota de

empenho, como será descrito a seguir.

Cabe ressaltar que o tratamento dos eventos pode seguir duas abordagens principais. Na

primeira, não usada neste trabalho, poder-se-ia considerar a NE conceitual, composta de um

- 142 -

ou mais documentos individuais (NEs exportadas do Siafi). Essa NE conceitual seria criada

através do processamento dos vários documentos individuais relacionados entre si, referentes

à mesma despesa, considerados na seqüência de emissão. Assim, uma NE conceitual seria por

exemplo o resultado da união de um empenho (40.1.091), um ou mais reforços (40.1.092) e

um ou mais cancelamentos parciais (40.1.094). Essa NE conceitual seria contabilizada uma

única vez e seu valor líquido calculado através de somas e subtrações correspondentes aos

vários eventos que serviram para formá-la. Nessa primeira abordagem, NEs conceituais que

recebessem um documento de cancelamento total seriam excluídas do procedimento de

verificação.

Uma segunda abordagem, usada no trabalho, é considerar cada documento (NE

exportada) como independente dos demais, não levando em consideração os vários eventos

relacionados, ou seja, se integrantes ou não da mesma despesa. Dessa forma, cada NE é

contabilizada uma vez e seu valor considerado de forma bruta, ainda que pertença a um

mesmo processo de contratação juntamente com outras NEs e mesmo que posteriormente esse

processo venha a ser cancelado, acarretando o descarte de todas as NEs com ele relacionadas.

A vantagem do tratamento individualizado é a possibilidade de realizar a análise da nota

de empenho no momento da sua emissão, sem ter que aguardar toda a seqüência de eventos

até a formação da NE conceitual, processo esse que pode demorar todo o ano. A desvantagem

é trabalhar com documentos (NEs) cujos valores podem ser posteriormente alterados ou até

mesmo integralmente cancelados, ou seja, não representam necessariamente o valor

efetivamente contratado.

Deve-se ressaltar que ambas as abordagens são válidas. A primeira abordagem, não

estudada, mereceria atenção em trabalhos futuros. Sua análise poderia complementar o

tratamento individual das NEs realizado neste trabalho, obtendo-se um resultado mais

- 143 -

completo através não só da análise individual dos documentos que compõem a NE conceitual,

como também do resultado final da composição.

A Tabela 7-2 apresenta a quantidade anual de notas referentes a cada evento, bem como

o total em reais e o percentual das notas aproveitadas no trabalho. Constata-se que não

ocorreu mudança significativa na relação percentual entre os eventos ao longo do período

2003 – 2006.

Tabela 7-2: Quantidade de notas emitidas por evento/ano. As últimas duas linhas da tabela apresentam ototal em reais anual e o percentual de notas utilizadas no trabalho, referentes aos eventos 1 e 6

2003 2004 2005 2006

Total de NEs 2.606.193 2.575.239 2.719.539 2.970.729

1- Empenho da Despesa 1.512.718 1.550.942 1.644.142 1.766.727

2- Reforço do Empenho 566.873 431.257 419.307 578.504

3- Anulação de Empenho 443.409 431.623 466.532 483.428

4- Cancelamento por Insuficiência deRecursos

2.419 1.223 3.110 2.458

5- Outros Cancelamentos 37.757 18.907 36.184 39.521

6- Empenho da Despesa Pré-empenhada 32.489 114.288 121.451 77.077

7- Reforço do Empenho da Despesa Pré-empenhada

3.334 6.038 7.803 8.629

8- Anulação do Empenho da DespesaPré-empenhada

7.194 20.961 21.010 14.385

Total em reais das NEs usadasR$ 0,807

trilhõesR$ 1,44trilhões

R$ 1,68trilhões

R$ 1,69trilhões

Percentual de notas usadas 59,29% 64,66% 64,92% 62,07%

7.1.3 Entidades e atributos

Entidades são os emitentes ou destinatários das NEs. Foram consideradas no trabalho

três tipos de entidades emitentes: órgãos, unidades gestoras (UGs) e usuários. Como entidades

- 144 -

destinatárias estão os favorecidos. Para todas essas entidades será modelado o padrão de

comportamento para emissão ou recebimento de NEs. No restante do capítulo será citado

simplesmente padrão de comportamento, sem distinção entre emissão e recebimento, ficando

subentendido que se trata do padrão de emissão quando se referir às primeiras e de

recebimento quando referido a favorecidos.

O relacionamento entre as entidades é apresentado na Figura 7-3. Um órgão,

independente de ser superior ou subordinado, tem ligado a si um conjunto de UGs. As UGs

possuem cadastrados um conjunto de usuários, capacitados a emitir NEs em seu nome. Pode

ocorrer de um mesmo usuário emitir NEs em mais de uma UG. A nota de empenho emitida

tem como destino um favorecido, que pode ser pessoa física, jurídica ou outro órgão da

Administração.

Órgão Superior

ÓrgãoSubordinado

ÓrgãoSubordinado

EntidadeSupervisionada...

UnidadeGestora

UnidadeGestora

UnidadeGestora

Usuário

Usuário

UsuárioNota de

Empenho

Nota deEmpenho

Favorecido

Favorecido

UnidadeGestora

Figura 7-3: Relacionamento entre as entidades analisadas

Agrupando o conjunto de notas emitidas por um órgão (notas emitidas por todos os

usuários de cada uma de suas UGs) pretende-se traçar um modelo de comportamento para o

mesmo. Da mesma forma, agrupando as notas referentes a uma UG, usuário ou favorecido,

consegue-se traçar os respectivos modelos de comportamento. Obtido o modelo, espera-se

estabelecer limites de variação, fora dos quais as NEs emitidas por uma dada entidade possam

- 145 -

ser consideradas anômalas (em relação ao comportamento usual da entidade caracterizado por

seu modelo). O estabelecimento desses limites será visto no Capítulo 9.

Para definir o padrão de comportamento das entidades citadas, foram considerados três

atributos encontrados nas NEs, quais sejam, natureza da despesa (ND), modalidade de

licitação (ML) e valor da NE (CV).

Considerando um espaço tridimensional, esses atributos correspondem aos três eixos

ordenados. Uma NE pode então ser definida como um ponto nesse espaço, em função dos

valores apresentados para ND, ML e CV. Uma entidade, produzindo um conjunto de NEs,

cria uma "nuvem" de pontos no espaço. Cada entidade possui uma "nuvem" característica,

que serve para diferenciá-la das demais entidades. A definição dos limites dessa "nuvem",

bem como sua densidade nas várias regiões do espaço, corresponde ao que se espera do

modelo de comportamento criado.

7.2 NÚMERO DE NOTAS DE EMPENHO EMITIDAS POR ENTIDADE

E SEU IMPACTO NA CRIAÇÃO DOS MODELOS

Um fator relevante para a criação dos modelos de comportamento é a quantidade de

NEs emitidas durante o período considerado para sua construção, quantidade essa

denominada "suporte". Uma vez que os algoritmos para criação dos modelos são treinados

utilizando as NEs emitidas somente durante períodos determinados, a quantidade de dados

disponível para treinamento, se muito baixa, pode afetar negativamente a confiabilidade do

resultado.

Serão apresentadas a seguir informações sobre o número de NEs emitidas por órgãos,

UGs e usuários, e recebidas por favorecidos. Os histogramas apresentados referem-se ao ano

de 2005. Os demais anos dentro do período analisado apresentam comportamento semelhante,

- 146 -

conforme as tabelas correspondentes às entidades. Esses dados serão utilizados novamente na

análise dos modelos construídos por matrizes de probabilidade (Seção 8.2.2.2) e por redes

neurais (Seção 8.3.5).

7.2.1 Quantidade de notas de empenho emitidas por órgão

A Figura 7-4 apresenta os histogramas do número de NEs emitidas por órgão. O

histograma geral (gráfico da esquerda) mostra que alguns poucos órgãos emitiram uma grande

quantidade de NEs (pontos com valor acima de 5 x 104 no eixo horizontal). Para exemplificar,

no ano de 2005 o Comando do Exército emitiu 142.662 NEs e o Comando da Marinha emitiu

100.723 NEs. Esse grande número de NEs ocorre como conseqüência do tamanho desses

órgãos e de sua capilaridade, abrangendo todo o território nacional.

O segundo histograma detalha o comportamento dos órgãos com menos de 10.000 NEs

emitidas. Nesse histograma pode-se observar com mais detalhe a distribuição de NEs nessa

faixa, que abrange a grande maioria dos órgãos.

0 5 10 15

x 104

0

20

40

60

80

100

120

140

160

180

Número de NEs

Núm

ero

de ó

rgão

s

Histograma NEs por Órgão - 2005

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 100000

5

10

15

20

25

30

35

Número de NEs

Núm

ero

de ó

rgão

s

Histograma NEs por Órgão com < 10.000NEs - 2005

Figura 7-4: Histograma do número de NEs emitidas por órgão no ano de 2005. O histograma da esquerdaapresenta todos os órgãos, destacando-se o fato de alguns poucos órgãos emitirem grande quantidade deNEs (pontos acima de 50.000 NEs). O histograma da direita apresenta a distribuição para os órgãos queemitiram menos de 10.000 NEs. Considerar como referência que no ano de 2005 houve 312 órgãos comemissão de NEs

A Tabela 7-3 detalha a situação dos órgãos quanto à emissão de NEs nos quatro anos da

análise. Pelos dados da tabela observa-se que pelo menos 90% dos órgãos emitiram mais de

- 147 -

100 NEs e próximo de 50% dos órgãos emitiram mais de 1.000 NEs. Assim sendo, a criação

do modelo dos órgãos não enfrenta problema quanto ao suporte necessário para sua

construção, tendo em vista a quantidade razoável de NEs emitidas e considerando o limite

mínimo de 100 NEs como valor aceitável. Esse limite foi o que produziu melhores resultados

durante as análises com os dados reais, não implicando necessariamente que seja o valor mais

adequado para todas as situações, valor esse que possivelmente deve variar em função do

comportamento da entidade.

Apesar de um grande número de NEs dar mais confiabilidade ao modelo criado, pode

também significar que o órgão efetua despesas em várias áreas e atua em diversas regiões do

território nacional (exemplo citado do Comando do Exército). Com isso o órgão pode

apresentar comportamentos característicos em cada segmento de atuação ou região, sendo seu

modelo global pouco confiável para servir como base de julgamento para todas as NEs

emitidas. Esse comportamento ficará claro quando forem analisadas as duas UGs selecionadas

para estudo na Seção 7.5. Independente da constatação anterior, ao longo do trabalho não

foram criados modelos segmentados por área ou região para uma mesma entidade,

considerando-se sempre o modelo global.

Tabela 7-3: Quantidade de notas de empenho emitidas por órgão no período analisado

Órgãos 2003 2004 2005 2006

Com emissão de NEs 284 310 312 316

Com mais de 100 NEs emitidas271

95,42%286

92,26%293

93,91%296

93,67%

Com mais de 1.000 NEs emitidas143

50,35%154

49,68%158

50,64%165

52,22%

7.2.2 Quantidade de notas de empenho emitidas por unidade gestora

A Figura 7-5 apresenta os histogramas do número de NEs emitidas por UG. O

histograma das UGs com mais de 1.000 NEs (gráfico da esquerda) mostra que algumas

- 148 -

poucas UGs emitiram uma grande quantidade de NEs. O segundo histograma, das UGs com

menos de 1.000 NEs emitidas (gráfico da direita), mostra que um grande número de UGs

(aproximadamente 500 do total de 3.888) emitiram pequeno número de NEs.

0 0.5 1 1.5 2 2.5

x 104

0

20

40

60

80

100

120

Número de NEs

Núm

ero

de ó

rgão

s

Histograma NEs por UG com >= 1.000 NEs - 2005

0 100 200 300 400 500 600 700 800 900 10000

50

100

150

200

250

300

350

400

450

500

Número de NEs

Núm

ero

de ó

rgão

s

Histograma NEs por UG com < 1.000 NEs - 2005

Figura 7-5: Histograma do número de NEs emitidas por UG no ano de 2005. O histograma da esquerdaapresenta as UGs com mais de 1.000 NEs emitidas, destacando-se o fato de algumas poucas UGs emitiremgrande quantidade de NEs (pontos acima de 15.000 NEs). O histograma da direita apresenta adistribuição para as UGs que emitiram menos de 1.000 NEs. Considerar como referência que no ano de2005 houve 3.888 UGs com emissão de NEs

A Tabela 7-4 detalha a situação das UGs. Observa-se que no período analisado, mais de

65% das UGs possuem suporte superior a 100 para a construção de seus modelos. Por outro

lado, um número razoável de UGs possuem poucas NEs emitidas, no ano de 2005, 482 UGs

emitiram menos de 10 NEs. Esse número representa 12,40% das UGs com emissão de NEs

em 2005.

Uma alternativa para amenizar esse problema é considerar as NEs emitidas ao longo dos

quatro anos, e não só dentro de um mesmo ano. Essa alternativa, expandindo o período de

treinamento, apesar de suprir a falta de NEs para o modelo, traz um outro problema: em

função da possível variação de comportamento da entidade ao longo dos anos, a utilização de

NEs de um longo período (mais de um ano) acaba por criar um modelo que não representa

precisamente o comportamento da entidade em nenhum momento específico, e sim

caracteriza sua média de comportamento. Para entidades cujo comportamento sofra poucas

- 149 -

alterações ao longo do tempo, essa alternativa pode ser viável, para a maioria entretanto não

poderá ser usada. Com exceção de alguns poucos modelos mensais, todos os demais modelos

usados no trabalho levaram em consideração o período de um ano de treinamento.

Tabela 7-4: Quantidade de notas de empenho emitidas por unidade gestora no período analisado

UGs 2003 2004 2005 2006

Com emissão de NEs 2.987 3.825 3.888 3.879

Com mais de 100 NEs emitidas2.181

73,02%2.551

66,69%2.563

65,92%2.638

68,01%


13,59%391

10,22%420

10,80%439

11,32%

7.2.3 Quantidade de notas de empenho recebidas por favorecido

A Figura 7-6 apresenta os histogramas do número de NEs recebidas por favorecido. Da

mesma forma que nos casos anteriores, o histograma dos favorecidos com mais de 100 NEs

recebidas (gráfico da esquerda) mostra que alguns poucos favorecidos receberam uma grande

quantidade de NEs. O histograma dos favorecidos com menos de 100 NEs recebidas (gráfico

da direita) ressalta o grande número de favorecidos com poucas NEs.

0 1000 2000 3000 4000 5000 6000 7000 80000

200

400

600

800

1000

1200

Número de NEs

Núm

ero

de F

avor

ecid

os

Histograma NEs por Favorecido com >= 100 NEs - 2005

0 10 20 30 40 50 60 70 80 90 1000

2

4

6

8

10

12x 10

4

Número de NEs

Núm

ero

de F

avor

ecid

os

Histograma NEs por Favorecido com < 100 NEs - 2005

Figura 7-6: Histograma do número de NEs recebidas por favorecido no ano de 2005. O histograma daesquerda apresenta os favorecidos com mais de 100 NEs recebidas, destacando-se o fato de alguns poucosfavorecidos receberem grande quantidade de NEs (pontos acima de 5.000 NEs). O histograma da direitaapresenta a distribuição para os favorecidos que receberam menos de 100 NEs. Considerar comoreferência que no ano de 2005 houve 251.055 favorecidos recebendo NEs

- 150 -

A Tabela 7-5 detalha a situação dos favorecidos. Os valores apresentados ressaltam o

fato de que os modelos construídos para favorecidos serem pouco confiáveis, em função do

pequeno suporte oferecido para sua construção. Para a grande maioria não será sequer

possível realizar o treinamento dos modelos em função do baixo número de exemplos

disponíveis. Dessa forma, a análise das notas será feita em grande parte dos casos

considerando-se apenas as informações provenientes dos modelos das demais entidades, o que

não inviabiliza o procedimento de verificação proposto.

Tabela 7-5: Quantidade de notas de empenho recebidas por favorecido no período analisado

Favorecidos 2003 2004 2005 2006

Com recebimento de NEs 225.083 242.183 251.055 256.056

Com mais de 100 NEs recebidas1.5730,70%

1.8030,74%

1.9340,77%

2.1390,84%

Com mais de 1000 NEs recebidas36

0,016%40

0,017%48

0,019%52

0,020%

7.2.4 Quantidade de notas de empenho emitidas por usuário

A Figura 7-7 apresenta os histogramas do número de NEs emitidas por usuário. De

forma semelhante ao histograma de favorecidos, o histograma dos usuários com mais de 100

NEs emitidas (gráfico da esquerda) mostra que alguns poucos usuários emitiram uma grande

quantidade de NEs. O segundo histograma (gráfico da direita) detalha os usuários com menos

de 100 NEs.

A Tabela 7-6 detalha a situação dos usuários. Os dados da tabela mostram que para um

número razoável de usuários (acima de 33%) é possível construir modelos de comportamento

confiáveis, considerando para tanto um suporte mínimo de 100 NEs. Para a maioria porém a

confiabilidade dos modelos fica comprometida em função do pequeno suporte oferecido.

- 151 -

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 100000

200

400

600

800

1000

1200

1400

1600

Número de NEs

Núm

ero

de U

suár

ios

Histograma NEs por Usuário com >= 100 NEs - 2005

0 10 20 30 40 50 60 70 80 90 1000

100

200

300

400

500

600

700

800

900

Número de NEs

Núm

ero

de U

suár

ios

Histograma NEs por Usuário com < 100 NEs - 2005

Figura 7-7: Histograma do número de NEs emitidas por usuários no ano de 2005. O histograma daesquerda apresenta os usuários com mais de 100 NEs emitidas, destacando-se o fato de alguns poucosusuários emitirem grande quantidade de NEs. O histograma da direita apresenta a distribuição para osusuários que emitiram menos de 100 NEs. Considerar como referência que no ano de 2005 houve 10.646usuários emitindo NEs

Tabela 7-6: Quantidade de notas de empenho emitidas por usuário no período analisado

Usuários 2003 2004 2005 2006

Com emissão de NEs 10.218 10.502 10.646 10.996

Com mais de 100 NEs emitidas3.447

33,73%3.685

35,09%3.870

36,35%3.956

35,98%


2,22%259

2,47%260

2,44%284

2,58%

7.2.5 Influência do número de notas para a criação dos modelos

Como citado anteriormente, a quantidade de NEs disponíveis (suporte) durante o

treinamento é fundamental para a confiabilidade do modelo de comportamento criado. Em

não havendo disponível dados precisos sobre o mínimo de NEs necessário para a definição de

modelos confiáveis, cabe ao analista definir um valor que considere mais adequado em cada

caso. Nos testes realizados, arbitrou-se na maioria das vezes o valor 100 como mínimo

necessário para a utilização dos modelos criados.

Analisando as informações presentes na Tabela 7-3 e na Tabela 7-4, constata-se que o

valor 100 não é restritivo para a análise de órgãos e UGs, uma vez que, para os primeiros, em

- 152 -

média 93% tem mais de 100 NEs emitidas. Em relação às UGs, em média 68% tem mais de

100 NEs emitidas. Em relação a usuários, conforme a Tabela 7-6, tem-se que em média 34%

possui mais de 100 NEs registradas. A pior situação ocorre em relação a favorecidos,

conforme a Tabela 7-5 apenas 0,76% possui mais de 100 NEs recebidas. A conclusão desses

números é que, para a análise de grande parte das NEs, não será possível usar o modelo de

comportamento do favorecido e conseqüentemente descartada a probabilidade de anomalia

fornecida para essa entidade.

A não consideração de alguns dos modelos no julgamento de normalidade da NE não

invalida o mesmo, apenas fica-se sem um parâmetro adicional de verificação. A situação ideal

ocorre quando todos os quatro modelos de entidades referenciadas na nota, mais o da

Administração Pública, podem ser usados na análise de normalidade da NE.

A Figura 7-8 apresenta a diferença entre os modelos de comportamento criados para um

mesmo órgão, dentro de um mesmo período, a partir de quantidades variadas de NEs,

aleatoriamente escolhidas. O modelo padrão (diferença zero) corresponde ao criado utilizando

todas as NEs disponíveis. Os demais modelos foram criados com menor número de NEs,

variando-se de dez NEs até o máximo disponível. Os pontos nos gráficos da Figura 7-8

representam as diferenças entre os diversos modelos e o padrão. Os modelos foram calculados

para o Tribunal de Contas da União e para o Ministério das Cidades. Em destaque nas figuras

está a diferença entre o modelo criado com 100 NEs e o modelo padrão. O procedimento para

o cálculo das diferenças será descrito na Seção 7.5.

O que se procura mostrar nas figuras é que para algumas entidades pode haver

mudanças significativas no modelo de comportamento em função do número de NEs

disponíveis para sua construção (exemplo do gráfico do TCU na Figura 7-8). Para outras

entidades, com comportamento mais homogêneo, um número relativamente pequeno de NEs

- 153 -

pode ser suficiente para a criação de um modelo representativo (exemplo do gráfico do

Ministério das Cidades na Figura 7-8). Ou seja, não existe um número mínimo de NEs

(suporte mínimo) que possa ser adotado genericamente para todas as entidades.

0 500 1000 1500 2000 2500 3000 3500 40000

10

20

30

40

50

60

70

80

90

100

Número de NEs consideradas

Dife

renç

a

Diferença para a matriz de frequencia - TCU - 2005

0 1000 2000 3000 4000 5000 60000

10

20

30

40

50

60

70

80

90

100

Número de NEs consideradas

Dife

renç

a

Diferença para a matriz de frequencia - Ministério das Cidades - 2006

Figura 7-8: Diferença entre a matriz de freqüência calculada com todas as NEs e as matrizes calculadascom número menor de NEs. Os pontos destacados representam a diferença entre a matriz calculada comtodas as notas e a matriz calculada com 100 NEs. Essa diferença é de 26,3 para o TCU e 13,6 para oMinistério das Cidades. A diferença máxima possível é 200. Os dados referem-se ao ano de 2005

7.3 CATEGORIZAÇÃO DOS VALORES DAS NOTAS DE EMPENHO

Para justificar a categorização, a Tabela 7-7 apresenta algumas notas de valor elevado.

Tabela 7-7: Exemplos de notas de empenho de valor elevado, emitidas pela Administração Pública. Amodalidade de licitação 8 significa "não se aplica". A coluna valor está representada em bilhões de reais

Órgão ND ML Data Valor

STN Principal Corrigido da Dívida Mobiliária Refinanciado 8 03/01/2005 885

STN Juros, Deságios e Descontos da Dívida Mobiliária 8 03/01/2005 57

STN Principal da Dívida Mobiliária Resgatado 8 06/01/2005 12

SPOA Distribuição Constitucional ou Legal de Receitas 8 04/01/2005 21

INSS Aposentadorias e Reformas 8 02/02/2005 60

INSS Pensões 8 31/01/2005 16

INSS Outros Benefícios Previdenciários 8 31/01/2005 14

- 154 -

Essas notas, emitidas pela Secretaria do Tesouro Nacional (STN), pela Subsecretaria de

Planejamento e Administração (SPOA) e pelo Instituto Nacional de Seguro Social (INSS),

nos meses de janeiro e fevereiro de 2005, acabam por distorcer os gráficos de distribuição de

valores.

Como exemplo tem-se o gráfico da Figura 7-9 (lado esquerdo) onde é possível observar

somente a utilização da modalidade de licitação 8, em função das poucas notas de grande

valor emitidas nessa modalidade. Essa aparente distorção, apesar de corresponder à realidade

da distribuição de valores, dificulta a visualização das demais categorias. Sendo assim, nos

próximos gráficos, quando os valores não estiverem distribuídos por categoria, serão

consideradas somente notas com valores inferiores a R$ 1.000.000,00. A Figura 7-9 (lado

direito) apresenta a nova distribuição de valores considerando a filtragem citada. Apesar da

preponderância da modalidade oito, já é possível analisar a distribuição nas demais

modalidades.

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

70

80

90

100

Modalidade Licitação

% V

alor

% de Valores por Modalidade de Licitação - Ano 2005

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60


% V

alor

% de Valores (<1.000.000) por Modalidade de Licitação - Ano 2005

Figura 7-9: Percentual de valores por modalidade de licitação. O gráfico do lado esquerdo inclui todas asnotas de empenho, o do lado direito somente aquelas com valor inferior a R$ 1.000.000,00. Dadosreferentes ao ano de 2005. Relação de MLs: 01 – Concurso, 02 – Convite, 03 – Tomada de Preço, 04 –Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 – Suprimento defundo, 11 – Consulta e 12 – Pregão

A Tabela 7-8 detalha a distribuição de notas por valor. Uma informação relevante

extraída da tabela é que a grande maioria das NEs (99,28%) possui valor inferior a um milhão

- 155 -

de reais. Em contrapartida essas NEs representam somente 1,56% do valor total anual

empenhado.

Aparentemente faz sentido ter atenção maior sobre as poucas notas de grande valor, em

função do volume de recursos financeiros envolvidos, o que impediria a realização da

filtragem proposta para os gráficos, uma vez que tais notas não ficariam visíveis. Deve-se no

entanto ter em mente que o objetivo deste trabalho é a detecção automática de notas de

empenho anômalas, as quais provavelmente terão seus valores inferiores a R$ 1.000.000,00.

Essa afirmação justifica-se uma vez que para valores mais elevados é natural que ocorra um

controle intensivo por parte dos órgãos de fiscalização, e devido a seu volume menor é mais

fácil realizar tal controle de forma manual. Com o exposto não se pretende afirmar que não

ocorram irregularidades em notas de maior valor, apenas que irregularidades cometidas nessas

notas seriam provavelmente detectadas por análise manual, não necessitando de um sistema

automatizado. Leve-se em conta também que fraudes em contratações de maior valor são

normalmente realizadas por mecanismos mais requintados, os quais não seriam detectados

pelos procedimentos definidos neste trabalho.

Tabela 7-8: Percentual acumulado de valores por percentual de notas de empenho. Dados de 2005

NEs com valor menor que % de Notas % do Valor Total

R$ 100,00 R$ 1.000,00

R$ 10.000,00 R$ 100.000,00

R$ 1.000.000,00 R$ 10.000.000,00

R$ 100.000.000,00 R$ 1.000.000.000,00

R$ 10.000.000.000,00

10,2849,2184,6696,0499,2899,8799,9799,99

100,00

0,000,020,150,561,563,376,48

13,48100,00

Para simplificar o estudo da distribuição de valores, ao invés de apresentar a

distribuição de NEs por valores absolutos, foram criadas classes de valores que facilitam a

- 156 -

visualização dos dados. Os valores foram categorizados em nove classes, definidas na Tabela

7-9. Não foi utilizado nenhum critério específico na definição dos intervalos de valores,

apenas procurou-se trabalhar com um número razoável de classes, que facilitasse as análises

posteriores.

Tabela 7-9: Percentuais anuais de notas de empenho emitidas por classe de valor

ClasseValor (CV)

Faixa (R$) 2003 2004 2005 2006

1 0 – 100 12,95% 11,74% 10,28% 10,36%

2 101 – 1.000 42,11% 40,16% 38,93% 38,15%

3 1.001 – 10.000 33,03% 34,11% 35,45% 36,11%

4 10.001 – 100.000 9,05% 10,37% 11,38% 11,32%

5 100.001 – 1.000.000 2,29% 2,92% 3,24% 3,34%

6 1.000.001 – 10.000.000 0,46% 0,57% 0,59% 0,58%

7 10.000.001 – 100.000.000 0,09% 0,10% 0,10% 0,11%

8 100.000.001 – 1.000.000.000 0,01% 0,02% 0,02% 0,02%

9 Acima de 1.000.000.000 0% 0,01% 0,01% 0,01%

7.4 COMPORTAMENTO DA ADMINISTRAÇÃO PÚBLICA NA

EMISSÃO DE NOTAS DE EMPENHO

Será apresentado nesta seção o estudo do comportamento da Administração Pública na

emissão de empenhos. Seu comportamento será caracterizado pela distribuição de NEs nos

seguintes tópicos:

• Por modalidade de licitação (ML);

• Por classe de valor (CV);

- 157 -

• Por natureza da despesa (ND);

• Pelas combinações de dois atributos: ML x CV, ML x ND e CV x ND;

• Pela combinação dos três atributos: ND, CV e ML.

Será também apresentada a distribuição de valores das NEs nos seguintes tópicos:

• Por modalidade de licitação (ML);

• Por natureza da despesa (ND).

Após as análises globais, será apresentado um estudo demonstrando a variação das

distribuições citadas ao longo dos doze meses do ano.

7.4.1 Distribuição de notas de empenho por classe de valor

Usando a categorização da Tabela 7-9 e considerando a distribuição de NEs no período

analisado (Figura 7-10), observa-se pouca variação no percentual de notas por classe.

Percebe-se na Tabela 7-9 uma pequena tendência de crescimento no percentual de NEs para

as classes intermediárias (3, 4 e 5) e queda no percentual de NEs nas classes baixas (1 e 2).

Parte dessa tendência pode ter sido causada em função do efeito inflacionário, uma vez

que não foi feito nenhum ajuste nos valores das NEs. Outra causa possível seria uma

contratação pouco adequada por parte da Administração Pública, pagando mais pelos mesmos

produtos ao longo dos anos, descontado o efeito inflacionário. Está fora do escopo deste

trabalho aprofundar a discussão sobre o tema pois envolveria uma análise mais detalhada das

modalidades de licitação usadas e a variação do valor médio pago por produto comprado.

- 158 -

1 2 3 4 5 6 7 8 90

5

10

15

20

25

30

35

40

45

50

Valor

% N

Es

% de NEs por Classe Valor - Ano 2003

1 2 3 4 5 6 7 8 90

5

10

15

20

25

30

35

40

45

50

Valor

% N

Es


1 2 3 4 5 6 7 8 90

5

10

15

20

25

30

35

40

45

50

Valor

% N

Es


1 2 3 4 5 6 7 8 90

5

10

15

20

25

30

35

40

45

50

Valor

% N

Es


Figura 7-10: Percentual de notas de empenho por classe de valor no período de 2003 a 2006. Relação declasses de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6(1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de1.000.000.000). Todos os valores em reais

7.4.2 Distribuição de notas de empenho e valores por modalidade de licitação

Da análise da Figura 7-11, que apresenta a distribuição do número de notas por

modalidade, constata-se como principal característica da Administração Pública quanto à

modalidade de licitação o crescimento da modalidade pregão eletrônico (modalidade 12), que

saltou de 4,78% das NEs em 2003 para 23,73% em 2006. Esse rápido crescimento (18,95%

em quatro anos) demonstra o sucesso dessa modalidade.

Em contrapartida observa-se a diminuição no uso de outras modalidades, como convite

(modalidade 2) e dispensa de licitação (modalidade 6). Essa mudança no modelo de

contratação é salutar uma vez que são trocadas modalidades cuja escolha do fornecedor é

- 159 -

muitas vezes subjetiva, por uma modalidade mais transparente e que estimula a maior

participação e concorrência entre fornecedores, acarretando teoricamente a redução do valor

pago pelos produtos e serviços empenhados.

Na Tabela 7-9, observa-se um percentual crescente de notas emitidas ao longo do

período analisado nas classes mais altas (acima de 2) e a redução progressiva no percentual de

notas nas classes mais baixas (1 e 2), indicando um aumento no valor das notas emitidas, o

que pode contradizer a afirmação anterior. Esse ponto mereceria maior atenção em trabalhos

futuros, de forma a verificar a eficácia do uso do pregão eletrônico como forma de baratear o

preço dos produtos comprados pela Administração Pública.

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es

% de NEs por Modalidade de Licitação - Ano 2003

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


Figura 7-11: Percentual de notas de empenho por modalidade de licitação no período de 2003 a 2006. Emdestaque na figura o crescimento da modalidade Pregão Eletrônico, com acentuado crescimento duranteos quatro anos da análise. Relação de modalidades de licitação: 01 – Concurso, 02 – Convite, 03 – Tomadade Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 –Suprimento de fundo, 11 – Consulta e 12 – Pregão

- 160 -

A Figura 7-12, que apresenta o percentual de valores por modalidade de licitação,

ratifica o crescimento da modalidade pregão, que subiu em valores de 9% em 2003 para 22%

em 2006. Essa informação considera apenas as NEs com valores inferiores a R$ 1.000.000,00

evitando assim a distorção citada na Seção 7.3.

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60


% V

alor


1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60


% V

alor


1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60


% V

alor


1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60


% V

alor


Figura 7-12: Percentual de valores por modalidade de licitação no período de 2003 a 2006. Consideradassomente as notas com valor inferior a R$ 1.000.000,00. Relação de modalidades de licitação: 01 –Concurso, 02 – Convite, 03 – Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 –Inexigibilidade, 08 – Não se aplica, 09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão

7.4.3 Distribuição de notas de empenho e valores por natureza da despesa

Devido ao grande número de NDs (315 categorias), na distribuição percentual de NEs

(Figura 7-13) só foram representadas as NDs que tenham recebido mais de 1% de NEs por

ano. No caso da distribuição de valores (Figura 7-14), considerando somente as notas com

- 161 -

valor menor que R$ 1.000.000, foram apresentadas as NDs que tenham recebido mais de 2%

do valor total anual empenhado.

Pela análise da Figura 7-13 e Figura 7-14, constata-se que a composição percentual do

número de NEs e de valores por ND permaneceu estável dentro do período analisado.

135 136 137 143 146 148 151 154 159 160 243 2810

5

10

15

20

25

30

35

40

45

50

ND

% N

Es

% de NEs por ND - NDs com mais de 1% - Ano 2003

135 136 143 146 148 151 154 159 160 2430

5

10

15

20

25

30

35

40

45

50

ND

% N

Es


135 136 143 146 148 151 154 160 2430

5

10

15

20

25

30

35

40

45

50

ND

% N

Es


135 136 143 146 148 151 154 160 170 243 2810

5

10

15

20

25

30

35

40

45

50

ND

% N

Es


Figura 7-13: Percentual de notas de empenho por natureza da despesa. Consideradas somente asnaturezas de despesa com pelo menos 1% do total de notas. Relação de naturezas de despesa: 135 - DiáriasCivil, 136 – Diárias Militar, 137 – Auxílio Financeiro a Estudantes, 143 - Material de Consumo, 146 –Passagens e Despesas com Locomoção, 148 - Outros Serviços de Terceiros Pessoa Física, 151 - OutrosServiços de Terceiros Pessoa Jurídica, 154 – Obrigações tributárias e Contributivas, 159 – Despesas deExercícios Anteriores, 160 – Indenizações e Retribuições, 170 – Obrigações Tributárias, 200 - Auxílios,243 - Equipamentos e Material Permanente, 281 – Aquisição de Produtos para Revenda

- 162 -

25 84 101 143 149 151 200 242 243 2810

5

10

15

20

25

30

Natureza da Despesa

% V

alor

% de Valores (<1.000.000) por Natureza da Despesa - Ano 2003

17 69 84 101 143 149 151 200 242 2430

5

10

15

20

25

30

Natureza da Despesa

% V

alor


84 101 143 149 151 200 201 242 243 2850

5

10

15

20

25

30

Natureza da Despesa

% V

alor


84 101 143 149 151 199 200 242 243 281 2850

5

10

15

20

25

30

Natureza da Despesa

% V

alor


Figura 7-14: Percentual de valores por natureza da despesa. Consideradas somente as notas com valorinferior a R$ 1.000.000,00 e naturezas de despesa com pelo menos 2% do valor total empenhado norespectivo ano. Relação de naturezas de despesa: 17 – Vencimentos Pessoal Civil, 25 – Despesas deExercícios Anteriores, 69 - Contribuições, 84 - Contribuições, 101 - Contribuições, 143 - Material deConsumo, 149 – Locação de Mão-de-obra, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 199 –Contribuições, 200 - Auxílios, 201 – Obras e Instalações, 242 - Obras e Instalações, 243 - Equipamentos eMaterial Permanente, 281 – Aquisição de Produtos para Revenda, 285 – Concessão de Empréstimos eFinanciamentos

A Figura 7-14 apresenta a distribuição percentual de valores para NEs com valor menor

que R$ 1.000.000,00. Caso não fosse colocado nenhum filtro ter-se-ia a visão real do gasto da

Administração Pública, conforme apresentado na Figura 7-15 para o ano de 2005.

- 163 -

11 17 42 72 87 127 128 130 152 285 303 3070

10

20

30

40

50

60

70

80

90

100

Natureza da Despesa

% V

alor

% de Valores por Natureza da Despesa - Ano 2005

Figura 7-15: Percentual de valores por natureza da despesa. Consideradas todas as notas de empenho.Relação de naturezas de despesa: 11 - Aposentadorias e Reformas, 17 – Vencimentos Pessoal Civil, 42 -Juros, Deságios e Descontos da Dívida Mobiliária, 72 – Distribuição Constitucional ou Legal de Receitas,87 - Distribuição Constitucional ou Legal de Receitas, 127 - Aposentadorias e Reformas, 128 - Pensões, 130– Outros Benefícios Previdenciários, 152 – Equalização de Preços e Taxas, 285 - Concessão deEmpréstimos e Financiamentos, 303 - Principal da Dívida Mobiliária Resgatado, 307 - Principal Corrigidoda Dívida Mobiliária Refinanciado

Observa-se na Figura 7-15 uma preponderância de gastos com refinanciamento da

dívida e aposentadorias. Essas NDs sequer aparecem na Figura 7-13, a qual representa o

percentual de notas emitidas, apesar de representarem grande parte dos recursos empenhados.

Isso se deve ao fato dessas NDs possuírem poucas notas com grandes valores.

7.4.4 Distribuição de notas de empenho por natureza da despesa e valor

A Figura 7-16 apresenta a distribuição combinada ND x CV.

Assim como na Figura 7-13, só foram representadas as NDs que tenham recebido mais

de 1% de NEs anuais. Conforme mostra a figura, a distribuição de NEs não sofreu alteração

relevante nos quatro anos analisados.

- 164 -

135136

137143

146148

151154

159160

2432811

23

45

67

89

0

5

10

15

20

ND

%NEs por ND,Classe Valor - NDs > 1% - Ano 2003

Valor

% d

e N

Es

135136

143146

148151

154159

160243

12

34

56

78

9

0

5

10

15

20

ND


Valor

% d

e N

Es

135136143

146148151

154160243

12

34

56

78

9

0

5

10

15

20

ND


Valor

% d

e N

Es

135136

143146

148151

154160

170243

2811

23

45

67

89

0

5

10

15

20

ND


Valor

% d

e N

Es

Figura 7-16: Distribuição combinada de notas de empenho por classe de valor e natureza da despesa.Foram consideradas somente as naturezas de despesa com pelo menos 1% do total de notas. Relação denaturezas de despesa: 135 - Diárias Civil, 136 – Diárias Militar, 137 – Auxílio Financeiro a Estudantes,143 - Material de Consumo, 146 – Passagens e Despesas com Locomoção, 148 - Outros Serviços deTerceiros Pessoa Física, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 154 – Obrigações tributárias eContributivas, 159 – Despesas de Exercícios Anteriores, 160 – Indenizações e Retribuições, 170 –Obrigações Tributárias, 200 - Auxílios, 243 - Equipamentos e Material Permanente, 281 – Aquisição deProdutos para Revenda. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)

7.4.5 Distribuição de notas de empenho por modalidade de licitação e valor

A Figura 7-17 apresenta a distribuição combinada ML x CV. A mudança substancial

ocorrida ao longo dos quatro anos foi o crescimento da modalidade pregão eletrônico, como já

exposto na Seção 7.4.2. Observa-se seu crescimento nas classes de valor de um a cinco, ou

seja, de zero a R$ 1.000.000,00.

- 165 -

12

34

56

78

910

11121

23

45

67

89

0

5

10

15

20

ML

% de NEs por Classe Valor,Modalidade Licitação - Ano 2003

CV

% d

e N

Es

12

34

56

78

910

11121

23

45

67

89

0

5

10

15

20

ML


CV

% d

e N

Es

12

34

56

78

910

11121

23

45

67

89

0

5

10

15

20

ML


CV

% d

e N

Es

1 23 4 5

6 7 89 10 11

121

23

45

67

89

0

5

10

15

20

ML


CV

% d

e N

Es

Figura 7-17: Distribuição combinada de notas de empenho por classe de valor e modalidade de licitação.Relação de modalidades de licitação: 01 – Concurso, 02 – Convite, 03 – Tomada de Preço, 04 –Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 – Suprimento defundo, 11 – Consulta e 12 – Pregão. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8(100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)

7.4.6 Distribuição de notas de empenho por natureza da despesa e modalidade de

licitação

A Figura 7-18 apresenta a distribuição combinada ML x ND. Observa-se o crescimento

da modalidade de licitação pregão eletrônico. Na figura destaca-se o aumento no uso de

pregão eletrônico para as contratações de serviços de pessoa jurídica (151), equipamentos e

materiais permanentes (243) e principalmente material de consumo (143). Neste último, o

pregão substitui as modalidades convite e dispensa de licitação.

- 166 -

135136137143146148151154159160243281

12 3 4

5 67 8

9101112

0

5

10

15

20

ND

%NEs por ND,Modalidade Licitação - NDs > 1% - Ano 2003

ModLici

% d

e N

Es

135136143146148151154159160243

12 3

45

6 78

910

1112

0

5

10

15

20

ND


ModLici

% d

e N

Es

135136143146148151154160243

12

34

56

78

910

1112

0

5

10

15

20

ND


ModLici

% d

e N

Es

135136143146148151154160170243281

12 3

4 56

7 891011

12

0

5

10

15

20

ND


ModLici

% d

e N

Es

Figura 7-18: Distribuição combinada de notas de empenho por modalidade de licitação e natureza dadespesa. Foram consideradas somente as naturezas de despesa com pelo menos 1% do total de notas.Relação de naturezas da despesa: 135 - Diárias Civil, 136 – Diárias Militar, 137 – Auxílio Financeiro aEstudantes, 143 - Material de Consumo, 146 – Passagens e Despesas com Locomoção, 148 - OutrosServiços de Terceiros Pessoa Física, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 154 – Obrigaçõestributárias e Contributivas, 159 – Despesas de Exercícios Anteriores, 160 – Indenizações e Retribuições,170 – Obrigações Tributárias, 200 - Auxílios, 243 - Equipamentos e Material Permanente, 281 – Aquisiçãode Produtos para Revenda. Relação de modalidades de licitação: 01 – Concurso, 02 – Convite, 03 –Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica,09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão

7.4.7 Distribuição combinada de notas de empenho pelos três atributos

A Figura 7-19 apresenta a distribuição combinada pelos três atributos em estudo. Cada

ponto no espaço significa a ocorrência de NEs numa dada combinação de ML, ND e CV. A

figura não representa o percentual de NEs em cada combinação, apenas sua presença ou não.

- 167 -

0

5

10

024681012

0

50

100

150

200

250

300

350

ML

% de NEs por ND, ML e CV - Ano 2006

CV

ND

Figura 7-19: Distribuição combinada de notas de empenho por modalidade de licitação, classe de valor enatureza da despesa. Dados referentes ao ano de 2006. Cada ponto representa a existência ou não de NEsna respectiva combinação de atributos. Não está representada na figura a variação na concentração deNEs emitidas por ponto

Conclui-se pela análise da figura que a ocorrência de NEs por combinação dos três

atributos não é distribuída uniformemente no espaço. Enquanto algumas combinações

possuem maior freqüência de ocorrência, outras não receberam nenhuma NE no período

analisado. Essa variação percentual por combinação será a base para o procedimento de

detecção apresentado no Capítulo 8.

Pode-se considerar que a distribuição apresentada na Figura 7-19, mais a informação de

densidade por ponto, representam a "assinatura" da entidade em análise. Cada entidade

(órgão, UG, favorecido e usuário) possui uma distribuição característica, muitas vezes

próximas entre si. Não se pretende que a assinatura sirva para diferenciar as entidades, mas

- 168 -

que sirva para estabelecer o quão provável é que uma NE seja emitida por uma entidade dada

sua combinação de atributos.

7.4.8 Variação mensal na emissão de notas de empenho

Outro aspecto relevante a ser analisado é a variação no número de NEs emitidas (Figura

7-20) e a variação no total de valores (Figura 7-21) ao longo dos meses do ano. Como

apresentado na Figura 7-20, observa-se uma elevada concentração na emissão de NEs no mês

de dezembro, com a correspondente concentração de valores nesse mês (Figura 7-21). Essa

tendência manteve-se constante no período analisado, de 2003 a 2006.

A tendência pode ser um indício de má gestão de recursos públicos, tendo em vista que

o gasto não é uniforme ao longo do ano. Em função da necessidade de gastar a verba alocada

dentro do exercício financeiro, evitando assim sua devolução e o não recebimento do mesmo

montante no exercício seguinte, a Administração Pública demonstra a tendência de realizar

grande volume de compras no último mês do ano.

Além de um indício de mau planejamento por parte dos gestores, pode significar

também um contingenciamento de recursos por parte do governo ao longo do ano, visando ao

cumprimento das metas inflacionárias ou do superávit primário, entre outros motivos. Dessa

forma não permite que a Administração realize os gastos nos momentos mais oportunos, o

que de qualquer forma implica em má gestão de recursos.

Pode-se ainda citar a demora na aprovação de créditos suplementares pelo Congresso

Nacional como fator que motiva a distribuição não homogênea de gastos. Foge do escopo

deste trabalho uma análise mais aprofundada sobre o tema.

- 169 -

1 2 3 4 5 6 7 8 9 10 11 120

2

4

6

8

10

12

14

16

18

20

Mês

%N

Es

%NEs por mês - 2003

1 2 3 4 5 6 7 8 9 10 11 120

2

4

6

8

10

12

14

16

18

20

Mês

%N

Es


1 2 3 4 5 6 7 8 9 10 11 120

2

4

6

8

10

12

14

16

18

20

Mês

%N

Es


1 2 3 4 5 6 7 8 9 10 11 120

2

4

6

8

10

12

14

16

18

20

Mês

%N

Es


Figura 7-20: Percentual de notas de empenho emitidas por mês

A Figura 7-21, que traz o gráfico da distribuição de valores no ano de 2006, apresenta

uma discrepância no mês de junho em relação aos anos anteriores. O percentual de valores

empenhados nesse mês está muito acima do percentual empenhado em anos anteriores.

Uma possível explicação para a distorção é o fato de 2006 ter sido um ano de eleição

presidencial, o que impede o governo federal de realizar transferências a estados e municípios

após 30 de junho, e até um mês após a realização das eleições.

Observa-se também nesse mesmo ano percentuais baixos nos meses anteriores a

junho. Essas observações poderiam ser melhor detalhadas em trabalhos futuros,

principalmente no que tange à caracterização do comportamento da Administração Pública

num ano de eleição presidencial.

- 170 -

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

Mês

%V

alor

%Valor < 1.000.000 por mês - 2003

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

Mês

%V

alor

%Valor < 1.000.000 por mês - 2004

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

Mês

%V

alor

%Valor < 1.000.000 por mês - 2005

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

Mês

%V

alor

%Valor < 1.000.000 por mês - 2006

Figura 7-21: Percentual de valores empenhados por mês. Foram consideradas somente as notas com valorinferior a R$ 1.000.000,00

A Figura 7-22 apresenta a mesma informação da Figura 7-21, só que sem a filtragem de

valor para as NEs. Com isso observa-se uma inversão na concentração de gastos,

principalmente no mês de janeiro. Isso se deve às poucas NEs com elevados valores emitidas

nesse mês, principalmente com relação ao refinanciamento da dívida pública, como descrito

na Seção 7.3.

- 171 -

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

70

80

90

100

Mês

%V

alor

%Valor por mês - 2003

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

70

80

90

100

Mês

%V

alor


1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

70

80

90

100

Mês

%V

alor


1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

70

80

90

100

Mês

%V

alor


Figura 7-22: Percentual de valores empenhados por mês. Consideradas as notas de empenho de todos osvalores

7.4.8.1 Distribuição mensal de notas de empenho por modalidade de licitação

Na Figura 7-23 é apresentado o percentual de NEs emitidas ao longo do ano por

modalidade de licitação para o ano de 2006. No Apêndice C são apresentados os gráficos

referentes aos anos de 2003, 2004 e 2005.

A modificação perceptível é a preponderância da modalidade 8 ("não se aplica") no mês

de janeiro e parcialmente em fevereiro. Os demais meses têm modelo de comportamento

semelhante, com preponderância da modalidade 6 (dispensa de licitação).

Nota-se no mês de junho uma discrepância em relação à tendência anual, qual seja, a

concentração de NEs na modalidade 8. Esse fato já foi comentado anteriormente na Seção

7.4.8.

- 172 -

1 2 3 4 5 6 7 8 9 10 11 120

20

40

1

1 2 3 4 5 6 7 8 9 10 11 120

20

40

2

1 2 3 4 5 6 7 8 9 10 11 120

20

40

3

1 2 3 4 5 6 7 8 9 10 11 120

20

40

4

1 2 3 4 5 6 7 8 9 10 11 120

20

40

5

1 2 3 4 5 6 7 8 9 10 11 120

20

40

6

1 2 3 4 5 6 7 8 9 10 11 120

20

40

7

1 2 3 4 5 6 7 8 9 10 11 120

20

40

8

1 2 3 4 5 6 7 8 9 10 11 120

20

40

9

1 2 3 4 5 6 7 8 9 10 11 120

20

40

10

1 2 3 4 5 6 7 8 9 10 11 120

20

40

11

1 2 3 4 5 6 7 8 9 10 11 120

20

40

12

Figura 7-23: Percentual mensal de notas de empenho referentes ao ano de 2006 por modalidade delicitação. Cada gráfico corresponde a um mês do ano. Relação de MLs: 01 – Concurso, 02 – Convite, 03 –Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica,09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão

A análise mensal apresentada é relevante no sentido de indicar se um modelo único

pode ser usado para todos os meses do ano ou se é necessário construir modelos

individualizados por mês. No caso da modalidade de licitação, aparentemente só seria

justificável a criação de modelos diferenciados para os meses de janeiro e fevereiro, podendo

os demais serem representados por um modelo único de comportamento. Essa afirmação é

aplicável ao modelo da Administração Pública, não sendo necessariamente válida para as

demais entidades em análise, como será visto posteriormente.

7.4.8.2 Distribuição mensal de notas de empenho por classe de valor

Na Figura 7-24 é apresentado o percentual de NEs emitidas ao longo do ano de 2006

por classe de valor. No Apêndice C são apresentados os gráficos referentes aos anos de 2003,

2004 e 2005.

- 173 -

Observa-se a tendência na emissão de NEs com valores mais altos nos meses de janeiro

e dezembro. Os demais meses mantêm modelo semelhante de comportamento. Pela análise

das figuras observa-se a necessidade de criação de modelos diferenciados somente para os

meses de janeiro e dezembro.

1 2 3 4 5 6 7 8 90

20

40

1

1 2 3 4 5 6 7 8 90

20

40

2

1 2 3 4 5 6 7 8 90

20

40

3

1 2 3 4 5 6 7 8 90

20

40

4

1 2 3 4 5 6 7 8 90

20

40

5

1 2 3 4 5 6 7 8 90

20

40

6

1 2 3 4 5 6 7 8 90

20

40

7

1 2 3 4 5 6 7 8 90

20

40

8

1 2 3 4 5 6 7 8 90

20

40

9

1 2 3 4 5 6 7 8 90

20

40

10

1 2 3 4 5 6 7 8 90

20

40

11

1 2 3 4 5 6 7 8 90

20

40

12

Figura 7-24: Percentual mensal de notas de empenho referentes ao ano de 2006 por classe de valor. Cadagráfico corresponde a um mês do ano. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8(100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)

7.4.8.3 Distribuição mensal de notas de empenho por natureza da despesa

Na Figura 7-25 é apresentado o percentual de NEs emitidas ao longo do ano de 2006

por natureza da despesa, considerando apenas as NDs que receberam pelo menos 1% das NEs

ao longo dos meses. No Apêndice C são apresentados os gráficos referentes aos anos de 2003,

2004 e 2005.

Observa-se uma concentração de contratação de serviço de pessoa jurídica (ND 151) no

primeiro trimestre do ano. Em contrapartida tem-se uma menor contratação de material de

- 174 -

consumo (ND 143) também no primeiro trimestre. Essa tendência inverte-se nos demais

meses do ano.

135 143 146 148 151 1600

20

40

1

135 143 146 148 151 1600

20

40

2

135 143 146 148 151 1600

20

40

3

135 143 146 148 151 1600

20

40

4

135 143 146 148 151 1600

20

40

5

135 143 146 148 151 1600

20

40

6

135 143 146 148 151 1600

20

40

7

135 143 146 148 151 1600

20

40

8

135 143 146 148 151 1600

20

40

9

135 143 146 148 151 1600

20

40

10

135 143 146 148 151 1600

20

40

11

135 143 146 148 151 1600

20

40

12

Figura 7-25: Percentual mensal de notas de empenho referentes ao ano de 2006 por natureza da despesa.Apresentadas somente as naturezas de despesa com mais de 1% de notas por mês. Cada gráficocorresponde a um mês do ano. 135 - Diárias Civil, 143 - Material de Consumo, 146 – Passagens e Despesascom Locomoção, 148 - Outros Serviços de Terceiros Pessoa Física, 151 - Outros Serviços de TerceirosPessoa Jurídica, 160 – Indenizações e Retribuições

7.5 ANÁLISE DA EMISSÃO DE NOTAS DE EMPENHO POR ÓRGÃOS

E UNIDADES GESTORAS

O objetivo desta seção é realizar uma comparação entre o modelo de comportamento da

Administração Pública, o de quatro órgãos selecionados e o de duas unidades gestoras. A

escolha dos órgãos procurou selecionar aqueles com comportamentos variados entre si e

representativos em relação aos demais órgãos da Administração. Tal escolha baseou-se na

utilização de mecanismos de clusterização, como será apresentado nos próximos tópicos.

- 175 -

7.5.1 Clusterização para seleção de órgãos

O uso da clusterização objetivou a formação de conjuntos de órgãos com

comportamento semelhante no que se refere à distribuição do número de notas de empenho

nos três atributos escolhidos para estudo: modalidade de licitação, valor da nota e natureza da

despesa. Ou seja, foram criados agrupamentos diferentes considerando individualmente cada

atributo. Outras opções seriam a criação de agrupamentos considerando a distribuição de

notas nos três atributos simultaneamente e a utilização da distribuição de valores no lugar da

de notas. Cada opção adotada provavelmente levaria a criação de grupos diferentes.

O algoritmo de clusterização adotado foi K-Means, como descrito no Capítulo 4. Para a

utilização do algoritmo foi necessário definir uma métrica para indicar a distância entre os

órgãos. Para isso adotou-se o seguinte procedimento: cada órgão foi representado por um

vetor cujas componentes são os percentuais do número de notas em cada valor possível do

atributo. Para exemplificar, na clusterização por modalidade de licitação, para cada órgão foi

construído um vetor de 12 posições contendo o percentual de NEs emitidas pelo órgão em

cada modalidade de licitação. Na clusterização por classe de valor foram usados vetores com

nove posições e por natureza da despesa vetores com elementos representando as NDs com

pelo menos 5% de NEs recebidas.

Tendo sido definida a representação dos órgãos como vetores, o algoritmo K-Means,

usando distância euclidiana, determinou o centro de cada cluster e os órgãos pertencentes aos

mesmos. Pode-se considerar que os centros dos clusters representam protótipos de

distribuição que caracterizam a média de comportamento para os órgãos nele contidos.

O número de clusters a serem definidos é um parâmetro informado para o algoritmo. A

princípio não se conhece o número de clusters necessários, sendo preciso executar o algoritmo

com diversos valores e comparar os resultados até chegar-se a um número de clusters

- 176 -

satisfatório. Não existe normalmente um número preestabelecido de clusters, cabendo ao

analista, observando os resultados e usando procedimentos de aferição da qualidade dos

agrupamentos, determinar o número que melhor represente o problema.

Durante o procedimento de clusterização descrito a seguir foram selecionados quatro

órgãos (DNIT, Ministério das Cidades, TCU e Senado) que por se encontrarem em clusters

separados na maioria das classificações, foram escolhidos como representantes de cada grupo.

7.5.1.1 Clusterização por modalidade de licitação

Clusterizar por modalidade de licitação significa descobrir órgãos que tenham formas de

contratação semelhantes. Essa forma de contratação pode ser influenciada pelos valores

empenhados, pelo tipo de material ou serviço contratado ou pela própria cultura do órgão em

termos de contratação.

Considerando-se os critérios citados para a definição do número de clusters, para a

clusterização por modalidade de licitação no ano de 2006, chegou-se ao valor de 4 clusters

como o mais apropriado. A Figura 7-26 apresenta os protótipos de distribuição, ou seja, a

configuração dos vetores que são os centros dos clusters. Esses vetores representam a

distribuição percentual média das NEs por modalidade de licitação para cada cluster.

1 2 3 4 5 6 7 8 91011120

20

40

60

80

100

ML

%N

Es

1

1 2 3 4 5 6 7 8 91011120

20

40

60

80

100

ML

%N

Es

2

1 2 3 4 5 6 7 8 91011120

20

40

60

80

100

ML

%N

Es

3

1 2 3 4 5 6 7 8 91011120

20

40

60

80

100

ML

%N

Es

4

Figura 7-26: Protótipos de distribuição de notas de empenho por modalidade de licitação, formados apartir dos centros dos quatro clusters definidos. Dados de 2006 incluindo os órgãos com mais de 100 NEs.Relação de MLs: 01 – Concurso, 02 – Convite, 03 – Tomada de Preço, 04 – Concorrência, 06 – Dispensa delicitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão

O TCU foi classificado no cluster um, o DNIT encontra-se no cluster dois, o Ministério

das Cidades no cluster três e o Senado no cluster quatro.

- 177 -

7.5.1.2 Clusterização por classe de valor

Clusterizar por classe de valor serve para caracterizar o gasto quanto ao valor

empenhado. É importante não concluir que órgãos no mesmo cluster tenham gasto quantidade

de recursos semelhante. Como a distribuição é por percentual de NEs, e não por quantidade,

órgãos no mesmo cluster podem ter quantidade de gastos bem diferentes, embora tenham

emitido na média notas com valores semelhantes.

Para a clusterização por classe de valor no ano de 2006 adotou-se três clusters. O

resultado da distribuição percentual de NEs por classe de valor no centro de cada cluster é

apresentado na Figura 7-27.

O TCU foi classificado no cluster três, DNIT e Senado ocupam o cluster dois e o

Ministério das Cidades o cluster um.

1 2 3 4 5 6 7 8 90

10

20

30

40

50

CV

%N

Es

1

1 2 3 4 5 6 7 8 90

10

20

30

40

50

CV

%N

Es

2

1 2 3 4 5 6 7 8 90

10

20

30

40

50

CV

%N

Es

3

Figura 7-27: Protótipos de distribuição de notas de empenho por classe de valor, formados a partir doscentros dos três clusters definidos. Dados de 2006 incluindo os órgãos com mais de 100 NEs. Relação declasses de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6(1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de1.000.000.000)

7.5.1.3 Clusterização por natureza da despesa

Clusterizar por natureza da despesa significa descobrir órgãos que tenham modelo de

compra semelhante, o que serve como indicativo de que os referidos órgãos tenham

preponderantemente as mesmas atividades, uma vez que as compras realizadas pelo órgão

destinam-se normalmente a atender a atividade fim do mesmo.

- 178 -

Para a clusterização por natureza da despesa no ano de 2006 adotou-se três clusters. O

resultado da distribuição de NEs por natureza da despesa no centro de cada cluster é

apresentado na Figura 7-28. São apresentadas somente as naturezas da despesa com pelo

menos 5% do total de NEs emitidas.

O TCU, o DNIT e o Senado foram classificados no cluster dois, o Ministério das

Cidades no cluster um.

69 84 101 151 199 2000

10

20

30

40

50

ND

%N

Es

1

135 143 148 151 2430

10

20

30

40

50

ND

%N

Es

2

143 148 151 2430

10

20

30

40

50

ND%

NE

s

3

Figura 7-28: Protótipos de distribuição de notas de empenho por natureza da despesa, formados a partirdos centros dos três clusters definidos. Dados de 2006 incluindo os órgãos com mais de 100 NEs.Apresentadas somente as NDs com pelo menos 5% das NEs. Relação de naturezas da despesa: 69 -Contribuições, 84 - Contribuições, 101 - Contribuições, 135 - Diárias Civil, 143 - Material de Consumo,148 - Outros Serviços de Terceiros Pessoa Física, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 199 -Contribuições, 200 - Auxílios, 243 - Equipamentos e Material Permanente

7.5.2 Seleção de unidades gestoras

Pretende-se também comparar o comportamento dos órgãos em relação a suas UGs.

Para tanto foram selecionadas para análise duas UGs do TCU. Apesar do reduzido número de

UGs selecionadas, o objetivo do estudo é demonstrar que podem ocorrer diferenças

significativas entre o comportamento do órgão e de suas UGs, o que fica claro com as análises

realizadas. Seguindo o mesmo critério adotado na seleção dos órgãos, as duas UGs foram

escolhidas por apresentarem comportamento bastante diferenciado, uma delas aproximando-

se do comportamento médio do Tribunal, a segunda apresentando comportamento atípico para

o órgão, provavelmente por se tratar de uma unidade de ensino. A escolha foi realizada

- 179 -

manualmente, sem o uso de procedimentos de clusterização como ocorreu na seleção dos

órgãos.

Na Figura 7-29 são apresentados os percentuais de NEs emitidas pelas 29 UGs do TCU,

bem como o percentual de valores emitido por cada UG (considerando somente as NEs com

valor inferior a R$ 1.000.000,00). As 2 maiores UGs (em quantidade de NEs emitidas) são a

UG correspondente à sede do Tribunal (UG-Sede) e o Instituto Serzedello Corrêa (UG-ISC).

Os modelos de comportamento das duas UGs serão comparados com o modelo do Tribunal e

com o da Administração Pública.

0 5 10 15 20 25 300

5

10

15

20

25

UGs

% N

Es

% de NEs por UG - TCU - Ano 2006

0 5 10 15 20 25 300

10

20

30

40

50

60

70

80

90

100

UGs

% V

alor

es% de Valores (<R$1.000.000) por UG - TCU - Ano 2006

Figura 7-29: Percentual de notas de empenho e percentual de valores (considerando somente as NEs comvalor inferior a R$ 1.000.000,00) no ano de 2006 pelas 29 UGs do TCU. A UG 1 corresponde à UG-Sede, aUG 29 corresponde à UG-ISC. As demais UGs representam as secretarias do TCU nos estados. Observara diferença de escala nos gráficos

7.5.3 Distribuição de notas por modalidade de licitação para órgãos e UGs

A Figura 7-30 apresenta o percentual de NEs emitidas pela Administração Pública,

TCU, Senado, DNIT e Ministério das Cidades por modalidade de licitação, referente ao ano

de 2006.

- 180 -

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es

% de NEs por Modalidade de Licitação - TCU - Ano 2006

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es

% de NEs por Modalidade de Licitação - Senado - Ano 2006

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es

% de NEs por Modalidade de Licitação - DNIT - Ano 2006

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

70

80

90

100


% N

Es

% de NEs por Modalidade de Licitação - Ministério das Cidades - Ano 2006

Figura 7-30: Distribuição de NEs por modalidade de licitação para a Administração Pública, TCU,Senado, DNIT e Ministério das Cidades. Observar a diferença de escala no gráfico do Ministério dasCidades. Dados referentes ao ano de 2006. Relação de MLs: 01 – Concurso, 02 – Convite, 03 – Tomada dePreço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 –Suprimento de fundo, 11 – Consulta e 12 – Pregão

A primeira observação a ser feita refere-se às diferenças entre os órgãos e a média da

Administração Pública. Percebe-se no TCU a preponderância das modalidades dispensa de

- 181 -

licitação e suprimento de fundos, enquanto a Administração apresenta maior destaque para a

modalidade "não se aplica" e pregão.

A análise das informações apresentadas deve ser feita com grande cuidado e levando em

consideração os demais atributos. Aparentemente o elevado uso da modalidade dispensa de

licitação em detrimento do uso de pregão eletrônico seria considerado um mau indício para a

forma de contratação no órgão.

Se no entanto for analisado na Figura 7-31 o comportamento da UG-Sede, a qual é

responsável pela maioria das compras, ver-se-á que a qualidade da contratação, em relação ao

uso das modalidades de licitação, é superior ao da Administração Pública, considerando-se

principalmente o menor uso de dispensa de licitação e o elevado grau de adoção do pregão

eletrônico. Destaca-se a rápida implantação dessa modalidade na UG-Sede, observando-se a

diferença de uso entre os anos de 2005 e 2006. Reforçando o comentário anterior, pela análise

da Figura 7-32 e Figura 7-33, observa-se que a UG-Sede possui modelo de compra com

valores mais elevados do que o restante das UGs do Tribunal, na grande maioria

representadas pelas secretarias do TCU nos Estados. Essas UGs, tendo modelo de compra

com valores menores, utilizam mais a dispensa de licitação, o que é permitido por lei em

função dos valores contratados, fazendo com que o modelo do órgão como um todo seja

caracterizado por essa modalidade de licitação. Já a UG-Sede, comprando valores mais

elevados, utiliza prioritariamente a modalidade pregão eletrônico, o que corresponde a uma

boa prática na contratação. Pelo exposto, há que se ter cuidado nas análises superficiais das

informações apresentadas, sob pena de chegar-se a conclusões equivocadas.

Ainda em relação à Figura 7-30, o Senado apresenta um percentual de inexigibilidade

12% superior à Administração Pública. O DNIT destaca-se pelo elevado uso da modalidade

concorrência. O Ministério das Cidades possui um modelo totalmente atípico, com

- 182 -

preponderância quase exclusiva para a modalidade "não se aplica", provavelmente em função

da atividade fim do órgão.

A Figura 7-31 apresenta a distribuição de NEs para as duas UGs selecionadas no TCU,

nos anos de 2005 e 2006. Observa-se que o comportamento da UG-Sede fica mais próximo da

média da Administração, principalmente no uso de dispensa de licitação e pregão eletrônico.

Já em relação à modalidade "não se aplica", aproxima-se mais do comportamento do TCU. A

UG-ISC, em função de suas peculiaridades como unidade de ensino, apresenta modelo

bastante diferente, tanto da Administração Pública como do TCU e da UG-Sede. Como

exemplo dessa diferença, percebe-se a grande utilização da modalidade inexigibilidade.

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es

% de NEs por Modalidade de Licitação - TCU - UG1 - Ano 2005

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


Figura 7-31: Percentual de notas de empenho emitidas nos anos de 2005 e 2006 por modalidade delicitação para as duas UGs selecionadas no TCU. Relação de MLs: 01 – Concurso, 02 – Convite, 03 –Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica,09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão

- 183 -

7.5.4 Distribuição de notas por valor para órgãos e UGs

A Figura 7-32 apresenta o percentual de NEs emitidas por classe de valor durante o ano

de 2006.

1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es


1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es

% de NEs por Classe Valor - TCU - Ano 2006

1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es

% de NEs por Classe Valor - Senado - Ano 2006

1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es

% de NEs por Classe Valor - DNIT - Ano 2006

1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es

% de NEs por Classe Valor - Ministério das Cidades - Ano 2006

Figura 7-32: Percentual de notas de empenho por classe de valor para a Administração Pública, TCU,Senado, DNIT e Ministério das Cidades. Dados referentes ao ano de 2006. Relação de classes de valores: 1(0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000),7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)

- 184 -

Na figura são apresentadas as NEs emitidas pela Administração Pública, TCU, Senado,

DNIT e Ministério das Cidades.

Observa-se que o modelo de comportamento do TCU é bastante próximo da

Administração, apresentando maior percentual de notas na classe 2, com valores variando de

R$ 100,00 a R$ 1.000,00.

O Senado e o DNIT apresentam modelo de gasto com valores mais elevados que a

Administração. O DNIT em particular apresenta um gráfico com acentuada dispersão de

valores.

O Ministério das Cidades tem elevada concentração nas classes 4 e 5, com valores

variando de R$ 10.000,00 a R$ 1.000.000,00.

A Figura 7-33 apresenta a distribuição para as duas UGs selecionadas. Na análise das

UGs tem-se que a UG-Sede apresenta maior tendência que o TCU no uso de valores elevados,

afastando-se assim do modelo geral da Administração Pública.

Como descrito na Seção 7.5.3, a UG-ISC apresenta modelo bastante diferenciado das

demais, com elevada concentração de NEs na classe de valor três, faixa de R$ 1.000,00 a R$

10.000,00.

1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es

% de NEs por Classe Valor - TCU - UG1 - Ano 2006

1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es


Figura 7-33: Percentual de notas de empenho emitidas no ano de 2006 por classe de valor para as UGsselecionadas. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5(100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9(Acima de 1.000.000.000)

- 185 -

7.5.5 Distribuição de notas por natureza da despesa para órgãos e UGs

A Figura 7-34 apresenta o percentual de NEs emitidas por natureza da despesa.

135 136 143 146 148 151 154 160 170 243 2810

10

20

30

40

50

60

ND

% N

Es


135 143 146 148 149 151 154 159 160 2430

10

20

30

40

50

60

ND

% N

Es

% de NEs por ND(>1%) - TCU - Ano 2006

135 143 146 148 149 151 159 160 170 242 2430

10

20

30

40

50

60

ND

% N

Es

% de NEs por ND(>1%) - Senado - Ano 2006

143 146 151 154 159 160 169 193 201 237 242 243 2440

10

20

30

40

50

60

ND

% N

Es

% de NEs por ND(>1%) - DNIT - Ano 2006

84 192 2000

10

20

30

40

50

60

70

80

90

100

ND

% N

Es

% de NEs por ND(>1%) - Ministério das Cidades - Ano 2006

Figura 7-34: NEs por natureza da despesa para Administração, TCU, Senado, DNIT e Ministério dasCidades em 2006. Observar a diferença de escala no gráfico do Ministério das Cidades. NDs: 84 -Contribuições, 135 - Diárias Civil, 143 - Material de Consumo, 146 – Passagens, 148 - Outros Serviços deTerceiros Pessoa Física, 149 - Locação de Mão de Obra, 151 - Outros Serviços de Terceiros PessoaJurídica, 154 – Obrigações tributárias e Contributivas, 159 – Despesas de Exercícios Anteriores, 160 -Indenizações e Restituições, 170 - Obrigações Tributárias e Contributivas, 192 - Auxílios, 193 - Obras eInstalações, 200 - Auxílios, 201 - Obras e Instalações, 237 - Serviços de Consultoria, 242 - Obras eInstalações, 243 - Equipamentos e Material Permanente, 244 - Aquisição de Imóveis

- 186 -

A primeira observação diz respeito à diferença de composição de NDs para os órgãos.

Enquanto no modelo da Administração Pública destacam-se as NDs referentes a diárias civis

(135) e militares (136), no modelo do TCU destaca-se locação de mão de obra (149) e

despesas de exercícios anteriores (159). Também em destaque no modelo do TCU é o

percentual de NEs em serviço de pessoa jurídica (151). O Senado possui modelo muito

semelhante ao do TCU. No modelo do DNIT observa-se destaque para a ND Obras e

Instalações (242). O Ministério das Cidades apresenta grande preponderância da ND Auxílios

(200) e algum destaque para a ND Contribuições (84).

A Figura 7-35 apresenta a distribuição para as duas UGs selecionadas. Em ambos os

casos são apresentadas somente as NDs com percentual de NEs superior a 1%.

No tocante às UGs, a UG-Sede segue o modelo do Tribunal com poucas modificações.

A UG-ISC apresenta modelo diferenciado, com maior destaque para indenizações e

restituições (160) e serviço de pessoa física (148), sendo reduzido por outro lado o percentual

de NEs em material de consumo (143).

143 149 151 159 160 169 2430

10

20

30

40

50

60

ND

% N

Es

% de NEs por ND(>1%) - TCU - UG1 - Ano 2006

143 148 151 160 2430

10

20

30

40

50

60

ND

% N

Es


Figura 7-35: Percentual de notas de empenho emitidas no ano de 2006 por natureza da despesa para asduas UGs selecionadas no TCU. Consideradas somente as naturezas de despesa com mais de 1% de notas.143 - Material de Consumo, 148 - Outros Serviços de Terceiros Pessoa Física, 149 - Locação de Mão deObra, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 159 – Despesas de Exercícios Anteriores, 160 -Indenizações e Restituições, 169 - Outros Serviços de Terceiros (Pessoa Jurídica), 243 - Equipamentos eMaterial Permanente

- 187 -

7.5.6 Análise da emissão mensal de notas para órgãos e UGs

A Figura 7-36 apresenta o percentual de NEs emitidas mensalmente pela Administração

Pública, TCU, Senado, DNIT e Ministério das Cidades, referentes ao ano de 2006.

A Figura 7-37 apresenta a distribuição para as duas UGs selecionadas.

Pela análise dos gráficos percebe-se uma inversão de percentuais nos primeiros e

últimos meses do ano, da Administração Pública em relação ao TCU. Como destacado na

Seção 7.4.8, a Administração apresenta tendência de concentração de NEs nos últimos meses

do ano. Já o TCU apresenta concentração maior nos primeiros meses, com distribuição mais

uniforme ao longo de todo o ano.

O Senado segue modelo semelhante ao do TCU, com distribuição uniforme ao longo do

ano. O DNIT não só segue a tendência da Administração Pública de concentração nos últimos

meses, como reforça a concentração no mês de dezembro.

O Ministério das Cidades apresenta modelo singular no ano de 2006, com concentração

nos meses de junho e dezembro. Esse fato, como explicado na Seção 7.4.8, ocorre em função

de 2006 ter sido um ano de eleições presidenciais.

Para corroborar com esse comentário, foi colocado excepcionalmente o gráfico de

distribuição mensal para o ano de 2005, o qual apresenta uma distribuição menos concentrada

em junho, mas ainda com acúmulo de NEs no último semestre do ano.

Da análise das UGS, apresentada na Figura 7-37, tem-se que a UG-Sede segue a

tendência do Tribunal para concentração de NEs nos primeiros meses do ano, com grande

destaque para o mês de janeiro.

- 188 -

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

Mês

%N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

Mês

%N

Es

%NEs por mês - TCU - 2006

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

Mês

%N

Es

%NEs por mês - Senado - 2006

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

Mês

%N

Es

%NEs por mês - DNIT - 2006

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

Mês

%N

Es

%NEs por mês - Ministério das Cidades - 2005

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

Mês

%N

Es

%NEs por mês - Ministério das Cidades - 2006

Figura 7-36: Percentual de notas de empenho emitidas mensalmente pela Administração Pública, TCU,Senado, DNIT e Ministério das Cidades. Observar a diferença de escala no gráfico do Ministério dasCidades. Dados referentes ao ano de 2006 com exceção do Ministério das Cidades, que inclui 2005

- 189 -

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

Mês

%N

Es

%NEs por mês - TCU - UG1 - 2006

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

Mês

%N

Es

%NEs por mês - TCU - UG2 - 2006

Figura 7-37: Percentual de notas de empenho emitidas mensalmente pelas duas UGs em 2006

7.6 ANÁLISE DE FAVORECIDOS E USUÁRIOS

Não será apresentada a análise detalhada do comportamento dos favorecidos e usuários.

Todas as análises feitas para a Administração Pública e para os órgãos e UGs selecionadas

poderiam ser aplicadas a favorecidos (recebedores dos empenhos) e usuários (emitentes das

NEs). A seguir serão apresentadas algumas informações para um favorecido (Figura 7-38) e

um usuário (Figura 7-39), escolhidos aleatoriamente para demonstrar a aplicabilidade das

análises feitas até aqui a essas duas entidades.

O favorecido em análise na Figura 7-38 é o Fundo de Imprensa Nacional. Pelos gráficos

observa-se que a contratação com essa entidade é feita por dispensa de licitação,

inexigibilidade ou "não se aplica". Os valores recebidos concentram-se na faixa de R$ 100,00

a R$ 10.000. Os pagamentos efetuados à entidade são feitos basicamente na modalidade

"serviço de pessoa jurídica". O recebimento de notas pela entidade é bem distribuído ao longo

do ano.

- 190 -

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

ML

% N

Es

1 2 3 4 5 6 7 8 90

5

10

15

20

25

30

35

40

45

CV

% N

Es

169 173 2500

10

20

30

40

50

60

70

80

90

100

ND

% N

Es

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

Mês

%N

Es

Figura 7-38: Distribuição de NEs por modalidade de licitação (ML), classe de valor (CV), natureza dadespesa (ND) e mês para o Fundo de Imprensa Nacional no ano de 2006. As NDs apresentadas têm oseguinte significado: 169 - Outros Serviços de Terceiros Pessoa Jurídica (19)(I), 173 – Despesas deExercícios Anteriores (25)(I), 250 - Outros Serviços de Terceiros Pessoa Jurídica (27)(I)

O usuário analisado na Figura 7-39 possui maior percentual de notas emitidas na

modalidade concorrência. Os valores médios das notas emitidas está acima da média da

Administração. Destaque também para a distribuição mensal de notas com grande variação,

com emissão concentrada em janeiro e maio.

Vale ressaltar que para uma completa análise do comportamento do usuário é necessário

contextualizá-la na sua UG e órgão de origem. Tendo em vista resguardar o sigilo do usuário

apresentado, tais informações não foram apresentadas o que conseqüentemente inviabiliza a

análise completa de comportamento.

- 191 -

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

ML

% N

Es

1 2 3 4 5 6 7 8 90

5

10

15

20

25

30

35

40

CV

% N

Es

143 149 151 159 169 2430

10

20

30

40

50

60

70

80

90

100

ND

% N

Es

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50

Mês

%N

Es

Figura 7-39: Distribuição de NEs por modalidade de licitação (ML), classe de valor (CV), natureza dadespesa (ND) e mês para um usuário emissor no ano de 2006. As NDs apresentadas têm o seguintesignificado: 143 - Material de Consumo, 149 – Locação de Mão-de-obra, 151 - Outros Serviços deTerceiros Pessoa Jurídica, 159 – Despesas de Exercícios Anteriores, 169 - Outros Serviços de TerceirosPessoa Jurídica (19)(I), 243 - Equipamentos e Material Permanente, 250 - Outros Serviços de TerceirosPessoa Jurídica (27)(I)

7.7 CONCLUSÕES SOBRE A ANÁLISE DE COMPORTAMENTO DAS

ENTIDADES

As análises apresentadas ao longo do capítulo tiveram por objetivo demonstrar a

diferença de comportamento entre órgãos e UGs, bem como a variação temporal do

comportamento dos três atributos selecionados para análise.

Pelos dados apresentados, conclui-se que a criação de um único modelo de

comportamento para toda a Administração Pública não geraria bons resultados, em função das

variações existentes entre órgãos e, dentro de um mesmo órgão, em relação a suas UGs. Essas

variações refletem-se na diversidade de utilização de modalidades de licitação (Figura 7-30 e

- 192 -

Figura 7-31), valores das NEs (Figura 7-32 e Figura 7-33) e naturezas de despesa (Figura 7-34

e Figura 7-35) empregados. Assim sendo, para a correta definição de comportamento, serão

definidos no Capítulo 8 modelos diferenciados para cada órgão, UG, usuário e favorecido,

além do modelo global da Administração Pública.

Outro fator observado ao longo do capítulo é a variação temporal de comportamento.

Como exemplo, a inflação afeta a distribuição de NEs por classe de valor (Figura 7-10) ao

longo do tempo. Da mesma forma, o crescimento no uso do pregão eletrônico afeta a

distribuição de notas por modalidade de licitação (Figura 7-11 e Figura 7-12). Logo, não basta

a criação dos modelos diferenciados por entidade, é necessária a constante atualização dos

mesmos, para permitir a adequação dos modelos às variações de comportamento das

entidades.

Relevante também é a variação de comportamento ao longo dos meses do ano, tanto

para a Administração Pública (da Figura 7-20 à Figura 7-25), como para órgãos (Figura 7-36)

e UGs (Figura 7-37). Percebe-se nos dados apresentados a existência de um ciclo anual de

comportamento. A definição de um modelo único anual para a entidade pode não refletir

corretamente as variações mensais, principalmente para as entidades com variações

significativas ao longo do ano.

Finalmente justifica-se a utilização de três atributos para a composição do modelo de

comportamento em função de nenhum deles caracterizar de forma completa o comportamento

das entidades. A análise conjunta dos três traz resultados mais confiáveis para os modelos

criados.

As informações apresentadas no capítulo, além de servir como base para a criação dos

modelos de comportamento na emissão de notas de empenho, a serem criados no Capítulo 8,

servem como referência para que trabalhos futuros possam vir a explorar os dados

- 193 -

apresentados e tentar responder alguns questionamentos levantados. Conforme observado

durante a pesquisa bibliográfica, existem poucos trabalhos científicos relacionados com o

tema apresentado, qual seja, análise estatística da execução da despesa, principalmente na área

de modelagem computacional de tal comportamento, a despeito da complexidade e relevância

do assunto.

- 194 -

8 MODELOS PARA A EMISSÃO DE NOTAS DEEMPENHO NA ADMINISTRAÇÃO PÚBLICA

8.1 INTRODUÇÃO

O objetivo do capítulo é criar modelos que representem o comportamento das entidades

públicas quanto à emissão de notas de empenho. A Figura 8-1 apresenta a contribuição do

capítulo para o modelo global de detecção de indícios de irregularidades proposto na Tese,

construindo parte do módulo de mineração de dados.



SiafiExecução da

Despesa

Analista









NE/NL/OB

NE/NL/OB

Figura 8-1: Contribuição do capítulo para o modelo de detecção, correspondendo à construção dos doismodelos de comportamento para a emissão de notas de empenho

Os dois modelos criados baseiam-se em matrizes de probabilidade (analisado na Seção

8.2) e em redes neurais (analisado na Seção 8.3). Cada entidade (órgãos, UGs, favorecidos e

usuários) teve seu modelo individualmente definido. Foi também criado um modelo único

para toda a Administração Pública.

Para a criação dos modelos considerou-se a combinação de quatro atributos presentes

nas notas, quais sejam, a modalidade de licitação, a natureza da despesa, o valor e

opcionalmente a data. A seleção dos atributos que compuseram os modelos foi feita

manualmente por especialistas, tendo sido esses atributos testados no Capítulo 7 quanto a

- 195 -

capacidade de representar corretamente o comportamento das entidades públicas na execução

da despesa.

8.2 MODELO DA EMISSÃO DE NOTAS DE EMPENHO POR MATRIZ

DE PROBABILIDADE

A Figura 8-2 indica o componente do processo de detecção a ser abordado nesta seção:

modelagem de comportamento através da criação de matrizes de probabilidade.


SiafiEmpenho da

Despesa

Analista






Figura 8-2: Processo completo para detecção de anomalia. A seção atual apresenta a criação do modelo decomportamento usando matrizes de probabilidade

8.2.1 Formalização estatística

Segundo as definições apresentadas na Seção 4.2, considera-se que para cada entidade

em estudo (cada órgão, UG, favorecido e usuário, além da Administração Pública) exista uma

população formada pelas suas notas de empenho, já emitidas ou ainda por emitir. Dessa

população selecionou-se uma amostra, correspondente às notas emitidas durante determinado

ano, considerado como período de treinamento do modelo.

Definiu-se para cada nota de empenho três variáveis aleatórias, que associam

respectivamente as informações presentes na nota a uma modalidade de licitação (variável

ML, assumindo valores no intervalo [1 12]), a uma natureza da despesa (variável ND,

assumindo valores no intervalo [1 316]) e a uma classe de valor (variável CV, assumindo

- 196 -

valores no intervalo [1 9]). Para cada uma das três variáveis aleatórias discretas associa-se

uma função de distribuição de probabilidade, indicando a probabilidade dessas variáveis

assumirem determinado valor dentro dos intervalos citados. Define-se ainda uma função de

distribuição conjunta de probabilidade, indicando a probabilidade das três variáveis aleatórias

assumirem uma entre as 34.128 combinações possíveis de valores.

Pressupõe-se que as quatro funções de distribuição de probabilidade sejam definidas

individualmente para cada entidade. Para determinar os valores das funções de distribuição

individuais e da função de distribuição conjunta utilizou-se o cálculo empírico de

probabilidade, baseado na freqüência de ocorrência para cada valor individual das variáveis e

de cada combinação de valor no caso da distribuição conjunta.

Em não se conhecendo todos os elementos das populações, os valores de probabilidade

das funções individuais e da função de distribuição conjunta foram inferidos a partir da

amostra acima definida, qual seja, as notas emitidas durante um ano por cada entidade. Nesse

procedimento considera-se que as funções de distribuição não sofram alterações durante o

período de construção e que permanecem válidas para representar o comportamento das

entidades durante pelo menos o ano subseqüente, no qual serão usadas para classificar as

notas de empenho emitidas.

8.2.2 Cálculo dos valores da função de distribuição conjunta de probabilidade

Dado que uma NE traz informações sobre ND, ML e CV, pode-se criar uma matriz

tridimensional, onde cada dimensão representa um dos atributos citados e cada elemento da

matriz representa uma possível combinação dos valores desses atributos. O atributo ND tem

seus valores no intervalo [1 316], o atributo ML tem seus valores no intervalo [1 12] e o

atributo CV tem seus valores no intervalo [1 9]. Para representar todas as combinações

possíveis, a matriz tridimensional deve possuir 34.128 elementos.

- 197 -

Considerando todas as NEs emitidas num ano por uma entidade, é montada sua matriz

de ocorrência, onde cada posição representa o número de NEs que possuem a mesma

combinação ND x ML x CV para o respectivo ponto. Dividindo o valor de cada posição da

matriz pelo número total de NEs emitidas no período obtém-se a freqüência de ocorrência

para cada combinação, freqüência essa que serviu como estimativa da probabilidade

correspondente à combinação (probabilidade empírica). A matriz resultante das operações

anteriores será chamada de "matriz de probabilidade", referente ao período de treinamento

escolhido. A matriz de probabilidade assim calculada nada mais é do que uma forma de

representar os valores da função de distribuição de probabilidade conjunta de forma tabulada,

uma vez que não foi encontrada uma função de distribuição conhecida que se assemelhe às

probabilidades verificadas.

O procedimento descrito foi repetido para cada Usuário, Favorecido, UG e Órgão.

Chegou-se, no ano de 2005, a um total de 562.060 matrizes de probabilidade para

Favorecidos, 20.458 matrizes para Usuários, 392 matrizes para Órgãos e 13.378 matrizes para

UGs, além de uma matriz representando o comportamento da Administração Pública em

geral. Esses números referem-se às entidades que participaram da emissão de NEs em 2005.

Como a grande maioria das combinações ND x ML x CV não ocorre nas notas emitidas

(ver Figura 7-19), as matrizes ficam com poucos elementos ocupados. Para exemplificar, em

2005, as matrizes referentes aos órgãos possuem em média 0,34% de ocupação, ou seja,

somente 115 das 34.128 combinações possíveis são utilizadas em média. O uso de matrizes

esparsas tornou possível o armazenamento do grande número de matrizes com pouco uso de

memória. Uma matriz completa com 34.128 elementos ocupa em memória 273.024 bytes, sua

correspondente esparsa com 115 elementos preenchidos ocupa 1.388 bytes.

Conseqüentemente, as 562.060 matrizes de favorecidos foram armazenadas em

- 198 -

aproximadamente 7MB. Os valores de consumo de memória referem-se ao software Matlab

versão 7.0.

Lembrando que uma nota de empenho referencia simultaneamente quatro entidades (o

órgão e UG emissores, o usuário responsável e o favorecido destinatário), o cálculo do vetor

contendo as probabilidades referentes às cinco funções de distribuição conjunta (considerando

também a da Administração Pública) é feito através da consulta às cinco matrizes de

probabilidade correspondentes. Para exemplificar, considerando uma NE com os seguintes

valores de atributos:

• ND = Diária Civil

• ML = Não se aplica

• CV = 4

Os resultados da consulta às matrizes de probabilidade referentes às entidades citadas na

NE e os respectivos suportes (número de NEs usadas para criar as matrizes) são apresentados

na Tabela 8-1. Conforme definido no Capítulo 6, os modelos de comportamento devem

fornecer ao componente de detecção dois vetores: vetor de probabilidades e vetor de suportes.

As duas linhas da Tabela 8-1 representam as informações desses dois vetores.

Tabela 8-1: Probabilidades para a combinação de atributos presentes na NE e suporte correspondente acada entidade. O suporte representa o número de NEs usadas na fase de treinamento para a montagemdas matrizes de probabilidade

Administração Favorecido Usuário UG Órgão

Probabilidade 0,0015 0,25 0,0185 0,0152 0,0036

Suporte 1.765.593 4 54 66 3.580

Sobre o exemplo apresentado podem ser feitas duas observações: quanto aos valores de

probabilidade e quanto aos valores dos suportes, ambas detalhadas nos próximos tópicos.

- 199 -

8.2.2.1 Observação quanto aos valores de probabilidade informados pelas matrizes

A probabilidade 0,0036 para o órgão, apresentada na Tabela 8-1, indica que, das 3.580

NEs emitidas pelo órgão (suporte) durante o período de treinamento, 0,36% delas (12 NEs)

possuíam a combinação de valores para ND, CV e ML encontrada na NE em análise. Esse

valor de probabilidade, aparentemente baixo, não é necessariamente um indicativo de

irregularidade, informa apenas que a combinação dos valores de ND, CV e ML não é comum

para a entidade. Pode indicar também que as NEs da entidade estão espalhadas de forma

uniforme por um grande número de elementos da matriz, tornando baixas as probabilidades

da maioria das combinações. Na primeira hipótese, combinação incomum de valores, a nota

deve ser analisada com maior cuidado; na segunda hipótese, distribuição uniforme, a nota

pode ser descartada da análise. Pelo exposto, percebe-se que o valor isolado da probabilidade

não traz toda a informação necessária para a classificação, devendo ser contextualizada em

relação à distribuição de probabilidade.

Para se ter uma idéia melhor sobre o que representa o valor apresentado para a

probabilidade de ocorrência da nota no órgão (0,0036), convém analisar a distribuição de

probabilidades para a matriz referente ao órgão citado, apresentada na Figura 8-3. Nessa

matriz, somente 172 elementos foram ocupados, taxa de 0,50% de ocupação. Das

combinações ML x ND x CV possíveis presentes na matriz de probabilidade, considerando as

172 combinações com probabilidade diferente de zero, 139 combinações possuem

probabilidade inferior ou igual a 0,005. Em termos percentuais, observa-se que 80,81% das

posições ocupadas da matriz referente ao órgão possuem probabilidade inferior a 0,005, sendo

essas posições usadas por 17,63% das NEs emitidas. Isso indica que o órgão tem

concentração de NEs emitidas em poucas combinações, descartando assim a citada hipótese

de distribuição uniforme de probabilidade.

- 200 -

0 0.02 0.04 0.06 0.08 0.1 0.120

10

20

30

40

50

60

70

80

90

Probabilidade

# C

ombi

naçõ

es M

L x

ND

x C

VHistograma da matriz de probabilidade

Figura 8-3: Análise da matriz de probabilidade de um órgão, apresentando o histograma contendo adistribuição de probabilidade por número de combinações de atributos (número de posições da matriz)

Da análise anterior conclui-se que o resultado 0,0036 para a probabilidade de emissão

da NE pelo órgão, apesar de baixo, ocorrerá em várias NEs emitidas pelo mesmo, mais

especificamente 499 NEs (13,93%) terão probabilidade igual ou inferior a 0,0036. Sabendo-se

que para o órgão em questão essas NEs não são anômalas, deve-se ter cuidado na escolha do

fator de corte (nível de probabilidade) usado como indicativo de anomalia, sob pena de ser

gerado um número excessivamente grande de alertas, a serem posteriormente investigados

manualmente. Para diminuir a possibilidade da existência de grande número de falsos

positivos adotou-se a correlação das cinco probabilidades como indicativo de anomalia, e não

somente as probabilidades individuais por entidade. Esse tema será melhor tratado no

Capítulo 9, que trata dos mecanismos de detecção.

Caso a NE seja marcada para verificação manual, o analista deve ter a sua disposição

informações sobre as distribuições de probabilidade para as entidades envolvidas na nota, de

forma que possa fazer uma interpretação mais precisa sobre o indício de irregularidade

apontado pelo sistema. Trata-se aqui de contextualizar o valor da probabilidade como já

citado. Vale lembrar que o módulo de mineração de dados baseia sua seleção em

comportamentos anômalos, julgamento esse baseado em probabilidades, dificultando

conseqüentemente a posterior análise do auditor. Para atenuar esse problema, o trabalho

- 201 -

propõe incorporar ao modelo de detecção um módulo de "Relatório de Comportamento" (ver

Figura 8-1), dentro do qual estariam, entre outras, informações sobre a distribuição de

probabilidade.

8.2.2.2 Observação quanto ao suporte usado na construção das matrizes

Segundo dados de 2005, 93,91% dos órgãos, 65,92% das UGs, 36,65% dos usuários e

1,16% dos favorecidos possuem mais de 100 NEs emitidas (Seção 7.2). Esse número,

chamado suporte, é importante para a análise pois a probabilidade está sendo estimada pelo

percentual de NEs correspondentes a cada elemento da matriz. Com poucas NEs emitidas, a

estimativa da probabilidade fica comprometida, pois não se consegue estimar com segurança

o modelo de comportamento de uma entidade baseando-se num número baixo de exemplos

(NEs emitidas). Como citado na Seção 4.2.1.4, o cálculo da probabilidade empírica baseia-se

no fato de n (número de repetições) ser suficientemente grande. No caso, n corresponde ao

suporte, ou seja, número de NEs emitidas durante o período de treinamento.

Ainda usando como exemplo a Tabela 8-1, a probabilidade do favorecido é de 0,25,

sendo a maior entre as probabilidades das entidades. Observando o suporte do favorecido,

constata-se que seu modelo foi construído com base em quatro NEs. Pode-se questionar se,

com base em tão poucas NEs, consegue-se traçar corretamente o modelo de uma entidade, e

afirmar com precisão sua probabilidade de emissão de uma NE com determinada combinação

de atributos.

Em função do exposto, é importante que o analista informe um valor mínimo de suporte

para que o componente de detecção leve ou não em consideração, na análise da NE, a

probabilidade fornecida para determinada entidade, ou seja, utilize ou não a informação

proveniente do modelo de comportamento criado para a mesma.

- 202 -

Considerando o valor 100 como mínimo aceitável, na Tabela 8-1 somente seriam

aproveitadas duas das cinco probabilidades calculadas. Tal fato pode comprometer a

correlação de probabilidades necessária para diminuir o número de NEs marcadas para análise

manual. O uso do suporte será melhor tratado no Capítulo 9, que trata dos mecanismos de

detecção.

8.2.3 Redução do número de elementos da matriz de probabilidade

Analisando os três atributos formadores da matriz de probabilidade, constata-se que o

maior responsável pelo grande número de elementos da mesma (34.128) é a natureza da

despesa, a qual assume 316 valores diferentes. Como descrito na Seção 5.6, esse atributo tem

codificação hierárquica, com quatro níveis, tendo em seu nível mais baixo (Elemento da

Despesa) 316 elementos. Se os itens forem agrupados por Modalidade de Aplicação (terceiro

nível), restariam 31 valores diferentes, reduzindo o total de elementos da matriz de 34.128

para 3.348 elementos.

Essa estratégia apresenta como inconveniente a classificação, na mesma categoria, de

despesas completamente diferentes, tais como salário-família e despesas de exercícios

anteriores, o que comprometeria o mecanismo de detecção de indícios de irregularidades. Em

função disso, foi utilizado o detalhamento máximo para a natureza da despesa, com 316

elementos.

Deve-se considerar também, como apresentado na Seção 8.2.2, que apenas 115 das

34.128 posições são ocupadas em média, o que representa uma redução natural no número de

elementos da matriz de probabilidade.

- 203 -

8.2.4 Aplicação da matriz de probabilidade

Para demonstrar o procedimento de análise com o uso da função de distribuição

conjunta de probabilidade, foram criadas matrizes modelando o comportamento de todas as

entidades envolvidas na emissão de empenhos, usando como base de treinamento as NEs

emitidas no ano de 2005. Em seguida avaliou-se as 4.008 NEs emitidas pelo TCU em 2006.

A Figura 8-4 apresenta as probabilidades calculadas para cada NE emitida pelo TCU em

2006, considerando as quatro entidades referenciadas nas notas mais a Administração Pública.

A Figura 8-5 apresenta os histogramas das probabilidades calculadas para as NEs emitidas em

2005 e 2006. Nos histogramas só foram consideradas as probabilidades das entidades com

suporte superior a 100 NEs. A Tabela 8-2 resume alguns dados importantes presentes nas

figuras.

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.05

0.1

NEs 2006

Pro

b. G

eral

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.5

1

NEs 2006

Pro

b. F

avor

ecid

o

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.5

1

NEs 2006

Pro

b. U

suár

io

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.2

0.4

NEs 2006

Pro

b. U

G

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.1

0.2

NEs 2006

Pro

b. Ó

rgão

Figura 8-4: Probabilidades referentes à Administração Pública, favorecido, usuário, UG e órgão (TCU)em função da combinação de valores dos atributos presentes nas 4.008 NEs emitidas pelo TCU em 2006,segundo as matrizes de probabilidade calculadas com os dados de 2005. Observar na figura a diferença deescala no eixo das probabilidades

- 204 -

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es

Histograma de Probabilidade Geral - Ano 2005

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es

Histograma de Probabilidade Favorecido - Ano 2005

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es

Histograma de Probabilidade Usuário - Ano 2005

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


Figura 8-5: Histogramas de probabilidade referentes a notas de empenho emitidas pelo TCU nos anos de2005 e 2006. Probabilidades calculadas com matrizes de probabilidade criadas com as NEs de 2005. Sóforam calculadas as probabilidades para as entidades com suporte mínimo de 100 NEs. Deve-se observara diferença de escala no eixo da probabilidade em função da entidade analisada

- 205 -

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es

Histograma de Probabilidade UG - Ano 2005

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


0 0.05 0.1 0.150

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es

Histograma de Probabilidade Órgão - Ano 2005

0 0.05 0.1 0.150

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


Figura 8-5 (Continuação): Histogramas de probabilidade referentes a notas de empenho emitidas peloTCU nos anos de 2005 e 2006. Probabilidades calculadas com matrizes de probabilidade criadas com asNEs de 2005. Só foram calculadas as probabilidades para as entidades com suporte mínimo de 100 NEs.Deve-se observar a diferença de escala no eixo da probabilidade em função da entidade analisada

Tabela 8-2: A segunda e terceira coluna indicam a probabilidade máxima e mínima para cada entidade noano de 2005. A última coluna traz o número de NEs de 2006 com probabilidade igual ou menor que aprobabilidade mínima de 2005. Destaque para o grande número de NEs com probabilidade zero parafavorecidos e usuários.

EntidadeProbabilidade

Máxima em 2005Probabilidade

Mínima em 2005NEs em 2006 com Prob. <= Prob.

Mínima de 2005Administração

Pública0,07 2,27 10-6 37 (0,92%), 33 com prob. 0

Favorecido 1 0,0008 1.303 (32,51%), 1.303 com prob. 0

Usuário 1 0,0052 1.629 (40,64%), 1.629 com prob. 0

UG 0,30 0,0014 580 (14,47%), 547 com prob. 0

Órgão 0,11 0,0003 185 (4,62%), 115 com prob. 0

- 206 -

Da análise da Figura 8-4 e da Tabela 8-2 observa-se que a probabilidade máxima e

mínima das NEs emitidas pelo TCU, considerando o modelo da Administração Pública,

assume valores baixos (probabilidade máxima de 0,07 e mínima de 2,27 10-6). Em 2006 foram

emitidas 33 NEs cuja combinação de valores dos atributos não foi encontrada em nenhuma

NE emitida pelo restante da Administração Pública em 2005.

Por outro lado, analisando as probabilidades dos favorecidos na Figura 8-4 observa-se a

presença de probabilidades altas, chegando até o valor "um". Uma probabilidade com valor

"um" indica que todas as NEs emitidas para o favorecido em 2005 possuíram a mesma

combinação de valores dos atributos, ou seja, o favorecido referenciado na nota recebeu

apenas um tipo de NE.

Pode-se destacar na Figura 8-4 e na Tabela 8-2 o grande número de NEs em 2006,

referentes a usuários e favorecidos, com probabilidades baixas ou iguais a zero. O número de

NEs com probabilidades pequenas é importante pois implica que essas NEs deverão passar

por análise manual. Tomando como exemplo as probabilidades de usuário, e usando como

critério de seleção a probabilidade mínima do período de treinamento, 40,64% das NEs

seriam selecionadas para análise, o que constitui um número extremamente alto para permitir

uma análise mais detalhada. Comparando com os dados do órgão e da Administração Pública,

percebe-se que nesses modelos existem poucas NEs em 2006 com probabilidade baixa, 4,62%

e 0,92% respectivamente, considerando o critério da probabilidade mínima do período de

treinamento.

O grande número de NEs com probabilidade zero encontradas para favorecidos e

usuários, bem como algumas NEs com probabilidades altas, ocorre porque as matrizes de

2005, para usuários e favorecidos, não caracterizam adequadamente o comportamento dessas

entidades, em função provavelmente dos baixos suportes encontrados para a montagem das

- 207 -

matrizes, ou seja, pequeno número de NEs usadas na definição das mesmas. Suportes baixos

trazem pouca segurança em relação ao modelo criado para a entidade e conseqüentemente

baixa confiabilidade para a probabilidade calculada a partir do modelo. O número reduzido de

NEs disponíveis para favorecidos e usuários já havia sido constatado na Seção 7.2.5 e o

conseqüente impacto no modelo criado.

Para ratificar essa conclusão, a Tabela 8-3 apresenta novamente o número de NEs

emitidas em 2006 com probabilidade menor ou igual ao mínimo de 2005, só que considerando

apenas as entidades com suporte igual ou superior a 100, ou seja, desprezando os resultados

criados com modelos pouco confiáveis. Observa-se uma redução significativa no número de

ocorrências com valor zero, ou seja, indica que os modelos criados passaram a representar

corretamente o comportamento das entidades.

Tabela 8-3: Repetição dos cálculos da Tabela 8-2 considerando apenas as entidades com suporte igual ousuperior a 100. Não foram apresentadas as probabilidades para a Administração Pública e para o órgãouma vez que seu suporte é fixo e superior a 100, ou seja, os dados são idênticos aos da tabela citada

EntidadeProbabilidade

Máxima em 2005Probabilidade

Mínima em 2005#NEs em 2006 com Prob. <= Prob.

Mínima de 2005

Favorecido 0,80 0,0008 70 (1,75%), 70 com probabilidade 0

Usuário 0,32 0,0052 173 (4,32%), 173 com probabilidade 0

UG 0,30 0,0014 298 (7,44%), 265 com probabilidade 0

A redução do número de NEs com probabilidade baixa é relevante em função da

posterior análise manual pela qual essas notas devem passar. No caso da probabilidade de

usuário, houve uma redução de 40,64% para 4,32% no número de NEs selecionadas para

análise, tornando factível a verificação manual. Vale lembrar que esse percentual de seleção

fica ainda mais reduzido se consideradas simultaneamente as cinco probabilidades, o que

efetivamente é realizado no componente de detecção.

- 208 -

Resta sem definição o número mínimo de NEs necessárias para a criação de um modelo

confiável. A definição correta desse valor impacta tanto na confiabilidade do resultado como

no número de NEs selecionadas em função da baixa probabilidade. A Tabela 8-4 apresenta o

número de NEs por entidade, referentes às notas emitidas pelo TCU em 2005 e 2006, cujo

cálculo de probabilidade pode ser considerado, tomando por base um suporte mínimo de 100

NEs para que fosse considerado seguro sua utilização. Pelos dados da tabela observa-se que a

maioria das probabilidades de favorecidos e usuários seria descartada pelo componente de

detecção, em função do baixo suporte dessas entidades.

Tabela 8-4: Notas de empenho para as quais as probabilidades das entidades foram analisadas, tomandopor base o suporte mínimo de 100. Para exemplificar, das 3.580 NEs analisadas em 2005, somente 774tiveram a probabilidade calculada para o favorecido referenciado na nota. Nas demais notas, osfavorecidos referenciados não emitiram mais de 100 NEs, tornando não confiável o modelo e ocorrespondente cálculo de probabilidade.

2005 2006

Total de NEs 3.580 4.008

NEs Administração Pública 3.580 (100%) 4.008 (100%)

NEs Favorecido 774 (21,62%) 862 (21,51%)

NEs Usuário 1.159 (32,37%) 842 (21,01%)

NEs UG 2.391 (66,79%) 2.647 (66,04%)

NEs Órgão 3.580 (100%) 4008 (100%)

8.2.5 Definição mensal das matrizes de probabilidade

As matrizes de probabilidade usadas até agora foram construídas utilizando todas as

NEs emitidas num ano, sem levar em consideração o mês de emissão. Considerou-se portanto

que as funções de distribuição de probabilidade não sofrem mudanças significativas ao longo

- 209 -

do ano, podendo-se utilizar uma amostra anual de NEs para sua estimação. Tal hipótese é

cabível para a grande maioria das entidades estudadas no Capítulo 7.

Para algumas entidades, as variações mensais são insignificantes para o cálculo da

probabilidade, podendo-se descartar o atributo "mês de emissão". Para outras entidades, só é

relevante considerar as variações em alguns poucos meses, normalmente janeiro, fevereiro e

dezembro, tendo os demais meses modelo de comportamento semelhante, como apresentado

no Capítulo 7.

Para entidades com grandes variações de comportamento mensal ou para aquelas que

apresentam comportamento atípico em determinados meses, as funções de distribuição, e

conseqüentemente as matrizes de probabilidade, podem ser criadas de forma independente

para cada mês, ou englobando as NEs emitidas dentro de um conjunto de meses com modelo

semelhante. Ao invés de construir um único modelo anual de comportamento para a entidade,

seriam construídos até 12 modelos de comportamento ou 12 funções de distribuição mensais.

Essas entidades, com grandes variações anuais de comportamento, são minoria na

administração, conforme o estudo realizado no Capítulo 7.

A Figura 8-6 apresenta na parte esquerda a análise das NEs emitidas pelo TCU em 2005

sem considerar a variação mensal (uma única matriz anual). Na parte direita tem-se a mesma

análise considerando uma matriz por mês. Observa-se no caso da utilização de matrizes

mensais um pequeno aumento das probabilidades de ocorrência, tendo em vista a maior

precisão do modelo criado.

- 210 -

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.20

5

10

15

Probabilidade

% N

Es


0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.20

5

10

15

Probabilidade

% N

Es

Histograma de Probabilidade Mensal Órgão - Ano 2005

Figura 8-6: Histogramas de probabilidade para notas de empenho emitidas pelo TCU em 2005. Ohistograma do lado esquerdo não leva em consideração as variações mensais. O histograma do lado direitofoi calculado tendo como base probabilidades emitidas por matrizes criadas especificamente para cadamês do ano

Vale lembrar que a segurança na estimativa da probabilidade está relacionada com o

número de NEs (suporte) levadas em conta no cálculo das freqüências de ocorrência. Com a

utilização de uma matriz por mês, diminui o número de NEs disponíveis e por conseguinte a

confiabilidade do resultado. O procedimento de segmentação das matrizes por mês só faz

sentido quando ficar demonstrado haver variações significativas ao longo do ano, que

justifiquem a análise em separado. Tais variações são perceptíveis através das análises

apresentadas no Capítulo 7.

8.3 MODELO DA EMISSÃO DE NOTAS DE EMPENHO POR REDE

NEURAL

A Figura 8-7 apresenta esquematicamente o processo de detecção por mineração de

dados, ressaltando a contribuição da seção atual, ou seja, a modelagem do comportamento da

Administração Pública na emissão de empenhos via redes neurais.

- 211 -


SiafiEmpenho da

Despesa

Analista






Figura 8-7: Processo completo para detecção de anomalia. A seção atual apresenta a criação do modelo deemissão de notas por rede neural

Para a criação do segundo modelo de comportamento foram treinadas redes neurais do

tipo Backpropagation, já detalhadas na Seção 4.4. Cada neurônio da camada de entrada

recebeu três atributos: ML, ND e CV. O neurônio da camada de saída informa se a

combinação de entrada é normal ou anômala para uma entidade específica. Esse último

neurônio tem sua saída variando no intervalo [0 1], dependendo se a NE for considerada

normal (saída próxima de 1) ou considerada anômala (saída próxima de 0). Cada entidade

(órgãos, UGs, usuários, favorecidos e Administração Pública) deve ter uma rede específica

treinada para reconhecer suas NEs, ou seja, representar seu modelo de comportamento na

emissão de notas de empenho. Para o detalhamento do treinamento das redes usadas bem

como de sua arquitetura, consultar o Apêndice E.

Fazendo um paralelo com a Seção 8.2, pode-se considerar que as redes neurais são as

correspondentes das matrizes de probabilidade. As entradas, tanto para utilização das matrizes

como das redes, são as mesmas, ou seja, os valores dos atributos da NE. Da mesma forma, a

saída da matriz e da rede tem significado semelhante, qual seja, a possibilidade da nota

pertencer ou não à entidade (ser normal ou anômala para a entidade). No caso da matriz, a

possibilidade é expressa pela probabilidade da combinação de valores pertencer ao modelo

criado. No caso da rede, a possibilidade é expressa pelo grau de confiança da rede no fato da

combinação pertencer à entidade. Apesar de ambos os valores variarem de zero a um, não

- 212 -

devem ser tratados da mesma forma pois a saída da rede não representa efetivamente uma

probabilidade de ocorrência da combinação dos atributos de entrada. Em ambos os casos,

cada entidade deve possuir uma matriz de probabilidade ou uma rede específica, que

modelem individualmente seu comportamento na emissão de NEs.

8.3.1 Treinamento da rede

Redes do tipo Backpropagation são treinadas através de exemplos pertencentes às várias

categorias que se deseja identificar (treinamento supervisionado). No problema em análise,

deveriam ser fornecidos exemplos de NEs consideradas normais para a entidade e NEs

consideradas anômalas. Dessa forma a rede aprenderia a diferenciar NEs pertencentes às duas

categorias. O problema para a realização desse tipo de treinamento é dispor, para cada

entidade, de um número suficiente de NEs classificadas como anômalas e normais, de forma a

permitir o treinamento da rede. Isso implicaria em fazer uma filtragem manual de NEs,

partindo do princípio de que todas as entidades tivessem emitido NEs anômalas e normais em

quantidade suficiente para permitir o treinamento de suas redes. Essa tarefa foi impraticável

durante o período de realização da Tese, primeiro por não existirem tantas NEs anômalas por

entidade, segundo porque a filtragem manual das NEs para criar a base de treinamento

tomaria um tempo excessivamente grande. Tal treinamento, com NEs pré-classificadas em

normais e anômalas, pode vir a se tornar possível com a construção de bases de treinamento

apropriadas, o que deve ocorrer com a efetiva utilização do modelo proposto e a marcação

automática de NEs irregulares.

Tendo em vista contornar o problema citado, foram adotadas duas abordagens: a

primeira foi a criação de NEs simuladas classificadas como anômalas, a segunda foi treinar a

rede utilizando a própria matriz de probabilidade. As próximas seções apresentam as duas

propostas e a comparação dos resultados.

- 213 -

Para facilitar a visualização e o entendimento do comportamento da rede nas duas

situações, foram utilizados inicialmente somente dois atributos: modalidade de licitação e

classe de valor. Os dados são referentes às NEs emitidas pelo TCU no ano de 2005,

totalizando 3.580 NEs. A Tabela 8-5 apresenta o número de NEs emitidas por combinação de

valores dos atributos.

A Figura 8-8 representa a proporção de notas em cada uma das 108 combinações

possíveis para os dois atributos usados. O tamanho de cada ponto na figura é proporcional ao

número de NEs na respectiva combinação, ou seja, proporcional à probabilidade de

ocorrência da combinação de atributos numa NE emitida pelo órgão no período considerado.

A figura facilita a visualização dos dados da tabela, ressaltando a distribuição desproporcional

de notas por combinação de atributos.

Tabela 8-5: Número de NEs emitidas pelo TCU no ano de 2005 em cada uma das 108 combinaçõespossíveis de modalidade de licitação e classe de valor

Modalidade de Licitação

1 2 3 4 5 6 7 8 9 10 11 12

1 0 5 1 1 0 99 10 24 24 0 0 1

2 1 41 11 3 0 831 22 145 574 0 0 12

3 0 77 52 5 0 751 122 89 56 0 0 94

4 0 44 81 12 0 72 51 38 0 0 0 88

5 0 0 11 13 0 18 13 23 0 0 0 36

6 0 0 0 6 0 4 0 6 0 0 0 1

7 0 0 0 0 0 0 0 9 0 0 0 0

8 0 0 0 0 0 0 0 3 0 0 0 0

Cla

sse

de V

alor

9 0 0 0 0 0 0 0 0 0 0 0 0

- 214 -

0 1 2 3 4 5 6 7 8 90

2

4

6

8

10

12

Classe de Valor

Mod

alid

ade

de L

icita

ção

Proporção de NEs - TCU - 2005

Figura 8-8: Proporção de NEs emitidas pelo TCU no ano de 2005 em cada uma das 108 possíveiscombinações de classe de valor e natureza da despesa. O tamanho do ponto é proporcional ao número deNEs na respectiva combinação

8.3.2 Treinamento com notas de empenho simuladas

Para contornar o problema da falta de NEs anômalas para treinamento, adotou-se a

estratégia de substituir os exemplos de NEs anômalas por notas cujos atributos ML e CV

tivessem seus valores arbitrados dentro dos respectivos intervalos de variação. Tal proposta

foi apresentada na Seção 6.3.2 e baseia-se no trabalho de Abe, Zadrozny e Langford (2006).

A geração de NEs anômalas foi feita através da criação de um vetor de 108 posições,

onde cada posição representa uma combinação possível de CV e ML, todas as NEs

consideradas anômalas. O vetor de NEs anômalas foi concatenado com o vetor representando

as 3.580 NEs efetivamente emitidas pelo TCU em 2005, todas classificadas como normais.

A geração de NEs anômalas como descrito anteriormente traz um inconveniente: a

produção de NEs classificadas como anômalas cuja combinação de atributos ocorre de fato

- 215 -

para NEs normais da entidade, devendo tal NE ter sido classificada a princípio como normal.

Na simulação de NEs usadas no trabalho, todas as notas produzidas foram classificadas como

anômalas, não se testando o fato da combinação gerada ter sido utilizada por alguma NE

emitida pela entidade. No exemplo proposto, 44 das 108 NEs marcadas como anômalas

possuem combinações de atributos presentes em NEs verdadeiras. Esse procedimento foi

adotado em função de que, numa situação real, seria impraticável verificar para cada entidade

quais combinações, entre as 34.128 possíveis, poderiam ser consideradas normais ou

anômalas. O simples fato da entidade ter emitido uma NE com uma dada combinação de

atributos não implica necessariamente que a combinação deva ser considerada normal, tendo

em vista que a base de treinamento não é filtrada, podendo conter também NEs irregulares.

Por segurança e simplicidade optou-se pela distribuição uniforme das NEs simuladas por todo

o espaço de entrada.

A rede consegue contornar essa ambigüidade, qual seja, a mesma combinação de

atributos ser apresentada hora como normal, hora como anômala, em função do maior número

de exemplos com uma dada combinação, classificados como normais, se comparado com o

número de exemplos classificados como anômalos. Nesse caso a rede considera a combinação

como normal, ignorando o estímulo recebido para classificá-la como anômala, por ser este

último mais fraco que o primeiro. Caso a rede receba mais NEs anômalas simuladas numa

dada combinação que NEs normais, a combinação será classificada como anômala, apesar da

existência de NEs verdadeiras na posição. Essa classificação estará correta uma vez que o

reduzido número de NEs verdadeiras numa combinação é um sinal de anomalia. Percebe-se

pelo exposto a importância do número de NEs simuladas por posição, usadas no treinamento

da rede, como critério de normalidade ou anomalia. Esse fato será constatado claramente nos

próximos exemplos.

- 216 -

A Tabela 8-6 apresenta o resultado da simulação da rede, após o treinamento, em cada

uma das combinações dos atributos. Deve-se observar que a saída da rede representa o grau

de confiança para afirmar se uma dada combinação de atributos pertence ou não ao conjunto

de NEs emitidas pela entidade. Comparando com a Tabela 8-5, conclui-se que a rede indica,

para combinações que aparecem no vetor de treinamento classificadas como normais, grau de

confiança próximo de um, independente do número de NEs que ocuparam a combinação.

A saída da rede para a linha dois, coluna um, onde foi informada no treinamento

simultaneamente a presença de uma NE anômala e de uma NE normal, foi de 0,51 como nível

de confiança para a classificação da combinação. O mesmo ocorre para as demais

combinações com uma única NE normal. Basicamente a rede treinada dessa forma é uma

identificadora de combinações existentes no conjunto de treinamento, sem discernir

claramente variações no grau de confiança para combinações com muitas ou poucas NEs.

Tabela 8-6: Resultado da simulação da rede para todas as combinações dos atributos. Rede comarquitetura [10/logsig;5/logsig;1/logsig] (número de neurônios na camada / função de transferência), 108casos anômalos e 3580 verdadeiros fornecidos para treinamento, com um exemplo anômalo fornecidopara cada combinação


1 2 3 4 5 6 7 8 9 10 11 12

1 0,02 0,83 0,50 0,50 0,00 0,99 0,91 0,96 0,96 0,00 0,00 0,50

2 0,51 0,98 0,97 0,75 0,00 1,00 1,00 1,00 1,00 0,00 0,00 0,93

3 0,00 0,98 0,94 0,94 0,94 1,00 1,00 1,00 0,98 0,00 0,00 0,98

4 0,00 0,97 0,99 0,92 0,93 0,98 1,00 0,98 0,00 0,00 0,00 0,98

5 0,00 0,00 0,94 0,99 0,92 0,92 0,93 0,96 0,00 0,00 0,00 0,98

6 0,00 0,00 0,00 0,85 0,07 0,73 0,12 0,86 0,00 0,00 0,00 0,50

7 0,00 0,00 0,00 0,00 0,03 0,00 0,00 0,88 0,00 0,00 0,00 0,00

8 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,76 0,00 0,00 0,00 0,00

Cla

sse

de V

alor

9 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

- 217 -

Outro fator importante é o comportamento da rede para as modalidades de licitação

cinco, dez e onze, para as quais nenhuma NE foi emitida. O resultado da simulação da rede

foi correto para as duas últimas, ou seja, possibilidade zero de ocorrência. Analisando a

modalidade cinco observa-se um resultado inadequado, com probabilidades altas de

ocorrência, apesar de nenhuma NE ter sido emitida com essa modalidade. O motivo provável

para o erro é a presença de grande quantidade de NEs verdadeiras nas modalidades seis e

quatro, que circundam a modalidade cinco. Isso influencia as posições próximas, ou seja, a

rede generaliza o comportamento da entidade para a modalidade de licitação adjacente

àquelas com presença de grande número de NEs. A presença das NEs anômalas na ML cinco

não foi suficiente para mudar o comportamento da rede, provavelmente por estarem em

pequeno número, tendo seu efeito sido suplantado pelo das NEs normais nas MLs adjacentes.

A Figura 8-9 traz a representação dos dados da Tabela 8-6, permitindo a comparação

com a Figura 8-8 (copiada na Figura 8-9). Como citado anteriormente, pode-se observar na

figura que a rede faz pouca distinção entre as combinações de atributos com poucas ou muitas

NEs.

0 1 2 3 4 5 6 7 8 90

2

4

6

8

10

12

Classe de Valor

Mod

alid

ade

de L

icita

ção


0 1 2 3 4 5 6 7 8 90

2

4

6

8

10

12

Classe de Valor

Mod

alid

ade

de L

icita

ção


Figura 8-9: Resultado apresentado pela rede (lado esquerdo) representando seu grau de confiança paracada combinação. O tamanho dos pontos é proporcional ao grau de confiança. No lado direito a figuraque representa a proporção de NEs reais por combinação. Observa-se que o grau de confiança informadopela rede guarda pouca relação com o número efetivo de NEs presentes numa determinada posição

- 218 -

Uma segunda tentativa de treinamento foi utilizar um número de casos anômalos

semelhante ao de casos normais. Para isso repetiu-se 33 vezes as 108 linhas anômalas,

chegando a 3.564 casos, concatenados com os 3.580 casos reais, totalizando 7.144 instâncias

de treinamento. Treinando a rede com arquitetura igual à anterior obtém-se o resultado da

Tabela 8-7.

Observa-se que cada uma das 108 combinações de atributos recebeu durante o

treinamento 33 casos de anomalia. Analisando a Tabela 8-7 percebe-se que todas as

combinações com número de NEs verdadeiras abaixo de 33 receberam confiança inferior a

0,5. A coluna 12, linha 5, com 36 NEs verdadeiras, recebeu grau 0.52.

Tabela 8-7: Resultado da simulação da rede para todas as combinações dos atributos. Rede comarquitetura [10/logsig; 5/logsig; 1/logsig] (número de neurônios na camada / função de transferência),3564 casos anômalos e 3580 verdadeiros fornecidos para treinamento. 33 exemplos anômalos fornecidosno treinamento para cada combinação


1 2 3 4 5 6 7 8 9 10 11 12

1 0,01 0,13 0,04 0,00 0,01 0,75 0,21 0,43 0,42 0,01 0,01 0,02

2 0,01 0,55 0,24 0,08 0,01 0,96 0,41 0,81 0,95 0,01 0,01 0,27

3 0,00 0,70 0,61 0,14 0,00 0,96 0,78 0,73 0,63 0,01 0,01 0,74

4 0,00 0,57 0,71 0,27 0,00 0,68 0,61 0,53 0,01 0,00 0,01 0,73

5 0,00 0,00 0,25 0,28 0,00 0,35 0,28 0,41 0,00 0,00 0,00 0,52

6 0,00 0,00 0,00 0,15 0,01 0,11 0,01 0,00 0,00 0,00 0,00 0,00

7 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00

8 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

Cla

sse

de V

alor

9 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

Nota-se que para as demais combinações houve maior diferenciação no resultado, tendo

a saída da rede variado em função do número de NEs verdadeiras presentes na combinação,

não servindo a mesma simplesmente para indicar combinações usadas ou não pela entidade.

- 219 -

Esse resultado pode ser observado na Figura 8-10, embora ainda distante do resultado

apresentado na Figura 8-8 (copiada na Figura 8-10).

Apesar da diferença apresentada na saída da rede em função do número de NEs

presentes na posição, sua capacidade de diferenciação é baixa, uma vez que combinações com

831 e 751 NEs verdadeiras receberam o mesmo grau (0,96). Ao mesmo tempo, algumas

combinações com uma ou nenhuma NE receberam também o mesmo grau (0,1). A presença

de um maior número de NEs anômalas inibiu significativamente a generalização da rede para

a ML cinco, como constatado na Figura 8-10 e na Tabela 8-7.

0 1 2 3 4 5 6 7 8 90

2

4

6

8

10

12

Classe de Valor

Mod

alid

ade

de L

icita

ção


0 1 2 3 4 5 6 7 8 90

2

4

6

8

10

12

Classe de Valor

Mod

alid

ade

de L

icita

ção


Figura 8-10: Resultado apresentado pela rede (lado esquerdo) representando seu grau de confiança paracada combinação. O tamanho dos pontos é proporcional ao grau de confiança. No lado direito a figuraque representa as NEs reais. Observa-se que o grau de confiança informado pela rede já apresenta algumarelação com o número efetivo de NEs presentes numa determinada posição. Embora pequena, a distinçãodo número de NEs é melhor que a do resultado apresentado na Figura 8-9

8.3.3 Treinamento com matriz de probabilidade

Uma segunda forma de treinamento da rede é utilizar a própria matriz de probabilidade

como entrada para o treinamento. Nesse caso a rede recebe o valor da probabilidade em cada

uma das combinações de atributos da matriz. Esses valores foram calculados dividindo-se os

elementos da Tabela 8-5 pelo total de notas.

Treinando uma rede com arquitetura idêntica às anteriores obtém-se como resultado da

simulação em cada ponto do espaço de entrada os mesmos valores fornecidos para

- 220 -

treinamento. A rede simplesmente "copia" a matriz de probabilidade, o que aparentemente

parece um excelente resultado. No entanto, a simples cópia da matriz não representa grande

vantagem pois não deixa margem à generalização, que é uma das principais características das

redes neurais.

O treinamento da rede com os dados da matriz traz duas desvantagens. A primeira é a

necessidade de calcular inicialmente a matriz de probabilidade. A segunda, como já citado, é

que o resultado da rede representa simplesmente a cópia de uma informação já conhecida, ou

seja, as probabilidades da matriz. Não se consegue portanto a independência dos modelos,

conforme o objetivo inicial para construção desse componente.

Uma possível vantagem seria a generalização feita pela rede, fato não observado no

exemplo apresentado. Um motivo para a rede ter realizado a cópia dos dados de treinamento

pode ter sido a simplicidade destes últimos em relação à arquitetura adotada para a rede. Com

um espaço de entrada maior ou com arquitetura mais simples provavelmente a rede teria

maior capacidade de generalização. Outra vantagem é a possibilidade de realizar o

treinamento supervisionado sem a necessidade de criar NEs simuladas.

Em função das vantagens e desvantagens observadas nos dois tipos de treinamento,

optou-se pelo primeiro, ou seja, o treinamento utilizando somente NEs anômalas simuladas,

como apresentado na Seção 8.3.2, e não com o uso das probabilidades presentes nas matrizes.

Todos os testes realizados no Capítulo 9 foram feitos com redes treinadas com NEs

simuladas.

8.3.4 Treinamento com três atributos

Nas seções anteriores o treinamento da rede levou em consideração somente dois

atributos: CV e ML. As redes foram treinadas em todos os pontos do espaço de entrada, seja

- 221 -

com a geração de notas anômalas simuladas, seja com o uso de matriz de probabilidade.

Foram fornecidas informações sobre as 108 combinações possíveis dos dois atributos.

Considerando os três atributos (CV, ML e ND), o número de combinações do espaço de

entrada sobe de 108 para 34.128 possibilidades. Se fossem gerados exemplos com anomalia

para cada ponto, o vetor de treinamento teria 37.708 entradas, considerando nesse total as

3.580 NEs reais escolhidas para compor o conjunto de treinamento. Mesmo utilizando esse

número elevado de entradas, só seria possível fornecer um exemplo anômalo para cada ponto,

diferente do exemplo de treinamento da Seção 8.3.2, onde foram usados 33 exemplos

anômalos por ponto.

Em função das restrições impostas pelo tamanho do espaço de entrada, adotou-se a

técnica de cobrir parcialmente as combinações possíveis. Ao invés de fornecer exemplos

anômalos para todos os pontos, foram escolhidos somente alguns pontos do espaço. A

proporção utilizada foi de um para quatro entre NEs verdadeiras e simuladas, como existem

3.580 NEs reais no conjunto de treinamento, foram selecionados (sem repetição) 14.320

pontos do espaço de entrada, proporcionando uma cobertura de 41,96% desse espaço. O

Apêndice E, onde é detalhado o treinamento das redes, traz mais informações sobre o

percentual de cobertura.

A Figura 8-11 apresenta os dados para treinamento da rede, correspondentes às NEs

emitidas pelo TCU em 2005, mais as NEs simuladas. Pontos simples representam NEs

simuladas, pontos grossos (marcados com asterisco) representam NEs verdadeiras.

- 222 -

1 2 3 4 5 6 7 8 90

5

10

15

0

50

100

150

200

250

300

350Matriz de Treinamento NN

CV

ML

ND

Figura 8-11: Matriz de treinamento para a rede neural. Pontos simples representam NEs simuladas,pontos grossos (marcados com asterisco) representam NEs verdadeiras. Pontos marcados com um círculocorrespondem a NEs para as quais a simulação não deu bons resultados.

A Figura 8-12 (lado esquerdo) apresenta o resultado da simulação feita pela rede para as

NEs emitidas em 2005 pelo TCU. O resultado não serve para validar o desempenho da rede

uma vez que essas mesmas NEs foram usadas na fase de treinamento. Na Figura 8-12 (lado

direito) é apresentado o resultado dessa mesma rede classificando as NEs emitidas pelo TCU

em 2006, permitindo dessa forma avaliar sua capacidade de generalização. Pelos histogramas

da figura conclui-se que a rede apresentou boa capacidade de generalização, uma vez que

atribuiu probabilidades altas para as NEs de 2006, algumas das quais possuindo combinações

de valores dos atributos não fornecidos à rede durante seu treinamento. Na Figura 8-13 é

apresentado o resultado da rede para as NEs simuladas utilizadas no treinamento.

- 223 -

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

5

10

15

20

25

Probabilidade

% N

Es

Histograma de Probabilidade por NN - NEs verdadeiras - Ano 2005

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

5

10

15

20

25

Probabilidade

% N

Es

Histograma de Probabilidade por NN - Ano 2006

Figura 8-12: Histogramas de probabilidades calculados pela rede treinada com NEs de 2005 emitidas peloTCU. No lado esquerdo a rede simula as NEs reais de 2005, que foram usadas no treinamento. No ladodireito a rede simula as NEs reais de 2006

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

60

70

80

Probabilidade

% N

Es

Histograma de Probabilidade por NN - NEs simuladas - Ano 2005

Figura 8-13:Histogramas de probabilidades calculados pela rede treinada com NEs anômalas usadas notreinamento.

Na Figura 8-12, que representa as probabilidades para as NEs verdadeiras, observa-se

que algumas NEs (aproximadamente 8%) receberam probabilidade baixa de ocorrência,

apesar dessas NEs serem de fato normais (ver os pontos com círculos ao redor na Figura

8-11). Esse comportamento da rede deve-se ao fato dessas NEs ocuparem posições na matriz

(combinações ML x ND x CV) com poucas ocorrências de NEs reais. Como NEs simuladas

também ocuparam essas posições, ou posições próximas, a rede recebeu dois estímulos

contraditórios, um no sentido de considerar as combinações como verdadeiras, outro no

sentido inverso. Esses estímulos contraditórios são inerentes à forma de treinamento adotada,

- 224 -

como explicado na Seção 8.3.1. No caso de posições ocupadas por NEs verdadeiras, os

estímulos corretos deveriam superar os estímulos errados, em função do número de exemplos

corretos ser superior ao de errados. Nos pontos marcados como de baixa probabilidade na

Figura 8-11, o reforço errado superou o reforço correto, fazendo com que a rede classificasse

as NEs como anômalas. Tal classificação, como já explicado, não representa necessariamente

um equívoco. Sendo posições com poucas NEs emitidas, faz sentido a rede tê-las classificado

como anômalas.

Para exemplificar, das NEs verdadeiras emitidas em 2005, o valor mais baixo de

probabilidade de ocorrência produzido pela rede foi para a combinação (CV=4, ML=8,

ND=41). Essa combinação de atributos só ocorre duas vezes entre as NEs reais. Observando a

Figura 8-11, nota-se que essa posição possui baixa densidade de NEs verdadeiras ao seu

redor. Ao mesmo tempo a posição é cercada de pontos com NEs anômalas simuladas. Nessa

situação, a rede generalizou o comportamento dos pontos ao redor da posição (CV=4, ML=8,

ND=41), considerando-o anômalo, apesar da presença das NEs verdadeiras na posição.

De forma análoga, na Figura 8-13 observa-se que 1,15% das NEs simuladas foram

classificadas pela rede como tendo probabilidade elevada (acima de 0,9). Essas NEs

correspondem a posições que têm próximas de si posições ocupadas por grande número de

NEs verdadeiras. Nesses casos, apesar da rede ter recebido um estímulo no sentido de

classificar as posições como anômalas, o número de estímulos no sentido contrário foi

suficiente para que a rede classificasse as posições como normais. Esse comportamento

também não pode ser considerado como um erro da rede, tendo a mesma procurado realizar

uma generalização válida.

Exemplificando a situação anterior, das NEs simuladas, a que recebeu maior

probabilidade foi a combinação (CV=3, ML=12, ND=150). Entre as NEs originais, nenhuma

- 225 -

possui a combinação anterior, no entanto 44 têm a combinação (CV=3, ML=12, ND=151) e

oito têm a combinação (CV=3, ML=12, ND=149). Assim sendo, a rede generalizou para o

ponto (CV=3, ML=12, ND=150) o comportamento dos pontos próximos, apesar da presença

da NE anômala na posição.

8.3.5 Observação quanto ao número de notas usadas no treinamento da rede

Da mesma forma que discutido na Seção 8.2.2.2 para a construção dos modelos de

comportamento baseados em matrizes de probabilidade, o treinamento das redes neurais é

afetado pelo número de exemplos disponíveis. Esses exemplos, no caso do treinamento com

NEs simuladas, são formados parte pelas notas emitidas pelo órgão, parte pelas notas

simuladas. Estas últimas evidentemente não têm limitação de quantidade, podendo-se criá-las

na medida da necessidade. Quanto às primeiras, dependem do número de notas efetivamente

criadas pela entidade durante o período de treinamento.

Para exemplificar o problema, segundo informações da Seção 7.2, menos de 40% dos

usuários e principalmente menos de 1% dos favorecidos produziram mais de 100 notas

durante um ano. Embora não exista uma definição precisa sobre o número mínimo de casos

necessários para treinamento dos modelos, entidades com menos de 100 notas emitidas não

tiveram suas redes treinadas. Como já discutido na Seção 7.2.5, o número mínimo de

exemplos necessários pode variar de entidade para entidade, dependendo do quão homogêneo

é seu comportamento na execução da despesa. Esse tema, definição do número mínimo de

casos por entidade, não será abordado no escopo da Tese, tendo sido deixado como sugestão

para trabalhos futuros.

- 226 -

8.4 COMPARAÇÃO DOS MODELOS POR MATRIZ DE

PROBABILIDADE E REDES NEURAIS

Nesta seção serão comparados os resultados fornecidos pelos modelos de quatro

entidades, implementados por matrizes e por redes neurais, para um conjunto de 1.273 NEs

emitidas em 2006. As entidades cujos modelos foram usados são: a Administração Pública, o

TCU, a UG-Sede e a UG-ISC. A comparação é meramente visual, abordando duas diferenças

básicas de ambos os modelos. Uma comparação numérica será feita no Capítulo 9, após a

apresentação dos mecanismos de detecção.

A Figura 8-14 apresenta o cálculo de probabilidade para as 960 NEs emitidas pela UG-

Sede em 2006. Do lado esquerdo estão as probabilidades calculadas por matrizes, do lado

direito estão as probabilidades calculadas por redes neurais. De forma análoga a Figura 8-15

apresenta os cálculos para as 313 NEs emitidas pela UG-ISC. Enquanto as probabilidades

calculadas por matrizes são em geral baixas, os resultados para redes neurais aproximam-se

do valor "um". As matrizes apresentam uma probabilidade de ocorrência para a NE. Já a rede

neural foi treinada para dar como resultado sua confiança no fato da NE ter sido emitida ou

não pela entidade para a qual foi treinada. A rede não "aprendeu" a freqüência das

combinações dos atributos, apenas sua presença ou não durante o treinamento.

Uma segunda diferença entre as duas técnicas diz respeito ao resultado fornecido para

combinações de valores de atributos que, durante o treinamento, não receberam nenhuma NE

verdadeira. Usando matrizes de probabilidade, o resultado para esses pontos será sempre

probabilidade igual a zero. Com redes neurais, o resultado pode variar em função da presença

ou não de NEs verdadeiras em combinações próximas. Pode também ser afetado pela

presença ou não de NEs simuladas no ponto em análise e pela quantidade dessas NEs. Esse

resultado é inerente à capacidade de generalização das redes.

- 227 -

0 200 400 600 800 10000

0.02

0.04

0.06

0.08

NE

Pro

b M

atriz

Adm

0 200 400 600 800 10000

0.2

0.4

0.6

0.8

1

NE

Pro

b R

ede

Adm

0 200 400 600 800 10000

0.05

0.1

0.15

0.2

NE

Pro

b M

atriz

Órg

ão

0 200 400 600 800 10000

0.2

0.4

0.6

0.8

1

NE

Pro

b R

ede

Órg

ão

0 200 400 600 800 10000

0.02

0.04

0.06

0.08

0.1

NE

Pro

b M

atriz

UG

1

0 200 400 600 800 10000

0.2

0.4

0.6

0.8

1

NE

Pro

b R

ede

UG

1

Figura 8-14: Probabilidades calculadas por matriz (esquerda) e rede neural (direita) para as NEs emitidaspela UG-Sede em 2006

0 50 100 150 200 250 300 3500

0.02

0.04

0.06

0.08

NE

Pro

b M

atriz

Adm

0 50 100 150 200 250 300 3500

0.2

0.4

0.6

0.8

1

NE

Pro

b R

ede

Adm

0 50 100 150 200 250 300 3500

0.05

0.1

0.15

0.2

NE

Pro

b M

atriz

Órg

ão

0 50 100 150 200 250 300 3500

0.2

0.4

0.6

0.8

1

NE

Pro

b R

ede

Órg

ão

0 50 100 150 200 250 300 3500

0.05

0.1

0.15

0.2

0.25

NE

Pro

b M

atriz

UG

2

0 50 100 150 200 250 300 3500

0.2

0.4

0.6

0.8

1

NE

Pro

b R

ede

UG

2

Figura 8-15: Probabilidades calculadas por matriz (esquerda) e rede neural (direita) para as NEs emitidaspela UG-ISC em 2006

- 228 -

No problema em questão nem sempre a generalização é bem vinda. Como observado na

Seção 7.4.1, ao longo dos anos ocorreu aumento de NEs em classes intermediárias de valor.

Assim sendo, a possibilidade da rede generalizar sua previsão para classes de valor ainda não

ocupadas durante o treinamento é de grande interesse. Já para o atributo modalidade de

licitação, o fato de haver NEs em determinada modalidade não significa que seja correto

generalizar esse fato para modalidades vizinhas. Um exemplo é a utilização das modalidades

quatro e seis e a não utilização da modalidade cinco. Caso a rede viesse a considerar correta

uma NE emitida na modalidade cinco estaria cometendo um grave erro pois essa modalidade

não é utilizada.

8.5 ATUALIZAÇÃO DOS MODELOS

O modelo de emissão de NEs pelas entidades estudadas neste trabalho sofre variação ao

longo do tempo. Como apresentado na Seção 7.4.2, a implantação do pregão eletrônico

alterou a distribuição de NEs por modalidade de licitação. O efeito da inflação, como

apresentado na Seção 7.4.1, afetou a distribuição por classe de valor. O uso de novas NDs,

como apresentado na Seção 7.4.3, afetou a distribuição de NEs por natureza da despesa.

Todas essas modificações impactam a distribuição de probabilidades. A utilização de modelos

antigos na classificação de novas NEs pode acarretar a indicação equivocada de anomalias.

Dessa forma, é necessária a implementação de mecanismos de atualização, tanto para as

matrizes de probabilidade como para as redes neurais.

Um mecanismo possível para a atualização das matrizes é, mensalmente, subtrair as

NEs emitidas no mês correspondente do ano anterior, e incluir as NEs emitidas no mês

correspondente do ano corrente. Em seguida seriam recalculadas as probabilidades referentes

a cada combinação de valores dos atributos.

- 229 -

Outra possibilidade para manter os resultados atualizados é utilizar matrizes construídas

considerando somente as NEs emitidas no último mês. Com isso o modelo criado refletiria o

comportamento mais atualizado das entidades. Essa proposta enfrenta restrições em função do

apresentado na Seção 7.4.8. Entre os meses do ano existem diferenças de comportamento

significativas. Uma matriz treinada no mês de fevereiro não é necessariamente melhor na

avaliação das NEs de março do que uma matriz montada com as NEs dos 12 meses anteriores.

Em função das particularidades de fevereiro, seu desempenho seria provavelmente pior que o

do modelo treinado nos 12 meses precedentes.

Uma proposta intermediária seria usar no modelo as NEs emitidas nos últimos 12

meses, atribuindo peso maior para as NEs mais recentes. Poderia ser criado um fator de

decaimento, linear ou exponencial, que privilegiasse no treinamento as NEs mais recentes.

Novamente poderiam ocorrer problemas logo após os meses atípicos (janeiro, fevereiro e

dezembro). Em função do comportamento diferenciado verificado nesses meses, aplicar um

peso maior às NEs emitidas nesse período tenderia a levar o modelo a assumir esse

comportamento, principalmente no período imediatamente subseqüente. O julgamento das

NEs emitidas em março poderia gerar um grande número de classificações incorretas, até que

o modelo voltasse ao comportamento normal verificado nos demais meses do ano.

Quando são utilizadas matrizes mensais independentes, como exposto na Seção 8.2.5, o

problema da atualização fica ainda mais crônico. Nesse caso, uma matriz treinada 12 meses

atrás estaria sendo usada para validar as NEs do mês corrente. Essa matriz não teria

incorporado as modificações ocorridas nos últimos 11 meses. Esse problema é o oposto do

causado pelo uso somente das NEs emitidas no mês imediatamente anterior. Em ambos os

casos verificam-se distorções na classificação.

- 230 -

A atualização das redes neurais poderia ser feita de forma semelhante ao sugerido para

matrizes, ou seja, a cada novo mês as redes sofreriam um novo treinamento, considerando

somente as NEs emitidas dentro daquele mês ou considerando de forma ponderada as NEs

emitidas nos 12 meses anteriores.

Como descrito no Capítulo 6, embora no modelo de detecção proposto na Tese conste a

atualização dos modelos, não faz parte do escopo deste trabalho o estudo detalhado desses

mecanismos. As propostas apresentadas de atualização não foram testadas, ficam apenas

como sugestões para trabalhos futuros. Os testes do piloto implementado foram realizados

considerando modelos treinados durante o ano de 2005 aplicados às NEs emitidas durante o

ano de 2006, sem nenhum tipo de atualização.

O Apêndice D traz um exemplo prático da análise de um NE classificada como anômala

e o impacto negativo da não atualização dos modelos de comportamento, provocando a

classificação equivocada da nota.

- 231 -

9 DETECÇÃO DE ANOMALIAS NA EMISSÃODE NOTAS DE EMPENHO

9.1 INTRODUÇÃO

O objetivo do capítulo é definir um conjunto de procedimentos que permitam

identificar, de forma automática, notas de empenho (NEs) consideradas anômalas. No escopo

deste trabalho, uma NE anômala é definida como uma nota de empenho cuja combinação de

valores dos atributos modalidade de licitação (ML), natureza da despesa (ND) e classe de

valor (CV), para uma ou mais entidades envolvidas na emissão, tem probabilidade de

ocorrência inferior a determinado parâmetro selecionado pelo analista.

Uma NE pode ser considerada anômala segundo o modelo de comportamento de uma

das entidades envolvidas na sua emissão (favorecido, usuário, órgão e UG) sem no entanto ser

classificada pelo sistema como anômala. Para tanto é necessário que, após a ponderação das

probabilidades para cada entidade envolvida, o resultado final supere o valor estabelecido

pelo analista.

A anomalia não é necessariamente uma indicação de irregularidade, significa apenas

que são NEs cuja combinação de valores dos atributos é pouco usual para as entidades

envolvidas, considerando como parâmetro de normalidade o período de treinamento, sendo

recomendado que passem posteriormente por uma verificação manual. Os procedimentos

matemáticos aqui apresentados não se propõem a demonstrar categoricamente a presença de

irregularidades em NEs, têm o objetivo de servir como filtro, diminuindo significativamente o

número de notas a serem analisadas manualmente num procedimento de auditoria.

Os procedimentos definidos neste capítulo irão combinar o conjunto de probabilidades

informadas pelos modelos do Capítulo 8 (implementados por matrizes de probabilidade e

redes neurais), de forma a obter a classificação final da NE como normal ou anômala. A

- 232 -

primeira implementação, apresentada na Seção 9.2, foi feita por regras de ponderação de

probabilidades, a serem montadas manualmente pelo analista. Para facilitar a criação das

regras, é sugerido o uso de sistemas especialistas nebulosos, apresentados na Seção 9.2.4. A

segunda implementação foi realizada com redes neurais que, uma vez treinadas, definem

automaticamente os valores de ponderação, sendo necessário informar apenas um valor de

corte, usado como limite para a classificar as NEs. A implementação por redes é apresentada

na Seção 9.3.

A Figura 9-1 apresenta a contribuição do capítulo no processo de detecção de indícios

de irregularidades. Dentro do procedimento de mineração de dados, o capítulo enquadra-se na

criação dos mecanismos para detecção de anomalias.



SiafiExecução da

Despesa

Analista









NE/NL/OB

NE/NL/OB

Figura 9-1: Contribuição do capítulo atual no processo de detecção de indícios de irregularidades,correspondendo à localização de notas com desvios de comportamento

9.2 DETECÇÃO DE ANOMALIAS POR REGRAS

A Figura 9-2 posiciona a seção atual dentro do mecanismo global de detecção. Trata-se

da ponderação das probabilidades fornecidas pelos modelos matemáticos de comportamento

através de regras estabelecidas pelo especialista em controle externo.

- 233 -


SiafiEmpenho da

DespesaAnalista




NE Detecção de Anomaliaspor Regras


Figura 9-2: Processo completo para detecção de anomalia. A seção atual apresenta a criação das regras deponderação de probabilidade

Obtido o vetor de probabilidades individuais para cada entidade referenciada numa NE,

seja pelos modelos construídos por matrizes ou por redes neurais, cabe agora fazer a

combinação desses valores de forma a obter um resultado único de saída, qual seja, informar

se a NE é normal ou anômala.

A combinação das probabilidades individuais para a obtenção do resultado final não é

tarefa simples, tendo em vista a variedade de parâmetros e combinações possíveis. Como

definido no Capítulo 6, o componente de detecção tem a sua disposição o vetor de

probabilidades, o vetor de suportes e a identificação das entidades citadas na nota em análise.

A seguir serão apresentados alguns fatores a serem considerados na montagem das regras.

Inicialmente pode-se levar em conta separadamente níveis mínimos de probabilidade

para cada uma das entidades. Por exemplo, NEs que tenham probabilidade menor que 0,01

para o órgão citado na nota e probabilidade menor que 0,005 para a Administração Pública

poderiam ser selecionadas para análise.

Leve-se em conta porém as baixas probabilidades fornecidas por algumas entidades,

como apresentado na Seção 8.2.2.1, que provocariam, se usadas independentemente, a seleção

de um grande número de NEs para análise. A combinação de várias probabilidades diminui a

chance de seleção da NE pois implica na ocorrência simultânea de probabilidades baixas para

cinco entidades.

- 234 -

Uma segunda consideração sobre a montagem das regras diz respeito ao grau de

importância atribuído a cada probabilidade. A informação vinda da UG é mais específica do

que a informação de probabilidade do órgão, merecendo portanto maior peso. Da mesma

forma pode-se considerar a informação do órgão tendo maior importância em relação à da

Administração Pública. Seguindo o raciocínio exposto, chegar-se-ia à conclusão de que é

necessário trabalhar somente com a probabilidade mais específica, no caso a probabilidade

calculada para a UG. Considerando no entanto a situação onde uma UG emitisse

sistematicamente NEs com problemas (possíveis irregularidades), seu comportamento seria

assimilado pelo modelo de comportamento (matriz de probabilidade ou rede neural) e

nenhuma NE emitida seria considerada anômala, segundo o modelo "corrompido". Avaliando

essas mesmas NEs em relação ao modelo do órgão, possivelmente seriam identificadas como

anômalas, a não ser que o órgão como um todo também sofresse do mesmo tipo de

irregularidade.

Deve ser lembrado que, para o treinamento e posteriores atualizações, não existe uma

base de notas com garantia de inexistência de irregularidades. A possível presença de notas

irregulares pode "contaminar" o modelo da entidade, sendo aconselhável a realização de

validações cruzadas. Pelo exposto é interessante utilizar não só informações mais específicas

(da UG) como também as mais genéricas (do órgão e da Administração), ponderando porém o

peso de cada uma, dando mais importância para a primeira do que para as últimas. As

probabilidades referentes ao usuário e ao favorecido são independentes das anteriores e

devem ser usadas de qualquer forma.

Outro fator relevante a ser considerado para a criação das regras é o suporte, ou seja, o

número de NEs utilizadas para o treinamento do modelo (matriz ou rede) da entidade. Pelo

exposto na Seção 8.2, favorecidos e usuários possuem normalmente suporte baixo, devendo

- 235 -

em muitos casos ser ignorada a probabilidade fornecida pelos modelos dessas entidades. Cabe

ao analista definir o suporte mínimo requerido para que o sistema leve em consideração ou

não a probabilidade de uma entidade. Esse suporte mínimo pode fazer parte da regra de

seleção.

Por fim pode-se levar em consideração na construção das regras a relação entre as

probabilidades das entidades ou a relação com probabilidades mínimas do período de

treinamento. Como exemplo do primeiro caso pode-se selecionar NEs com probabilidade de

UG inferior à metade da probabilidade do órgão. No segundo caso, pode-se selecionar NEs

com probabilidades iguais ou inferiores ao mínimo do período de treinamento.

Tendo em vista as possibilidades apresentadas, podem ser criadas as mais variadas

regras de detecção. A regra criada influencia o número de NEs consideradas anômalas. Com

regras muito restritivas, o número de NEs selecionadas é grande, inviabilizando o trabalho de

pós-processamento. Com regras menos sensíveis, diminui-se o número de NEs selecionadas,

com o risco de não serem marcadas NEs possivelmente irregulares. Assim sendo deve-se

ponderar os parâmetros usados nas regras em relação ao número de documentos selecionados.

As regras não precisam ser únicas para todas as entidades, sendo aconselhável haver

variações para atender particularidades em cada uma delas. Poder-se-ia por exemplo criar

regras específicas por órgão ou UG. Vale também destacar que devem ser montadas regras

diferentes para receber as probabilidades fornecidas por matrizes e redes, se considerados os

valores brutos de saída dos modelos de comportamento. Os valores gerados pelos dois

modelos têm significado diferente, não sendo comparáveis em termos absolutos. A Seção 8.4

traz mais informações sobre a comparação dos valores dos dois modelos.

Não é objetivo deste trabalho criar uma relação fechada de regras, apenas propor o

mecanismo genérico e citar possibilidades de combinação dos parâmetros disponíveis. Cabe

- 236 -

aos analistas, usuários do sistema, criar tais regras, pois sua definição depende

fundamentalmente do conhecimento do domínio.

9.2.1 Aplicação de regras à saída do modelo de matrizes

Inicialmente serão montadas regras para receber os valores fornecidos pelas matrizes de

probabilidade, como indicado na Figura 9-3.


SiafiEmpenho da

DespesaAnalista






Figura 9-3: Regras aplicadas à ponderação de probabilidades oriundas do modelo de matrizes

Serão apresentadas, de forma exemplificativa, apenas duas regras e sua aplicação a um

conjunto de notas de forma a realizar a classificação das mesmas.

As regras sugeridas consideraram anômalas as NEs cujas probabilidades fornecidas por

matrizes para as NEs testadas (PMentidade(NE)) sejam menores ou iguais ao mínimo do período

de treinamento (min(PMentidade)). Levam em conta somente as probabilidades para a

Administração Pública, órgão e UG, considerando o suporte mínimo para as entidades

(suporte(entidade)) de 100 NEs emitidas no período de treinamento. Na primeira regra foi

utilizado o conectivo "E" para determinar a seleção, na segunda foi usado o conectivo "OU".

Resumindo têm-se as seguintes regras:

SE PMadm (NE) <= min(PMadm) E PMórgão (NE) <= min(PMórgão) E PMug (NE) <= min(PMug) E

suporte(órgão(NE)) >= 100 E suporte(ug(NE)) >= 100

ENTÃO NE Anômala; (9-1)

- 237 -

SE (PMadm (NE) <= min(PMadm) OU PMórgão (NE) <= min(PMórgão) OU PMug (NE) <= min(PMug)) E

(suporte(órgão(NE)) >= 100 E suporte(ug(NE)) >= 100)

ENTÃO NE Anômala; (9-2)

Aplicando a primeira regra às NEs emitidas pela UG-Sede e UG-ISC do TCU em 2006

chega-se a 27 NEs selecionadas para análise de um total de 1.273 notas emitidas, ou seja,

aproximadamente 2% de notas selecionadas como anômalas.

Nas duas regras anteriores foram usados limites de probabilidade relativos (min(PMórgão)),

tomando como base as probabilidades mínimas para cada entidade no período de treinamento

(ano de 2005). Pode-se criar também regras com valores absolutos para o limite de

probabilidade. Para exemplificar foram criadas regras variando a probabilidade mínima de

detecção entre 0,01 e 0,3. As NEs que possuíam probabilidades de órgão, UG e geral

simultaneamente inferiores à probabilidade mínima no intervalo foram selecionadas como

anômalas. A Figura 9-4 apresenta o resultado do teste feito com as NEs da UG-Sede e UG-

ISC do TCU em 2006. Nesse conjunto constam NEs reais e NEs geradas artificialmente, estas

últimas usadas para testar a capacidade de seleção do modelo.

0 0.05 0.1 0.15 0.2 0.25 0.3 0.3598.2

98.4

98.6

98.8

99

99.2

99.4

99.6

99.8NEs simuladas

Probabilidade

%N

Es

0 0.05 0.1 0.15 0.2 0.25 0.3 0.352

3

4

5

6

7

8

9

10NEs verdadeiras

Probabilidade

%N

Es

Figura 9-4: Percentual de NEs simuladas (esquerda) e verdadeiras (direita) classificadas como anômalasem função da variação do parâmetro de detecção

Como esperado, ao elevar-se o valor da probabilidade mínima para detecção, maior é o

número de NEs normais classificadas como anômalas (falsos positivos). Em compensação

- 238 -

maior o número de NEs simuladas corretamente classificadas como anômalas (verdadeiros

positivos). Para exemplificar, adotando a probabilidade mínima no valor de 0,1 seriam

classificadas 4,1% das NEs normais como anômalas e 99,3% das NEs simuladas como

anômalas.

A comparação desses resultados com os apresentados por outros autores fica

comprometida em função da não presença de uma base de teste contendo NEs reais,

classificadas como irregulares e como normais. A geração de NEs simuladas, embora ofereça

uma possibilidade de avaliação do sistema, não representa fielmente o comportamento de

situações verdadeiramente irregulares. Deve-se levar em conta que a detecção de NEs

simuladas é provavelmente mais fácil para o sistema que o seria num caso de irregularidade

real. Leve-se em conta também que, ao classificar algumas NEs verdadeiras como anômalas,

o sistema não está cometendo necessariamente um erro pois sua função, no caso do módulo

baseado em mineração de dados, é detectar situações que fujam ao comportamento usual da

entidade, o que efetivamente ocorreu com as NEs verdadeiras rotuladas pelo sistema como

anômalas.

Considerando todas as observações anteriores, para posicionar os resultados obtidos

frente aos de outros autores, serão usados os dados apresentados por Haft et al. (1998). Em

seu trabalho os autores utilizam três processos de detecção de fraude em telefonia celular (ver

Seção 2.8). Com o uso de redes neurais os autores obtiveram 85% de detecção de casos de

fraude, com misturas gaussianas para estimação de densidade de probabilidade obtiveram

70% e com redes bayesianas obtiveram 75% de detecção. Nas três situações, sem produzir

falsos positivos. Os resultados apresentados nesta seção, no melhor caso quanto a falsos

positivos (3%) consegue 96,4% de detecção.

- 239 -

9.2.2 Aplicação de regras à saída do modelo de redes neurais

Nesta seção serão aplicadas regras de ponderação à saída do modelo criado por redes,

como descrito na Figura 9-5.


SiafiEmpenho da

DespesaAnalista






Figura 9-5: Regras para ponderar as probabilidades oriundas do modelo de redes neurais

Em relação à ponderação de probabilidade da saída da rede neural, deve-se considerar

que as probabilidades tendem a ser próximas de zero (para NEs classificadas como anômalas)

ou próximas de um (para NEs classificadas como normais). Esse comportamento tem a ver

com a forma de treinamento da rede, explicada na Seção 8.3.2. Sendo assim, poder-se-ia

estabelecer como regra que NEs com probabilidade fornecida pela rede (PRentidade(NE))

inferior a "0,5", simultaneamente ou individualmente para as três entidades, fossem

classificadas como anômalas, considerando o mesmo suporte da regra anterior (no mínimo

100 NEs no conjunto de treinamento da entidade), produzindo as seguintes regras:

SE PRadm (NE) <= 0,5 E PRórgão (NE) <= 0,5 E PRug (NE) <= 0,5 E

suporte(órgão(NE)) >= 100 E suporte(ug(NE)) >= 100

ENTÃO NE Anômala (9-3)

SE (PRadm (NE) <= 0,5 OU PRórgão (NE) <= 0,5 OU PRug (NE) <= 0,5) E

(suporte(órgão(NE)) >= 100 E suporte(ug(NE)) >= 100)

ENTÃO NE Anômala (9-4)

- 240 -

Aplicando a primeira regra às NEs emitidas em 2006 pela UG-Sede e UG-ISC do TCU,

chega-se a 19 NEs selecionadas para análise de um total de 1.273 notas emitidas, ou seja,

aproximadamente 1,5% de notas selecionadas como anômalas.

As 19 NEs selecionadas com base no modelo criado por redes neurais estão entre as 27

NEs selecionadas na Seção 9.2.1, baseado no modelo de matrizes de probabilidade,

demonstrando que ambos os mecanismos foram coerentes na seleção das NEs consideradas

anômalas.

Para visualizar o efeito da variação da probabilidade mínima para detecção (o valor 0,5

usado nas regras anteriores), seu valor foi variado entre 0,01 e 0,3. O resultado do teste

encontra-se na Figura 9-6.

0 0.05 0.1 0.15 0.2 0.25 0.3 0.350

10

20

30

40

50

60

70

80NEs simuladas

Probabilidade

%N

Es

0 0.05 0.1 0.15 0.2 0.25 0.3 0.350

5

10

15NEs verdadeiras

Probabilidade

%N

Es

Figura 9-6: Percentual de NEs simuladas (esquerda) e verdadeiras (direita) classificadas como anômalasem função da variação do parâmetro de detecção

Ao elevar o valor da probabilidade mínima para detecção, maior é o número de falsos

positivos e de verdadeiros positivos. Para exemplificar, adotando a probabilidade mínima no

valor de "0,3", seriam classificadas 14,5% das NEs normais como anômalas e 78% das NEs

anômalas como tal. Vale neste exemplo a mesma observação da seção anterior quanto à

presença de NEs anômalas simuladas misturadas às NEs verdadeiras emitidas pela entidade.

- 241 -

Considerando as mesmas observações apresentadas na seção anterior, pode-se comparar

esses resultados com os de Haft et al. (1998) que, no melhor e pior caso, conseguem

respectivamente 85% e 70% de detecção sem apresentar falsos positivos.

9.2.3 Comparação da aplicação de regras aos dois modelos de comportamento

Com o objetivo de comparar a aplicação de regras aos dois modelos de comportamento,

foram realizados testes com conjuntos padronizados de dados. Em todos os testes, os modelos

foram construídos com base nas NEs emitidas em 2005.

A comparação será feita pela aplicação das regras definidas na Seção 9.2.1 e Seção

9.2.2 às saídas de três matrizes de probabilidade e de três redes neurais, representando os

modelos de comportamento da Administração Pública, do TCU e da UG-ISC.

A Figura 9-7 apresenta esquematicamente o teste realizado.


SiafiEmpenho da

DespesaAnalista






Figura 9-7: Processo completo para detecção de anomalia. A seção atual apresenta o resultado dacomparação do uso de regras aplicadas às saídas da matriz e rede neural

A Tabela 9-1 traz um resumo da composição, em número de NEs, dos sete grupos a

serem analisados. Em seguida será feita a explicação de cada um dos grupos e a análise dos

resultados.

- 242 -

Tabela 9-1: Composição dos grupos de notas de empenho a serem analisados quanto à combinação dosatributos. Os modelos foram treinados com as notas de 2005. Valores repetidos nos dois anos indicam queas mesmas combinações de atributos aparecem em ambos os conjuntos

NEs emitidas pelaAdministração

NEs emitidas peloTCU

NEs emitidas pelaUG-ISC

Gru

po

2005 2006 2005 2006 2005 2006

Total de NEsno grupo

1 0 0 0 0 0 0 1.000

2 0 323 0 0 0 0 323

3 1.138 1.138 0 0 0 0 1.138

4 31 31 0 31 0 0 31

5 96 96 96 96 0 0 96

6 6 6 6 6 0 6 6

7 23 23 23 23 23 23 23

O primeiro grupo testado foi um conjunto de 1.000 NEs simuladas cuja combinação de

valores dos atributos não ocorreu em nenhuma NE da Administração Pública em 2005 e 2006,

conseqüentemente também não ocorreu no TCU e na UG-ISC. Os resultados estão na Tabela

9-2.

Tabela 9-2: Percentual de notas detectadas como anômalas para o grupo 1. A linha NEs indica, das notasusadas no teste, a quantidade emitida nos anos 2005 e 2006 para as respectivas entidades. Vale lembrarque o treinamento foi feito com as notas de 2005. As três colunas intermediárias (linhas três e quatro)indicam os resultados individuais de cada modelo e o resultado desejado (última linha). A última coluna(linhas três e quatro) apresenta a combinação dos resultados individuais pelo conectivo "E" e "OU"

Grupo 1 Administração Pública TCU UG-ISC Total (E - OU)

NEs 0/2005, 0/2006 0/2005, 0/2006 0/2005, 0/2006 1.000

Matrizes 100% 100% 100% 100% - 100%

Redes 96,8% 99% 99,8% 96,1% - 100%

Desejado 100% 100% 100% 100%

- 243 -

Como nenhuma NE do grupo foi usada durante o treinamento, praticamente todas foram

consideradas anômalas. Pelo resultado, ambas as regras apresentaram comportamento

semelhante. O resultado obtido corresponde ao esperado, ou seja, a seleção de todas as NEs

como anômalas.

O segundo grupo testado foi um conjunto de 323 NEs cuja combinação de valores dos

atributos não ocorreu em nenhuma NE da Administração Pública em 2005 e nem no TCU nos

dois anos. Essas combinações ocorreram em outros órgãos da Administração que não o TCU

em 2006. Os resultados estão na Tabela 9-3.



NEs 0/2005, 323/2006 0/2005, 0/2006 0/2005, 0/2006 323

Matrizes 100% 100% 100% 100% - 100%

Redes 65% 95,7% 99,7% 64,4% - 100%

Desejado 0% 100% 100% 100%

Como nenhuma NE do grupo foi usada durante o treinamento, todas foram consideradas

anômalas pela regra usando as matrizes. O mesmo ocorre para as redes do TCU e da UG-ISC.

Já a rede neural treinada para reconhecer as NEs da Administração considerou 35% delas

como normais.

O resultado desejado seria que grande parte das notas fosse considerada normal para a

Administração Pública uma vez que essas notas foram realmente emitidas em 2006 e espera-

se que a maioria tenha sido criada de forma legal. Para o TCU e UG-ISC o desejado seria que

todas fossem consideradas anômalas. No caso da Administração, as matrizes apresentaram um

- 244 -

resultado ruim enquanto a rede saiu-se um pouco melhor, embora distante do desejável.

Considerando que as NEs não foram usadas no treinamento da rede, obter um resultado de

35% de aprovação demonstra a capacidade de generalização da rede neural. Os resultados dos

dois modelos para o TCU e UG-ISC são semelhantes e aproximam-se do desejado.

O terceiro grupo testado foi um conjunto de 1.138 NEs cuja combinação de valores dos

atributos ocorreu em NEs da Administração Pública em 2005 e 2006. Essas combinações não

ocorreram no TCU nos dois anos. Os resultados estão na Tabela 9-4.



NEs 1.138/2005, 1.138/2006 0/2005, 0/2006 0/2005, 0/2006 1.138

Matrizes 22,8% 100% 100% 22,7% - 100%

Redes 5,4% 80% 94% 5,2% - 95%

Desejado 0% 100% 100% 100%

Deve-se considerar na análise do resultado que as NEs desse grupo foram usadas no

treinamento dos modelos da Administração. Considerando que o modelo baseado em matrizes

seleciona NEs com probabilidades baixas, é explicado o resultado de classificação de 22,76%

das NEs da Administração como anômalas, apesar de terem sido usadas para o treinamento. A

rede por sua vez, por não levar em conta a probabilidade de ocorrência, apresentou resultado

mais próximo do desejável, selecionando apenas 5,36% das NEs da Administração como

anômalas.

- 245 -

Em relação ao TCU e UG-ISC, como as NEs não apareceram no treinamento dessas

entidades, a matriz classificou todas como anômalas. A rede do TCU apresentou um resultado

não muito bom, tendo classificado 20% das NEs como normais.

O quarto grupo testado foi um conjunto de 31 NEs cuja combinação de valores dos

atributos ocorreu em NEs da Administração Pública em 2005 e 2006. Essas combinações não

ocorreram no TCU em 2005 mas ocorreram em 2006. Os resultados estão na Tabela 9-5.

O resultado dos dois modelos treinados para a Administração Pública foi semelhante e

próximo do desejável. O resultado referente ao TCU foi o que apresentou maior diferença.

Como a matriz não foi treinada com as NEs, o resultado, como nos casos anteriores, foi

classificar todas como anômalas. A rede, apesar de não ter sido treinada com as notas, foi

capaz de identificar metade delas como normais.



NEs 31/2005, 31/2006 0/2005, 31/2006 0/2005, 0/2006 31

Matrizes 6,5% 100% 100% 6,5% - 100%

Redes 0% 49,4% 87,1% 0% - 87,1%

Desejado 0% 0% 100% 100%

O quinto grupo testado foi um conjunto de 96 NEs cuja combinação de valores dos

atributos ocorreu em NEs da Administração Pública e do TCU em 2005 e 2006. Essas

combinações não ocorreram na UG-ISC nos dois anos. Os resultados estão na Tabela 9-6.

As notas do quinto grupo estavam presentes no treinamento de ambos os modelos para a

Administração e para o TCU. Coincidentemente o resultado dos dois modelos foi idêntico

- 246 -

para as duas entidades citadas. No caso da UG, as NEs não foram usadas no treinamento,

acarretando na classificação da maioria delas como anômalas.



NEs 96/2005, 96/2006 96/2005, 96/2006 0/2005, 0/2006 96

Matrizes 0% 17,7% 100% 0% - 100%

Redes 0% 17,7% 87,5% 0% - 87,5%

Desejado 0% 0% 100% 100%

O sexto grupo testado foi um conjunto de 6 NEs cuja combinação de valores dos

atributos ocorreu em NEs da Administração Pública e do TCU em 2005 e 2006. Essas

combinações não ocorreram na UG-ISC em 2005 mas ocorreram em 2006. Os resultados

estão na Tabela 9-7.



NEs 6/2005, 6/2006 6/2005, 6/2006 0/2005, 6/2006 6

Matrizes 0% 0% 100% 0% - 100%

Redes 0% 16,7% 33% 0% - 33,4%

Desejado 0% 0% 0% 0%

- 247 -

Como nos casos anteriores, quando as notas aparecem no vetor de treinamento, ambos

os modelos apresentam resultados favoráveis. Quando não aparecem, só as redes são capazes

de fazer alguma generalização.

O sétimo e último grupo testado foi um conjunto de 23 NEs cuja combinação de valores

dos atributos ocorreu em NEs da Administração Pública, do TCU e da UG-ISC em 2005 e

2006. Os resultados estão na Tabela 9-8.

Além das observações já feitas nos casos anteriores, destaca-se a classificação elevada

de NEs anômalas pela rede, apesar das mesmas terem aparecido no vetor de treinamento. Isso

se deveu a generalização feita pela rede. Se em vários dos casos anteriores a generalização foi

um fator positivo, neste último acaba agindo de forma contrária, fazendo com que a rede se

equivocasse na classificação de 17,4% das NEs.



NEs 23/2005, 23/2006 23/2005, 23/2006 23/2005, 23/2006 23

Matrizes 0% 4,4% 0% 0% - 4,3%

Redes 0% 4,4% 17,4% 0% - 21,7%

Desejado 0% 0% 0% 0%

9.2.4 Sistemas especialistas nebulosos

Uma dificuldade inerente à montagem de regras é a identificação de valores exatos para

os níveis de probabilidade usados para classificar uma NE como anômala. Para exemplificar,

conforme os dados apresentados na Seção 8.2.4, a probabilidade com valor 0,07 para uma

- 248 -

combinação de atributos seria considerada alta para a Administração Pública no ano de 2005,

tendo em vista ter sido essa a maior probabilidade alcançada entre os elementos da matriz de

probabilidade. Esse mesmo valor de probabilidade seria considerado baixo para as

combinações de atributos das NEs dos favorecidos, uma vez que a maior probabilidade

alcançada no ano de 2005 foi de 0,8.

Existem grandes variações entre probabilidades consideradas baixas, médias e altas para

as cinco entidades cujos modelos foram calculados (Administração, órgãos, UGs, favorecidos

e usuários). Considerando o elevado número de entidades referenciadas nas NEs emitidas

durante um ano (562.060 favorecidos, 20.458 usuários, 392 órgãos, e 13.378 UGs, dados de

2005) é impossível que um analista verifique individualmente quais valores mínimos de

probabilidade seriam adequados para cada uma delas.

É importante que o analista possa montar regras genéricas, possivelmente variáveis por

entidade, sem ter que especificar limites precisos de probabilidade. As regras criadas na seção

anterior seguem essa filosofia quando estabelecem por exemplo "PMadm (NE) <=

min(PMadm)". Nessa regra trabalha-se com valores relativos de probabilidade, comparando a

probabilidade da nota em análise com o mínimo de probabilidade do período de treinamento,

sem considerar valores absolutos.

Outro exemplo de regra genérica, sem considerar valores absolutos de probabilidade,

seria:

SE

(Padm (NE) MÉDIA) E (Pórgão (NE) BAIXA) E (Pug (NE) BAIXA) E

(suporte(órgão(NE)) MÉDIO OU suporte(órgão(NE)) ALTO) E

(suporte(ug(NE)) MÉDIO OU suporte(ug(NE)) ALTO)

ENTÃO Panomalia ALTA (9-5)

- 249 -

Nessa regra o analista não tem que saber os valores exatos de probabilidade

considerados baixos, médios ou altos; deve apenas estabelecer combinações considerando

abstratamente as expressões "baixa", "média" e "alta". A separação em três faixas é

meramente exemplificativa, podendo-se criar um maior número de divisões. Quanto maior o

número de divisões, maior a granularidade da regra e em contrapartida maior a complexidade

da mesma.

Propõe-se neste trabalho a utilização de regras nebulosas, com a delimitação das faixas

de probabilidade (limites dos conjuntos nebulosos) calculada automaticamente e

individualmente para cada entidade pelo sistema. Para exemplificar, considerando as NEs

emitidas pelo TCU em 2005, seriam criados os conjuntos nebulosos apresentados na Figura

9-8.

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


0

1

1

alta

0,007 0,07

médiabaixa

0,063

Probabilidade Administração

Pertinência

...

...

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


0

1

10,08 0,80,72Probabilidade Favorecido

Pertinência

...

altamédiabaixa...

Figura 9-8: Conjuntos nebulosos criados a partir dos histogramas de probabilidade de cada entidade

- 250 -

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


0

1

10,03 0,320,28Probabilidade Usuário

Pertinência

...

altamédiabaixa...

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


0

1

10,03 0,30,27Probabilidade UG

Pertinência

...

altamédiabaixa...

0 0.05 0.1 0.150

2

4

6

8

10

12

14

16

18

20

Probabilidade

% N

Es


0

1

10,01 0,110,1

Probabilidade Órgão

Pertinência

...

altamédiabaixa...

Figura 9-8 (Continuação): Conjuntos nebulosos criados a partir dos histogramas de probabilidade decada entidade

A regra de formação usada na montagem dos conjuntos nebulosos foi a seguinte:

montar o conjunto de probabilidade "média" como um trapézio iniciando na probabilidade

zero e terminando na probabilidade máxima do conjunto de treinamento. Esse valor máximo

de probabilidade foi usado para demarcar o fim do conjunto de probabilidade "baixa" (até

- 251 -

10% do máximo) e o início do conjunto de probabilidade "alta" (máximo menos 10%). Esses

dois últimos pontos serviram também para fechar o trapézio do conjunto de probabilidade

"média". Os três conjuntos nebulosos para a normalidade são apresentados na Figura 9-9.

0

1

1

altamédiabaixa

0,5Normalidade

Pertinência

Figura 9-9: Conjuntos nebulosos para normalidade

Com essa proposta, a definição dos conjuntos é feita de forma automática pelo sistema e

se adapta a cada entidade analisada, sem que o analista tenha que conhecer os valores

absolutos de probabilidade utilizados em cada caso. O uso da probabilidade máxima do

período de treinamento, considerando 10% desse valor para criação dos conjuntos, é

meramente exemplificativo, outros valores podem ser usados, tendo sido esse o limite dos

conjuntos que ofereceu melhores resultados nos testes práticos.

Resta ao analista a criação das regras nebulosas para a classificação das NEs. Para testar

os conjuntos anteriormente criados, são propostas três regras simples:

SE (Padm (NE) BAIXA) E (Pórgão (NE) BAIXA) E (Pug (NE) BAIXA) ENTÃO Normalidade BAIXA (9-6)

SE (Padm (NE) MÉDIA) E (Pórgão (NE) MÉDIA) E (Pug (NE) MÉDIA) ENTÃO Normalidade MÉDIA (9-7)

SE (Padm (NE) ALTA) E (Pórgão (NE) ALTA) E (Pug (NE) ALTA) ENTÃO Normalidade ALTA (9-8)

Nos testes foram utilizados os conjuntos nebulosos definidos na Figura 9-8 e Figura 9-9;

as três regras anteriores; as definições de operadores (4-47), (4-49) e (4-51); juntamente com

um mecanismo de inferência semelhante ao proposto em Assilian e Mamdani (1975).

Aplicando-se as 960 notas emitidas pela UG-Sede do TCU em 2006, têm-se 19 notas

- 252 -

selecionadas com maior pertinência ao conjunto de normalidade baixa, com valor calculado

para o centróide de normalidade de 0,16.

9.3 DETECÇÃO DE ANOMALIAS POR REDE NEURAL

A Figura 9-10 posiciona a seção atual dentro do mecanismo global de detecção,

definido a ponderação de probabilidades por redes neurais.


SiafiEmpenho da

Despesa

Analista






Figura 9-10: Processo completo para detecção de anomalia. A seção atual apresenta a ponderação deprobabilidades por rede neural

Para estabelecer a combinação das probabilidades oriundas dos modelos de

comportamento, visando à detecção de NEs anômalas, utilizou-se uma rede Backpropagation.

Os neurônios da camada de entrada receberam as probabilidades individuais do órgão, UG e

Administração Pública. O neurônio de saída informa se a NE é "normal" (saída próxima de

um) ou anômala (saída próxima de zero), indicando a probabilidade de anomalia para a NE.

Para o detalhamento do treinamento das redes usadas, consultar o Apêndice E.

Para simplificar o treinamento optou-se por treinar a rede sem as probabilidades

referentes a favorecido e usuário. Caso tais informações tivessem sido usadas, a rede teria

duas entradas extras, mantendo inalterado o restante do procedimento de treinamento descrito

a seguir. Tal restrição deveu-se ao fato de não terem sido criados modelos de comportamento,

usando redes neurais, para essas duas entidades, em função da complexidade do treinamento

das redes (ver Apêndice E), principalmente no que se refere ao tempo de treinamento, e em

- 253 -

função também do número de usuários e favorecidos existentes (em 2005, 562.060

favorecidos e 20.458 usuários), o que tornaria a criação de seus modelos por redes inviável de

ser realizado num período aceitável (considerando os equipamentos disponíveis para os

testes).

No treinamento da rede ocorreu o mesmo problema descrito na Seção 8.3, qual seja, a

ausência de probabilidades referentes a NEs anômalas. Como solução de contorno foram

simuladas as probabilidades referentes a tais NEs, de forma semelhante ao adotado na Seção

8.3.

Da mesma forma que na criação de regras, devem ser treinadas redes independentes

para lidar com as probabilidades fornecidas pelos modelos de comportamento baseados em

matrizes e redes neurais. As redes podem ser treinadas individualmente por entidade ou

treinada uma única rede aplicável à detecção das NEs de todas as entidades. Para permitir

uma melhor especialização da rede, adotou-se a primeira opção, tendo sido treinada uma rede

específica para o teste com as notas emitidas pelo TCU. Poderiam ter sido criadas também

redes específicas para cada UG, permitindo uma especialização ainda maior das mesmas.

9.3.1 Aplicação de redes à saída do modelo de matrizes

Será apresentado a seguir o resultado da rede treinada com as informações do modelo

matemático de comportamento baseado em matrizes, como descrito na Figura 9-11.


SiafiEmpenho da

Despesa

Analista






Figura 9-11: Redes neurais usadas para ponderar as probabilidades oriundas do modelo de matrizes

- 254 -

A rede foi treinada tendo como entradas as probabilidades referentes à Administração

Pública, órgão e UG, calculadas sobre as NEs emitidas pelo TCU em 2005. Para esses

exemplos a rede foi treinada com valor de saída "um". Para as probabilidades das NEs

simuladas, foram arbitrados valores que variaram de zero até a probabilidade máxima para

cada uma das três entidades citadas, calculadas pelas matrizes de probabilidade durante sua

fase de treinamento. No caso das probabilidades simuladas a rede foi treinada para dar saída

"zero".

No procedimento de teste, após o treinamento, é necessário informar o valor a partir do

qual a saída da rede deve ser considerada como referente a uma NE normal. Nos exemplos

aqui colocados, considerou-se o limite de 0,5 na saída para diferenciar NEs normais de NEs

anômalas.

A Figura 9-12 apresenta o resultado da simulação da rede, após seu treinamento, tendo

como entrada diversas probabilidades arbitradas para as três entidades, variando do mínimo

ao máximo encontrado nas matrizes durante a fase de treinamento. Os pontos marcados na

figura referem-se a combinações de probabilidades para as quais a rede fornece como saída

resultado superior a "0,5", indicando tratar-se de uma NE normal.

Aplicando a rede descrita a um conjunto de teste formado por NEs verdadeira, emitidas

pelo TCU em 2006, juntamente com NEs simuladas, obtém-se 6,83% de NEs verdadeiras

consideradas anômalas (falsos positivos) e 97,96% das NEs simuladas consideradas anômalas

(verdadeiros positivos).

Considerando as observações apresentadas na Seção 9.2.1, pode-se comparar esses

resultados com os de Haft et al. (1998) que, no melhor caso, conseguem 85% de detecção sem

apresentar falsos positivos.

- 255 -

0 0.010.02 0.03

0.04 0.050.06 0.07

0

0.02

0.04

0.06

0.08

0.1

0

0.05

0.1

0.15

0.2

0.25

0.3

Probabilidade geral

Combinações de Probabilidades com Saída > 0.5

Probabilidade orgao

Pro

babi

lidad

e ug

Figura 9-12: Combinações de probabilidades fornecidas pelas matrizes para as quais a rede dá como saídavalores superiores a 0,5. Os eixos têm como limites os valores máximos das probabilidades de 2005referentes as NEs do TCU

9.3.2 Aplicação de redes à saída do modelo de redes neurais

Será apresentado a seguir o resultado da rede treinada com as informações do modelo

matemático de comportamento baseado em redes neurais, como descrito na Figura 9-13.


SiafiEmpenho da

Despesa

Analista






Figura 9-13: Redes neurais usadas para ponderar as probabilidades oriundas do modelo de redes

Realizando o treinamento da nova rede de forma análoga ao da Seção 9.3.2, utilizando

os mesmos atributos e a mesma arquitetura de rede, variando apenas as entradas que passaram

a ser calculadas com base nos modelos de comportamento por redes neurais, obtém-se 9,58%

de NEs verdadeiras consideradas anômalas (falsos positivos) e 94,19% das NEs simuladas

consideradas anômalas (verdadeiros positivos). Pelos resultados das duas redes verifica-se que

- 256 -

a primeira, treinada com as probabilidades fornecidas pelas matrizes, teve desempenho um

pouco melhor que a segunda.

9.4 COMPARAÇÃO DA CLASSIFICAÇÃO POR REGRAS COM A

CLASSIFICAÇÃO POR REDES NEURAIS

O primeiro ponto a ser considerado na comparação diz respeito à determinação dos

parâmetros. Na classificação por regras (Seção 9.2) os parâmetros utilizados na seleção de

NEs, em particular as probabilidades mínimas para detecção, são estabelecidos manualmente,

o que torna complexa a construção do detector. O uso de regras nebulosas atenua o problema

pois o analista não precisa trabalhar com valores absolutos de probabilidade mas, mesmo

neste caso, cabe ainda ao analista a criação das regras. Utilizando redes neurais (Seção 9.3),

os parâmetros são determinados automaticamente pela rede, sem a necessidade de intervenção

humana, e não há necessidade de criação de regras, somente a definição do valor da saída da

rede a partir do qual as NEs serão classificadas como normais ou anômalas.

Um segundo ponto de comparação diz respeito à flexibilidade de manipulação dos

parâmetros de detecção. Na classificação por regras há total liberdade para alterar os

parâmetros e as regras, tornando mais ou menos sensível o detector, e obtendo-se

conseqüentemente mais ou menos NEs para análise. Com a utilização de redes neurais, os

parâmetros de ponderação são fixos, embutidos nos pesos da rede treinada. O único parâmetro

configurável é o valor a partir do qual a saída da rede será indicativo de anomalia da NE, ou

seja, existe menos espaço para a configuração do detector.

A Figura 9-14 apresenta as NEs selecionadas como anômalas pelos dois procedimentos

descritos neste capítulo. As NEs marcadas com asterisco foram selecionadas pelo uso de rede

neural aplicada às saídas das matrizes de probabilidade. Na mesma figura estão marcadas com

- 257 -

círculos as NEs selecionadas como anômalas pelo mecanismo de regras, também aplicadas à

saída do modelo de matrizes, de acordo com a primeira regra estabelecida na Seção 9.2.

Observa-se que, enquanto a seleção feita por regras foca nas NEs com baixas

probabilidades, a seleção por rede neural foca em combinações de probabilidades

consideradas por ela como anômalas, não necessariamente tendo probabilidades baixas

simultaneamente para todas as entidades. Os dois mecanismos se complementam na tarefa de

detecção de NEs anômalas, devendo ser utilizados em conjunto. A seleção de probabilidades

baixas é facilmente implementada na ponderação de probabilidades feita por regras, enquanto

a detecção de combinações de probabilidades pouco usuais é mais facilmente determinada

com o uso de redes neurais.

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.02

0.04

0.06

0.08

NEs 2006

Pro

b. G

eral

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.1

0.2

0.3

0.4

NEs 2006

Pro

b. U

G

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.05

0.1

0.15

0.2

NEs 2006

Pro

b. Ó

rgão

Figura 9-14: NEs selecionadas como anômalas por redes neurais (marcadas com asterisco) e porponderação de probabilidade (marcadas com círculos). Os pontos representam as probabilidadescalculadas para cada NE emitida pelo TCU em 2006. Este último cálculo foi realizado com as matrizes deprobabilidade criadas em 2005

- 258 -

10 CONCLUSÕES E TRABALHOS FUTUROS

10.1 CONCLUSÕES E CONTRIBUIÇÕES

O objetivo primário do trabalho e sua principal contribuição foi a proposta de um

modelo para a detecção automática de indícios de irregularidades na execução da despesa

orçamentária. O modelo, proposto no Capítulo 6, é fruto de idéias trazidas das áreas de

segurança de redes e mineração de dados, conciliadas com a teoria de execução orçamentária

e complementadas pela experiência prática dos analistas de controle externo do TCU. A

organização e adaptação dos conceitos dessas várias áreas imprimem ao modelo proposto a

originalidade esperada de um trabalho de doutorado. Reforça a importância do trabalho a

inexistência de outros modelos similares, no que se refere à detecção de irregularidades na

execução da despesa pública.

Tendo em vista a possibilidade de integração com o DW criado no projeto Síntese, o

modelo aqui proposto cumpre também um dos objetivos desse projeto, qual seja, a detecção

automática de irregularidades nos dados armazenados no DW.

Em função das áreas pesquisadas, mineração de dados e orçamento público entre outras,

o trabalho alcançou o caráter interdisciplinar buscado, cumprindo dessa forma um dos

objetivos do programa de pós-graduação em modelagem computacional do LNCC. Procurou

reforçar a parceria entre pesquisa acadêmica, através do emprego dos conceitos de

modelagem computacional, e a área de controle externo da Administração Pública, através da

experiência dos analistas de controle externo que auxiliaram na realização da Tese. Espera-se

que novos trabalhos possam ser realizados abordando simultaneamente as duas áreas.

A Tese produziu como resultado, além do modelo teórico, um protótipo para a detecção

de indícios de irregularidades, implementando parcialmente o modelo proposto através da

- 259 -

construção do módulo de mineração de dados. Nesse componente foram testadas técnicas

estatísticas, redes neurais e lógica nebulosa. O protótipo construído, apesar de não totalmente

otimizado, serviu para validar parcialmente o modelo proposto, indicando pontos a serem

corrigidos e permitindo identificar várias melhorias no mesmo. Os resultados práticos

apresentados pelo protótipo demonstram a viabilidade técnica da utilização de mecanismos

automáticos de detecção de irregularidades como auxiliares do controle externo, cumprindo

assim o segundo grande objetivo do trabalho. Espera-se que os resultados apresentados

possam servir como incentivo para a continuação do desenvolvimento do sistema.

Por fim, destaca-se o estudo realizado da Administração Pública no tocante à emissão

de notas de empenho, no período de 2003 a 2006. Através desse estudo foi possível identificar

as principais características referentes à emissão de notas pelas entidades envolvidas, suas

particularidades e variações ao longo do tempo. O estudo do comportamento da

Administração Pública por si só já representa uma contribuição relevante da Tese, permitindo

que outros trabalhos sejam realizados com base nas informações apresentadas, em particular

referenciando os questionamentos levantados no Capítulo 7.

Essa parte do trabalho ganha relevância principalmente pela falta de dados disponíveis

para os pesquisadores no que se refere à contratação por entidades públicas. Apesar das

informações usadas no trabalho estarem no Siafi, o sistema é de uso restrito e não possui

ferramentas para apresentar, de forma simples e consolidada, análises estatísticas. Embora o

trabalho tenha focado no estudo de notas de empenho, procurou criar um procedimento

genérico para a exportação e análise dos demais documentos presentes no Siafi referentes à

execução da despesa.

- 260 -

10.2 TRABALHOS FUTUROS

Como a formulação do problema a ser abordado pela Tese foi muito ampla, algumas

reduções de escopo tiveram que ser adotadas para tornar o trabalho factível dentro do período

disponível para sua execução. Optou-se por realizar um trabalho abrangente, voltado para o

desenho do mecanismo de detecção como um todo, sem focar na otimização pontual ou

seleção criteriosa dos algoritmos a serem posteriormente usados. Tal escolha deveu-se ao fato

deste trabalho ser um dos primeiros, em nível acadêmico, a ser executado no TCU para a área

proposta, procurando criar um arcabouço a partir do qual novos trabalhos possam ser

realizados, complementando e expandindo o atual. Nesse sentido, seria pouco produtivo

avançar na otimização de mecanismos pontuais sem que antes fosse estabelecida a arquitetura

genérica, dentro da qual esses mecanismos seriam utilizados. As reduções de escopo citadas

ao longo do trabalho abrem caminho para inúmeras possibilidades de continuação desta Tese,

as quais serão apresentadas a seguir.

10.2.1 Análise do ciclo completo de execução da despesa

A execução da despesa, como apresentada no Capítulo 5, é composta resumidamente

pela emissão da nota de empenho (NE), liquidação da despesa através de nota de lançamento

(NL) e pagamento através de Ordem Bancária (OB). O presente trabalho limitou-se à análise

de notas de empenho. Os demais estágios da execução da despesa não foram analisados,

embora tragam importantes informações, como por exemplo o detalhamento dos produtos

comprados e o recebedor da ordem bancária.

Estatísticas sobre essas informações podem ser criadas para complementar as já

existentes, possibilitando que o sistema de detecção ofereça informações mais precisas, e

diminuindo o número de falsos positivos. O mesmo tipo de análise aplicada às NEs poderia de

imediato ser usada para verificar notas de lançamento e ordens bancárias, bastando para isso

- 261 -

identificar seus atributos relevantes e treinar novas matrizes ou redes neurais para modelar o

comportamento das entidades na emissão desses documentos.

O sistema poderia ser expandido para considerar não só as probabilidades individuais de

ocorrência de NEs, NLs e OBs, mas para considerar também a combinação dos três eventos,

analisando de forma integrada todo o processo de execução da despesa e oferecendo

conseqüentemente maior segurança na classificação das operações.

10.2.2 Estudo de outros mandatos presidenciais

A escolha do período de análise, de 2003 a 2006, visou englobar um mandato

presidencial completo. Como descrito na Seção 7.1, pretendeu-se avaliar mudanças de

comportamento identificáveis ao longo dos quatro anos de gestão de um presidente. Para

confirmar se as mudanças apontadas neste trabalho são realmente sazonais, ou seja, repetem-

se a cada mandato, seria necessário avaliar períodos correspondentes a outros mandatos, por

exemplo o intervalo de 1999 a 2002 e o mandato presidencial iniciado em 2007.

10.2.3 Implementação do módulo baseado em sistema especialista

Como descrito no Capítulo 6, o módulo de detecção baseado em sistema especialista

não foi implementado no piloto construído, tendo-se limitado à criação do detector baseado

em mineração de dados.

Conforme descrito na proposta do modelo de detecção, o levantamento das regras do

sistema especialista, apesar de não ser tarefa complexa, provavelmente tomaria mais tempo

que o disponível para a execução da Tese. Por esse motivo e pelos demais citados no Capítulo

6, a implementação do sistema especialista foi deixada para um trabalho futuro, em nível

acadêmico ou como um projeto a ser realizado dentro do TCU.

- 262 -

Vale a pena ressaltar a importância do módulo especialista para o modelo proposto.

Além de servir para dar mais segurança à detecção de irregularidades, esse módulo

complementaria a mineração de dados, não só na captura de situações irregulares como na

liberação de documentos aparentemente anômalos, mas que sejam considerados normais na

opinião dos auditores. Por fim serviria também para incorporar ao modelo proposto o

conhecimento de analistas com grande experiência prática, que fatalmente será perdido

quando esses profissionais deixarem o serviço público. Além disso, sendo o sistema utilizado

simultaneamente por vários analistas, cada um poderia dar sua contribuição individual para

melhorá-lo, servindo assim como coletor de regras de conhecimento dispersas na experiência

de cada profissional.

10.2.4 Estudo do modelo referente a usuários e fornecedores

No presente trabalho foi analisado com detalhes o modelo de comportamento de órgãos,

UGs e da Administração Pública (itens 7.4 e 7.5). Não foi apresentado o estudo detalhado

com usuários e fornecedores, apesar de seus modelos de comportamento terem sido criados

com matrizes de probabilidade. Utilizou-se como hipótese que os mesmos três atributos

usados para caracterizar o comportamento das demais entidades serviriam também para

modelar o comportamento de usuários e favorecidos. O Capítulo 7 demonstrou que os

atributos selecionados pelos especialistas efetivamente caracterizam o comportamento de

órgãos, UGs e da Administração. Caberia a um trabalho futuro, realizando as mesmas análises

do Capítulo 7, confirmar a hipótese citada quanto ao comportamento das duas entidades em

questão.

- 263 -

10.2.5 Definição do suporte mínimo para a confiabilidade do modelo

Um ponto que merece maior análise neste trabalho é a definição do suporte mínimo para

aferir a confiabilidade dos modelos de comportamento criados, ou seja, o número mínimo de

NEs necessárias para a criação dos modelos. Em não se conhecendo o número exato, arbitrou-

se nos testes realizados como 100 o limite mínimo para o suporte, descartando as informações

fornecidas pelos modelos criados com menos NEs.

Tal número, como exposto na Seção 7.2.5, pode ser restritivo quanto ao uso

principalmente dos modelos de usuários e favorecidos. Seria importante a definição de uma

faixa de valores mais criteriosa para que o modelo de detecção proposto pudesse, de forma

automática, determinar quais modelos de comportamento são realmente confiáveis para

utilização na classificação de NEs.

10.2.6 Análise das NEs que não representam criação de empenho

Como citado na Seção 7.1.2, somente os eventos referente ao empenho da despesa e ao

empenho da despesa pré-empenhada foram considerados. Foram descartados os eventos

referentes a anulações, a cancelamentos, a reforços de empenho e à utilização de limite

financeiro. Essa opção foi tomada no sentido de considerar somente os eventos que

representam a criação de empenho, eliminando suas posteriores modificações.

Os eventos descartados poderiam passar também pelo mesmo procedimento de análise

proposto no modelo de detecção. Mais importante, deveriam ser analisados conjuntamente

todos os eventos relacionados a uma mesma despesa (a NE conceitual definida na Seção

7.1.2).

- 264 -

10.2.7 Verificação dos problemas referentes à contabilidade pública

No Capítulo 7 foram feitas algumas observações como por exemplo sobre o aumento

dos valores das NEs ao longo dos anos, a concentração dos gastos no mês de dezembro, o uso

preferencial de determinadas modalidades de licitação em alguns meses do ano, etc. Essas

observações poderiam ser desenvolvidas em trabalhos específicos sobre contabilidade

pública, o que não é o foco do presente trabalho.

Ainda em relação ao modelo de gasto da Administração Pública, chamou atenção o

rápido crescimento da modalidade de licitação pregão eletrônico. Um trabalho mais detalhado

poderia ser feito no sentido de analisar as naturezas de despesa e classes de valores afetadas

pela mudança. Poderia ser verificado se a utilização dessa nova modalidade trouxe

efetivamente benefícios para a Administração Pública, estabelecendo ou não relação desse

crescimento com o aumento de valor bruto das NEs.

10.2.8 Definição dos mecanismos de atualização dos modelos

O mecanismo de atualização do modelo de detecção, proposto formalmente no Capítulo

6, não foi implementado no piloto construído. Foram apresentadas na Seção 8.5 algumas

propostas para a atualização das matrizes de probabilidade e redes neurais, correspondentes

aos modelos de comportamento criados.

Esse tópico tem complexidade alta e mereceria um estudo mais aprofundado, feito num

trabalho específico sobre o tema. A correta atualização do modelo é de fundamental

importância para incorporar as modificações de comportamento mais recentes e para que, ao

mesmo tempo, não se perca o histórico de comportamento construído ao longo do tempo.

Outro ponto relevante é evitar que durante a atualização sejam aprendidos pelo sistema

comportamentos irregulares, o que impediria a correta detecção de NEs anômalas.

- 265 -

10.2.9 Estudo de ferramentas

O processo de KDD vincula-se fortemente à utilização de ferramentas especializadas

que permitam a realização das várias tarefas. Em Goldschmidt e Passos (2005) são citadas

algumas ferramentas disponíveis no mercado como por exemplo: SAS Enterprise Miner,

Weka, SPSS/Clementine, Intelligent Miner e Oracle Data Mining.

No piloto implementado não foram usadas ferramentas específicas para realizar

mineração de dados, tendo-se limitado à utilização do MatLab como ferramenta genérica para

teste e execução dos algoritmos selecionados. Quando o modelo proposto for implementado

num ambiente de produção é fundamental analisar as ferramentas disponíveis, principalmente

a integração com os Softwares usados no DW Síntese, a partir do qual provavelmente serão

extraídos os dados utilizados no processo de detecção.

10.2.10 Aprimoramento dos algoritmos usados

Não estava incluída no escopo do trabalho a otimização dos algoritmos usados, apenas

demonstrar a viabilidade da sua utilização para a criação dos modelos de comportamento e

para a detecção de anomalias. Uma vez tendo sido demonstrada sua utilidade prática,

deveriam passar por um processo de otimização que permitisse a melhoria de seu desempenho

e dos resultados obtidos com sua utilização.

Em particular destaca-se a otimização das redes neurais, a criação de regras para

alimentar o componente detector de anomalia e a definição de novos conjuntos nebulosos.

Todo o trabalho de desenvolvimento foi realizado no Software MatLab que, apesar de

oferecer uma ampla gama de recursos para desenvolvimento e visualização, não atende os

requisitos de performance desejados para o sistema e principalmente não oferece facilidades

para integração com as bases de dados necessárias para alimentar o modelo.

- 266 -

REFERÊNCIAS BIBLIOGRÁFICAS

ABE, Naoki; LANGFORD, John; ZADROZNY, Bianca. Outlier Detection by ActiveLearning. In Proceedings of the 12th ACM SIGKDD international Conference onKnowledge Discovery and Data Mining, 2006, Philadelphia, p. 504-509, 2006.Disponível em: <http://doi.acm.org/10.1145/1150402.1150501>. Acesso em: 11 jan. 2008.

ANGÉLICO, João. Contabilidade Pública. 8. ed. São Paulo: Atlas, 1995.

ANKERST, Mihael. Visual Data Mining. 2000. Master Thesis - Ludwig-Maximilians-Universitat Munchen, Munique, 2000.

ASSILIAN, S.; MAMDANI, E. H. An experiment in linguistic synthesis with a fuzzy logiccontroller. In International Journal of Man-Machine Studies, v. 7, n. 1, p. 1-13, 1975.

AXELSSON, Stefan. The Base-Rate Fallacy and the Difficulty of Intrusion Detection. In:ACM Transactions on Information and System Security (TISSEC), v. 3, n. 3, p. 186-205,2000.Disponível em: <http://doi.acm.org/10.1145/357830.357849>. Acesso em: 11 jan. 2008.

BAKIRAS, Spiridon; KALNIS, Panos; MAMOULIS, Nikos. On Discovering MovingClusters in Spatio-temporal Data. In: Proc. 9th International Symposium on Spatial andTemporal Databases, p. 364-381, 2005.Disponível em: <http://www.cs.hku.hk/~nikos/67.pdf>. Acesso em: 11 jan. 2008.

BARAS, John; RADOSAVAC, Svetlana. Detection and Classification of NetworkIntrusions Using Hidden Markov Models. In: 37th Conference on Information Sciences andSystems (CISS), Baltimore, 2003.Disponível em: <http://www.docomolabsresearchers-usa.com/~sradosavac>. Acesso em: 11jan. 2008.

BAY, Stephen et al. The UCI KDD Archive of Large Data Sets for Data Mining Researchand Experimentation. In: ACM SIGKDD Explorations Newsletter, v. 2 n. 2, p. 81-85, 2000.Disponível em: <http://doi.acm.org/10.1145/380995.381030>. Acesso em: 11 jan. 2008.

BAY, Stephen et al. Data Mining Methods for Anomaly Detection: KDD-2005 WorkshopReport. In: SIGKDD Explorations Newsletter, v.7 n.2, p. 132-136, 2005.Disponível em: <http://doi.acm.org/10.1145/1117454.1117473>. Acesso em: 11 jan. 2008.

BEALE, Mark; DEMUTH, Howord; HAGAN, Martin. Neural Network Toolbox 5: User'sGuide. The MathWorks, Massachusetts, 2007.Disponível em: <http://www.mathworks.com/access/helpdesk/help/pdf_doc/nnet/nnet.pdf>.Acesso em: 11 jan. 2008.

BERKHIN, Pavel. Survey of Clustering Data Mining Techniques. Technical report, AccrueSoftware, San Jose, CA, 2002.Disponível em: <http://citeseer.ist.psu.edu/berkhin02survey.html>. Acesso em: 11 jan. 2008.

- 267 -

BLOEDORN, Eric et al. Data Mining for Network Intrusion Detection: How to GetStarted. Technical report, The MITRE Corporation, 2001.Disponível em: <http://citeseer.ist.psu.edu/bloedorn01data.html>. Acesso em: 11 jan. 2008.

BOLTON, Richard; HAND, David. Statistical Fraud Detection: A Review. StatisticalScience, v. 17, n. 3, p. 235-255, 2002.Disponível em: <http://citeseer.ist.psu.edu/bolton02statistical.html>. Acesso em: 11 jan. 2008.

BRASIL. Lei no 4.320, de 17 de março de 1964. Estatui Normas Gerais de DireitoFinanceiro para elaboração e controle dos orçamentos e balanços da União, dos Estados, dosMunicípios e do Distrito Federal. Brasília, 1964.Disponível em: <http://www.planalto.gov.br/CCIVIL/Leis/L4320.htm>. Acesso em: 11 jan.2008.

BRASIL. Decreto-Lei no 200, de 25 de fevereiro de 1967. Dispõe sobre a organização daAdministração Federal, estabelece diretrizes para a Reforma Administrativa e dá outrasprovidências. Brasília, 1967.Disponível em: <http://www.planalto.gov.br/ccivil/Decreto-Lei/Del0200.htm>. Acesso em:11 jan. 2008.

BRASIL. Decreto no 93.872, de 23 de dezembro de 1986. Dispõe sobre a unificação dosrecursos de caixa do Tesouro Nacional, atualiza e consolida a legislação pertinente e dá outrasprovidências. Brasília, 1986.Disponível em: <http://www.planalto.gov.br/ccivil/decreto/D93872.htm>. Acesso em: 11 jan.2008.

BRASIL. Constituição da República Federativa do Brasil de 1988. Brasília, 1988.Disponível em:<http://www.planalto.gov.br/ccivil_03/Constituicao/Constitui%C3%A7ao.htm>. Acesso em:11 jan. 2008.

BRASIL. Lei no 8.443, de 16 de julho de 1992. Dispõe sobre a Lei Orgânica do Tribunal deContas da União e dá outras providências. Brasília, 1992.Disponível em: <http://www.planalto.gov.br/CCIVIL/leis/L8443.htm>. Acesso em: 11 jan.2008.

BRASIL. Lei no 8.666, de 21 de junho de 1993. Regulamenta o art. 37, inciso XXI, daConstituição Federal, institui normas para licitações e contratos da Administração Pública edá outras providências. Brasília, 1993.Disponível em: <http://www.planalto.gov.br/ccivil/Leis/L8666cons.htm>. Acesso em: 11 jan.2008.

BRASIL, Secretaria do Tesouro Nacional. Instrução Normativa no 2, de 26 abril de 1999.DOU de 27 de abril de 1999. Brasília, 1999.Disponível em: <http://www.tesouro.fazenda.gov.br/legislacao/download/programacao>.Acesso em: 11 jan. 2008.

- 268 -

BRASIL. Lei Complementar no 101, de 4 de maio de 2000. Estabelece normas de finançaspúblicas voltadas para a responsabilidade na gestão fiscal e dá outras providências. Brasília,2000.Disponível em: <http://www.planalto.gov.br/CCIVIL/Leis/LCP/Lcp101.htm>. Acesso em: 11jan. 2008.

BRASIL. Lei no 10.520, de 17 de julho de 2002. Institui, no âmbito da União, Estados,Distrito Federal e Municípios, nos termos do art. 37, inciso XXI, da Constituição Federal,modalidade de licitação denominada pregão, para aquisição de bens e serviços comuns, e dáoutras providências. Brasília, 2002.Disponível em: <http://www.planalto.gov.br/ccivil/leis/2002/L10520.htm>. Acesso em: 11jan. 2008.

BRASIL. Ministério do Planejamento, Orçamento e Gestão. Secretaria de Orçamento Federal.Manual Técnico de Orçamento MTO-02: instruções para elaboração da propostaorçamentária da União para 2005. Brasília, 2004.Disponível em: <http://www.planejamento.gov.br>. Acesso em: 11 jan. 2008.

BRASIL. Ministério da Fazenda. Secretaria do Tesouro Nacional. Programação Financeira.Brasília, 2006.Disponível em <http://www.stn.fazenda.gov.br/programacao_financeira/index.asp>. Acessoem: 18 fev 2007.

BRASIL. Ministério da Fazenda. Secretaria do Tesouro Nacional. Conheça o Siafi:Estrutura do Siafi. Brasília, 2007.Disponível em <http://www.stn.fazenda.gov.br/siafi/subsistemas.asp>. Acesso em: 18 fev2007.

BRASIL. Ministério do Planejamento, Orçamento e Gestão. Secretaria de Orçamento Federal.Como é feito o orçamento. Brasília, 2006.Disponível em <https://www.portalsof.planejamento.gov.br/sof>. Acesso em: 18 fev. 2007.

BRUGGER, Sterry. Data Mining Methods for Network Intrusion Detection. TechnicalReport. 2004.Disponível em: <http://www.bruggerink.com/~zow/GradSchool/brugger_dmnid.pdf >.Acesso em: 11 jan. 2008.

BUCKLEY, James; WILLIAM, Silver. Fuzzy Expert Systems and Fuzzy Reasoning. NewJersey: John Wiley & Sons, 2005.

CARVALHO, Paulo André Mattos et al. Programa de Formação de Analistas de ControleExterno TCU – Unidade III: Sistemas de Suporte à Decisão. In: Curso de Formação paraAnalistas de Controle Externo TCU, Brasília, 2005.

CASTRO, Domingos Poubel de; GARCIA, Leice Maria. Contabilidade Publica noGoverno Federal. São Paulo: Atlas, 2004.

- 269 -

CHAPMAN, Pete et al. CRISP-DM 1.0: Step-by-step data mining guide. Tecnical report.The CRISP-DM consortium, 2000.Disponível em: <http://www.crisp-dm.org/CRISPWP-0800.pdf>. Acesso em: 11 jan. 2008.

CURRAN, Dara; O'RIORDAN, Colm. Applying Evolutionary Computation to DesigningNeural Networks: A Study of the State of the Art. Technical Report NUIG-IT-111002 of theDepartment of Information Technology. National University of Ireland, Galway, 2002.Disponível em: <http://citeseer.ist.psu.edu/rd/52978682%2C570551%2C1%2C0.25%>.Acesso em: 16 jan. 2008.

DICKERSON, John et al. Fuzzy Intrusion Detection. In: Proceedings of North AmericanFuzzy Information Processing Society 2001 (NAFIPS 2001), Vancouver, Canada, 2001.Disponível em: <http://www.cs.hut.fi/~jtjuslin/nafipsv6.pdf >. Acesso em: 11 jan. 2008.

DILLON, William; GOLDSTEIN, Matthew. Multivariate Analysis: Methods andApplications. New York: John Wiley & Sons, 1984.

EBECKEN, Nelson; EVSUKOFF, Alexandre; PINHEIRO, Carlos. Revenue Recoveringwith Insolvency Prevention on a Brazilian Telecom Operator. In: SIGKDD Explorations,v. 8, n. 1, p. 65-70, 2006.Disponível em: <http://doi.acm.org/10.1145/1147234.1147244 >. Acesso em: 11 jan. 2008.

ERZOT, Levent et al. A Comparative Study of Anomaly Detection Schemes in NetworkIntrusion Detection. In: Proceedings of the Third SIAM International Conference on DataMining 2003, San Francisco, 2003.Disponível em: <http://www.siam.org/meetings/sdm03/proceedings/sdm03_03.pdf>. Acessoem: 11 jan. 2008.

ESTIVILL-CASTRO, Vladimir. Why so many clustering algorithms: A Position Paper. In:SIGKDD Explorations, v. 4, n. 1, p. 65-75, 2002.Disponível em: <http://doi.acm.org/10.1145/568574.568575 >. Acesso em: 11 jan. 2008.

FILHO, José dos Santos Carvalho. Manual de Direito Administrativo. 17. ed. Rio deJaneiro: Lumen Juris, 2007.

FRANK, Eibe; WITTEN, Ian. Data Minig: Practical Machine Learning Tools andTechniques. 2. ed. San Francisco: Elsevier, 2005. Morgan Kaufmann series in datamanagement systems.

FRIED, D. J. et al. Evaluating Intrusion Detection Systems: The 1998 DARPA Off-lineIntrusion Detection Evaluation. In: Proceedings DARPA Information SurvivabilityConference and Exposition (DISCEX), 2000, v. 2, p. 12-26, IEEE Computer Society Press,Los Alamitos, CA, 2000.Disponível em: <http://citeseer.ist.psu.edu/lippmann00evaluating.html >. Acesso em: 11 jan.2008.

FUKUNAGA, Keinosuke. Introduction to Statistical Pattern Recognition. 2. ed. England:Morgan Kaufmann, 1990.

- 270 -

GIACOMONI, James. Orçamento Público. 13. ed. São Paulo: Atlas, 2005.

GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. Rio deJaneiro: Elsevier, 2005. 2. Reimpressão.

HAFT, Michael et al. Fraud Detection in Communications Networks Using Neural andProbabilistic Methods. IN: Proc. 1998 IEEE Internat. Conf. on Acoustics, Speech and SignalProcessing (ICASSP'98), v. 2, p. 1241-1244, 1998.Disponível em: <http://citeseer.ist.psu.edu/taniguchi98fraud.html>. Acesso em: 11 jan. 2008.

HAGAN, Martin; MENHAJ, Mohammad. Training Feedforward Networks with theMarquardt Algorithm. IN: IEEE Transactions on Neural Networks, v. 5, n. 6, p. 989-993,1994.

HAND, David; MANNILA, Heikki; SMYTH, Padhraic. Principles of Data Mining.Massachusetts: Mit Press, 2001.

HECHT-NIELSEN, Robert. Neurocomputing. California: Addison-Wesley, 1990.

JAVITZ, Harold; VALDES, Alfonso. The NIDES Statistical Component: Description andJustification. SRI report, SRI International, California, 1993.Disponível em: <http://www.cs.ucdavis.edu/~wu/ecs236/papers >. Acesso em: 11 jan. 2008.

KANTARDZIC, Mehmed. Data Mining: Concepts, Models, Methods and Algorithms. NewYork: John Wiley & Sons, 2003.

KOHAMA, Heilio. Contabilidade Pública: teoria e prática. 9. ed. São Paulo: Atlas, 2003.

KOHONEN, Teuvo. Self-Organizing Maps. 3. ed. Berlin: Springer, 2001.

LANE, Terran. Machine Learning Techniques for the Computer Security Domain ofAnomaly Detection. 2000. Ph.D. Thesis - Department of Electrical and ComputerEngineering, Purdue University, 2000.

LAROSE, Daniel. Discovering Knowledge in Data: An Introduction to Data Mining. NewJersey: John Wiley & Sons, 2005.

LIEBOWITZ, Jay et al. The Handbook of Applied Expert Systems. New York: CRC, 1997.

LIMA, Diana Vaz. Contabilidade Pública. São Paulo: Editora Atlas, 2000.

LOPES, Carlos Henrique Pereira. Classidicação de Registros em Banco de Dados porEvolução de Regras de Associação Utilizando Algoritmos Genéticos. 1999. Dissertação(Mestrado em Engenharia Elétrica) - Pontifícia Universidade Católica do Rio de Janeiro, Riode Janeiro, 1999.

- 271 -

LOURENÇO, Plutarcho Maravilha. Um Modelo de Previsão de Curto Prazo de CargaElétrica Combinando Métodos Estatísticos e Inteligência Computacional. 1998. Tese(Doutorado em Engenharia Elétrica) - Pontifícia Universidade Católica do Rio de Janeiro, Riode Janeiro, 1998.

MELLO, Celso Antônio Bandeira de. Curso de Direito Administrativo. 22. ed. São Paulo:Malheiros, 2007.

MOTA, Francisco Glauber Lima. Contabilidade Aplicada à Administração Pública. 6. ed.Brasília: Vestcon, 2006.

MUKHOPADHYAY, Nitis. Probability and Statistical Inference. New York: MarcelDekker, 2000.

NORVIG, Peter; RUSSELL, Stuart. Inteligência Artificial. Rio de Janeiro: Elsevier, 2004.Tradução da segunda edição.

NTOUTSI, Irene et al. MONIC – Modeling and Monitoring Cluster Transitions. In:Proceedings of the 12th ACM SIGKDD international Conference on Knowledge Discoveryand Data Mining, 2006, Philadelphia, p. 706-711, 2006.Disponível em: <http://doi.acm.org/10.1145/1150402.1150491>. Acesso em: 11 jan. 2008.

VALENTE, Romildo Gonçalves. Predição de Séries Temporais Usando Redes Neurais.1995. Dissertação (Mestrado em Sistemas e Computação) - Instituto Militar de Engenharia,Rio de Janeiro, 1995.

PASSOS, Emmanuel Lopes. Inteligência Artificial e Sistemas Especialistas ao Alcance deTodos. Rio de Janeiro: Livros Técnicos e Científicos, 1989. Série a era da informática,tópicos avançados da informática.

RADAMAS, Manikantan. Detecting Anomalous Network Traffic with Self-OrganizingMaps. 2003. Master Thesis - College of Engineering and Technology of Ohio University,Ohio, 2003.

SPIEGEL, Murray Ralph. Probabilidade e Estatística. Tradução de Alfredo Alves de Farias.São Paulo: McGraw-Hill do Brasil, 1978 (Coleção Schaum).

STEENSMA, David et al. Summary Report on the Joint Review of Selected DoDPurchase Card Transactions. Virginia, 2003.Disponível em: < http://www.dodig.osd.mil/Audit/reports/fy03/03-109.pdf >. Acesso em: 20dez. 2007.

TAFT, Margaret et al. Oracle Data Mining Concepts 10g Release 2 (10.2) B14339-01.White Paper Oracle Data Mining. 2005.Disponível em: <http://download.oracle.com/docs/pdf/B14339_01.pdf>. Acesso em: 11 jan.2008.

- 272 -

TROSSET, Michael. An Introduction to Statistical Inference ant its Applications . NewYork: Chapman & Hall, 2004.

VIEIRA, Laércio Mendes et al. SIAFI e Contabilidade Pública para Curso de Formação.In: Curso de Formação para Analistas de Controle Externo TCU, Brasília, 2004. 1 CD-ROM.Versão 1.

WANGENHEIM, Aldo von. WANGENHEIM, Christiane Gresse von. Raciocínio Baseadoem Casos. São Paulo: Manole, 2003.

WEBB, Andrew. Statistical Pattern Recognition. 2. ed. England: John Wiley & Sons, 2002.

YE, Nong. A Markov Chain Model of Temporal Behavior for Anomaly Detection. In:Proceedings of the 2000 IEEE Workshop on Information Assurance and Security, UnitedStates Military Academy, West Point, NY, 2000.Disponível em: <http://citeseer.ist.psu.edu/ye00markov.html >. Acesso em: 11 jan. 2008.

YE, Nong (Ed.). The Handbook of Data Mining. London: Lawrence Erlbaum Associates,2003.

ZADEH, Lotfi et al. Fuzzy Logic Toolbox 2: User's Guide. The MathWorks, Massachusetts,2007.Disponível em: <http://www.mathworks.com/access/helpdesk/help/pdf_doc/fuzzy/fuzzy.pdf>.Acesso em: 11 jan. 2008.

ZHANG, Yingjian. Prediction of Financial Time Series with Hidden Markov Models.2001. Master Thesis - Shandong University, China, 2001.

- 273 -

APÊNDICE A – NOTAÇÕES

Escalares Letras minúsculas não negrito em itálico: x

Vetores

Letras minúsculas em negrito itálico (vetores são considerados noformato coluna):

( )Tn

n

xx

x

x

LM 1

1

=

=x

Matrizes Letras maiúsculas em negrito itálico:

=

npn

p

xx

xx

K

MOM

K

1

111

X

Variável Aleatória Letra maiúscula não negrito itálico: X1, ... , Xp

Medidas de VariáveisAleatórias

Letras minúsculas não negritoitálico: x1, ... , xp

- 274 -

APÊNDICE B – DISTÂNCIA ENTRE PERFIS DECOMPORTAMENTO

Na Seção 7.5.1 foi realizado um procedimento de clusterização tendo em vista descobrir

conjuntos de órgãos com comportamento semelhante no que se refere ao uso de modalidade

de licitação, natureza da despesa e valor empenhado. A partir dos grupos formados foram

selecionados quatro órgãos que tiveram seu perfil de comportamento analisado em detalhes.

Para realizar o procedimento descrito, cada órgão foi representado por três vetores cujas

componentes indicam o percentual de notas emitidas nos valores possíveis de cada atributo.

Os vetores assim definidos derivaram dos histogramas de distribuição de NEs, como

apresentado na Figura B-1. Cada vetor representa o órgão num dos três espaços estudados:

modalidade de licitação, natureza da despesa e valor. Adotou-se a distância euclidiana como

métrica de proximidade.

135 143 146 148 149 151 154 159 160 2430

10

20

30

40

50

60

ND

% N

Es


1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


Figura B-1: Distribuição de NEs por ND, CV e ML para o TCU em 2006. Esses dados serviram como basepara a criação dos vetores que representam os órgãos

A definição de um critério de proximidade permite, além de realizar a clusterização,

determinar, a partir de um órgão base, quais as entidades que mais se aproximam desse órgão,

segundo cada um dos três atributos. O objetivo prático desse procedimento é, uma vez

identificada uma entidade com modelo de comportamento de interesse (possivelmente com

presença de irregularidades), relacionar o conjunto de entidades que estejam próximas da

entidade selecionada, possivelmente apresentando comportamento semelhante (mesmas

- 275 -

irregularidades). Esse procedimento é aplicável não só a órgãos como também a UGs,

fornecedores e usuários.

Para exemplificar o procedimento descrito, a Tabela B-1 apresenta o resultado do

cálculo tomando por base o TCU, e relacionando os órgãos mais próximos e mais afastados

segundo cada atributo e segundo a combinação dos três atributos. Importante observar na

tabela que a proximidade entre órgãos segundo um critério não implica necessariamente a

proximidade em relação aos demais critérios.

Tabela B-1: Órgãos mais próximos e mais afastados do TCU, considerando os três atributos analisados esua combinação

Combinada ND ML CV

Justiça Militar Senado ANAU. F. Triângulo

Mineiro

MPF IPEA MPFFundação Biblioteca

Nacional

MPT Justiça Federal MPTFundação

UniversidadeFederal São Carlos

Justiça do Trabalho INMETRO I. N. Meteorologia U. F. Ouro Preto

TRF 1o Região Câmara Colégio Pedro IIFundação Casa de

Rui Barbosa

Órg

ãos

mai

s pr

óxim

os

Ministério da Fazenda Justiça Militar INMETRO

Ministério do EsporteMinistério da

Integração Nacional

Fundação Nacionalde Assistência

Social

Ministério doEsporte

Ministério daIntegração Nacional

Ministério doTurismo


Ministério dasCidades

Órg

ãos

mai

s af

asta

dos


Ministério doEsporte



- 276 -

A Figura B-2 apresenta a distância dos demais órgãos da Administração Pública em

relação ao TCU (posição zero). Cada eixo representa a distância segundo um dos atributos.

0 20 40 60 80 100 120

0

50

100

150

0

20

40

60

80

100

ND

Distâncias entre Órgãos

ML

CV

Figura B-2: Representação 3D da distância entre órgãos, considerados somente aqueles com mais de 100notas de empenho emitidas

Uma segunda aplicação prática para o procedimento apresentado é aplicá-lo ao cálculo

de distâncias para a mesma entidade em momentos diferentes no tempo, seja entre meses

diferentes do ano, seja entre um ano e outro. As distâncias assim calculadas servem para

indicar se a entidade manteve seu comportamento inalterado ou sofreu algum tipo de mudança

de comportamento no que se refere à forma de contratação de produtos e serviços. A mudança

pode ser ocasionada por vários fatores: troca da administração, modificação orçamentária,

alteração dos objetivos institucionais, etc. Pode também indicar que algum procedimento

irregular está ocorrendo na entidade.

Deve-se no entanto considerar que, quando se trata da emissão de NEs irregulares, o

número dessas notas é provavelmente pequeno, insuficiente para forçar uma mudança de

comportamento perceptível via cálculo de distância. Uma situação mais plausível de

utilização do cálculo é quando o comportamento do órgão como um todo é afetado por algum

evento, que não necessariamente caracterize uma irregularidade. O exemplo citado no

- 277 -

Ministério das Cidades no ano de 2006 (Seção 7.5.6) seria facilmente detectado pela análise

da variação de comportamento, embora no caso trate-se de uma restrição legal forçando a

mudança do modelo de contratação do órgão.

O cálculo de distâncias para o mesmo órgão em momentos diferentes no tempo pode

também ser usado como indicador de que o modelo criado para representar o comportamento

do mesmo está desatualizado. Tomando como base o momento de criação do modelo,

poderiam ser feitos cálculos de distância em intervalos regulares até que a distância superasse

um limite preestabelecido. Nesse momento o modelo seria atualizado e o procedimento de

cálculo da distância reiniciado, tomando como nova base o momento de atualização do

modelo.

Para exemplificar, a Figura B-3 apresenta as distâncias entre os vetores representando o

comportamento do TCU em relação ao uso de modalidade de licitação no período de 2005 a

2006, tomando como base de comparação o mês de janeiro de 2005. Observam-se variações

significativas entre janeiro e fevereiro de 2005, entre dezembro de 2005 e janeiro de 2006 e

entre outubro e novembro de 2006.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 250

20

40

60

80

100

120

Mês

Dife

renç

a

Figura B-3: Diferença de comportamento ao longo de 2005 e 2006 no uso de modalidade de licitação peloTCU

- 278 -

A variação entre janeiro e fevereiro de 2005 deveu-se à maior utilização de dispensa de

licitação em fevereiro, comparado com o mês anterior. A variação de comportamento ocorrida

entre dezembro de 2005 e janeiro de 2006 é característica de toda virada de ano, em função

das peculiaridades dos meses de dezembro e janeiro. A variação entre outubro e novembro de

2006 deveu-se à maior utilização do pregão eletrônico em novembro, comparado com o mês

anterior.

Apesar das oscilações citadas, o modelo permaneceu estável durante os 24 meses

analisados, apresentando pouca distância na média em relação ao mês base, janeiro de 2005.

Sendo assim, conclui-se que o modelo pode ser usado na avaliação das NEs emitidas pelo

órgão no período considerado, sem necessariamente sofrer atualização.

- 279 -

APÊNDICE C – DISTRIBUIÇÃO MENSAL DENOTAS DE EMPENHO

A Seção 7.4.8 apresentou o estudo sobre a distribuição mensal de notas de empenho por

modalidade de licitação, natureza da despesa e classe de valor para a Administração Pública.

Para não sobrecarregar o texto, naquela seção foram apresentados somente os gráficos

referentes ao ano de 2006. A seguir serão apresentadas as distribuições mensais de notas nos

três atributos citados para os anos 2003, 2004 e 2005. Da Figura C-1 à Figura C-3 são

apresentadas as distribuições por modalidade de licitação, da Figura C-4 à Figura C-6 são

apresentadas as distribuições por classe de valor e da Figura C-7 à Figura C-9 são

apresentadas as distribuições por natureza da despesa.

1 2 3 4 5 6 7 8 9 10 11 120

20

40

1

1 2 3 4 5 6 7 8 9 10 11 120

20

40

2

1 2 3 4 5 6 7 8 9 10 11 120

20

40

3

1 2 3 4 5 6 7 8 9 10 11 120

20

40

4

1 2 3 4 5 6 7 8 9 10 11 120

20

40

5

1 2 3 4 5 6 7 8 9 10 11 120

20

40

6

1 2 3 4 5 6 7 8 9 10 11 120

20

40

7

1 2 3 4 5 6 7 8 9 10 11 120

20

40

8

1 2 3 4 5 6 7 8 9 10 11 120

20

40

9

1 2 3 4 5 6 7 8 9 10 11 120

20

40

10

1 2 3 4 5 6 7 8 9 10 11 120

20

40

11

1 2 3 4 5 6 7 8 9 10 11 120

20

40

12

Figura C-1: Percentual mensal de notas de empenho referentes ao ano de 2003 por modalidade delicitação para a Administração Pública. Cada gráfico corresponde a um mês do ano. Relação de MLs: 01 –Concurso, 02 – Convite, 03 – Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 –Inexigibilidade, 08 – Não se aplica, 09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão

- 280 -

1 2 3 4 5 6 7 8 9 10 11 120

20

40

1

1 2 3 4 5 6 7 8 9 10 11 120

20

40

2

1 2 3 4 5 6 7 8 9 10 11 120

20

40

3

1 2 3 4 5 6 7 8 9 10 11 120

20

40

4

1 2 3 4 5 6 7 8 9 10 11 120

20

40

5

1 2 3 4 5 6 7 8 9 10 11 120

20

40

6

1 2 3 4 5 6 7 8 9 10 11 120

20

40

7

1 2 3 4 5 6 7 8 9 10 11 120

20

40

8

1 2 3 4 5 6 7 8 9 10 11 120

20

40

9

1 2 3 4 5 6 7 8 9 10 11 120

20

40

10

1 2 3 4 5 6 7 8 9 10 11 120

20

40

11

1 2 3 4 5 6 7 8 9 10 11 120

20

40

12


1 2 3 4 5 6 7 8 9 10 11 120

20

40

1

1 2 3 4 5 6 7 8 9 10 11 120

20

40

2

1 2 3 4 5 6 7 8 9 10 11 120

20

40

3

1 2 3 4 5 6 7 8 9 10 11 120

20

40

4

1 2 3 4 5 6 7 8 9 10 11 120

20

40

5

1 2 3 4 5 6 7 8 9 10 11 120

20

40

6

1 2 3 4 5 6 7 8 9 10 11 120

20

40

7

1 2 3 4 5 6 7 8 9 10 11 120

20

40

8

1 2 3 4 5 6 7 8 9 10 11 120

20

40

9

1 2 3 4 5 6 7 8 9 10 11 120

20

40

10

1 2 3 4 5 6 7 8 9 10 11 120

20

40

11

1 2 3 4 5 6 7 8 9 10 11 120

20

40

12


- 281 -

1 2 3 4 5 6 7 8 90

20

40

1

1 2 3 4 5 6 7 8 90

20

40

2

1 2 3 4 5 6 7 8 90

20

40

3

1 2 3 4 5 6 7 8 90

20

40

4

1 2 3 4 5 6 7 8 90

20

40

5

1 2 3 4 5 6 7 8 90

20

40

6

1 2 3 4 5 6 7 8 90

20

40

7

1 2 3 4 5 6 7 8 90

20

40

8

1 2 3 4 5 6 7 8 90

20

40

9

1 2 3 4 5 6 7 8 90

20

40

10

1 2 3 4 5 6 7 8 90

20

40

11

1 2 3 4 5 6 7 8 90

20

40

12

Figura C-4: Percentual mensal de notas de empenho referentes ao ano de 2003 por classe de valor para aAdministração Pública. Cada gráfico corresponde a um mês do ano. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7(10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)

1 2 3 4 5 6 7 8 90

20

40

1

1 2 3 4 5 6 7 8 90

20

40

2

1 2 3 4 5 6 7 8 90

20

40

3

1 2 3 4 5 6 7 8 90

20

40

4

1 2 3 4 5 6 7 8 90

20

40

5

1 2 3 4 5 6 7 8 90

20

40

6

1 2 3 4 5 6 7 8 90

20

40

7

1 2 3 4 5 6 7 8 90

20

40

8

1 2 3 4 5 6 7 8 90

20

40

9

1 2 3 4 5 6 7 8 90

20

40

10

1 2 3 4 5 6 7 8 90

20

40

11

1 2 3 4 5 6 7 8 90

20

40

12

Figura C-5: Percentual mensal de notas de empenho referentes ao ano de 2004 por classe de valor para aAdministração Pública. Cada gráfico corresponde a um mês do ano. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7(10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)

- 282 -

1 2 3 4 5 6 7 8 90

20

40

1

1 2 3 4 5 6 7 8 90

20

40

2

1 2 3 4 5 6 7 8 90

20

40

3

1 2 3 4 5 6 7 8 90

20

40

4

1 2 3 4 5 6 7 8 90

20

40

5

1 2 3 4 5 6 7 8 90

20

40

6

1 2 3 4 5 6 7 8 90

20

40

7

1 2 3 4 5 6 7 8 90

20

40

8

1 2 3 4 5 6 7 8 90

20

40

9

1 2 3 4 5 6 7 8 90

20

40

10

1 2 3 4 5 6 7 8 90

20

40

11

1 2 3 4 5 6 7 8 90

20

40

12

Figura C-6: Percentual mensal de notas de empenho em 2005 por classe de valor. Relação de classes devalores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)

135 143 146 148 151 154 1600

20

40

1

135 143 146 148 151 154 1600

20

40

2

135 143 146 148 151 154 1600

20

40

3

135 143 146 148 151 154 1600

20

40

4

135 143 146 148 151 154 1600

20

40

5

135 143 146 148 151 154 1600

20

40

6

135 143 146 148 151 154 1600

20

40

7

135 143 146 148 151 154 1600

20

40

8

135 143 146 148 151 154 1600

20

40

9

135 143 146 148 151 154 1600

20

40

10

135 143 146 148 151 154 1600

20

40

11

135 143 146 148 151 154 1600

20

40

12

Figura C-7: Percentual mensal de notas de empenho em 2003 por natureza da despesa. Apresentadassomente as naturezas de despesa com mais de 1% de notas por mês. Cada gráfico corresponde a um mêsdo ano. 135 - Diárias Civil, 143 - Material de Consumo, 146 – Passagens e Despesas com Locomoção, 148 -Outros Serviços de Terceiros Pessoa Física, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 154 –Obrigações tributárias e Contributivas, 160 – Indenizações e Retribuições

- 283 -

135 143 146 148 151 154 1600

20

40

1

135 143 146 148 151 154 1600

20

40

2

135 143 146 148 151 154 1600

20

40

3

135 143 146 148 151 154 1600

20

40

4

135 143 146 148 151 154 1600

20

40

5

135 143 146 148 151 154 1600

20

40

6

135 143 146 148 151 154 1600

20

40

7

135 143 146 148 151 154 1600

20

40

8

135 143 146 148 151 154 1600

20

40

9

135 143 146 148 151 154 1600

20

40

10

135 143 146 148 151 154 1600

20

40

11

135 143 146 148 151 154 1600

20

40

12

Figura C-8: Percentual mensal de notas de empenho em 2004 por natureza da despesa. Apresentadas NDscom mais de 1% de notas por mês. NDs: 135 - Diárias Civil, 143 - Material de Consumo, 146 – Passagens eDespesas com Locomoção, 148 - Outros Serviços de Terceiros Pessoa Física, 151 - Outros Serviços deTerceiros Pessoa Jurídica, 154 – Obrigações tributárias e Contributivas, 160 – Indenizações e Retribuições

1351361431461481491511541592430

20

40

1

1351361431461481491511541592430

20

40

2

1351361431461481491511541592430

20

40

3

1351361431461481491511541592430

20

40

4

1351361431461481491511541592430

20

40

5

1351361431461481491511541592430

20

40

6

1351361431461481491511541592430

20

40

7

1351361431461481491511541592430

20

40

8

1351361431461481491511541592430

20

40

9

1351361431461481491511541592430

20

40

10

1351361431461481491511541592430

20

40

11

1351361431461481491511541592430

20

40

12

Figura C-9: Percentual mensal de NEs em 2005 por natureza da despesa. Apresentadas NDs com mais de1% de notas por mês. NDs: 135 - Diárias Civil, 136 – Diárias Militar, 143 - Material de Consumo, 146 –Passagens e Despesas com Locomoção, 148 - Outros Serviços de Terceiros Pessoa Física, 149 - Locação deMão de Obra, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 154 – Obrigações tributárias eContributivas, 159 – Despesas de Exercícios Anteriores, 243 - Equipamentos e Material Permanente

- 284 -

APÊNDICE D - EXEMPLO DE ANÁLISE DENOTA DE EMPENHO

Será apresentado a seguir um exemplo de utilização do modelo de detecção proposto na

Tese. Utilizando o piloto implementado, foi feita a seleção de uma nota de empenho

classificada como anômala. Foi usado para isso o módulo de mineração de dados, com o

componente detector baseado em regras nebulosas, utilizando as probabilidades fornecidas

pelo modelo de comportamento baseado em matrizes de probabilidade. O fluxo completo de

detecção é apresentado na Figura D-1.


SiafiEmpenho

da DespesaAnalista



Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da

entidade



Figura D-1: Procedimento completo executado na verificação da nota de empenho

Conforme apresentado no Capítulo 8, foram montados os modelos de comportamento,

baseados em matrizes de probabilidade, para todas as entidades emissoras de empenhos em

2005. Utilizando-se tais modelos foram calculadas as probabilidades referentes a um conjunto

de notas emitidas em 2006, obtendo-se para cada uma um vetor com cinco probabilidades,

referentes às entidades citadas nas notas (órgão, UG, usuário e favorecido) além da

probabilidade de emissão para a Administração.

Utilizando a regra nebulosa (9-6), apresentada na Seção 9.2.4, foi selecionado um

conjunto de notas julgadas pelo sistema como de normalidade baixa. Entre elas está a nota

que será analisada em detalhes a seguir, contendo as seguintes características:

- Modalidade de licitação (ML): Inexigibilidade, código 7;

- 285 -

- Natureza da despesa (ND): Material de consumo (19)(I) – 3.3.91.30, código 166;

- Valor (CV): código 4.

O sistema informa apenas que todas as probabilidades fornecidas pelos modelos de

comportamento têm valor zero, indicando que nenhuma nota emitida pelas entidades

relacionadas no ano de 2005 tem a combinação de atributos da nota selecionada.

Caberia então ao analista julgar a nota quanto à existência ou não de irregularidades. No

modelo de detecção proposto é sugerida a apresentação de um relatório de comportamento

(ver Figura D-1) juntamente com a nota selecionada, de forma a subsidiar o julgamento a ser

realizado pelo analista. Esse relatório conteria informações sobre o comportamento das

entidades referenciadas na nota marcada como anômala. Um exemplo parcial das informações

sugeridas para o relatório encontram-se na Tabela D-1. Tais informações foram extraídas das

análises do Capítulo 7. Não foram transcritos os gráficos de distribuição cruzada de NEs (por

mais de um atributo simultaneamente) nem sobre a emissão mensal das entidades.

Pela análise das informações presentes na Tabela D-1 constata-se que o uso da

modalidade de licitação 7, apesar de não ter uso destacado pelas entidades e legalmente ser de

uso excepcional, apresenta probabilidade aceitável para as entidades relacionadas na nota

(entre 5% e 10%). Em particular para o favorecido, verifica-se que em torno de 38% das notas

recebidas por ele utilizaram essa modalidade. Esse percentual alto é explicável por tratar-se

do Fundo de Imprensa Nacional, sendo provavelmente fornecedor exclusivo de alguns

materiais, como é o caso do produto citado na nota analisada, daí ser procedente o uso da

modalidade inexigibilidade.

- 286 -

Tabela D-1: Informações sugeridas para o relatório de comportamento sobre as entidades citadas na notade empenho classificada como anômala pelo modelo de detecção

Natureza da Despesa Modalidade de Licitação Classe de Valor

Adm

inis

traç

ão

135 136 143 146 148 151 154 160 170 243 2810

10

20

30

40

50

60

ND

% N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es


Órg

ão

135 143 146 148 149 151 154 159 160 2430

10

20

30

40

50

60

ND

% N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es


UG

143 149 151 159 160 169 2430

10

20

30

40

50

60

ND

% N

Es


1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

40

45

50


% N

Es


1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

Valor

% N

Es


Usu

ário

143 149 151 159 169 2430

10

20

30

40

50

60

70

80

90

100

ND

% N

Es

1 2 3 4 5 6 7 8 9 10 11 120

5

10

15

20

25

30

35

ML

% N

Es

1 2 3 4 5 6 7 8 90

5

10

15

20

25

30

35

40

CV

% N

Es

Fav

orec

ido

169 173 2500

10

20

30

40

50

60

70

80

90

100

ND

% N

Es

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

ML

% N

Es

1 2 3 4 5 6 7 8 90

5

10

15

20

25

30

35

40

45

CV

% N

Es

- 287 -

Ainda segundo a Tabela D-1, uma nota com valor de categoria 4 também está dentro de

limites de probabilidade aceitáveis, variando entre 10% e 35% para as entidades em análise. O

usuário emissor por exemplo tem 35% de suas notas emitidas nessa categoria.

Constata-se que o problema levantado pelo sistema em relação à nota está ligado à

natureza da despesa utilizada. Na Tabela D-1, para as entidades relacionadas, não aparece o

uso da natureza 166. Chama atenção o gráfico do favorecido, indicando que o mesmo trabalha

com poucas naturezas de despesa, entre as quais não aparecendo a utilizada na nota

selecionada. A natureza da despesa código 166 passou a ser utilizada somente em 2006, ou

seja, fora do período utilizado para a criação dos modelos de comportamento.

Conseqüentemente todos os modelos indicarão probabilidade zero para notas que utilizem

essa natureza.

Pelas informações levantadas até o momento já seria possível afirmar com alguma

certeza que a nota em questão não é um evento ilegal. A posterior verificação do objeto da

compra constatou que todo o procedimento foi regular.

Da análise apresentada podem ser tiradas algumas observações relevantes:

- Em função dos dados armazenados nos modelos de comportamento, o sistema

cumpriu corretamente o seu papel classificando a nota como anômala;

- A posterior verificação manual por um analista, das NEs classificadas como

anômalas, é fundamental para concluir-se pela presença ou não de irregularidades. O

sistema não pode ser o responsável único por tal classificação. O modelo proposto é

um auxiliar ao trabalho do auditor, realizando uma filtragem inicial dos documentos

que serão posteriormente analisados, reduzindo assim a carga de trabalho do analista

e focando sua atenção em eventos com maior probabilidade de apresentarem

irregularidades;

- 288 -

- A escolha do período de treinamento bem como a atualização dos modelos de

comportamento é fundamental para a qualidade dos resultados obtidos. As

mudanças de regras, como a ocorrida em relação à natureza da despesa usada na

nota analisada, devem ser constantemente monitoradas, principalmente após a

implementação do módulo baseado em sistema especialista.

- 289 -

APÊNDICE E – TREINAMENTO DAS REDESNEURAIS

O treinamento de todas as redes utilizadas ao longo do trabalho seguiu procedimento

semelhante ao descrito a seguir. A apresentação será acompanhada de um exemplo prático

para permitir sua melhor compreensão. O exemplo escolhido foi o treinamento de uma rede

para modelar o comportamento de uma UG na emissão de empenhos. Os mesmos passos

utilizados se aplicam ao treinamento do comportamento das demais entidades (Capítulo 8) e

das redes utilizadas para a detecção de anomalias (Capítulo 9).

As notas usadas no treinamento das entidades foram todas as emitidas durante um ano.

No exemplo foram selecionadas as 723 notas emitidas pela UG-Sede do TCU em 2005. Cria-

se uma matriz contendo as informações dos três atributos de interesse referentes a cada NE

(nes_reais_treinamento). A Figura E-1 apresenta o conjunto de NEs reais para treinamento.

0

50

100

150

200

250

2

4

6

8

10

121

2

3

4

5

6

7

8

Natureza da Despesa

NEs por ND, ML e CV - TCU-UG-Sede Ano 2005


Cla

sse

Val

or

Figura E-1: Notas de empenho usadas para treinamento. A figura indica o modelo de comportamento aser aprendido pela rede

- 290 -

Para garantir que nenhum atributo esteja sendo desnecessariamente utilizado, é feita

uma análise PCA do vetor de treinamento. Para maiores detalhes sobre a técnica consultar

Dillon e Goldstein (1984). A análise produz três vetores ortogonais entre si, formando uma

base ortonormal para os dados originais. Projetando-se os dados no primeiro vetor (primeiro

componente principal), obtém-se uma nova variável cuja variância é máxima entre todas as

escolhas possíveis para esse primeiro eixo. Da mesma forma ocorre em relação às projeções

sobre os demais eixos, com variâncias sucessivamente menores. Criando um gráfico de pareto

com as variâncias para o exemplo em análise, obtém-se a Figura E-2.

1 2 30

10

20

30

40

50

60

70

80

90

Componentes principais

Per

cent

ual d

e va

rianc

ia

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

Figura E-2: Variâncias correspondentes aos três PCAs

Caso uma parcela dos componentes fosse responsável pela maior parte da variância,

mais de 80% segundo Beale, Demuth e Hagan (2007), indicaria que o conjunto de variáveis

originais poderia ser reduzido, pois algumas delas seriam meras combinações das restantes.

No caso da Figura E-2, apesar dos dois primeiros componentes serem responsáveis por 78%

da variância, a contribuição do terceiro não pode ser desprezada, principalmente considerando

o pequeno número de componentes, concluindo-se que as três variáveis originais são

significativas para a análise.

- 291 -

O segundo passo do treinamento é a geração de NEs simuladas. É criada uma matriz

com três colunas (nes_sim_treinamento), representando os três atributos em análise (ND, ML

e CV). Cada linha tem seus valores aleatoriamente gerados dentro dos limites de variação dos

respectivos atributos. O número de linhas representa o número de NEs anômalas a serem

usadas durante o treinamento. Esse valor é uma das variáveis alteradas durante o treinamento,

até que seja obtido o melhor resultado. A Figura E-3 apresenta o conjunto de NEs simuladas

para treinamento, distribuídas de maneira uniforme, considerando uma cobertura de 10% do

espaço de entrada (3.413 notas simuladas).

050

100150

200250

300350

0

2

4

6

8

10

121

2

3

4

5

6

7

8

9

Natureza da Despesa

NEs simuladas por ND, ML e CV


Cla

sse

Val

or

Figura E-3: NEs simuladas para treinamento. No exemplo há 10% de cobertura do espaço de entrada

O conjunto completo de treinamento é formado pela junção da matriz de notas reais

(nes_reais_treinamento) com a de notas simuladas (nes_sim_treinamento).

A rede criada é do tipo Backpropagation, como descrita na Seção 4.4. O treinamento é

feito em lote, ou seja, todo o conjunto de treino é apresentado à rede, os gradientes de cada

- 292 -

exemplo são somados e ao final os pesos são ajustados. O erro é calculado pela média da

soma dos quadrados dos erros.

O algoritmo de treinamento usado foi Levenberg-Marquardt, descrito em Hagan e

Menhaj (1994). As variáveis de entrada foram normalizadas para terem média "zero" e desvio

padrão "um". A variável de saída não foi normalizada, assumindo valor "zero" para NEs

anômalas e "um" para NEs normais.

O ajuste dos pesos (dw) leva em conta o ajuste do ciclo anterior (dwp), um termo de

momentum (mc), a taxa de aprendizado (lr) e o gradiente do erro atual (gw) calculado pelo

algorítmo Backpropagation:

dw = mc x dwp + (1 - mc) x lr x gw (E-1)

Após o treinamento, a rede é avaliada em dois conjuntos de teste, o primeiro formado

por NEs verdadeiras emitidas pela mesma entidade num período diferente do de treinamento,

o segundo conjunto de teste composto por NEs simuladas, conforme o procedimento descrito

anteriormente.

No exemplo selecionou-se as 960 notas emitidas pela UG-Sede do TCU em 2006 como

primeiro conjunto, apresentadas na Figura E-4. A imagem do segundo conjunto de teste,

composto por NEs simuladas, é semelhante ao da Figura E-3, não sendo portanto necessário

apresentá-la.

A Figura E-5 apresenta simultaneamente as NEs verdadeiras do conjunto de

treinamento e de teste, possibilitando avaliar o quanto os dois conjuntos diferem.

- 293 -

0

50

100

150

200

250

2

4

6

8

10

121

2

3

4

5

6

7

8

Natureza da Despesa

NEs por ND, ML e CV - TCU-UG-Sede Ano 2006


Cla

sse

Val

or

Figura E-4: NEs para teste

0

50

100

150

200

250

2

4

6

8

10

121

2

3

4

5

6

7

8

Natureza da Despesa

NEs por ND, ML e CV - Treinamento(*) e Teste(o)


Cla

sse

Val

or

Figura E-5: NEs para treinamento ("*") e NEs para teste ("0"). Na figura é possível perceber o quanto omodelo de comportamento usado para treinamento aproxima-se do modelo para teste. Os pontos nãocoincidentes dos dois modelos representam combinações para as quais a rede terá que generalizar oaprendizado do conjunto de treinamento

- 294 -

A avaliação feita no teste da rede mediu o percentual de NEs verdadeiras classificadas

pela rede como anômalas (falsos positivos) e o percentual de NEs simuladas classificadas

como anômalas (verdadeiros positivos). A diferenciação entre NEs anômalas e normais é feita

quando a saída da rede excede o valor 0,5. Vale destacar que esse critério é variável.

Foram testadas diversas combinações de arquitetura e cobertura. A arquitetura da rede

variou da seguinte forma: o número de camadas (2 e 3 camadas ocultas), a função de

transferência nas camadas (logsig e tansig) e o número de neurônios por camada, de 5 a 10

para a primeira camada oculta, de 3 a 5 para a segunda (quando usada), tendo a camada de

saída sempre 1 neurônio.

A cobertura pelas NEs simuladas variou entre 3% e 10% do espaço de entrada. Para

cada combinação de arquitetura e cobertura foram treinadas dez redes idênticas, totalizando

960 redes treinadas. As de melhor desempenho em cada categoria são apresentados na Tabela

E-1.

Tabela E-1: Número de redes selecionadas dentro do critério de menos de 10% de falsos positivos e maisde 90% de verdadeiros positivos

Percentual decobertura

Número decamadas ocultas

Função detransferência

Número deredes treinadas

Número de redesselecionadas

3% 2 logsig 60 403% 2 tansig 60 113% 3 logsig 180 1303% 3 tansig 180 116

10% 2 logsig 60 1610% 2 tansig 60 210% 3 logsig 180 5110% 3 tansig 180 69

A Figura E-5 e Figura E-6 dão uma idéia do desempenho de cada arquitetura e

cobertura.

- 295 -

0 1 2 3 4 5 6 7 8 9 1090

91

92

93

94

95

96

97

98

99

100

falsos positivos

verd

adei

ros

posi

tivos

3% - 2 cam. logsig(.) - 2 cam. tansig(o) - 3 cam. logsig(*) - 3 cam. tansig(x)

Figura E-5: Desempenho das redes melhor classificadas para o treinamento com cobertura de 3%. Osignificado dos pontos é: 2 camadas com função logsig (.), 2 camadas com função tansig (o), 3 camadascom função logsig (*) e 3 camadas com função tansig (x)

0 1 2 3 4 5 6 7 8 9 1090

91

92

93

94

95

96

97

98

99

100

falsos positivos

verd

adei

ros

posi

tivos

10% - 2 cam. logsig(.) - 2 cam. tansig(o) - 3 cam. logsig(*) - 3 cam. tansig(x)

Figura E-6: Desempenho das redes melhor classificadas para o treinamento com cobertura de 10%. Osignificado dos pontos é: 2 camadas com função logsig (.), 2 camadas com função tansig (o), 3 camadascom função logsig (*) e 3 camadas com função tansig (x)

- 296 -

A cobertura de 3% com 3 camadas e função logsig foi a combinação que apresentou

melhores resultados, considerando como critério de julgamento o número de redes que

alcançaram percentual de falsos positivos inferior a 10% e de verdadeiros positivos superior a

90%. A cobertura de 3% possibilita obter menos falsos positivos, já a cobertura de 10%

permite obter mais verdadeiros positivos. O desempenho de algumas arquiteturas é muito

semelhante, não se podendo concluir decisivamente por uma arquitetura ideal.

As melhores redes, considerando percentual de falsos positivos inferior a 5% e de

verdadeiros positivos superior a 96%, são apresentadas na Tabela E-2, detalhando o número

de neurônios nas camadas ocultas.

Tabela E-2: As colunas dois e três detalham o número de neurônios nas camadas um e dois. FP indicafalsos positivos e VP verdadeiros positivos. A linha destacada marca a rede considerada de melhordesempenho

Função Cobertura Camada 1 Camada 2 FP Treino VP Treino FP Teste VP Testelogsig 3% 6 4 0,14 97,56 2,71 96,19logsig 3% 6 4 3,32 97,36 3,75 96,48logsig 3% 7 5 0,97 97,46 3,85 96,48logsig 3% 8 4 0,83 97,75 3,54 96,19logsig 3% 9 5 0,83 97,36 4,17 96,09logsig 3% 10 5 0 98,34 3,23 96,09logsig 10% 6 4 3,87 98,18 4,38 97,42logsig 10% 7 5 2,07 98,48 4,79 97,39logsig 10% 8 4 4,29 98,56 4,48 97,39logsig 10% 8 5 1,80 98,65 4,90 97,86logsig 10% 9 3 2,63 98,15 4,90 96,75tansig 10% 10 3 2,90 98,18 4,79 97,22tansig 10% 10 5 4,01 98,12 4,38 97,13

A rede com arquitetura [10/logsig, 5/logsig, 1/logsig] foi escolhida como a de melhor

resultado. Foram feitas ainda 50 tentativas de treinamento com essa arquitetura. A rede de

melhor resultado foi então testada variando o limite de detecção (saída da rede) entre 0,1 e

0,99. Parte dos resultados estão na Figura E-7. Para o limite de 0,67 a rede apresenta 3,02%

de falsos positivos e 96,88% de verdadeiros positivos.

- 297 -

0 1 2 3 4 5 6 7 8 9 1092

93

94

95

96

97

98

99

100

falsos positivos

verd

adei

ros

posi

tivos

Figura E-7: Desempenho da rede variando o limiar de detecção

O percentual de 3,02% de falsos positivos corresponde a 29 NEs entre as 960 testadas,

que seriam analisadas manualmente, teoricamente sem necessidade. Esse resultado merece no

entanto uma análise mais detalhada, nas 29 NEs aparentemente classificadas de forma

equivocada, encontram-se 27 NEs cuja combinação de atributos não existiu no treinamento,

para as quais a rede não generalizou a classificação "normal". Essas NEs, apesar de terem sido

emitidas pela entidade, apresentam combinação de atributos pouco comuns. Apesar de serem

NEs regulares, mereceriam uma análise detalhada. Dessa forma, não se pode considerar os

3,02% de falsos positivos um erro real da rede. Na verdade, não é possível medir

precisamente o que seria considerado como erro uma vez que a detecção objetiva selecionar

notas com comportamento pouco comum, cabendo ao analista variar o limite de detecção em

função da quantidade de notas selecionadas passíveis de análise manual.

Livros Grátis( http://www.livrosgratis.com.br )

Milhares de Livros para Download: Baixar livros de AdministraçãoBaixar livros de AgronomiaBaixar livros de ArquiteturaBaixar livros de ArtesBaixar livros de AstronomiaBaixar livros de Biologia GeralBaixar livros de Ciência da ComputaçãoBaixar livros de Ciência da InformaçãoBaixar livros de Ciência PolíticaBaixar livros de Ciências da SaúdeBaixar livros de ComunicaçãoBaixar livros do Conselho Nacional de Educação - CNEBaixar livros de Defesa civilBaixar livros de DireitoBaixar livros de Direitos humanosBaixar livros de EconomiaBaixar livros de Economia DomésticaBaixar livros de EducaçãoBaixar livros de Educação - TrânsitoBaixar livros de Educação FísicaBaixar livros de Engenharia AeroespacialBaixar livros de FarmáciaBaixar livros de FilosofiaBaixar livros de FísicaBaixar livros de GeociênciasBaixar livros de GeografiaBaixar livros de HistóriaBaixar livros de Línguas










http://www.livrosgratis.com.br/cat_1/administracao/1







http://www.livrosgratis.com.br/cat_2/agronomia/1







http://www.livrosgratis.com.br/cat_3/arquitetura/1







http://www.livrosgratis.com.br/cat_4/artes/1







http://www.livrosgratis.com.br/cat_5/astronomia/1







http://www.livrosgratis.com.br/cat_6/biologia_geral/1









http://www.livrosgratis.com.br/cat_8/ciencia_da_computacao/1











http://www.livrosgratis.com.br/cat_9/ciencia_da_informacao/1











http://www.livrosgratis.com.br/cat_7/ciencia_politica/1









http://www.livrosgratis.com.br/cat_10/ciencias_da_saude/1











http://www.livrosgratis.com.br/cat_11/comunicacao/1







http://www.livrosgratis.com.br/cat_12/conselho_nacional_de_educacao_-_cne/1















http://www.livrosgratis.com.br/cat_13/defesa_civil/1









http://www.livrosgratis.com.br/cat_14/direito/1







http://www.livrosgratis.com.br/cat_15/direitos_humanos/1









http://www.livrosgratis.com.br/cat_16/economia/1







http://www.livrosgratis.com.br/cat_17/economia_domestica/1









http://www.livrosgratis.com.br/cat_18/educacao/1







http://www.livrosgratis.com.br/cat_19/educacao_-_transito/1









http://www.livrosgratis.com.br/cat_20/educacao_fisica/1









http://www.livrosgratis.com.br/cat_21/engenharia_aeroespacial/1









http://www.livrosgratis.com.br/cat_22/farmacia/1







http://www.livrosgratis.com.br/cat_23/filosofia/1







http://www.livrosgratis.com.br/cat_24/fisica/1







http://www.livrosgratis.com.br/cat_25/geociencias/1







http://www.livrosgratis.com.br/cat_26/geografia/1







http://www.livrosgratis.com.br/cat_27/historia/1







http://www.livrosgratis.com.br/cat_31/linguas/1







Baixar livros de LiteraturaBaixar livros de Literatura de CordelBaixar livros de Literatura InfantilBaixar livros de MatemáticaBaixar livros de MedicinaBaixar livros de Medicina VeterináriaBaixar livros de Meio AmbienteBaixar livros de MeteorologiaBaixar Monografias e TCCBaixar livros MultidisciplinarBaixar livros de MúsicaBaixar livros de PsicologiaBaixar livros de QuímicaBaixar livros de Saúde ColetivaBaixar livros de Serviço SocialBaixar livros de SociologiaBaixar livros de TeologiaBaixar livros de TrabalhoBaixar livros de Turismo

http://www.livrosgratis.com.br/cat_28/literatura/1







http://www.livrosgratis.com.br/cat_30/literatura_de_cordel/1











http://www.livrosgratis.com.br/cat_29/literatura_infantil/1









http://www.livrosgratis.com.br/cat_32/matematica/1







http://www.livrosgratis.com.br/cat_33/medicina/1







http://www.livrosgratis.com.br/cat_34/medicina_veterinaria/1









http://www.livrosgratis.com.br/cat_35/meio_ambiente/1









http://www.livrosgratis.com.br/cat_36/meteorologia/1







http://www.livrosgratis.com.br/cat_45/monografias_e_tcc/1







http://www.livrosgratis.com.br/cat_37/multidisciplinar/1





http://www.livrosgratis.com.br/cat_38/musica/1







http://www.livrosgratis.com.br/cat_39/psicologia/1







http://www.livrosgratis.com.br/cat_40/quimica/1







http://www.livrosgratis.com.br/cat_41/saude_coletiva/1









http://www.livrosgratis.com.br/cat_42/servico_social/1









http://www.livrosgratis.com.br/cat_43/sociologia/1







http://www.livrosgratis.com.br/cat_44/teologia/1







http://www.livrosgratis.com.br/cat_46/trabalho/1







http://www.livrosgratis.com.br/cat_47/turismo/1







Mineração de Dados Aplicada ao Sistema Integrado de...

Documents

Transcript of Mineração de Dados Aplicada ao Sistema Integrado de...