Mineração de Dados Aplicada ao Sistema Integrado de...
Transcript of Mineração de Dados Aplicada ao Sistema Integrado de...
Laboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem Computacional
Mineração de Dados Aplicada ao Sistema Integrado deAdministração Financeira do Governo Federal – SIAFI:
Detecção de Anomalias na Emissão de Notas de Empenho
Eduardo Chaves Ferreira
Orientador: Renato Simões Silva, D.Sc.
Co-orientador: Augusto César Noronha Rodrigues Galeão, D.Sc.
Petrópolis, RJ - BrasilJunho de 2008
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
MINERAÇÃO DE DADOS APLICADA AO SISTEMA INTEGRADO DEADMINISTRAÇÃO FINANCEIRA DO GOVERNO FEDERAL – SIAFI: DETECÇÃO DE
ANOMALIAS NA EMISSÃO DE NOTAS DE EMPENHO
Eduardo Chaves Ferreira
TESE SUBMETIDA AO CORPO DOCENTE DO LABORATÓRIO NACIONAL DECOMPUTAÇÃO CIENTÍFICA COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA AOBTENÇÃO DO GRAU DE DOUTOR EM MODELAGEM COMPUTACIONAL
Aprovada por:
_________________________________________________Prof. Renato Simões Silva, D.Sc. (Presidente)
_________________________________________________Prof. Augusto César Noronha Rodrigues Galeão, D.Sc.
_________________________________________________Prof. Antônio José da Silva Neto, Ph.D.
_________________________________________________Prof. Emmanuel Piseces Lopes Passos, D.Sc.
_________________________________________________Prof. Nelson Francisco Favilla Ebecken, D.Sc.
_________________________________________________Prof. Paulo César Marques Vieira, D.Sc.
PETRÓPOLIS, RJ – BRASIL, JUNHO DE 2008
PETRÓPOLIS, RJ – BRASILJUNHO DE 2008
III
Ferreira, Eduardo Chaves
F383m Mineração de dados aplicada ao sistema integrado de administração financeira do governofederal – SIAFI : detecção de anomalias na emissão de notas de empenho / Eduardo Chaves Ferreira-- Petrópolis, RJ. : Laboratório Nacional de Computação Científica, 2008.
XIX, 297 p.: il. ; 29,7 cm.
Orientadores : Augusto César Noronha Rodrigues Galeão ; Renato Simões Silva.
Tese (doutorado) – Laboratório Nacional de Computação Científica, 2008.
1. Orçamento – Brasil - Exploração de dados (computação) 2. Orçamento – Brasil – Métodosestatísticos 3. Redes neurais (Computação) 4. Detecção de Anomalias I. Galeão, Augusto CésarNoronha Rodrigues II. Silva, Renato Simões III. MCT/LNCC; IV.Título
CDD – 352.409 81
IV
Dedicatória
Aos meus pais, Elza e Anibal, pela dedicaçãodurante toda a minha vida e, principalmente, pela
importância que sempre deram a minha educação.
A minha esposa Bianca, pela compreensão eapoio, antes e durante a realização deste trabalho, sem
você não teria sido possível alcançar meu objetivo.
V
Agradecimentos
• Ao Instituto Militar de Engenharia, onde fiz minha graduação e por terposteriormente permitido a realização do meu doutorado;
• Ao Laboratório Nacional de Computação Científica, onde encontrei umambiente agradável e receptivo, com profissionais de excepcional qualidade.Agradeço aos professores e aos demais funcionários, todos sempre atenciosose prestativos;
• Ao Tribunal de Contas da União, por ter permitido a realização destetrabalho;
• Ao professor Renato, não só pela amizade e orientação, como também pelaliberdade que sempre me deu na escolha dos temas do trabalho;
• Ao professor Galeão, pela orientação e sugestões dadas em relação aotrabalho;
• Aos professores que participaram das bancas de avaliação, em particular aoprofessor Emmanuel, que já havia sido meu professor na graduação, pelainspiração e conselhos;
• Aos colegas do TCU, pelo apoio e incentivo durante a realização do trabalho.Em particular a Daniel Dias Pereira, pela orientação referente ao tema daTese, sem a qual este trabalho não teria sido possível;
• Aos colegas de doutorado, em particular ao amigo Anderson, pela ajudadurante a realização das cadeiras e pelos conselhos sobre o trabalho final.
VI
Resumo da Tese apresentada ao LNCC/MCT como parte dos requisitos necessários para aobtenção do grau de Doutor em Ciência (D.Sc.)
MINERAÇÃO DE DADOS APLICADA AO SISTEMA INTEGRADO DEADMINISTRAÇÃO FINANCEIRA DO GOVERNO FEDERAL – SIAFI: DETECÇÃO DE
ANOMALIAS NA EMISSÃO DE NOTAS DE EMPENHO
Eduardo Chaves Ferreira
Junho, 2008
Orientador: Renato Simões Silva, D.Sc.
Co-orientador: Augusto César Noronha Rodrigues Galeão, D.Sc.
Esta Tese tem por objetivo propor um modelo para a detecção automática de indícios deirregularidades na execução da despesa pública, baseado em dados extraídos do SistemaIntegrado de Administração Financeira do Governo Federal - SIAFI. O modelo proposto foidesenvolvido para atuar como ferramenta auxiliar ao trabalho de fiscalização daAdministração Pública executado pelo Tribunal de Contas da União.
As análises realizadas pelo modelo baseiam-se em dois procedimentos complementares:sistema especialista e mineração de dados. A primeira alternativa permite criar um repositóriode regras de conhecimento, extraídas da legislação e da experiência de analistas do TCU. Amineração de dados busca de forma automática informações não triviais, que não possam serfacilmente explicitadas através das regras de conhecimento.
A principal contribuição do trabalho é a sistematização do procedimento de detecção,detalhando os componentes do modelo e a interação entre eles. Com o objetivo de validar omodelo proposto, é feita a implementação do componente de mineração de dados,caracterizado no trabalho por um modelo matemático de comportamento quanto à execuçãoda despesa e por algoritmos que, utilizando o modelo de comportamento, permitem detectarindícios de irregularidades. O componente de mineração de dados foi implementado com ouso de técnicas estatísticas, redes neurais e lógica nebulosa.
VII
Abstract of Thesis presented to LNCC/MCT as a partial fulfillment of the requirements forthe degree of Doctor of Science (D.Sc.)
Data Mining Applied to the Sistema Integrado de Administração Financeira do GovernoFederal – SIAFI: Auditing the Application of Federal Funds
Eduardo Chaves Ferreira
June, 2008
Advisor: Renato Simões Silva, D.Sc.
Co-advisor: Augusto César Noronha Rodrigues Galeão, D.Sc.
In this work we propose a model to automatically detect irregularities in application offederal funds that may cause losses to the public treasury. The model uses data from theSistema Integrado de Administração Financeira do Governo Federal - SIAFI. This model wascreated to help the Brazilian Court of Audit (TCU) in auditing the application of federalfunds.
The model has two modules, one is an expert system that will have the rules take formthe legislation and from the experience of experts from TCU. The other module is a datamining module, that is composed by Behavior model and the detection part that uses Statisticstechniques, Neural Networks and Fuzzy Logic to detect possible irregularities.
VIII
SUMÁRIO
LISTA DE ILUSTRAÇÕES..........................................................................XIV
LISTA DE TABELAS.................................................................................. XVII
LISTA DE ABREVIATURAS E SIGLAS................................................XVIII
1 INTRODUÇÃO ............................................................................................. 1
1.1 MOTIVAÇÃO ..............................................................................................................11.2 OBJETIVOS DO TRABALHO....................................................................................31.3 DESCRIÇÃO E ESCOPO DO TRABALHO...............................................................41.4 CONTRIBUIÇÕES.......................................................................................................61.5 ORGANIZAÇÃO DA TESE ........................................................................................7
2 TRABALHOS RELACIONADOS .............................................................. 9
2.1 INTRODUÇÃO ............................................................................................................92.2 SISTEMAS DETECTORES DE INTRUSÃO ...........................................................102.3 CLASSIFICAÇÃO NÃO SUPERVISIONADA: DETECÇÃO DE ANOMALIASPOR PROCEDIMENTOS ESTATÍSTICOS........................................................................12
2.3.1 Clusterização para a Criação de Perfis.....................................................................142.4 CLASSIFICAÇÃO NÃO SUPERVISIONADA: SIMULAÇÃO DE CASOSANÔMALOS ........................................................................................................................152.5 FORMALIZAÇÃO DO CONHECIMENTO ATRAVÉS DE REGRASNEBULOSAS .......................................................................................................................162.6 COMBINAÇÃO DE PROCEDIMENTOS ESTATÍSTICOS E DE INTELIGÊNCIACOMPUTACIONAL ............................................................................................................172.7 PROCESSOS DE TRABALHO PARA A EXECUÇÃO DE MINERAÇÃO DEDADOS .................................................................................................................................182.8 EMPREGO PRÁTICO DE TÉCNICAS AUTOMÁTICAS PARA A DESCOBERTADE IRREGULARIDADES...................................................................................................19
3 DESCOBERTA DE CONHECIMENTO.................................................. 24
3.1 INTRODUÇÃO ..........................................................................................................243.2 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS..........................24
3.2.1 Definições: Data Warehouse, linguagem SQL e ferramentas OLAP/OLTP...........263.3 PRIMEIRA ETAPA DE KDD: PRÉ-PROCESSAMENTO.......................................28
3.3.1 Representação dos dados .........................................................................................283.3.2 Tipos de variáveis ....................................................................................................303.3.3 Seleção e redução dos dados....................................................................................313.3.4 Limpeza de dados ....................................................................................................333.3.5 Codificação ..............................................................................................................33
3.4 SEGUNDA ETAPA DE KDD: MINERAÇÃO DE DADOS ....................................343.4.1 Tarefas da etapa de Mineração de Dados ................................................................35
IX
3.4.1.1 Análise de Séries Temporais .............................................................................363.4.1.2 Classificação......................................................................................................363.4.1.3 Regressão ..........................................................................................................383.4.1.4 Importância de atributos e extração de características ......................................383.4.1.5 Detecção de anomalias ou desvios ....................................................................393.4.1.6 Segmentação ou clusterização...........................................................................403.4.1.7 Análise de associações ou dependências e padrões seqüenciais .......................423.4.1.8 Sumarização e análise exploratória ...................................................................42
3.4.2 Métodos e Técnicas de Mineração de Dados...........................................................433.4.3 Algoritmos ...............................................................................................................45
3.5 TERCEIRA ETAPA DE KDD: PÓS-PROCESSAMENTO ......................................473.5.1 Linguagens de programação ....................................................................................483.5.2 Redes semânticas .....................................................................................................483.5.3 Lógica matemática ...................................................................................................483.5.4 Árvores de decisão...................................................................................................493.5.5 Estatística .................................................................................................................493.5.6 Regras de produção..................................................................................................493.5.7 Regras de associação................................................................................................503.5.8 Redes neurais artificiais ...........................................................................................503.5.9 Clusters ....................................................................................................................513.5.10 Representação baseada em instâncias...................................................................513.5.11 Casos.....................................................................................................................51
3.6 PROCESSO DE MINERAÇÃO DE DADOS: CRISP-DM.......................................523.6.1 Fases do modelo CRISP-DM...................................................................................53
4 TÉCNICAS E ALGORITMOS DE MINERAÇÃO DE DADOSUTILIZADOS.................................................................................................... 56
4.1 INTRODUÇÃO ..........................................................................................................564.2 ANÁLISE ESTATÍSTICA .........................................................................................57
4.2.1 Variáveis aleatórias..................................................................................................574.2.1.1 Distribuições discretas de probabilidade...........................................................594.2.1.2 Variáveis aleatórias contínuas...........................................................................594.2.1.3 Distribuições conjuntas .....................................................................................604.2.1.4 Cálculo das funções distribuição de probabilidade para variáveis discretas.....614.2.1.5 Medidas de tendência, dispersão e dependência para variáveis aleatóriasdiscretas ..........................................................................................................................62
4.2.2 Inferência estatística.................................................................................................644.2.3 Referências adicionais .............................................................................................65
4.3 CLUSTERIZAÇÃO....................................................................................................654.3.1 Formas de aprendizagem .........................................................................................664.3.2 Medidas de similaridade e critério de qualidade......................................................684.3.3 Algoritmo K-Means .................................................................................................694.3.4 Referências adicionais .............................................................................................70
4.4 REDES NEURAIS......................................................................................................704.4.1 Modelagem dos neurônios artificiais .......................................................................714.4.2 Definição da arquitetura da rede ..............................................................................714.4.3 Função custo ............................................................................................................724.4.4 Regra de aprendizagem............................................................................................72
X
4.4.5 Redes Backpropagation ...........................................................................................734.4.5.1 Treinamento ......................................................................................................74
4.4.6 Referências adicionais .............................................................................................784.5 SISTEMAS ESPECIALISTAS...................................................................................78
4.5.1 Representação do conhecimento..............................................................................804.5.2 Mecanismo de inferência .........................................................................................81
4.6 LÓGICA NEBULOSA ...............................................................................................814.6.1 Conjuntos nebulosos ................................................................................................824.6.2 Variáveis lingüísticas ...............................................................................................844.6.3 Operações com conjuntos nebulosos .......................................................................854.6.4 Relação e composição nebulosas .............................................................................85
4.7 SISTEMAS DE LÓGICA NEBULOSA.....................................................................864.7.1 Referências adicionais .............................................................................................90
5 ORÇAMENTO PÚBLICO......................................................................... 91
5.1 INTRODUÇÃO ..........................................................................................................915.2 ORÇAMENTO PÚBLICO .........................................................................................91
5.2.1 Plano Plurianual .......................................................................................................935.2.2 Lei de Diretrizes Orçamentárias ..............................................................................945.2.3 Lei Orçamentária Anual...........................................................................................94
5.3 CICLO ORÇAMENTÁRIO........................................................................................955.3.1 Elaboração da proposta orçamentária ......................................................................965.3.2 Discussão e aprovação da proposta orçamentária....................................................965.3.3 Execução da Lei Orçamentária ................................................................................965.3.4 Avaliação da execução orçamentária.......................................................................97
5.4 EXECUÇÃO ORÇAMENTÁRIA E FINANCEIRA .................................................975.4.1 Execução financeira .................................................................................................98
5.5 RECEITA PÚBLICA................................................................................................1005.5.1 Estágios ou fases da receita orçamentária..............................................................100
5.6 DESPESA PÚBLICA ...............................................................................................1015.6.1 Estágios ou fases da despesa orçamentária............................................................1035.6.2 Créditos adicionais.................................................................................................1065.6.3 Restos a pagar ........................................................................................................1065.6.4 Despesas de exercícios anteriores..........................................................................107
5.7 LICITAÇÕES............................................................................................................1075.8 CONTROLE DA ADMINISTRAÇÃO PÚBLICA ..................................................109
5.8.1 Tribunal de Contas da União .................................................................................1105.9 SISTEMAS DE INFORMAÇÃO DA ADMINISTRAÇÃO PÚBLICA..................112
5.9.1 SIAFI......................................................................................................................1145.9.1.1 Principais objetivos do sistema .......................................................................1145.9.1.2 Subsistemas do Siafi .......................................................................................1145.9.1.3 Principais documentos.....................................................................................115
5.9.2 Projeto Síntese .......................................................................................................116
6 MODELO PARA DETECÇÃO DE IRREGULARIDADES NAEXECUÇÃO DA DESPESA .......................................................................... 118
6.1 INTRODUÇÃO ........................................................................................................118
XI
6.1.1 Implementação prática para validação do modelo.................................................1196.2 INFORMAÇÕES DE ENTRADA DO MODELO...................................................1216.3 MÓDULOS DE DETECÇÃO ..................................................................................122
6.3.1 Módulo Sistema Especialista .................................................................................1236.3.2 Módulo de Mineração de Dados ............................................................................124
6.3.2.1 Procedimento geral de classificação usado no módulo de mineração ............1276.3.2.2 Implementação dos modelos de comportamento ............................................1296.3.2.3 Mecanismos de detecção de anomalias...........................................................131
6.4 VERIFICAÇÃO MANUAL PELO ANALISTA .....................................................1336.4.1 Retroalimentação ...................................................................................................134
6.5 VALIDAÇÃO DOS RESULTADOS .......................................................................135
7 ANÁLISE DA EMISSÃO DE NOTAS DE EMPENHO PELAADMINISTRAÇÃO PÚBLICA FEDERAL ................................................ 136
7.1 INTRODUÇÃO ........................................................................................................1367.1.1 Exportação de dados do Siafi.................................................................................1377.1.2 Eventos considerados.............................................................................................1417.1.3 Entidades e atributos ..............................................................................................143
7.2 NÚMERO DE NOTAS DE EMPENHO EMITIDAS POR ENTIDADE E SEUIMPACTO NA CRIAÇÃO DOS MODELOS....................................................................145
7.2.1 Quantidade de notas de empenho emitidas por órgão ...........................................1467.2.2 Quantidade de notas de empenho emitidas por unidade gestora ...........................1477.2.3 Quantidade de notas de empenho recebidas por favorecido..................................1497.2.4 Quantidade de notas de empenho emitidas por usuário.........................................1507.2.5 Influência do número de notas para a criação dos modelos...................................151
7.3 CATEGORIZAÇÃO DOS VALORES DAS NOTAS DE EMPENHO ..................1537.4 COMPORTAMENTO DA ADMINISTRAÇÃO PÚBLICA NA EMISSÃO DENOTAS DE EMPENHO.....................................................................................................156
7.4.1 Distribuição de notas de empenho por classe de valor ..........................................1577.4.2 Distribuição de notas de empenho e valores por modalidade de licitação ............1587.4.3 Distribuição de notas de empenho e valores por natureza da despesa...................1607.4.4 Distribuição de notas de empenho por natureza da despesa e valor ......................1637.4.5 Distribuição de notas de empenho por modalidade de licitação e valor................1647.4.6 Distribuição de notas de empenho por natureza da despesa e modalidade delicitação............................................................................................................................1657.4.7 Distribuição combinada de notas de empenho pelos três atributos .......................1667.4.8 Variação mensal na emissão de notas de empenho ...............................................168
7.4.8.1 Distribuição mensal de notas de empenho por modalidade de licitação.........1717.4.8.2 Distribuição mensal de notas de empenho por classe de valor .......................1727.4.8.3 Distribuição mensal de notas de empenho por natureza da despesa ...............173
7.5 ANÁLISE DA EMISSÃO DE NOTAS DE EMPENHO POR ÓRGÃOS EUNIDADES GESTORAS...................................................................................................174
7.5.1 Clusterização para seleção de órgãos.....................................................................1757.5.1.1 Clusterização por modalidade de licitação......................................................1767.5.1.2 Clusterização por classe de valor ....................................................................1777.5.1.3 Clusterização por natureza da despesa ............................................................177
7.5.2 Seleção de unidades gestoras .................................................................................1787.5.3 Distribuição de notas por modalidade de licitação para órgãos e UGs..................179
XII
7.5.4 Distribuição de notas por valor para órgãos e UGs ...............................................1837.5.5 Distribuição de notas por natureza da despesa para órgãos e UGs........................1857.5.6 Análise da emissão mensal de notas para órgãos e UGs .......................................187
7.6 ANÁLISE DE FAVORECIDOS E USUÁRIOS......................................................1897.7 CONCLUSÕES SOBRE A ANÁLISE DE COMPORTAMENTO DASENTIDADES ......................................................................................................................191
8 MODELOS PARA A EMISSÃO DE NOTAS DE EMPENHO NAADMINISTRAÇÃO PÚBLICA..................................................................... 194
8.1 INTRODUÇÃO ........................................................................................................1948.2 MODELO DA EMISSÃO DE NOTAS DE EMPENHO POR MATRIZ DEPROBABILIDADE.............................................................................................................195
8.2.1 Formalização estatística .........................................................................................1958.2.2 Cálculo dos valores da função de distribuição conjunta de probabilidade ............196
8.2.2.1 Observação quanto aos valores de probabilidade informados pelas matrizes 1998.2.2.2 Observação quanto ao suporte usado na construção das matrizes ..................201
8.2.3 Redução do número de elementos da matriz de probabilidade..............................2028.2.4 Aplicação da matriz de probabilidade....................................................................2038.2.5 Definição mensal das matrizes de probabilidade...................................................208
8.3 MODELO DA EMISSÃO DE NOTAS DE EMPENHO POR REDE NEURAL....2108.3.1 Treinamento da rede ..............................................................................................2128.3.2 Treinamento com notas de empenho simuladas ....................................................2148.3.3 Treinamento com matriz de probabilidade ............................................................2198.3.4 Treinamento com três atributos .............................................................................2208.3.5 Observação quanto ao número de notas usadas no treinamento da rede ...............225
8.4 COMPARAÇÃO DOS MODELOS POR MATRIZ DE PROBABILIDADE EREDES NEURAIS..............................................................................................................2268.5 ATUALIZAÇÃO DOS MODELOS.........................................................................228
9 DETECÇÃO DE ANOMALIAS NA EMISSÃO DE NOTAS DEEMPENHO ...................................................................................................... 231
9.1 INTRODUÇÃO ........................................................................................................2319.2 DETECÇÃO DE ANOMALIAS POR REGRAS.....................................................232
9.2.1 Aplicação de regras à saída do modelo de matrizes ..............................................2369.2.2 Aplicação de regras à saída do modelo de redes neurais .......................................2399.2.3 Comparação da aplicação de regras aos dois modelos de comportamento ...........2419.2.4 Sistemas especialistas nebulosos ...........................................................................247
9.3 DETECÇÃO DE ANOMALIAS POR REDE NEURAL.........................................2529.3.1 Aplicação de redes à saída do modelo de matrizes................................................2539.3.2 Aplicação de redes à saída do modelo de redes neurais ........................................255
9.4 COMPARAÇÃO DA CLASSIFICAÇÃO POR REGRAS COM ACLASSIFICAÇÃO POR REDES NEURAIS.....................................................................256
10 CONCLUSÕES E TRABALHOS FUTUROS ....................................... 258
10.1 CONCLUSÕES E CONTRIBUIÇÕES ....................................................................25810.2 TRABALHOS FUTUROS........................................................................................260
XIII
10.2.1 Análise do ciclo completo de execução da despesa ...........................................26010.2.2 Estudo de outros mandatos presidenciais ...........................................................26110.2.3 Implementação do módulo baseado em sistema especialista .............................26110.2.4 Estudo do modelo referente a usuários e fornecedores ......................................26210.2.5 Definição do suporte mínimo para a confiabilidade do modelo.........................26310.2.6 Análise das NEs que não representam criação de empenho...............................26310.2.7 Verificação dos problemas referentes à contabilidade pública ..........................26410.2.8 Definição dos mecanismos de atualização dos modelos ....................................26410.2.9 Estudo de ferramentas ........................................................................................26510.2.10 Aprimoramento dos algoritmos usados ..............................................................265
REFERÊNCIAS BIBLIOGRÁFICAS.......................................................... 266
APÊNDICE A – NOTAÇÕES........................................................................ 273
APÊNDICE B – DISTÂNCIA ENTRE PERFIS DE COMPORTAMENTO........................................................................................................................... 274
APÊNDICE C – DISTRIBUIÇÃO MENSAL DE NOTAS DE EMPENHO........................................................................................................................... 279
APÊNDICE D - EXEMPLO DE ANÁLISE DE NOTA DE EMPENHO . 284
APÊNDICE E – TREINAMENTO DAS REDES NEURAIS..................... 289
XIV
LISTA DE ILUSTRAÇÕESFigura 3-1: Etapas, funções, técnicas e algoritmos encontrados no processo de KDD............25Figura 3-2: Formas de representação propostas para os dados de entrada...............................29Figura 3-3: Camadas do modelo de referência CRISP-DM.....................................................53Figura 3-4: Ciclo de vida proposto para um projeto de DM ....................................................54Figura 4-1: Algoritmos de clusterização ..................................................................................67Figura 4-2: Representação das camadas, pesos e neurônios de uma rede neural .....................74Figura 4-3: Conjunto nebulosos representando temperatura alta .............................................83Figura 4-4: Representação dos conjuntos nebulosos................................................................84Figura 4-5: Sistema de lógica nebulosa....................................................................................87Figura 4-6: Conjuntos nebulosos para as variáveis lingüísticas probabilidade de órgão e
probabilidade de UG..........................................................................................................88Figura 4-7: Conjunto nebuloso de saída ...................................................................................89Figura 5-1: Fluxo orçamentário e respectivos documentos de lançamento no Siafi ................97Figura 5-2: Fluxo financeiro e respectivos documentos de lançamento no Siafi .....................98Figura 5-3: Fases ou estágios da despesa orçamentária .........................................................104Figura 5-4: Sistemas de informação usados no planejamento e execução do orçamento ......113Figura 5-5: Subsistemas do Siafi (BRASIL, MF, 2007) ........................................................115Figura 6-1: Modelo proposto para a detecção automática de indícios de irregularidades na
execução da despesa ........................................................................................................119Figura 6-2: Modelo simplificado para a detecção automática de anomalias na emissão de
notas de empenho.............................................................................................................121Figura 6-3: Detalhamento dos componentes do módulo de mineração de dados ..................129Figura 6-4: Modelos de comportamento ................................................................................129Figura 6-5: Detecção de anomalias ........................................................................................131Figura 7-1: Contribuições do capítulo atual para o modelo proposto ....................................137Figura 7-2: Tela de consulta à nota de empenho no Siafi. Somente os campos em negrito
foram utilizados no trabalho ............................................................................................141Figura 7-3: Relacionamento entre as entidades analisadas ....................................................144Figura 7-4: Histograma do número de NEs emitidas por órgão no ano de 2005 ...................146Figura 7-5: Histograma do número de NEs emitidas por UG no ano de 2005.......................148Figura 7-6: Histograma do número de NEs recebidas por favorecido no ano de 2005..........149Figura 7-7: Histograma do número de NEs emitidas por usuários no ano de 2005 ...............151Figura 7-8: Diferença entre a matriz de freqüência calculada com todas as NEs e as matrizes
calculadas com número menor de NEs............................................................................153Figura 7-9: Percentual de valores por modalidade de licitação..............................................154Figura 7-10: Percentual de notas de empenho por classe de valor .........................................158Figura 7-11: Percentual de notas de empenho por modalidade de licitação ..........................159Figura 7-12: Percentual de valores por modalidade de licitação............................................160Figura 7-13: Percentual de notas de empenho por natureza da despesa.................................161Figura 7-14: Percentual de valores por natureza da despesa ..................................................162Figura 7-15: Percentual de valores por natureza da despesa ..................................................163Figura 7-16: Distribuição combinada de notas de empenho por classe de valor e natureza da
despesa .............................................................................................................................164Figura 7-17: Distribuição combinada de notas de empenho por classe de valor e modalidade
de licitação .......................................................................................................................165
XV
Figura 7-18: Distribuição combinada de notas de empenho por modalidade de licitação enatureza da despesa..........................................................................................................166
Figura 7-19: Distribuição combinada de notas de empenho por modalidade de licitação, classede valor e natureza da despesa .........................................................................................167
Figura 7-20: Percentual de notas de empenho emitidas por mês ...........................................169Figura 7-21: Percentual de valores empenhados por mês ......................................................170Figura 7-22: Percentual de valores empenhados por mês ......................................................171Figura 7-23: Percentual mensal de notas de empenho referentes ao ano de 2006 por
modalidade de licitação....................................................................................................172Figura 7-24: Percentual mensal de notas de empenho referentes ao ano de 2006 por classe de
valor .................................................................................................................................173Figura 7-25: Percentual mensal de notas de empenho referentes ao ano de 2006 por natureza
da despesa ........................................................................................................................174Figura 7-26: Protótipos de distribuição de notas de empenho por modalidade de licitação,
formados a partir dos centros dos quatro clusters definidos ............................................176Figura 7-27: Protótipos de distribuição de notas de empenho por classe de valor, formados a
partir dos centros dos três clusters definidos ...................................................................177Figura 7-28: Protótipos de distribuição de notas de empenho por natureza da despesa,
formados a partir dos centros dos três clusters definidos ................................................178Figura 7-29: Percentual de notas de empenho e percentual de valores ..................................179Figura 7-30: Distribuição de NEs por modalidade de licitação para a Administração Pública,
TCU, Senado, DNIT e Ministério das Cidades................................................................180Figura 7-31: Percentual de notas de empenho emitidas nos anos de 2005 e 2006 por
modalidade de licitação para as duas UGs selecionadas no TCU ...................................182Figura 7-32: Percentual de notas de empenho por classe de valor para a Administração
Pública, TCU, Senado, DNIT e Ministério das Cidades..................................................183Figura 7-33: Percentual de notas de empenho emitidas no ano de 2006 por classe de valor
para as UGs selecionadas.................................................................................................184Figura 7-34: NEs por natureza da despesa para Administração, TCU, Senado, DNIT e
Ministério das Cidades em 2006......................................................................................185Figura 7-35: Percentual de notas de empenho emitidas no ano de 2006 por natureza da
despesa para as duas UGs selecionadas no TCU.............................................................186Figura 7-36: Percentual de notas de empenho emitidas mensalmente pela Administração
Pública, TCU, Senado, DNIT e Ministério das Cidades..................................................188Figura 7-37: Percentual de notas de empenho emitidas mensalmente pelas duas UGs em 2006
.........................................................................................................................................189Figura 7-38: Distribuição de NEs por modalidade de licitação (ML), classe de valor (CV),
natureza da despesa (ND) e mês para o Fundo de Imprensa Nacional no ano de 2006 ..190Figura 7-39: Distribuição de NEs por modalidade de licitação (ML), classe de valor (CV),
natureza da despesa (ND) e mês para um usuário emissor no ano de 2006 ....................191Figura 8-1: Contribuição do capítulo para o modelo de detecção, correspondendo à construção
dos dois modelos de comportamento para a emissão de notas de empenho....................194Figura 8-2: Processo completo para detecção de anomalia....................................................195Figura 8-3: Análise da matriz de probabilidade de um órgão ................................................200Figura 8-4: Probabilidades referentes à Administração Pública, favorecido, usuário, UG e
órgão (TCU).....................................................................................................................203Figura 8-5: Histogramas de probabilidade referentes a notas de empenho emitidas pelo TCU
nos anos de 2005 e 2006 ..................................................................................................205
XVI
Figura 8-6: Histogramas de probabilidade para notas de empenho emitidas pelo TCU ........210Figura 8-7: Processo completo para detecção de anomalia....................................................211Figura 8-8: Proporção de NEs emitidas pelo TCU no ano de 2005 em cada uma das 108
possíveis combinações de classe de valor e natureza da despesa ....................................214Figura 8-9: Resultado apresentado pela rede..........................................................................217Figura 8-10: Resultado apresentado pela rede........................................................................219Figura 8-11: Matriz de treinamento para a rede neural ..........................................................222Figura 8-12: Histogramas de probabilidades calculados pela rede treinada com NEs de 2005
emitidas pelo TCU ...........................................................................................................223Figura 8-13:Histogramas de probabilidades calculados pela rede treinada com NEs anômalas
usadas no treinamento......................................................................................................223Figura 8-14: Probabilidades calculadas por matriz (esquerda) e rede neural (direita) para as
NEs emitidas pela UG-Sede em 2006..............................................................................227Figura 8-15: Probabilidades calculadas por matriz (esquerda) e rede neural (direita) para as
NEs emitidas pela UG-ISC em 2006 ...............................................................................227Figura 9-1: Contribuição do capítulo atual no processo de detecção de indícios de
irregularidades..................................................................................................................232Figura 9-2: Processo completo para detecção de anomalia....................................................233Figura 9-3: Regras aplicadas à ponderação de probabilidades...............................................236Figura 9-4: Percentual de NEs simuladas (esquerda) e verdadeiras (direita) classificadas como
anômalas em função da variação do parâmetro de detecção ...........................................237Figura 9-5: Regras para ponderar as probabilidades oriundas do modelo de redes neurais...239Figura 9-6: Percentual de NEs simuladas (esquerda) e verdadeiras (direita) classificadas como
anômalas em função da variação do parâmetro de detecção ...........................................240Figura 9-7: Processo completo para detecção de anomalia....................................................241Figura 9-8: Conjuntos nebulosos criados a partir dos histogramas de probabilidade ............250Figura 9-9: Conjuntos nebulosos para normalidade ...............................................................251Figura 9-10: Processo completo para detecção de anomalia..................................................252Figura 9-11: Redes neurais usadas para ponderar as probabilidades oriundas do modelo de
matrizes ............................................................................................................................253Figura 9-12: Combinações de probabilidades fornecidas pelas matrizes para as quais a rede dá
como saída valores superiores a 0,5.................................................................................255Figura 9-13: Redes neurais usadas para ponderar as probabilidades oriundas do modelo de
redes .................................................................................................................................255Figura 9-14: NEs selecionadas como anômalas por redes neurais (marcadas com asterisco) e
por ponderação de probabilidade (marcadas com círculos).............................................257
XVII
LISTA DE TABELASTabela 3-1: Classificação das variáveis segundo Kantardzic (2003), Frank e Witten (2005) e
Dillon e Goldstein (1984) ..................................................................................................31Tabela 3-2: Tarefas de mineração de dados .............................................................................35Tabela 3-3: Matriz de confusão para um classificador binário ................................................37Tabela 3-4: Técnicas de mineração de dados aplicadas por tarefas .........................................44Tabela 3-5: Relação entre algoritmos e técnicas de mineração de dados.................................47Tabela 4-1: Pertinência da variável temperatura em relação ao conjunto temperatura alta .....83Tabela 4-2: Valores de pertinência...........................................................................................88Tabela 4-3: Resultado do mecanismo de inferência.................................................................89Tabela 5-1: Classificação da despesa pública orçamentária...................................................102Tabela 5-2: Classificação da despesa pública orçamentária quanto à natureza da despesa ...103Tabela 7-1: Campos exportados do arquivo SIAFI-EMPENHO e sua descrição ..................139Tabela 7-2: Quantidade de notas emitidas por evento/ano.....................................................143Tabela 7-3: Quantidade de notas de empenho emitidas por órgão no período analisado ......147Tabela 7-4: Quantidade de notas de empenho emitidas por unidade gestora.........................149Tabela 7-5: Quantidade de notas de empenho recebidas por favorecido ...............................150Tabela 7-6: Quantidade de notas de empenho emitidas por usuário no período analisado....151Tabela 7-7: Exemplos de notas de empenho de valor elevado, emitidas pela Administração
Pública .............................................................................................................................153Tabela 7-8: Percentual acumulado de valores por percentual de notas de empenho .............155Tabela 7-9: Percentuais anuais de notas de empenho emitidas por classe de valor ...............156Tabela 8-1: Probabilidades para a combinação de atributos presentes na NE e suporte
correspondente a cada entidade .......................................................................................198Tabela 8-2: A segunda e terceira coluna indicam a probabilidade máxima e mínima para cada
entidade no ano de 2005 ..................................................................................................205Tabela 8-3: Repetição dos cálculos da Tabela 8-2 considerando apenas as entidades com
suporte igual ou superior a 100........................................................................................207Tabela 8-4: Notas de empenho para as quais as probabilidades das entidades foram analisadas,
tomando por base o suporte mínimo de 100 ....................................................................208Tabela 8-5: Número de NEs emitidas pelo TCU no ano de 2005 em cada uma das 108
combinações possíveis de modalidade de licitação e classe de valor..............................213Tabela 8-6: Resultado da simulação da rede para todas as combinações dos atributos .........216Tabela 8-7: Resultado da simulação da rede para todas as combinações dos atributos .........218Tabela 9-1: Composição dos grupos de notas de empenho a serem analisados quanto à
combinação dos atributos.................................................................................................242Tabela 9-2: Percentual de notas detectadas como anômalas para o grupo 1..........................242Tabela 9-3: Percentual de notas detectadas como anômalas para o grupo 2..........................243Tabela 9-4: Percentual de notas detectadas como anômalas para o grupo 3..........................244Tabela 9-5: Percentual de notas detectadas como anômalas para o grupo 4..........................245Tabela 9-6: Percentual de notas detectadas como anômalas para o grupo 5..........................246Tabela 9-7: Percentual de notas detectadas como anômalas para o grupo 6..........................246Tabela 9-8: Percentual de notas detectadas como anômalas para o grupo 7..........................247
XVIII
LISTA DE ABREVIATURAS E SIGLASANA: Agência Nacional de ÁguasCRISP: Cross-Industry Standard Process for Data MiningCV: Classe de ValorDM: Data Mining ou Mineração de DadosDPOF: Decreto de Programação Orçamentária e FinanceiraDNIT: Departamento Nacional de Infra-estrutura de TransportesDW: Data WarehouseHTTP: HyperText Transfer ProtocolINSS: Instituto Nacional de Seguro SocialIPEA: Instituto de Pesquisa Econômica AplicadaIDS: Intrusion Detection SystemISC: Instituto Serzedello CorrêaKDD: Knowledge Discovery in DatabasesLDO: Lei de Diretrizes OrçamentáriasLOA: Lei orçamentária AnualLNCC: Laboratório Nacional de Computação CientíficaLRF: Lei de Responsabilidade FiscalMPOG: Ministério do Planejamento, Orçamento e GestãoML: Modalidade de LicitaçãoMPF: Ministério Público FederalMPT: Ministério Público do TrabalhoNC: Nota de Movimentação de CréditosND: Natureza da Despesa, também Nota de DotaçãoNE: Nota de EmpenhoNL: Nota de LançamentoNN: Neural NetworkOB: Ordem BancáriaOGU: Orçamento Geral da UniãoOLAP: On-Line Analytical ProcessingOLTP: On-Line Transactional ProcessingOSPF: Órgãos Setoriais de Planejamento FinanceiroPCA: Principal Component AnalysisPE: Nota de Pré-empenhoPFA: Programação Financeira AprovadaPPA: Plano PlurianualPPF: Propostas de Programação FinanceiraROC: Receiver Operating Characteristic [Curves]SE: Sistema EspecialistaSIAFI: Sistema Integrado de Administração FinanceiraSIDOR: Sistema Integrado de Dados OrçamentáriosSIGPlan:Sistema de Informações Gerenciais e de PlanejamentoSíntese: Sistema de Inteligência e Suporte ao Controle ExternoSOF: Secretaria de Orçamento Federal – MPOGSOM: Self-Organizing Maps ou Mapas Auto-OrganizáveisSPOA: Subsecretaria de Planejamento e AdministraçãoSPI: Secretaria de Planejamento e Investimentos
XIX
SQL: Structured Query Language ou Linguagem de Consulta EstruturadaSTN: Secretaria do Tesouro Nacional - Ministério da FazendaTCU: Tribunal de Contas da UniãoUG: Unidade Gestora
- 1 -
1 INTRODUÇÃO
1.1 MOTIVAÇÃO
Segundo Goldschmidt e Passos (2005), os avanços na área da Tecnologia da
Informação, em particular na coleta e armazenamento de dados, propiciam a criação de
grandes bases de dados, complexas e heterogêneas, que impõem o desenvolvimento de novas
ferramentas de análise, combinando técnicas estatísticas, matemáticas e da ciência da
computação, de forma a extrair conhecimento significativo dos dados.
Como apresentado ao longo do trabalho, existem diversos sistemas dentro da
Administração Pública que produzem e armazenam grandes volumes de dados. De particular
interesse para o presente trabalho são as informações relacionadas à despesa orçamentária.
Entre os sistemas que armazenam tais informações destaca-se o Sistema Integrado de
Administração Financeira do Governo Federal (Siafi), responsável pela execução
orçamentária, financeira, patrimonial e contábil dos órgãos e entidades da Administração
Pública. Tendo em vista sua quantidade, qualidade e abrangência, as informações contidas no
Siafi são fundamentais para a atividade de controle externo da Administração Pública,
exercida pelo Tribunal de Contas da União (TCU), como órgão auxiliar do Congresso
Nacional.
Em função da grande quantidade de dados armazenados no Siafi, torna-se impraticável
sua completa análise por especialistas através de métodos não automatizados. Se levados em
conta os dados armazenados nos demais sistemas da Administração Pública, o problema da
análise manual fica ainda mais crítico, tendo em vista que a informação encontra-se dispersa,
sendo o acesso, extração e consolidação dificultados pelos inúmeros padrões de
- 2 -
armazenamento e softwares de acesso adotados pelos órgãos e entidades que integram a
Administração (CARVALHO, 2005).
Com o objetivo de atenuar os problemas citados, o TCU instituiu em dezembro de 2003
um projeto para implantar o Sistema de Inteligência e Suporte ao Controle Externo (Síntese),
tendo em vista consolidar informações dispersas pelos vários sistemas da Administração
Pública por meio de um Data Warehouse (DW). O fato de existir uma base integrada de
dados através de um DW constitui por si só um grande auxílio ao trabalho de fiscalização pois
permite o acesso rápido às informações, com a possibilidade de realizar cruzamento de dados.
O foco inicial do projeto Síntese é a emissão de relatórios gerenciais que subsidiem as
fiscalizações. Em paralelo com a geração de relatórios, é também objetivo do projeto a
implantação de procedimentos que permitam a detecção automática de irregularidades nos
dados armazenados, favorecendo dessa forma a atuação tempestiva do TCU.
Como citado em Mota (2006), o acompanhamento da execução orçamentária deveria
ocorrer predominantemente sobre atos ainda não concretizados, verificando-se entretanto sua
realização sobre despesas já pagas, o que dificulta a identificação de possíveis falhas no
processo de execução da despesa e sua correção em tempo hábil. A utilização de mecanismos
automáticos para detecção de irregularidades permite simultaneamente aumentar o escopo da
fiscalização e tornar mais rápida a atuação do controle. A atuação abrangente e tempestiva do
controle externo possibilita muitas vezes impedir que a fraude se concretize ou pelo menos
reduzir os prejuízos causados pela mesma.
Os mecanismos de detecção automatizados, segundo sugerido em Dickerson et al.
(2001), podem ser implantados através de duas alternativas principais: uso de sistemas
especialistas e mineração de dados. A primeira alternativa permite criar um repositório de
regras de conhecimento, extraídas da legislação e da experiência de analistas de controle
- 3 -
externo, que possam ser usadas no procedimento de verificação. A mineração de dados busca
informações não triviais, que não possam ser facilmente explicitadas através de regras de
conhecimento. Considera-se que ambas as alternativas são necessárias e complementares num
procedimento de verificação.
1.2 OBJETIVOS DO TRABALHO
Em função das necessidades expostas, esta Tese tem por objetivo propor um modelo
para a detecção automática de indícios de irregularidades na execução da despesa
orçamentária, utilizando para análise, dados oriundos de sistemas de informação da
Administração Pública. Esse modelo consiste na definição de um conjunto de componentes
necessários no processo de detecção, bem como os mecanismos de integração entre esses
componentes. Tal modelo deverá auxiliar a atividade de controle externo desempenhada pelo
TCU, alinhando-se com o segundo objetivo apresentado para o projeto Síntese, qual seja, a
detecção automática de irregularidades nos dados armazenados no DW.
Deve-se destacar que os indícios de irregularidades por ventura detectados pelo modelo
não são prova conclusiva da existência de fraude. Podem indicar, dentre outras coisas, simples
mudanças de comportamento das entidades, fruto da mudança de legislação, de
administração, de propósitos institucionais, etc. Assim sendo, a lista de documentos
selecionados pelo modelo proposto deve ser posteriormente analisada por um especialista,
para verificar se realmente representam comportamentos irregulares ou se constituem eventos
lícitos porém de baixa probabilidade de ocorrência, tomando como referência o
comportamento passado das entidades em análise. Dessa forma, o modelo proposto será um
auxiliar no trabalho de auditoria realizado pelos analistas do TCU e não um substituto desses
profissionais.
- 4 -
Este trabalho objetiva também reforçar a parceria entre pesquisa acadêmica, em
particular na área de modelagem computacional, e uma área prática e de grande relevância
para o país, qual seja, o controle externo da Administração Pública. Nesse sentido o trabalho
reveste-se de caráter interdisciplinar, procurando dessa forma cumprir um dos objetivos do
programa de pós-graduação em modelagem computacional do Laboratório Nacional de
Computação Científica (LNCC).
Espera-se que o trabalho sirva de motivação para que outras atividades de pesquisa
sejam desenvolvidas no âmbito do TCU sobre controle automatizado da execução
orçamentária, tópico que apresenta vários desafios na área de modelagem, e que no entanto
tem recebido pouca atenção do meio acadêmico em geral, tendo em vista a pequena
quantidade de trabalhos publicados na área, como constatado no Capítulo 2. Considera-se
importante para despertar tal motivação que o trabalho apresente ao seu término resultados
práticos na detecção de irregularidades, não se limitando à proposta de um modelo teórico.
Esses resultados foram obtidos através da implementação de um protótipo, que serviu para
testar os conceitos propostos e validar o modelo apresentado.
1.3 DESCRIÇÃO E ESCOPO DO TRABALHO
Como citado anteriormente, este trabalho apresenta uma proposta de modelo genérico e
extensível, que objetiva realizar a detecção de indícios de irregularidades na execução da
despesa, através da verificação de documentos presentes em sistemas públicos de informação.
Esse enquadramento, além de genérico, exigiria para ser atingido na sua totalidade uma
quantidade de trabalho impraticável de ser realizado no escopo de uma tese de doutorado.
Tendo em vista tornar factível a realização de um estudo na área, e tendo em mente que
nenhum trabalho isolado seria capaz de abranger todos os aspectos desejados, foi feita uma
redução gradativa de escopo, permitindo a apresentação de um trabalho concreto e com
- 5 -
resultados práticos, sem no entanto perder seu caráter abrangente, possibilitando sua posterior
complementação por trabalhos futuros.
Uma primeira limitação foi quanto ao sistema de informação a ser analisado. Em função
da sua importância para a execução orçamentária, da disponibilidade do acesso e do
conhecimento do sistema por parte dos analistas do TCU, escolheu-se o Siafi para a realização
do estudo.
Uma segunda limitação diz respeito ao tipo de informação dentro do Siafi a ser
estudada. Na execução orçamentária, restringiu-se a pesquisa à execução da despesa.
Considerando seus três estágios (empenho, liquidação e pagamento), optou-se pelo estudo do
primeiro, através do documento que formaliza o empenho dentro do Siafi, qual seja, a nota de
empenho. Essa escolha teve como objetivo buscar a informação que permitisse a atuação mais
rápida do controle externo no combate a irregularidades. Sendo o primeiro estágio da
execução da despesa, a detecção de irregularidades na fase de empenho permite a atuação
tempestiva do TCU, possivelmente impedindo a realização do gasto. O estudo teve por base
as notas de empenho emitidas pela Administração Pública entre 2003 e 2006, englobando um
mandato presidencial.
Como terceira limitação, entre as duas alternativas de mecanismo de detecção propostos
no modelo criado (mineração de dados e sistemas especialistas), optou-se pela implementação
do primeiro, ficando a implantação do sistema especialista proposta para ser realizada em
trabalhos futuros. Foram pesquisados algoritmos de mineração de dados a serem testados,
concluindo-se pela utilização de algoritmos envolvendo análise estatística, redes neurais e
lógica nebulosa.
Na sua parte prática, este trabalho procurou seguir as fases de um processo tradicional
de descoberta de conhecimento em bases de dados (KDD), adaptando-o às necessidades e
- 6 -
particularidades do trabalho de controle externo realizado pelo TCU. Teve como foco
principal a fase de mineração de dados, com adaptação dos algoritmos existentes para
utilização no problema em questão.
1.4 CONTRIBUIÇÕES
A principal contribuição do trabalho é a proposta de um modelo, abrangente e genérico,
que permita a detecção automática de irregularidades na execução da despesa. Para validar o
modelo, foi implementado seu módulo de mineração de dados, usado na validação do estágio
de empenho da despesa. Tendo sido proposto de forma genérica, o modelo poderá no futuro
ser usado também para os estágios de liquidação e pagamento, englobando assim toda a
execução da despesa. O modelo apresentado, sem paralelo na literatura pesquisada, constitui
inovação na área de detecção de irregularidades na execução orçamentária.
Como segunda contribuição, foi verificada a viabilidade técnica da utilização de
mecanismos automáticos de detecção de irregularidades como auxiliares do controle externo
exercido pelo TCU. Como apresentado anteriormente, a disponibilização de grandes massas
de informação aumenta o trabalho do controle externo, que por sua vez deve apresentar
soluções cada vez mais eficientes e rápidas para a análise e detecção de irregularidades. As
grandes massas de dados, apesar de constituírem um desafio, são também fontes importantes
de informações, desde que existam mecanismos adequados para a busca e extração
automatizada de informações relevantes. O trabalho teve grande preocupação de alcançar um
objetivo prático, qual seja, a implementação de um protótipo funcional para a detecção de
indícios de irregularidades. Ainda que os algoritmos usados não tenham sido plenamente
otimizados, ficou provada sua eficiência na seleção de notas de empenho anômalas, conforme
os testes realizados.
- 7 -
Foram criados modelos de comportamento referentes à emissão de notas de empenho,
para a Administração Pública como um todo e para alguns órgãos e unidades gestoras
individualmente. Tendo em vista que o Siafi não possui relatórios que facilitem a realização
de análises cruzadas e visualização de informações, esta terceira contribuição é de grande
importância no trabalho de auditoria, pois permite uma visão abrangente das entidades,
comparações entre os órgãos e destes com a Administração Pública. Em função da
importância dos modelos de comportamento, sugere-se sua apresentação através de relatórios,
de forma a subsidiar a análise dos auditores em relação aos documentos identificados como
anômalos pelo sistema.
O modelo proposto pode ser usado de imediato para a detecção, em tempo real, de
eventos anômalos na emissão de notas de empenho, com a conseqüente melhoria na
tempestividade do controle externo. Pode ser usado também como ferramenta auxiliar nos
procedimentos de auditoria, fornecendo uma lista de possíveis irregularidades a serem
investigadas durante a realização de fiscalizações.
1.5 ORGANIZAÇÃO DA TESE
Tendo em vista ser um trabalho interdisciplinar, procurou-se fazer uma exposição
teórica detalhada dos principais conceitos de cada área envolvida, permitindo assim uma
melhor compreensão do modelo proposto. A Tese pode ser dividida em três partes principais:
- Processo de descoberta de conhecimento;
- Finanças públicas e controle externo;
- Proposta e implementação do modelo para a detecção de indícios de irregularidades.
A primeira parte da Tese, referente ao processo de descoberta de conhecimento, engloba
os Capítulos 2, 3 e 4. O Capítulo 2 faz a revisão bibliográfica, apresentando trabalhos
relacionados com o tema da Tese. O Capítulo 3 resume o processo de descoberta de
- 8 -
conhecimento, descrevendo as principais tarefas da mineração de dados. O Capítulo 4
apresenta os algoritmos de mineração utilizados neste trabalho.
A segunda parte do trabalho, referente a finanças públicas, ao controle da
Administração e a sistemas de informação, é apresentada no Capítulo 5. Esse capítulo expõe
noções sobre orçamento e finanças públicas, trazendo sua fundamentação legal. Apresenta
também os mecanismos de controle externo da Administração e sistemas de informação
voltados a atender as necessidades dos órgãos públicos, com particular ênfase dada ao Siafi e
ao projeto Síntese.
A união das duas partes teóricas anteriores ocorre através da proposta de um modelo
consolidado para detecção de indícios de irregularidades na execução da despesa, apresentado
no Capítulo 6. Sua implementação parcial, no que se refere ao módulo de mineração de dados,
é realizada nos Capítulos 7, 8 e 9.
O Capítulo 7 traz um estudo sobre o comportamento da Administração Pública em
relação à emissão de notas de empenho. Baseado nessa análise foi possível, no Capítulo 8,
criar os modelos matemáticos que caracterizam tal comportamento. O Capítulo 9 utiliza os
algoritmos escolhidos no Capítulo 4 em conjunto com os modelos de comportamento
definidos no Capítulo 8 com o objetivo de detectar irregularidades nas notas de empenho
emitidas pela Administração Pública.
O fecho do trabalho, realizado no Capítulo 10, apresenta as conclusões e sugestões para
trabalhos futuros.
- 9 -
2 TRABALHOS RELACIONADOS
2.1 INTRODUÇÃO
Para fundamentar o modelo de detecção proposto na Tese, procurou-se trabalhos
relacionados com o uso de mecanismos automáticos para a identificação de comportamentos
irregulares, ou desviantes do comportamento normal, aplicados em várias áreas do
conhecimento. Embora não diretamente relacionada ao tema da Tese, a área de segurança de
redes de computadores oferece uma gama abrangente de modelos de detecção que, se
modificados adequadamente, servem como inspiração para vários componentes do modelo
proposto. Foram portanto analisados inicialmente trabalhos relacionados com sistemas
detectores de intrusão em redes, particularmente no que se refere ao uso de sistemas
especialistas e mineração de dados como mecanismos de detecção.
Em função da priorização dada à implementação do módulo de mineração de dados, a
pesquisa bibliográfica selecionou principalmente trabalhos relacionados com esse tema, sem
descartar contudo outras áreas conexas, em particular sistemas especialistas, que subsidiassem
a posterior complementação do modelo proposto.
Tendo em vista que o procedimento prático a ser implementado relaciona-se com a
classificação de documentos (notas de empenho) e considerando não existir uma base de
dados contendo registros diferenciando notas anômalas e normais, pesquisou-se
preferencialmente algoritmos de classificação com treinamento não supervisionado. Durante a
pesquisa foram selecionados dois trabalhos abordando esse tipo de treinamento: a detecção
estatística de outliers e a simulação de casos anômalos.
Procurou-se trabalhos que combinassem diferentes técnicas de mineração, por exemplo
procedimentos estatísticos e de inteligência computacional, permitindo o emprego integrado
de ambas. Outra combinação estudada foi a de sistemas especialistas com técnicas de
- 10 -
mineração de dados, a qual é largamente citada nos artigos sobre sistemas detectores de
intrusão. Em função do conhecimento acumulado pelos analistas de controle externo na
auditoria de contas, pesquisou-se formas de representar tal conhecimento, preferencialmente
através de regras, utilizadas na criação de sistemas especialistas.
A pesquisa concentrou-se também na busca de artigos relacionados a processos de
trabalho que guiem a execução da mineração de dados, realizada na parte prática da Tese.
Por fim, foram estudados casos reais de emprego de técnicas de mineração de dados na
descoberta de irregularidades, de forma a verificar sua eficiência e aplicabilidade em situações
práticas.
Vale destacar que este capítulo não esgota a pesquisa bibliográfica. Parte do material
pesquisado, principalmente no que se refere a processos, técnicas e algoritmos de mineração
de dados, está referenciado nos Capítulos 3 e 4, que tratam especificamente do assunto. Da
mesma forma, o material específico sobre orçamento público será apresentado no Capítulo 5.
2.2 SISTEMAS DETECTORES DE INTRUSÃO
Segundo Lane (2000), estudos sobre sistemas detectores de intrusão (Intrusion
Detection System - IDS) vêm sendo realizados desde a década de oitenta. Apesar de não estar
diretamente ligado ao tema da Tese, o assunto guarda várias semelhanças com o trabalho pois,
em ambos os casos, através da análise de um conjunto selecionado de eventos, pretende-se
classificar aqueles considerados não apropriados, segundo algum critério estabelecido. No
caso do IDS, o objetivo do sistema é detectar eventos que possam comprometer a segurança
da rede, vista como um todo, ou de computadores específicos. Para realizar tal detecção, a
literatura propõe o uso combinado de regras com mecanismos de verificação de
comportamentos anômalos.
- 11 -
Como exemplo, Dickerson et al. (2001) afirmam que a implementação de um sistema
detector de intrusão pode ser feita de duas formas: detecção de uso inadequado (misuse
detection) e detecção de anomalias (anomaly detection). Na primeira é criada uma base de
regras com assinaturas de ataques conhecidos. Eventos de rede são comparados com a base de
regras e alarmes são disparados caso alguma regra seja encontrada, compatível com o evento
em análise. Na segunda forma, detecção de anomalia, procura-se detectar eventos não usuais
em relação ao comportamento normal da rede, aprendido durante a fase de treinamento.
Segundo os autores, a vantagem da primeira forma de detecção é a precisão na
identificação dos ataques e a alta taxa de detecção, com baixo número de falsos positivos. Sua
desvantagem é que somente consegue detectar ataques conhecidos. Até mesmo pequenas
variações na forma desses ataques podem passar despercebidos, por não se adequarem
precisamente à nenhuma regra estabelecida. Já em relação à detecção de anomalia, é um
mecanismo mais flexível, não necessitando de informações de um especialista sobre todas as
possibilidades de ataque. O sistema aprende por si só o comportamento usual da rede,
bastando informar um limite de variação (threshold) para que alarmes sejam disparados. Em
contrapartida pode produzir uma taxa elevada de alarmes para situações que, apesar de pouco
usuais, não sejam ataques verdadeiros. Esse excesso de alertas impede a verificação criteriosa,
podendo gerar descrédito em relação ao sistema de detecção.
Segundo Lane (2000), sistemas baseados em regras vêm sendo utilizados por um longo
período, sendo a maior parte da pesquisa atual dedicada à detecção de anomalia. No caso
específico do trabalho do autor, é utilizado um mecanismo baseado em clusterização e
modelos de Markov para a detecção de comportamentos anômalos.
Em Javitz e Valdes (1993), os autores propõem que medidas estatísticas sejam usadas
em conjunto com um componente baseado em regras. Dessa forma, este último capturaria
- 12 -
tentativas de invasão conhecidas e documentadas, enquanto as medidas estatísticas
detectariam novas formas de invasão.
Em Bloedorn et al. (2001) os autores falam especificamente sobre o uso de mineração
de dados aplicado à detecção de intrusão. São citadas técnicas de mineração a serem
consideradas, infra-estrutura requerida e conhecimentos necessários por parte dos
especialistas envolvidos.
2.3 CLASSIFICAÇÃO NÃO SUPERVISIONADA: DETECÇÃO DE
ANOMALIAS POR PROCEDIMENTOS ESTATÍSTICOS
Em Javitz e Valdes (1993) é apresentado um algoritmo chamado Next-Generation
Intrusion-Detection Expert System (NIDES), cujo objetivo é fazer a detecção de violações de
segurança em redes de computadores através de métodos estatísticos. Os conceitos
apresentados pelos autores foram amplamente usados nesta Tese, na implementação do
modelo estatístico de comportamento, que é parte do módulo de mineração de dados.
O trabalho dos autores propõe a criação automática de perfis sobre o comportamento
normal, ou pelo menos esperado, de vários objetos (usuários, grupos, computadores, etc).
Cada perfil consiste de medidas estatísticas (freqüência, média, covariância, etc) em relação a
atributos selecionados dos objetos monitorados, sendo desnecessário portanto guardar toda a
série histórica, minimizando os requisitos de armazenamento.
Cada registro de auditoria recebido, representado por um vetor no espaço n-dimensional
(n corresponde à quantidade de atributos medidos), é comparado com os vetores armazenados
nos perfis do objeto. A distância do registro de auditoria (distância euclidiana) em relação ao
perfil armazenado define o nível de anomalia. O nível de detecção é controlado por
parâmetros ajustáveis, específicos para cada objeto monitorado.
- 13 -
A base estatística sofre atualização em intervalos determinados, normalmente diários.
Um fator de decaimento diminui a importância de medidas antigas e permite que o sistema
adapte-se a novos padrões de comportamento. Esse fator é normalmente configurado para
reduzir à metade a importância das medidas armazenadas a cada 30 dias.
Cada registro de auditoria é caracterizado por uma medida única (T2) que resume seu
grau de anomalia. Tais medidas são armazenadas em uma base de dados. Usando valores
históricos de T2 pode-se estabelecer limites de alerta, buscando uma quantidade tratável de
falsos positivos. Para evitar a sobrecarga de alertas, avisos são gerados somente quando o
valor de T2 ultrapassa determinado nível preestabelecido, e não toda vez que um registro
individualmente supera tal limite.
O valor de T2 é calculado pela média dos quadrados de uma série de medidas Si, cada
qual representando o nível de anomalia relacionado a uma medida específica (uso de CPU,
número de arquivos acessados, erros de login, etc). Os autores propõem também uma segunda
medida (L2), indicando um nível de desvio na correlação histórica entre as medidas Si.
As medidas Si são realizadas nas seguintes categorias:
• Intensidade – número de registros de auditoria recebidos num intervalo de tempo. Por
exemplo número de acessos a um arquivo específico em um minuto;
• Distribuição – indica a distribuição de eventos por categoria numa unidade de tempo. Por
exemplo indica que na última hora foram gerados 100 registros de uso de CPU, 300 de
acesso à rede e 200 sobre acesso a arquivos;
• Medidas categóricas – indicam os nomes dos recursos acessados. Exemplo, o nome dos
arquivos utilizados durante o último dia;
• Medidas de contagem – indicam valores simples de medidas como o tempo de utilização
de CPU, da rede, etc.
- 14 -
O valor final de Si é normalizado, permitindo que os vários Si possam ser comparados
em bases iguais.
2.3.1 Clusterização para a Criação de Perfis
Javitz e Valdes (1993) propõem a criação de clusters para a detecção de anomalias
através do registro de pontos no espaço n-dimensional, sendo cada ponto resultado de um
conjunto de n medidas de interesse (uso de CPU, número de arquivos abertos, etc). Tais
medidas seriam capturadas durante um período de tempo, formando conjuntos de pontos no
espaço, posteriormente divididos em clusters. Cada cluster receberia uma medida de
probabilidade, proporcional ao número de pontos presentes no mesmo. Uma medida de
anomalia seria montada considerando eventos recentes, sendo tanto maior conforme tais
eventos estivessem em clusters com baixa probabilidade ou não fossem alocados a nenhum
dos clusters definidos.
Os autores apontam dificuldades em tal proposta em função de dois problemas
levantados em seu trabalho. O primeiro refere-se à criação de uma grande quantidade de
clusters, pois consideram que cada objeto gerenciado (usuários, computadores, etc) deveria ter
clusters individuais definidos, em função da impossibilidade de generalização. Segundo os
autores, o grande número de clusters implicaria em grandes áreas de armazenamento e tempo
elevado de processamento para sua atualização. Outro problema citado é a definição da
métrica correta para medida de distâncias entre pontos, o que impacta na geometria dos
clusters formados e no conjunto de eventos que ocupariam o mesmo cluster.
Em Ntoutsi et al. (2006) é proposta a modelagem e monitoramento do comportamento
espaço-temporal de clusters. No trabalho são analisadas transformações nos clusters: extinção,
modificação de localização e do número de componentes de clusters pré-definidos, mudança
de forma e densidade, migração dos elementos para outros clusters e surgimento de novos
- 15 -
clusters. Tais modificações ao longo do tempo, segundo os autores, poderiam ser usadas para
identificação de fraudes.
Bakiras, Kalnis e Mamoulis (2005) apresentam em seu trabalho o problema do
acompanhamento da trajetória de clusters ao longo do tempo. Seu estudo pressupõe que a
identidade dos clusters permanece inalterada ao longo do tempo, diferente da proposta de
Ntoutsi et al. (2006), mudando apenas sua composição e geometria. Os autores propõem a
definição formal do movimento de clusters e três algoritmos que permitem sua descoberta e
análise automática.
2.4 CLASSIFICAÇÃO NÃO SUPERVISIONADA: SIMULAÇÃO DE
CASOS ANÔMALOS
Em Abe, Zadrozny e Langford (2006) é apresentada a proposta de redução do problema
de detecção de outliers a um problema de classificação simples, através da criação de
exemplos de comportamentos anômalos artificialmente gerados. São apontadas no entanto
dificuldades quanto à geração artificial de exemplos pois tais casos podem não espelhar
relacionamentos ocultos nos dados reais, ressaltando os autores o cuidado quanto à escolha da
distribuição amostral dos exemplos artificiais.
Entre as distribuições possíveis, os autores optaram por utilizar a distribuição uniforme,
considerando o espaço limitado pelos máximos possíveis dos valores dos atributos
envolvidos. Caso tal espaço não possa ser definido no problema em análise, é sugerida sua
criação através da definição de fronteiras limitadas a 10% além do máximo e aquém do
mínimo observado no problema em questão.
Tais exemplos anômalos são fornecidos para o treinamento do algoritmo de
classificação, juntamente com exemplos reais, estes últimos considerados eventos "normais".
- 16 -
Conhecendo-se exemplos anômalos e normais é possível utilizar algoritmos com aprendizado
supervisionado.
2.5 FORMALIZAÇÃO DO CONHECIMENTO ATRAVÉS DE REGRAS
NEBULOSAS
Em Dickerson et al. (2001) é apresentada uma proposta de trabalho sobre detecção de
intrusão utilizando lógica nebulosa. Os autores afirmam que para realizar a detecção de
intrusão de forma mais confiável são necessárias múltiplas fontes de monitoramento. Sistemas
nebulosos são usados para realizar a correlação entre as múltiplas fontes de informação. Sua
utilização, segundo os autores, é vantajosa porque permite combinar entradas de fontes
variadas, permite superar a dificuldade de estabelecer limites precisos para a geração de
alarmes e porque o nível de alerta a ser gerado pode muitas vezes também ser impreciso.
Após a coleta de dados na fase de treinamento (duas semanas), os autores construíram
os conjuntos nebulosos para cada atributo medido. Foram criados cinco conjuntos por
atributo, com formato triangular, onde os pontos de início, fim e meio foram calculados com o
uso do algoritmo "Fuzzy C-Means".
Os autores denominam um "sistema nebuloso" como uma coleção de regras nebulosas.
Tais regras foram montadas por um especialista em segurança. Um exemplo de regra usada no
trabalho é: "SE a contagem de hosts destino é ALTA E a contagem de portas usadas é
MÉDIA-BAIXA ENTÃO a possibilidade de um ataque tipo scan é ALTA".
Lourenço (1998) propõe em seu trabalho o uso de regras nebulosas como aprimoradoras
de um processo estatístico de previsão. Seu trabalho será analisado na Seção 2.6.
- 17 -
2.6 COMBINAÇÃO DE PROCEDIMENTOS ESTATÍSTICOS E DE
INTELIGÊNCIA COMPUTACIONAL
O trabalho apresentado em Lourenço (1998) descreve um modelo de previsão de curto
prazo de carga elétrica reunindo técnicas de inteligência computacional e métodos estatísticos.
O modelo é composto de três módulos: um classificador, um previsor e um aprimorador de
previsão.
O classificador é implementado por redes neurais artificiais com aprendizado não-
supervisionado do tipo self-organizing maps (SOM). Sua função é incorporar sazonalidades
da série temporal de interesse a partir de categorias criadas com os dados de entrada,
agrupando dias com características semelhantes de carga elétrica no sistema. As informações
dos grupos são utilizadas posteriormente pelo previsor e pelo aprimorador de previsão.
O módulo previsor emprega modelos estatísticos, combinando métodos de média
móvel, amortecimento exponencial e auto-regressivos. O terceiro módulo consiste de um
sistema de lógica nebulosa, utilizando variáveis climáticas explicativas (temperatura,
luminosidade, precipitação, etc) no aprimoramento da previsão obtida. Permite dessa forma
introduzir variáveis causais, em linguagem natural, para tentar justificar alguns
comportamentos da carga e assim melhorar a previsão.
Haft et al. (1998) propõem o uso de três métodos com combinação de técnicas para a
detecção de fraudes: redes neurais com treinamento supervisionado, estimação de densidade
de probabilidade por misturas gaussianas e redes bayesianas juntamente com a aplicação da
regra de Bayes. As três técnicas são usadas em paralelo e de forma independente pelos
autores. Uma descrição mais detalhada do trabalho será feita na Seção 2.8.
- 18 -
2.7 PROCESSOS DE TRABALHO PARA A EXECUÇÃO DE
MINERAÇÃO DE DADOS
A principal metodologia encontrada, apresentada em Chapman et al. (2000), foi o
modelo CRISP-DM (CRoss-Industry Standard Process for Data Mining), o qual organiza o
trabalho de mineração em um conjunto de tarefas descritas em quatro níveis de abstração:
fases, tarefas genéricas, tarefas específicas e instâncias de processo. No nível mais elevado,
suas principais fases são: compreensão do negócio, compreensão dos dados, preparação dos
dados, modelagem, avaliação e implantação. Trata-se de um processo iterativo e cíclico, com
possibilidade de movimentação entre as fases e processos subseqüentes. A metodologia
CRISP-DM, escolhida para guiar a parte prática da Tese, será melhor detalhada na Seção 3.6.
Em Goldschmidt e Passos (2005) é sugerida uma metodologia dividida em cinco etapas,
executadas em quatro momentos. No primeiro momento define-se o que fazer sobre a base de
dados, executando as etapas de "levantamento inicial", responsável pelo exame preliminar da
base de dados, e de "definição de objetivos", responsável pela identificação das tarefas de DM
a serem executadas e formulação de requisitos quanto ao modelo de conhecimento. No
segundo momento define-se como será feita a mineração, através da etapa "planejamento das
atividades", a qual é responsável pela definição dos planos de ação associados aos objetivos
escolhidos. No terceiro momento, englobado na etapa de "execução dos planos de ação",
aplicam-se os métodos de KDD. No quarto e último momento ocorre a etapa de "avaliação de
resultados". A metodologia é iterativa e interativa, permitindo o retorno a etapas anteriores
buscando melhores resultados.
Kantardzic (2003) define o processo de mineração de dados em um conjunto de cinco
passos. No primeiro é estabelecido o problema a ser abordado e formuladas as primeiras
hipóteses, ressaltando a necessidade da interação entre o especialista em DM e o especialista
- 19 -
na aplicação. O segundo passo proposto consiste na coleta de dados que, segundo o autor,
divide-se na geração controlada de dados pelo especialista e na coleta observacional, sem a
influência do especialista. O terceiro passo é o pré-processamento dos dados, citando
exemplificativamente as tarefas de detecção de outliers, modificação de escala, codificação e
seleção de atributos. O quarto passo é a estimação de modelos, através da implementação de
técnicas de DM, e a seleção do modelo mais apropriado para o problema. O quinto e último
passo é a interpretação do modelo para a extração de conclusões, destacando a importância de
que o modelo criado seja compreensível, de forma a subsidiar com segurança a tomada de
decisões.
2.8 EMPREGO PRÁTICO DE TÉCNICAS AUTOMÁTICAS PARA A
DESCOBERTA DE IRREGULARIDADES
Em Bolton e Hand (2002) é feito um estudo das principais áreas onde são necessárias
técnicas estatísticas e de aprendizado de máquina para detecção de fraude. São citadas as
áreas de fraude em cartões de crédito, lavagem de dinheiro, fraude em telecomunicações,
intrusão em computadores e fraudes médicas, entre outras.
Uma das principais áreas de emprego prático de técnicas de DM é a detecção de
intrusão, que corresponde a um conjunto de técnicas que podem ser usadas para identificar
ataques a computadores e infra-estruturas de rede (ERZOT et al., 2003). Em seu trabalho, os
autores fazem um estudo comparativo de vários algoritmos usados para detecção de
anomalias, tanto supervisionados como não supervisionados (FRIED et al., 2000).
Em Brugger (2004) é feito um abrangente estudo sobre sistemas IDS, sobre bases de
dados disponíveis para pesquisa e sobre a extração de atributos relevantes para detecção de
intrusão. Alguns métodos de mineração de dados são propostos, ressaltando a importância do
- 20 -
uso conjunto de vários algoritmos para obter-se melhores resultados. De particular interesse
para o presente trabalho é a relação de técnicas apresentadas pela autora. A primeira, técnica
estatística, também chamada "top-down", é empregada quando existe alguma idéia sobre as
relações buscadas, citando-se como exemplos modelos multivariados, processos de Markov,
séries temporais e redes bayesianas. A segunda técnica citada pela autora é o aprendizado de
máquina, também referido como "bottom-up", usado quando se deseja aprender padrões sem
conhecimento a priori sobre os mesmos. São citados como exemplos de técnicas nessa
categoria: geração indutiva de regras, algoritmos genéticos, lógica nebulosa e redes neurais. A
terceira técnica citada refere-se à clusterização, dividida pela autora em clusterização
hierárquica, estatística, por exemplos, baseada em distância e conceitual. A quarta e última
técnica citada é Support Vector Machines (SVM).
Em Steensma et al. (2003) é apresentado um estudo sobre uso inadequado e fraudulento
de cartões de crédito institucionais do Departamento de Defesa Americano. O estudo utiliza
técnicas de mineração de dados para identificar transações de compra com alta probabilidade
de serem abusivas ou fraudulentas. O autor estima que em 2002, no âmbito do Departamento
de Defesa, em torno de 214 mil usuários realizaram aproximadamente onze milhões de
compras, estimadas em 6,6 bilhões de dólares. Através de técnicas de DM, foram
identificados 2.036 usuários com transações suspeitas no segundo semestre de 2001, dos quais
1.357 tiveram suas transações de compra investigadas individualmente por auditores,
resultando em 182 usuários relacionados por uso indevido, totalizando cinco milhões de
dólares em operações fraudulentas.
Seu trabalho traz contribuições no sentido de incorporar a geração de avisos por e-mail
sobre a ocorrência de transações com possíveis irregularidades. Os e-mails, compostos por
formulários, são preenchidos por auditores que informam ser a transação apropriada ou não,
- 21 -
fundamentando tal opinião. As respostas são armazenadas em bases de dados, associadas às
compras para as quais as questões foram formuladas, permitindo a posterior criação de regras
que identifiquem possíveis transações irregulares ou liberem transações aparentemente
anormais, consideradas legais pelos especialistas. Com isso o sistema é realimentado de forma
quase automática, criando um ciclo de correções que levam à melhoria na tomada de decisões.
O autor sugere que o uso intensivo das técnicas de mineração de dados pode levar a
detecção prematura das operações irregulares, permitindo a execução de medidas corretivas e
possivelmente impedindo o gasto indevido. Não foram citadas no trabalho as técnicas de DM
usadas.
Outro trabalho analisado foi o estudo de caso referente ao desenvolvimento de modelos
para o reconhecimento de padrões de insolvência no pagamento de contas de telefones fixos.
Os autores, Ebecken, Evsukoff e Pinheiro (2006), criaram dois modelos com o objetivo de
segmentar os usuários insolventes e realizar a previsão de insolvência baseada em perfis de
comportamento.
O primeiro modelo proposto pelos autores foi um modelo não supervisionado de
clusterização, baseado em SOM, treinado para identificar grupos de usuários insolventes
(atraso no pagamento superior a três dias) com características semelhantes. O treinamento foi
realizado somente com exemplos de insolvência, resultando em cinco grupos com perfis bem
definidos. O objetivo desse primeiro modelo é permitir a adoção de medidas de cobrança
diferenciadas por grupo.
O segundo modelo criado baseou-se em redes neurais tipo Backpropagation, utilizando
treinamento supervisionado e objetivando a predição de insolvência. O treinamento das redes
foi antecedido pela segmentação dos usuários em dez grupos com perfis de comportamento
semelhantes, através de SOM. Cada grupo teve uma rede específica treinada, permitindo uma
- 22 -
melhoria na taxa de identificação das mesmas, principalmente no que se refere a maus
pagadores.
Haft et al. (1998) propõem em seu trabalho três métodos para a detecção de fraude no
uso de telefonia celular, mais especificamente acesso e uso de serviços de forma ilegal. O
primeiro, baseado em redes neurais com treinamento supervisionado, é usado para classificar
os usuários entre possíveis fraudadores e não fraudadores. As informações usadas no
treinamento da rede foram a média e desvio padrão da duração das chamadas, número de
chamadas por dia e duração máxima das chamadas, calculados durante o período de
observação para vários usuários. Os casos de fraude foram marcados para o treinamento da
rede. A saída da rede corresponde à probabilidade do usuário, com o comportamento
caracterizado pelas estatísticas citadas, ser fraudulento ou não. Segundo os autores, esse
método de detecção permite a descoberta de 85% dos casos de fraude sem produzir falsos
alarmes.
O segundo método, um modelo de mistura gaussiana para estimação de densidade de
probabilidade, é usado para modelar o comportamento passado dos usuários da rede, levando
em conta os atributos: número de chamadas e sua duração durante três períodos do dia,
considerando separadamente chamadas locais e de longa distância, resultando em 12
atributos. Cada usuário teve seu modelo customizado a partir de um modelo genérico,
variando a proporção das componentes gaussianas na mistura. Baseando-se no perfil
individual de cada usuário, pode ser avaliado seu comportamento atual, classificando-o como
anômalo ou normal. Segundo os autores, esse método de detecção permite a descoberta de
70% dos casos de fraude sem produzir falsos alarmes.
Os autores propõem ainda um modelo baseado em duas redes bayesianas, a primeira,
modelando um comportamento fraudulento, foi gerada através do conhecimento de um
- 23 -
especialista; a segunda, refletindo um comportamento não fraudulento, foi criada baseada nos
dados disponíveis dos usuários. Esta última sofreu posteriormente adaptações para se adequar
ao comportamento individual de cada usuário. Usando o comportamento atual do usuário
como entrada das duas redes pode-se calcular as probabilidades desse comportamento ocorrer
num contexto de uso normal e fraudulento. Essas probabilidades são utilizadas na regra de
Bayes para inferir a probabilidade de fraude dado o comportamento do assinante. Segundo os
autores, esse método de detecção permite a descoberta de 75% dos casos de fraude sem
produzir falsos alarmes.
- 24 -
3 DESCOBERTA DE CONHECIMENTO
3.1 INTRODUÇÃO
O objetivo do presente capítulo é apresentar as etapas do processo de Descoberta de
Conhecimento em Bases de Dados (Knowledge Discovery in Databases - KDD). Inicialmente
será feita uma breve definição de KDD, abordando os principais termos utilizados na área.
Em seguida será analisado o processo de KDD, descrevendo suas etapas e funções, focando
principalmente nas tarefas da etapa de mineração de dados. A divisão do processo de KDD
em três etapas seguiu a orientação apresentada em Goldschmidt e Passos (2005). Tal divisão
foi espelhada na organização do capítulo, cuidando a Seção 3.3 do pré-processamento, a 3.4
da mineração de dados e a 3.5 do pós-processamento. Ao final do capítulo, na Seção 3.6, será
apresentada a metodologia CRISP-DM.
3.2 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS
Segundo Goldschmidt e Passos (2005), tendo em vista permitir a análise de grandes
quantidades de dados armazenados nos atuais sistemas de informação, de forma automática e
inteligente, surge uma nova área denominada "Descoberta de Conhecimento em Bases de
Dados".
O processo de KDD envolve várias etapas: definição do problema; seleção, limpeza e
pré-processamento dos dados; sua transformação; realização da mineração de dados (DM)
para extrair padrões e relacionamentos; a interpretação dos modelos descobertos e a avaliação
dos resultados. A fronteira precisa da etapa de mineração de dados dentro de KDD é de difícil
determinação uma vez que para alguns o pré-processamento é intrínseco ao procedimento de
DM (HAND; MANNILA; SMYTH, 2001). Para outros, pré-processamento, mineração de
- 25 -
dados e pós-processamento são etapas operacionais que conjuntamente caracterizam o
processo de descoberta de conhecimento (GOLDSCHMIDT; PASSOS, 2005).
A definição apresentada em Goldschmidt e Passos (2005), bem como o restante da
taxonomia utilizada por esses autores serão adotados nesta Tese. O processo de KDD será
dividido para estudo nas três etapas operacionais já citadas: pré-processamento, mineração de
dados e pós-processamento. Cada etapa é decomposta em funções ou tarefas, sendo esta
última a denominação específica adotada para as funções na etapa de mineração de dados.
Funções e tarefas são implementadas através de um conjunto de algoritmos, fundamentados
em técnicas de mineração. A Figura 3-1 apresenta a taxonomia e a relação das principais
funções de cada etapa, além de uma relação exemplificativa de técnicas e algoritmos.
Funções ou Tarefas
Etapas de KDD
Pré-processamento
Seleção de Dados
Enriquecimento
Codificação
Limpeza
Mineração de Dados
Análise de Séries Temporais
Importância de Atributos
Regressão
Classificação
Detecção de Anomalias
Análise de Associações
Clusterização
Análise Exploratória
Pós-processamento
Simplificação doModelo
Organização eApresentação dos
Resultados
Transformação doModelo
Técnicas de MineraçãoMétodos
EstatísticosÁrvores de
DecisãoRegras deAssociação
RedesNeurais
Técnicas deClusterização
AlgoritmosGenéticos
LógicaFuzzy
SériesTemporais
Técnicas Baseadasem Instâncias
Técnicas deVisualização
Raciocínio Baseadoem Casos
Processos deMarkov
AlgoritmosInferênciaBayesiana
C4.5 Apriori SOMK-MeansRule
EvolverWang-Mendel
Box-Jenkins
K-NN Scatter PlotRaciocínio Baseado
em CasosHMM
Figura 3-1: Etapas, funções, técnicas e algoritmos encontrados no processo de KDD
- 26 -
3.2.1 Definições: Data Warehouse, linguagem SQL e ferramentas OLAP/OLTP
Data Warehouse (DW) é um repositório de dados para uma organização, criado a partir
de um conjunto de bases de dados integradas, cujo objetivo é dar suporte à tomada de
decisões estratégicas. Armazena dados históricos da organização, refletindo vários aspectos
do negócio (KANTARDZIC, 2003).
Outra definição de DW, encontrada em Goldschmidt e Passos (2005, p. 165), afirma
que "DW é um conjunto de dados baseados em assuntos, integrados, não-volátil, variável em
relação ao tempo, e destinado a auxiliar em decisões de negócio". Na mesma referência são
citadas duas diferenças entre DW e bases de dados tradicionais, a partir das quais são criados
os DWs. A primeira diferença relaciona-se à granularidade da informação, bases operacionais
armazenam informações detalhadas sobre o negócio em nível transacional, DW armazena
informações consolidadas, em nível adequado para a necessidade das aplicações executadas
sobre ele. Uma segunda diferença diz respeito à atualização da informação, bases de dados
operacionais são atualizadas constantemente, em tempo real, à medida que as transações de
negócio ocorrem, enquanto o DW somente é atualizado no momento da carga de um novo
conjunto de dados, associando nesse momento um novo rótulo temporal às informações
carregadas.
Apesar da existência de um DW não ser pré-requisito para DM, na prática, a tarefa de
mineração torna-se muito mais simples tendo acesso a um DW pois sua existência diminui ou
elimina a fase de preparação de dados para DM, que constitui uma das fases mais demoradas
e trabalhosas do processo (KANTARDZIC, 2003). Como citado em Goldschmidt e Passos
(2005), a passagem de informações do ambiente operacional para o DW exige muitas vezes a
transformação e consolidação de dados, através de ferramentas que facilitam o processo de
extração, transformação e carga.
- 27 -
Uma organização pode ter vários DWs departamentais, chamados Data Marts. Estes são
DWs criados para atender as necessidades de grupos de usuários específicos
(KANTARDZIC, 2003). São, como descrito em Goldschmidt e Passos (2005), porções físicas
ou lógicas do DW da empresa, criadas para atender áreas específicas da organização.
O acesso ao DW pode ocorrer através da linguagem SQL (Structured Query Language),
ferramentas OLAP (On-Line Analytical Processing) ou mineração de dados, estando as três
formas de acesso relacionadas, conforme explicado a seguir.
SQL é uma linguagem utilizada para manipulação de informações em bancos de dados
relacionais. É utilizada quando se sabe exatamente o que se está procurando. Através dela
pode-se impor restrições ou filtros aos dados, extraindo uma determinada informação
específica. De forma diferente, DM é apropriada para consultas exploratórias, através das
quais tenta-se extrair informações ocultas, sobre as quais tem-se pouco ou nenhum
conhecimento. Constata-se portanto que SQL e DM são técnicas complementares de acesso
ao DW (KANTARDZIC, 2003).
Ferramentas e métodos OLAP permitem que usuários analisem dados no DW, provendo
múltiplas visões das informações armazenadas através de técnicas avançadas de visualização.
Nessas visões, às diferentes dimensões dos dados correspondem diferentes características do
negócio. Tanto ferramentas OLAP como DM provêem respostas que são derivadas dos dados,
porém as ferramentas OLAP restringem-se a cálculos realizados sobre os dados, como numa
planilha, não ocorrendo aprendizado ou extração de novas informações. OLAP ajuda o
usuário final a tomar suas próprias conclusões baseadas em dados gráficos condensados. DM
visa à extração de informações novas, não obtidas através de cálculos simples ou
visualizações. Ferramentas OLAP são parte do trabalho de DM mas não substitutas
(KANTARDZIC, 2003).
- 28 -
Cabe por último fazer a distinção entre ferramentas OLAP e OLTP (On-Line
Transactional Processing), estas últimas empregadas para acesso às bases transacionais,
enquanto as primeiras são usadas para acesso ao DW.
3.3 PRIMEIRA ETAPA DE KDD: PRÉ-PROCESSAMENTO
Segundo Goldschmidt e Passos (2005), esta etapa engloba as funções relacionadas à
captação, à organização e ao tratamento dos dados, objetivando a preparação dos mesmos
para a etapa de mineração. Serão abordadas a seguir algumas funções presentes nessa etapa.
3.3.1 Representação dos dados
Em Dillon e Goldstein (1984) é apresentada uma primeira forma de representação dos
dados de entrada para o processo de KDD, considerando três possíveis dimensões para as
informações capturadas: objetos em análise, atributos analisados em cada objeto e o momento
no qual a medida é realizada. Cria-se assim um cubo de dados com três eixos, cada qual
representando um dos elementos descritos acima (objetos, atributos e tempo). Num ponto do
espaço formado pelos três eixos, temos o valor de uma medida realizada (xijk), indicando que
um objeto i tem seu atributo j medido no tempo k. Ver Figura 3-2, primeira representação.
Também em Dillon e Goldstein (1984) é proposta uma segunda forma de representação,
onde a dimensão tempo é eliminada. Essa simplificação é possível, segundo os autores,
quando não ocorre variação temporal nos atributos estudados, quando é feita uma agregação
desses valores, por exemplo calculando a média ao longo do tempo, ou quando o tempo torna-
se simplesmente mais um dos atributos. O cubo de dados apresentado anteriormente reduz-se
a uma matriz de dados, onde cada elemento xij representa o valor medido para o atributo j do
objeto i. Ver Figura 3-2, segunda representação.
- 29 -
Uma terceira forma de representação, apresentada em Berkhin (2002), consiste em
considerar que cada medida ou amostra será representada em um espaço p-dimensional, onde
cada eixo representa um atributo sendo medido e cada ponto no espaço representa a existência
de um objeto com valores de atributos correspondentes às coordenadas do ponto. Para incluir
a dimensão temporal basta incluir um novo eixo representando o tempo, construindo assim
um espaço (p+1)-dimensional. Nessa terceira representação, um conjunto de dados D é
formado por pontos xi, cada qual composto por p atributos, xi = (xi1, ..., xip). Ver Figura 3-2,
terceira representação.
NE
Atributo
Anoxijk
0002 00030001
2003
2004
2005
2006
ND
ML
Atributo
CVML
NE
0003
0002
xij
CV
0001
ML
ND
CV xijk
... 121
1
2
...
9
...
1
100
ND
1o Representação 2o Representação 3o Representação
Figura 3-2: Formas de representação propostas para os dados de entrada
Uma quarta e última forma de representar os dados de entrada corresponde a uma
modificação da terceira representação. Considerando ainda um espaço p-dimensional, cada
eixo correspondendo a um dos p atributos analisados, ao invés de considerar cada ponto do
espaço como indicativo da existência de um objeto, pode-se considerar que cada ponto do
espaço registra o número de ocorrências de objetos com idêntica combinação de medidas,
calculado durante um intervalo de tempo.
A quarta representação foi a adotada no trabalho, tendo sido estudadas notas de
empenho (objetos), realizando-se medidas sobre o valor das notas, modalidade de licitação e
natureza da despesa (atributos), ao longo de quatro anos (tempo), cada ponto do espaço
- 30 -
consolida o número de notas emitidas com igual valor para os três atributos durante
determinado intervalo de tempo.
3.3.2 Tipos de variáveis
Segundo Kantardzic (2003), uma divisão básica das variáveis usadas em DM são
variáveis numéricas e categóricas. As primeiras incluem variáveis reais ou inteiras, citando
como exemplos: idade, comprimento, etc. Variáveis categóricas incluem símbolos utilizados
para representar um conjunto discreto de valores, listando como exemplos: sexo, país, cor,
etc. Segundo o autor, as variáveis numéricas possuem as propriedades de igualdade (a = b),
ordenação (a > b) e distância (d(a,b)). As variáveis categóricas só possuem obrigatoriamente
a propriedade de igualdade, podendo em algumas situações possuir ordenação e/ou distância.
Em Dillon e Goldstein (1984), Frank e Witten (2005) e Kantardzic (2003) é colocada
uma classificação mais apurada em relação aos tipos das variáveis. Partindo de dois grupos
básicos: variáveis contínuas (quantitativas ou métricas) e variáveis discretas (qualitativas), são
elas subdivididas em cinco grupos segundo suas propriedades, conforme apresentado na
Tabela 3-1.
Numa aplicação típica de DM são usados vários tipos de variáveis simultaneamente
(qualitativas e quantitativas), tomando o cuidado de escolher os algoritmos adequados para
cada uma, ou transformando variáveis qualitativas em quantitativas ou vice-versa, de acordo
com o algoritmo escolhido.
- 31 -
Tabela 3-1: Classificação das variáveis segundo Kantardzic (2003), Frank e Witten (2005) e Dillon eGoldstein (1984)
Características Exemplos Propriedades suportadas
Esc
ala
dein
terv
alo O ponto zero é colocado
arbitrariamente emqualquer posição.
Datas.
Igualdade, ordenação edistância, com restrições a
algumas operações (não fazsentido considerar o dobro
do ano 1990).
Con
tínu
as, q
uant
itat
ivas
ou m
étri
cas
Esc
ala
dera
zão
Possui um zero absoluto.Comprimento e
tempo decorrido.Igualdade, ordenação e
distância.
Esc
ala
nom
inal Usa símbolos, caracteres
ou números pararepresentar diferentes
estados ou classes.
Cep. Igualdade.
Esc
ala
ordi
nal Semelhantes à escala
nominal, incluindo oconceito de ordenação.
Nível deescolaridade.
Igualdade e Ordenação.
Dis
cret
as o
u qu
alit
ativ
as
Per
iódi
cas
Semelhante à escalanominal, incluindo oconceito de distância.
Dias da semana oudo mês (não
constituindo umadata completa).
Igualdade e Distância.
3.3.3 Seleção e redução dos dados
A função de seleção tenta identificar as informações mais relevantes para o processo de
KDD entre as existentes na base de dados. De forma simplificada, pode ser implementada
através da seleção das tabelas de banco a serem utilizadas. Essa seleção encontra-se muitas
vezes relacionada ao conhecimento do especialista na área em análise. Como exemplo, neste
trabalho coube ao especialista definir as tabelas a serem exportadas do Siafi, que trariam
maior contribuição para a detecção de anomalias no tratamento de notas de empenho.
Depois de selecionadas as tabelas mais relevantes para a análise do problema, pode-se
ainda realizar uma segunda etapa de seleção, através da escolha de atributos (redução vertical)
e seleção de registros (redução horizontal).
- 32 -
Na redução vertical tenta-se selecionar um subconjunto de atributos entre os disponíveis
para a análise. Essa seleção pode servir para diminuir o tempo e complexidade dos
procedimentos de KDD, permitir que determinados algoritmos possam ser utilizados (em
função dos tipos de dados permitidos pelo algoritmo) e criar modelos de conhecimento mais
concisos e precisos. Neste trabalho, foi feita a redução vertical na escolha dos campos
referentes à emissão de notas que seriam analisados.
Caso não se disponha de um especialista para fazer a seleção, pode-se utilizar duas
técnicas na redução de atributos: Análise de Componentes Principais (Principal Component
Analysis – PCA) e Análise de Fatores (Factor Analysis). Segundo o exposto em Dillon e
Goldstein (1984), o objetivo primário do PCA é construir uma combinação linear das
variáveis originais que seja responsável pela maior parte possível do total de variação
decorrente das variáveis originais. Na análise de fatores o interesse fica centrado na parte da
variação total que uma variável em particular compartilha com as demais variáveis do
conjunto original. Um exemplo da utilização de PCA neste trabalho pode ser visto no
Apêndice E.
Na redução horizontal, tenta-se reduzir o número de registros a serem trabalhados no
processo de KDD. Essa redução pode ocorrer pela escolha (aleatória ou não) de um conjunto
de registros ou pela agregação de informações, que permite sumarizar um conjunto de casos
num único registro. Neste trabalho, a redução horizontal ocorreu mediante a agregação de
informações, conforme exposto na Seção 3.3.1 (quarta forma de representação).
Outro procedimento útil para a redução de dados é a redução de valores, que consiste
em diminuir o universo de possíveis valores de um atributo, reduzindo ou não o número de
registros. No caso de variáveis nominais pode-se usar um processo de abstração, substituindo
os valores originais, mais detalhados, por valores genéricos, com redução de atributos. Por
- 33 -
exemplo, pode-se substituir um conjunto de atributos referentes a endereço por um único
atributo contendo a cidade. Pode-se também substituir valores específicos por genéricos, sem
redução do número de atributos, por exemplo substituindo peças de vestuário (tênis, sapato,
etc) por um valor genérico (calçado). No caso de variáveis não nominais pode-se substituir os
valores originais por outros que representem faixas de valores.
Neste trabalho, as duas técnicas anteriores de redução de valores foram usadas. Na
categorização dos valores das notas de empenho, foram criadas faixas de valores, conforme
exposto na Seção 7.3. Na categorização da natureza da despesa foi proposta a utilização de
valores genéricos para substituir os valores originais, conforme apresentado na Seção 8.2.3.
3.3.4 Limpeza de dados
Tenta assegurar a qualidade dos dados selecionados. Procura corrigir informações
ausentes, inconsistentes e errôneas. São exemplos de casos que necessitam de limpeza:
valores que fujam do padrão normal do atributo (outliers), registros com discrepâncias entre
os valores de seus atributos e por último valores fora do domínio do atributo.
A limpeza de outliers merece um comentário especial pois nem sempre sua retirada é
adequada para o procedimento de mineração. Por exemplo, o objetivo do presente trabalho é a
detecção de anomalias, ou seja, localização de outliers dentro do conjunto de dados. Assim
sendo, não deve ser feita a retirada indiscriminada desses elementos na fase de pré-
processamento, pois o objetivo das tarefas de mineração de dados (próxima fase do KDD) é
justamente sua detecção.
3.3.5 Codificação
Torna os dados compatíveis para serem usados como entradas para os algoritmos de
mineração de dados. O procedimento de codificação divide-se em transformação de variáveis
- 34 -
numéricas em categóricas e vice-versa. Um exemplo da primeira, já citado na redução de
dados, consiste em codificar valores em categorias representando faixas. Exemplos de
codificação de variáveis categóricas em numéricas ocorrem na codificação de estado civil,
sexo, etc.
Neste trabalho, como citado anteriormente, ocorreu a categorização por faixa dos
valores das notas de empenho (Seção 7.3). Outra codificação realizada foi a transformação
dos valores da natureza da despesa, originalmente uma variável categórica, em uma variável
numérica.
3.4 SEGUNDA ETAPA DE KDD: MINERAÇÃO DE DADOS
Segundo Kantardzic (2003), mineração de dados é a busca por informações novas e não
triviais em grandes volumes de dados. É um esforço cooperativo de homens e computadores.
Melhores resultados são alcançados com o balanceamento do conhecimento humano, na
descrição dos problemas e objetivos, com a capacidade de busca dos computadores. Ainda
segundo a mesma referência, DM é um processo de descoberta de modelos, sumários e
valores, derivados a partir de uma coleção de dados.
Em Hand, Mannila e Smyth (2001), DM é definida como a análise de grandes conjuntos
de dados com o objetivo de encontrar relacionamentos ocultos e sumarizar os dados de forma
que sejam compreensíveis e úteis. Os relacionamentos e sumários obtidos através de DM são
normalmente chamados de modelos ou padrões (patterns).
Segundo Larose (2005), DM é o processo de descoberta de correlações, padrões e
tendências através da pesquisa em grandes repositórios de dados, usando tecnologias de
reconhecimento de padrões assim como técnicas estatísticas e matemáticas.
- 35 -
3.4.1 Tarefas da etapa de Mineração de Dados
A Tabela 3-2 apresenta as principais tarefas de DM estudadas. Na primeira coluna da
tabela é feita a junção de tarefas em macro-atividades, a serem estudadas conjuntamente nas
seções referenciadas.
Tabela 3-2: Tarefas de mineração de dados. As referências citadas são: A – Taft et al. (2005); B – Ye(2003); C – Kantardzic (2003); D – Hand, Mannila e Smyth (2001); E – Frank e Witten (2005); F – Larose(2005); G – Bay et al. (2000); H – Goldschmidt e Passos (2005); I – Chapman et al. (2000)
ReferênciasSeção
Tarefas, problemas ou funções daetapa de mineração de dados A B C D E F G H I
0 Análise de séries temporais X X
3.4.1.2 Classificação X X X X X X X X X
3.4.1.3 Regressão X X X X X X
Extração de características X3.4.1.4
Importância de atributos X X
3.4.1.5 Detecção de anomalias ou desvios X X X X X
3.4.1.6 Clusterização ou segmentação X X X X X X X X
Descoberta de seqüências X
Análise, descoberta, descrição oumodelagem de associações
X X X X X3.4.1.7
Análise ou modelagem dedependências
X X X
Identificação de similaridades X
Descoberta de padrões X X X
Descrição de dados X X
Descrição de conceitos X
Sumarização X X X
3.4.1.8
Análise exploratória X X
- 36 -
Conforme apresentado na tabela, é conveniente categorizar os procedimentos de DM
através de tarefas, que correspondem aos diferentes objetivos do analista. De modo geral,
cada tarefa de KDD extrai um tipo diferente de conhecimento da base de dados, logo cada
tarefa requer um conjunto de algoritmos diferentes para a extração de conhecimento (LOPES,
1999).
3.4.1.1 Análise de Séries Temporais
Segundo Valente (1995, p. 5), "Uma série temporal {xt} é uma família de variáveis
aleatórias assumindo valores em R, indexadas por t ∈ Z, onde R denota o conjunto dos
números reais e Z o conjunto dos números inteiros". Segundo o autor, pode ser decomposta
em quatro movimentos básicos: tendência geral, movimentos cíclicos (periódicos ou não),
movimentos sazonais e movimentos randômicos.
A análise de séries temporais é usada para prever o valor de atributos contínuos ao
longo do tempo, modelando tendências e comportamentos cíclicos (YE, 2003). Além de
previsão, esta tarefa pode ser usada para descrição, caracterizando a série através de
informações sobre autocorrelação, modelo da série, sazonalidade, estacionariedade, etc.
3.4.1.2 Classificação
Segundo Goldschmidt e Passos (2005, p. 13), "[...] consiste em descobrir uma função
que mapeie um conjunto de registros em um conjunto de rótulos categóricos predefinidos,
denominados classes". Posteriormente a função criada pode ser empregada para a
classificação de novos registros. As classes predefinidas podem ter sido criadas por separação
manual, feita por especialista no domínio, ou de forma automática, por técnicas de
segmentação.
Na classificação, exemplos ou casos, constituídos por um conjunto de atributos
independentes e um ou mais atributos dependentes, são separados em categorias (classes) que
- 37 -
representam os possíveis valores discretos do atributo dependente. Pode-se ter uma
classificação binária, quando o atributo dependente só assume dois valores, ou classificação
de múltiplas classes. O atributo de saída pode ter valores numéricos (representando as
categorias) ou propriamente categóricos. Os atributos de entrada podem ser categóricos ou
contínuos.
O processo de aprendizado dos algoritmos de classificação é normalmente
supervisionado pois durante o treinamento deve-se informar as categorias correspondentes à
variável dependente. Posteriormente o modelo treinado pode ser usado para previsão.
O processo de classificação pode ser interpretado também como reconhecimento de
padrões. Um conjunto de atributos (representando um padrão) é fornecido e o método de DM
deve verificar se o padrão de entrada é reconhecido ou não (classificação binária) ou a que
classe pertence determinado padrão.
Uma forma de avaliar o classificador, como descrita em Goldschmidt e Passos (2005), é
através da matriz de confusão, onde cada elemento da matriz xij representa o número de casos
classificados como pertencentes à classe j e que pertençam à classe i. Os elementos da
diagonal da matriz correspondem às classificações corretas enquanto os demais são
classificações erradas. Quando o classificador procura detectar se um elemento pertence ou
não a uma única classe, a matriz de confusão é resumida na Tabela 3-3.
Tabela 3-3: Matriz de confusão para um classificador binário
Verdadeiros PositivosElementos corretamente classificados como
pertencentes à classe
Falsos NegativosElementos pertencentes à classe classificados
erroneamente como não pertencentes
Falsos PositivosElementos não pertencentes à classe
classificados erroneamente como pertencentes
Verdadeiros NegativosElementos não pertencentes à classeclassificados corretamente como tal
- 38 -
3.4.1.3 Regressão
Semelhante à classificação, com o atributo dependente assumindo valores numéricos
(inteiros ou reais) ao invés de categóricos. Na classificação pode-se também utilizar como
saída valores numéricos (representando as categorias) mas sem os conceitos de ordenação e
distância, que caracterizam a regressão. Por outro lado, atributos de saída contínuos podem
ser discretizados, transformando um procedimento de regressão em classificação. O resultado
do processo de aprendizado é uma função que mapeia as variáveis de entrada nos valores reais
da variável dependente.
O processo de aprendizado dos algoritmos para regressão é normalmente
supervisionado pois durante o treinamento deve-se informar os valores correspondentes à
variável dependente. Posteriormente o modelo treinado pode ser usado para previsão.
Regressão pode ser interpretada como uma aproximação de função. Uma função
desconhecida f(x) é representada pelo modelo construído durante o aprendizado, baseado nas
entradas xi e nos valores da função f(xi). Posteriormente, novos valores x' são fornecidos ao
modelo que responde com o valor aproximado f(x'). A função f pode ser válida globalmente
ou caracterizada localmente, pode ser também classificada como linear ou não linear.
3.4.1.4 Importância de atributos e extração de características
A importância de atributos determina quais atributos contribuem mais ou menos para a
classificação ou regressão e posterior predição. Os atributos menos importantes podem ser
retirados do processo de DM tornando-o mais rápido e mais eficiente. A importância de
atributos é tipicamente um procedimento descritivo, que ajuda a detectar os atributos mais
importantes para uma fase posterior do trabalho de DM. Para um exemplo prático consultar o
Apêndice E.
- 39 -
A extração de características objetiva descrever os dados originais baseado numa nova
coleção de características. Uma característica corresponde a uma combinação de atributos da
amostra original.
Conforme descrito por Taft et al. (2005), o objetivo principal de ambas as técnicas é
tornar mais eficiente o procedimento de DM, seja pela redução no número de atributos
originais, seja pela criação de novos atributos que possuam mais informações para o
procedimento de DM.
3.4.1.5 Detecção de anomalias ou desvios
Um primeiro desafio na definição desta tarefa é a conceituação de eventos anormais e
anômalos. Bay et al. (2005, p. 132) resume algumas definições:
"Anomalias são eventos que não são esperados baseado no conhecimento de eventos prévios, os quais são
considerados normais. Como eventos freqüentes são considerados normais, anomalias são usualmente raras.
Baseado em eventos normais, métodos de mineração de dados podem gerar, de forma automática, modelos de
normalidade para identificar desvios, os quais podem ser considerados anomalias".
"Uma anomalia é um evento que desvia substancialmente de um modelo conhecido em algum domínio.
Anomalias são eventos gerados por um processo que é significativamente diferente do processo conhecido".
"Anomalias são observações com baixa tendência de ocorrência com respeito ao modelo considerado
como gerador das observações e com respeito também às demais observações disponíveis".
Na detecção de anomalias normalmente não se tem informação sobre a classe anômala,
só sobre a classe "normal". Cria-se então um perfil para a classe normal e analisa-se o desvio
dos exemplos em relação a essa classe. Se houvesse informações suficientes sobre as duas
classes, poder-se-ia criar modelos para ambas, usando um processo de classificação simples.
Por outro lado, quando não existem exemplos suficientes da classe anômala, não se pode criar
um modelo adequado para representá-la, pode-se apenas trabalhar com o modelo da classe
"normal" e inferir um limite para o desvio em relação a essa classe. Elementos que se afastam
da classe normal mais que o limite preestabelecido são considerados como "outliers".
- 40 -
Segundo Goldschmidt e Passos (2005), a detecção de anomalias difere das demais
tarefas de KDD em relação à informação buscada. Enquanto as demais tarefas procuram
descobrir padrões repetitivos, a detecção de anomalia procura descobrir padrões com pouca
ocorrência, que sejam suficientemente distintos dos demais padrões normalmente registrados.
A detecção de anomalias é o principal objetivo da parte prática desta Tese, sendo
empregada na detecção de indícios de irregularidades na emissão de notas de empenho. Esse
tema será apresentado no Capítulo 9.
3.4.1.6 Segmentação ou clusterização
Determina agrupamentos naturais ou clusters baseado em um conjunto de exemplos de
entrada. Um cluster é uma coleção de objetos similares segundo algum critério (por exemplo
distância euclidiana). Bons algoritmos de clusterização maximizam a similaridade intracluster
e reduzem a similaridade intercluster.
A segmentação pode eventualmente ser feita manualmente, baseando-se na experiência
do especialista no domínio da aplicação e possivelmente nos resultados da sumarização.
Quando realizado através de técnicas de clusterização, é um processo não supervisionado pois
o algoritmo busca determinar automaticamente as categorias ou clusters existentes nos dados
sem usar nenhuma informação prévia sobre a qual cluster os dados pertencem. A vantagem do
uso da clusterização em comparação com a segmentação manual é a possibilidade de detectar
estruturas ocultas, anteriormente não detectadas pelo especialista.
Clusterização difere da classificação. Nesta última o objetivo é a criação de modelos
que permitam a classificação de objetos entre classes já conhecidas. A clusterização objetiva
identificar as classes desconhecidas, e não necessariamente criar modelos para classificação.
- 41 -
A segmentação pode também ser usada para simplificar a aplicação de outras técnicas
de DM. Através da formação de grupos homogêneos torna-se mais fácil a aplicação de outras
técnicas de DM individualmente em cada grupo.
Uma variante do procedimento de clusterização tradicional é chamada targeted
clustering, na qual tenta-se criar clusters que sejam diferenciados em relação ao valor de um
determinado atributo, normalmente de significado expressivo para o negócio. No processo de
clusterização normal, os agrupamentos criados, apesar de distintos segundo a métrica
escolhida, podem não ter significado para o negócio. A criação de clusters segundo
determinadas variáveis pode ser feito elevando o valor de determinados atributos segundo a
métrica utilizada.
Segundo Goldschmidt e Passos (2005), o processo de clusterização normalmente requer
que o usuário do algoritmo informe o número de agrupamentos desejado. O algoritmo de
clusterização procura então separar os registros entre o número de grupos informado. Caso o
número não corresponda a agrupamentos reais, o algoritmo poderá criar grupos com baixo
número de elementos, que não representam agrupamentos reais. Por isso o procedimento pode
ser iterativo, fazendo várias tentativas com números diferentes de clusters até que se chegue a
grupos que caracterizem efetivamente os dados reais. Para tanto é necessário estabelecer
medidas de desempenho que indiquem a qualidade dos agrupamentos definidos pelo
algoritmo.
Os algoritmos usados na tarefa de clusterização serão estudados na Seção 4.3. Seu
emprego prático na Tese será apresentada no Capítulo 7, consistindo na criação de
agrupamentos de órgãos públicos com procedimentos semelhantes na execução da despesa.
- 42 -
3.4.1.7 Análise de associações ou dependências e padrões seqüenciais
Segundo Goldschmidt e Passos (2005, p. 13), "representam a busca por itens que
freqüentemente ocorram de forma simultânea em transações de banco de dados". Segundo
Chapman et al. (2000), consiste em encontrar modelos que descrevam dependências ou
associações entre itens de dados ou eventos.
É bastante utilizado na análise de cesta de compras, onde são inferidas correlações entre
produtos comprados simultaneamente. Essas informações são usadas posteriormente para
marketing, disposição de produtos em lojas, criação de catálogos (TAFT et al., 2005).
Outra área de emprego da técnica é na análise de navegação em páginas Web. No caso
tenta-se detectar que caminhos são mais comuns durante a navegação. Com isso pode-se criar
menus personalizados ou caminhos mais curtos para a informação (TAFT et al., 2005).
Regras de associação têm o formato YX → , onde X e Y são conjuntos de itens, e a
ocorrência dos itens em X induz a ocorrência dos itens em Y. Dois conceitos importantes em
relação a regras são suporte e confiança. O primeiro indica a freqüência mínima de ocorrência
conjunta de X e Y em relação ao total de registros para que a regra seja aceita. Confiança é a
freqüência com que Y aparece como conseqüente em relação a X para que a regra seja válida.
Na análise de associações descobre-se correlações entre atributos sem levar em conta
ordenação ou tempo. Segundo Goldschmidt e Passos (2005), a descoberta de seqüências é
uma extensão da tarefa de descoberta de associações, buscando não somente a co-ocorrência
de itens mas seqüências de itens semelhantes em várias transações ocorridas ao longo do
tempo.
3.4.1.8 Sumarização e análise exploratória
Segundo Chapman et al. (2000), a sumarização tenta identificar descrições mais
compactas e concisas sobre o conjunto de dados. A análise exploratória objetiva compreender
- 43 -
a natureza dos dados e encontrar hipóteses para informações ocultas. Para ambas é
conveniente que sejam realizadas nas etapas iniciais do processo de KDD pois subsidiam
outras tarefas de DM.
Algumas vezes podem ser o objetivo principal de um projeto de DM embora na maioria
das vezes seja apenas um dos primeiros passos do projeto. São normalmente procedimentos
não supervisionados, iterativos, sem um objetivo definido a não ser obter maior conhecimento
sobre os dados em análise.
Utilizam normalmente ferramentas visuais e estatística descritiva. Pode-se também usar
técnicas de amostragem para analisar grandes massas de dados (HAND; MANNILA;
SMYTH, 2001). Segundo Goldschmidt e Passos (2005), a sumarização pode ser casada com a
clusterização, aplicando a primeira a cada agrupamento definido pela clusterização.
A sumarização e análise exploratória foram largamente usadas neste trabalho para
permitir a compreensão do funcionamento da Administração Pública no que se refere à
emissão de notas de empenho. O Capítulo 7 concentra-se na execução dessas duas tarefas de
mineração de dados. Tal compreensão do funcionamento da Administração foi fundamental
para a criação dos modelos matemáticos, apresentados no Capítulo 8, que permitiram a
posterior detecção de anomalias por desvios de comportamento em relação aos modelos,
realizada no Capítulo 9.
3.4.2 Métodos e Técnicas de Mineração de Dados
Segundo Goldschmidt e Passos (2005, p. 17), "[...] técnica de KDD se refere a qualquer
teoria que possa fundamentar a implementação de um método de KDD [...]". Métodos de
KDD são tratados na literatura indistintamente como "Técnicas de KDD" ou "Metodologias
de KDD". Tais métodos ou técnicas servem para executar as tarefas de DM descritas
- 44 -
anteriormente. Aos métodos de mineração correspondem normalmente determinados
algoritmos.
A Tabela 3-4 apresenta alguns métodos ou técnicas encontrados na pesquisa
bibliográfica, relacionando-os com as tarefas de DM anteriormente citadas. Muitas vezes as
técnicas se confundem com as tarefas e com os algoritmos correspondentes. Procurou-se, na
medida do possível, manter a taxonomia adequada na criação da tabela.
Tabela 3-4: Técnicas de mineração de dados aplicadas por tarefas. As tarefas são: 1 – Séries temporais; 2 -Classificação; 3 - Regressão; 4 – Importância de atributos; 5 – Detecção de anomalias; 6 - Clusterização; 7– Análise de associações e dependências; 8 – Análise exploratória. As referências citadas são: A – Taft etal. (2005); B – Ye (2003); C – Kantardzic (2003); D – Hand, Mannila e Smyth (2001); E – Frank e Witten(2005); F – Larose (2005); G – Bay et al. (2000); H – Goldschmidt e Passos (2005); I – Chapman et al.(2000); J – Lopes (1999); L – Zhang (2001); M – Baras e Radosavac (2003); N – Ye (2000); O – Radamas(2003); P - Ankerst (2000); Q – Wangenheim e Wangenheim (2003)
Tarefas de Mineração de DadosTécnicas de Mineração de Dados
1 2 3 4 5 6 7 8
Métodos estatísticos (B, C, E, F, H, J) X X X X X X X
Técnicas de clusterização (C, D, E, I) X
Árvores e regras de decisão(A, B, C, E, F, H, I, J)
X
Regras de associação (B, C, D, E, F) X
Redes neurais (B, C, E, F, H, I, J, O) X X X X X
Algoritmos genéticos (C, H, I, J) X X
Inferência nebulosa (C, H, J) X
Análise de séries temporais (B) X
Técnicas baseadas em instâncias (E, H) X
Técnicas de visualização (I, P) X X X X
Raciocínio baseado em casos (I, Q) X
Processos de Markov (B, L, M, N) X X X
- 45 -
Não serão analisadas todas as técnicas citadas. Algumas delas, que servem para
fundamentar os algoritmos efetivamente usados no trabalho, serão estudadas no Capítulo 4.
3.4.3 Algoritmos
Conforme citado em Goldschmidt e Passos (2005, p. 52), "[...] a etapa de mineração de
dados compreende a aplicação de algoritmos sobre os dados procurando abstrair
conhecimento". A escolha dos algoritmos é impactada por vários fatores: o tipo de variável de
entrada, a forma de representação do conhecimento produzido e o tipo de aprendizado
utilizado.
O tipo de variável de entrada é relevante para a escolha pois determinados algoritmos
possuem restrições sobre os tipos de valores com que conseguem trabalhar. Alguns algoritmos
só aceitam variáveis categóricas, outros aceitam somente numéricas. O tipo da variável,
embora aceito pelo algoritmo, pode influenciar em seu desempenho. Uma forma de conciliar
os tipos de variáveis com o algoritmo escolhido é atuar na etapa de pré-processamento,
através da transformação de dados.
Em relação à representação do conhecimento, pode ser necessário que o modelo criado
pelo algoritmo seja compreensível pelo especialista no negócio. Modelos como os criados por
redes Backpropagation não são diretamente interpretáveis, diferente dos modelos criados por
árvores e regras de decisão. Para contornar esse problema, pode-se atuar na fase de pós-
processamento, através da transformação de modelos.
Por fim, deve-se analisar na escolha do algoritmo o tipo de aprendizado. Algoritmos de
mineração de dados normalmente aprendem a partir dos exemplos disponibilizados numa base
de treinamento. Esses exemplos podem conter ou não informações sobre a saída esperada para
cada registro. Em função dessa informação, divide-se o aprendizado em supervisionado e não
supervisionado.
- 46 -
O aprendizado supervisionado é usado para estimar uma dependência desconhecida
entre entradas e saídas conhecidas. Os algoritmos supervisionados, baseando-se em valores de
entrada e nos respectivos valores de saída, criam um modelo que relaciona ambos os valores.
Classificação e regressão são exemplos de tarefas nas quais utiliza-se esse tipo de algoritmo
(KANTARDZIC, 2003).
No aprendizado não supervisionado somente os valores de entrada são apresentados ao
algoritmo, não sendo fornecidos os valores de saída correspondentes. Cabe ao algoritmo
construir um modelo que represente a estrutura "natural" ou relacionamentos implícitos
existentes entre as variáveis de entrada. Neste tipo de algoritmo não existe um "professor"
fornecendo as saídas correspondentes às entradas, daí o nome não supervisionado
(KANTARDZIC, 2003).
Para simplificar a análise dos algoritmos, convém agrupá-los em técnicas genéricas, que
correspondem às teorias que fundamentaram a criação dos mesmos. Outra classificação
importante diz respeito às tarefas de mineração de dados nas quais os algoritmos são
utilizados.
Está fora do escopo deste trabalho realizar uma análise detalhada dos algoritmos
citados. Na Tabela 3-5 são apresentados algoritmos, as técnicas nas quais estão embasados e
as referências para obtenção de maiores detalhes sobre cada um deles. A relação apresentada é
meramente exemplificativa, não englobando todos os possíveis algoritmos associados a cada
técnica.
No Capítulo 4 serão apresentados com maiores detalhes os algoritmos efetivamente
utilizados neste trabalho, com o aprofundamento mínimo necessário para a compreensão do
restante do trabalho. Mesmo nesses casos recomenda-se consultar as referências aqui
apresentadas.
- 47 -
Tabela 3-5: Relação entre algoritmos e técnicas de mineração de dados. As referências citadas são: A –Taft et al. (2005); B – Ye (2003); C – Kantardzic (2003); D – Hand, Mannila e Smyth (2001); E – Frank eWitten (2005); F – Larose (2005); G – Bay et al. (2000); H – Goldschmidt e Passos (2005); I – Chapman etal. (2000); J – Lopes (1999); L – Zhang (2001); M – Baras e Radosavac (2003); N – Ye (2000); O –Radamas (2003); P - Ankerst (2000); Q – Kohonen (2001)
Técnicas Exemplos de algoritmos com as respectivas referências
Métodos estatísticos
Inferência bayesiana (B, C, E, H, A, J); Regressão/classificação lineare logística (C, E); Análise multivariada (F); ANOVA (C); Linear
discriminant analysis (C); PCA (B, D); Factor Analysis; MinimumDescription Length (A)
Técnicas declusterização
Por divisão, aglutinação, partição e incremental (C); Estimativa dedensidade (D); K-Means (E, F, H, A); O-Cluster (A)
Árvores e regras dedecisão
CLS (C); ID3 (C, J); C4.5 (C, F, H); C5.0 (E, F); CART –Classification and Regression Trees (F);
Regras de associaçãoApriori (C, F, H, A, J); GSP (H); DHP (H); Basic (J); Cumulate (J);
Stratify (J); Estimate (J); EstMerge (J);
Redes neuraisSelf-Organizing Maps (C, F, H, O, Q); Backpropagation (E, F, H);
RBF – Radio-Basis Function (E, J); SVM (H, A); Redes neuraisprobabilísticas (J)
Algoritmosgenéticos
Rule evolver (H, J)
Inferência nebulosa Wang-Mendel (H)
Análise de sériestemporais
Box-Jenkins (I)
Técnicas baseadasem instâncias
K-Nearest Neighbors (E, F, H, I)
Técnicas devisualização
Algoritmos geométricos (scatter plot, survey plot), baseados em ícones(stick figure, Chernoff's faces), baseados em pixels e hierárquicos
(Dimensional stacking) (C, P)
Processos de MarkovHiden Markov Processes (B); Hidden Markov Model (L, M); Cadeias
de Markov (N)
3.5 TERCEIRA ETAPA DE KDD: PÓS-PROCESSAMENTO
Segundo Goldschmidt e Passos (2005, p. 55), "[...] envolve a visualização, a análise e a
interpretação do modelo de conhecimento gerado pela etapa de mineração de dados". Como
exemplos de operações realizadas nessa etapa, pode-se citar: simplificação do modelo,
transformação do modelo e apresentação dos resultados.
- 48 -
A representação do conhecimento, fruto do procedimento de KDD é de particular
importância nesta fase do processo. Segundo Passos (1989), representação do conhecimento é
um conjunto de convenções sintáticas e semânticas que possibilitam descrever coisas. As
primeiras especificam os símbolos que podem ser usados e as maneiras como podem ser
arranjados. As convenções semânticas especificam os significados incorporados nos símbolos.
Em Frank e Witten (2005) é utilizado o termo "representação de padrões", indicando o
resultado do processo de aprendizado de máquina, realizado através de um conjunto de
técnicas aplicadas aos dados de entrada. A seguir serão descritas algumas das principais
formas de representação do conhecimento.
3.5.1 Linguagens de programação
Segundo Passos (1989), são a representação de procedimentos voltados para a solução
de problemas específicos. Sua sintaxe é normalmente especificada pela forma de Backus-
Naur (BNF - Backus-Naur-Form), conforme descrito em Norvig e Russell (2004), e sua
semântica pela descrição de como os comandos da linguagem são usados para obter algo.
3.5.2 Redes semânticas
Segundo Passos (1989, p. 43), "[...] modela o conhecimento como um conjunto de
pontos chamados nós ou nodos, conectados por ligações chamadas arcos [...]". Nodos
representam objetos, conceitos ou eventos. Arcos representam relações entre os nodos, por
exemplo: "é um" e "é parte".
3.5.3 Lógica matemática
Segundo Passos (1989, p. 29), "[...] é o estudo matemático e filosófico mais antigo
sobre a natureza do raciocínio e do conhecimento [...]". Sua forma mais simples é a lógica
proposicional ou sentencial, na qual as expressões, chamadas proposições, podem assumir os
- 49 -
valores "falso" e "verdadeiro". Proposições simples podem ser combinadas por conectores
lógicos (E, OU, Não, Implica, Equivale) para formar proposições compostas.
A lógica de predicados, também chamada de lógica de primeira ordem, estende o poder
de representação da lógica proposicional, permitindo não só expressar proposições
verdadeiras ou falsas, como também objetos e generalizações sobre classes de objetos.
Através de um motor de inferência, usando conhecimento dedutivo da lógica (resolução,
modus ponens, etc), a representação será usada para fazer deduções.
3.5.4 Árvores de decisão
Como apresentado em Frank e Witten (2005), árvores de decisão são formadas por nós
ligados por arcos. Cada nó realiza o teste de um ou mais atributos dos dados de entrada. Os
testes são feitos através de comparações com constantes ou dos atributos entre si. O resultado
do teste conduz sucessivamente a outros nós onde o procedimento anterior é repetido. No
final dos ramos da árvore encontram-se nós chamados "folhas", que indicam a classificação
específica das instâncias que alcançaram aquele nó.
3.5.5 Estatística
Segundo Spiegel (1978), um conjunto de dados em análise pode ser descrito, numa
visão estatística, através de funções de distribuição de probabilidade, que caracterizam o
padrão de comportamento das instâncias analisadas. Pode-se utilizar também medidas de
tendência (média), dispersão (variância) e dependência (covariância). Mais detalhes sobre
representação estatística serão apresentados na Seção 4.2.
3.5.6 Regras de produção
Segundo Passos (1989), representam o conhecimento através de pares condição-ação.
As regras, formadas por um antecedente ("se") e um conseqüente ("então"), formam uma base
- 50 -
de conhecimento. Tal base é usada em sistemas especialistas para produzir conhecimento
novo, não armazenado na base, através de mecanismos de inferência chamados motores de
inferência. Mais detalhes sobre regras de produção serão apresentados na Seção 4.5.
3.5.7 Regras de associação
Segundo Frank e Witten (2005), representam regularidades encontradas nos dados
analisados. Da mesma forma que as regras de produção, são formadas por pares se-então.
Diferente das regras de produção, as regras de associação são criadas diretamente a partir dos
dados, e não do conhecimento de especialistas.
Como pequenas coleções de dados podem gerar grande número de regras, é necessário
estabelecer restrições a sua criação. Tais restrições são representadas pela cobertura, também
chamada de suporte, indicando o número de instâncias para as quais o antecedente é aplicado.
A segunda restrição é a acurácia, ou confiança, indicando a proporção de previsões corretas
em relação ao total de instâncias para as quais a regra pode ser aplicada.
3.5.8 Redes neurais artificiais
Segundo Larose (2005), redes neurais são uma forma de imitar o aprendizado não linear
encontrado nos neurônios reais. Através de algoritmos de aprendizado, os pesos associados às
conexões dos neurônios artificiais são modificados até que a rede possa representar o padrão
encontrado nos dados de treinamento. Assim sendo, a representação do conhecimento está
presente nos pesos da rede treinada.
Diferente de outros métodos de representação, o conhecimento armazenado não é
facilmente explicitado, nem pode ser usado para justificar a classificação de novas instâncias,
como ocorre por exemplo no caso da representação por regras. Mais detalhes sobre redes
neurais serão apresentados na Seção 4.4.
- 51 -
3.5.9 Clusters
Clusters são agrupamentos de instâncias com características próximas entre si e
diferentes das demais instâncias não pertencentes a determinado cluster. A representação dos
dados ocorre através dos clusters descobertos, ou mais precisamente por vetores (protótipos)
que representam o comportamento médio das instâncias que constituem o agrupamento. Mais
sobre o processo de clusterização será visto na Seção 4.3.
3.5.10 Representação baseada em instâncias
Segundo Frank e Witten (2005), a forma mais simples de aprendizado é a memorização.
Uma vez que um conjunto de instâncias tenham sido memorizadas juntamente com as
respectivas classes, uma nova instância será classificada baseado na busca pela ocorrência
mais próxima armazenada.
A característica diferenciadora dessa representação é que não é construído um modelo
explícito, baseado em regras, árvores, etc; para representar os dados. Outra diferença é o
momento do aprendizado, nas demais representações as generalizações são feitas durante um
período de treinamento. Na representação baseada em instâncias, como não há modelo
construído, não há treinamento, o aprendizado ocorre no momento da classificação da nova
instância, através da busca em memória e do critério de comparação adotado.
Conceitualmente falando, não se poderia utilizar o termo "aprendizado" pois não são criadas
representações dos padrões encontrados nos dados. Um exemplo de técnica baseada nesta
representação é a dos k vizinhos mais próximos (k-nearest-neighbor).
3.5.11 Casos
Segundo Wangenheim e Wangenheim (2003), "[...] casos representam tipicamente a
descrição de uma situação (problema) conjuntamente com as experiências adquiridas
- 52 -
(solução) durante a sua resolução [...]". O problema é representado por um conjunto de
atributos e seus respectivos valores, a solução é representada pelas ações realizadas. Casos são
armazenados em bases de casos, contendo experiências positivas, descrevendo estratégias de
solução bem sucedidas na resolução do problema descrito, e contendo opcionalmente
experiências negativas, indicando tentativas frustradas de solução do problema. Quando um
novo problema é apresentado, a base de casos é pesquisada para encontrar casos similares,
cuja solução é adaptada para o problema atual. Supõe-se que problemas com descrição similar
apresentam soluções também similares.
3.6 PROCESSO DE MINERAÇÃO DE DADOS: CRISP-DM
Segundo Chapman et al. (2000), CRoss-Industry Standard Process for Data Mining
(CRISP-DM) é um processo padronizado para execução das atividades de mineração de
dados, independente do problema em análise, ferramentas ou setor da indústria. Surgiu em
1996 quando o mercado de informática começou a oferecer ferramentas e serviços visando à
mineração de dados.
O objetivo de descrever o processo em maiores detalhes é o fato de ter sido usado, ainda
que implicitamente, na parte prática da Tese, orientando os procedimentos de descoberta de
conhecimento e mineração de dados.
O modelo se propõe a oferecer um conjunto de passos que possam ser utilizados em
qualquer trabalho de mineração. Vale destacar que o modelo não surgiu no mundo acadêmico,
seu desenvolvimento veio através de experiências de mercado com projetos reais de DM.
A metodologia é descrita em termos de um modelo hierárquico de processo, consistindo
de um conjunto de tarefas descritas em quatro níveis de abstração: fases, tarefas genéricas,
tarefas especializadas e instâncias de processo (ver Figura 3-3).
- 53 -
Fases
Tarefas Genéricas
Tarefas Específicas
Instâncias de Processo
Modelo deProcesso
Mapeamento
Processo
Figura 3-3: Camadas do modelo de referência CRISP-DM
O nível mais alto (Fases) é constituído por seis fases, cada qual formada por um
conjunto de tarefas genéricas. Esse segundo nível (Tarefas Genéricas) é proposto de forma
genérica de forma a cobrir todas as possíveis situações em que se utilize DM. O terceiro nível
(Tarefas Especializadas) descreve como as tarefas do nível genérico podem ser realizadas
numa aplicação específica. O quarto nível (Instância de Processo) registra as ações, decisões e
resultados obtidos através da execução de uma tarefa especializada num caso prático.
3.6.1 Fases do modelo CRISP-DM
O modelo é dividido em seis fases no nível mais elevado, as quais são inter-relacionadas
conforme a Figura 3-4. A figura ressalta a natureza cíclica do processo de DM e a
possibilidade de navegação entre diferentes fases, indicando que não é um processo rígido em
termos de seqüência de fases. A seguir é apresentado um resumo de cada uma das fases e suas
tarefas genéricas.
- 54 -
Compreensãodo Negócio
Compreensãodos Dados
Preparaçãodos Dados
Modelagem
Avaliação
Implantação
Dados
Figura 3-4: Ciclo de vida proposto para um projeto de DM conforme o modelo de referência CRISP-DM
A fase de compreensão do negócio foca no entendimento dos objetivos e requisitos do
projeto, na perspectiva do negócio. Em seguida converte a compreensão inicial num problema
de DM e na criação de um plano preliminar para alcançar os objetivos levantados. Suas
tarefas genéricas são: determinar os objetivos do negócio, verificando a real necessidade do
cliente; verificar os recursos disponíveis em termos de pessoal, dados, hardware e software;
determinar os objetivos da mineração de dados e criar o plano de projeto.
A fase de compreensão dos dados inicia com a coleta de dados e procede com
atividades que permitem que o analista se torne familiar com os dados, identificando
problemas com a qualidade dos dados, faça as primeiras descobertas e detecte subconjuntos
que permitam formular hipóteses sobre informações ocultas. Suas tarefas genéricas são: coleta
inicial de dados; descrição superficial dos dados; exploração dos dados, aprofundando a
descrição anterior e verificação da qualidade dos dados.
A fase de preparação dos dados cobre todas as atividades necessárias para a construção
do conjunto final de dados que será usado pelas ferramentas de DM. Suas tarefas genéricas
são: seleção dos dados a serem usados; limpeza dos dados; criação de novos campos como
- 55 -
atributos derivados, transformação de valores, etc; integração de dados, combinando
informações de múltiplas tabelas e formatação dos dados de forma a torná-los compatíveis
com os próximos procedimentos.
Na fase de modelagem é feita a seleção e aplicação de várias técnicas, com a calibração
dos parâmetros e criação de modelos que representem as informações contidas nos dados.
Suas tarefas genéricas são: seleção das técnicas de DM a serem utilizadas; gerar
procedimentos de teste para verificar a qualidade e validade dos resultados; executar as
técnicas selecionadas fazendo o ajuste de parâmetros e avaliação dos resultados iniciais, feita
pelo especialista em DM, focando a acurácia e generalidade do modelo criado.
Na fase de avaliação, após a seleção de um ou mais modelos, é importante avaliá-los e
verificar se atendem aos objetivos de negócio. Suas tarefas genéricas são: avaliação dos
resultados, do ponto de vista dos objetivos de negócio inicialmente levantados; revisão do
processo e determinação dos próximos passos do projeto, avaliando se o modelo obtido pode
ser implantado ou se é necessário realizar novas iterações para aprimorá-lo.
Na fase de implantação é feita a colocação do modelo descoberto no processo produtivo
da empresas. Pode variar da simples geração de relatórios gerenciais até a incorporação dos
modelos através dos sistemas da empresa. Esta fase refere-se à aplicação de modelos de DM
no processo decisório. Suas tarefas genéricas são: planejamento da implantação; planejamento
do monitoramento e manutenção; preparação dos relatórios finais e revisão do projeto.
- 56 -
4 TÉCNICAS E ALGORITMOS DEMINERAÇÃO DE DADOS UTILIZADOS
4.1 INTRODUÇÃO
Conforme descrito na introdução, este trabalho propõe um modelo para detecção
automática de irregularidades na execução da despesa, dividido em dois módulos principais:
sistemas especialistas e mineração de dados. O objetivo deste capítulo é apresentar as técnicas
e algoritmos necessários para a construção dos dois módulos.
O primeiro deles, sistema especialista, será abordado superficialmente. Embora não
implementado na parte prática do trabalho, seu uso foi proposto formalmente no Capítulo 6
como parte integrante do modelo de detecção, ficando seu desenvolvimento como sugestão
para trabalhos futuros. Por ter sido incluído no modelo, torna-se importante apresentar sua
fundamentação teórica, permitindo assim uma melhor compreensão do mecanismo de
detecção. O capítulo enfatiza principalmente as técnicas usadas na construção do módulo de
mineração de dados: clusterização, técnicas estatísticas, redes neurais e sistemas nebulosos.
A clusterização foi utilizada para identificar conjuntos de órgãos com comportamento
semelhante quanto à execução da despesa, permitindo a escolha de quatro deles, cada um
pertencente a um conjunto, para análise detalhada de comportamento, feita no Capítulo 7. Tal
análise permitiu a construção dos dois modelos de comportamento no módulo de mineração
de dados. A análise estatística foi utilizada na construção de um desses modelos, cuja criação
será apresentada na Seção 8.2. Redes neurais foram utilizadas para criar o segundo modelo de
comportamento, procedimento detalhado na Seção 8.3.
O mecanismo de detecção de anomalia, segundo componente do módulo de mineração
de dados, foi também implementado a partir de duas técnicas. A primeira implementação foi
feita através de regras e sistemas de lógica nebulosa, apresentados na Seção 9.2. Redes
- 57 -
neurais foram a segunda escolha de implementação para o mecanismo de detecção, conforme
colocado na Seção 9.3.
Vale destacar que, em função das diversas técnicas citadas, não será possível o estudo
aprofundado de cada uma delas. O capítulo se propõe a fazer uma apresentação superficial
dos temas, com o objetivo de prover uma fundamentação mínima para aqueles que não têm
conhecimento das técnicas descritas. Para um maior aprofundamento dos temas, ao final de
cada item são colocadas referências a trabalhos específicos.
4.2 ANÁLISE ESTATÍSTICA
4.2.1 Variáveis aleatórias
Para conceituar variáveis aleatórias, convém antes definir alguns itens básicos,
indispensáveis para sua compreensão. Todas as definições apresentadas ao longo da Seção 4.2
foram extraídas de Mukhopadhyay (2000) e Trosset (2004), não sendo posteriormente
repetidas as referências.
Iniciando pelo conceito de experimento aleatório, que é aquele em que os resultados não
são essencialmente os mesmos, ainda que as condições de realização se mantenham
parcialmente as mesmas.
O conjunto de todos os resultados possíveis de um experimento aleatório é chamado
espaço amostral, sendo cada resultado possível denominado ponto amostral. Quando o espaço
amostral é finito ou infinito enumerável é chamado espaço discreto, se infinito não-
enumerável é chamado espaço não-discreto ou contínuo.
Um evento é um subconjunto do espaço amostral. Um evento composto de um único
elemento é chamado evento simples ou elementar.
- 58 -
Probabilidade é a medida de certeza com que podemos esperar a ocorrência de
determinado evento, resultado de um experimento aleatório. Recebe um número no intervalo
de zero a um.
Chega-se então ao conceito de variável aleatória. Dada uma função que atribua a cada
ponto de um espaço amostral um número, essa função é chamada variável aleatória, variável
estocástica, ou, mais precisamente, função aleatória ou função estocástica. Pode-se definir
então uma variável aleatória como uma função real das saídas do experimento aleatório.
Uma variável aleatória que assume um número finito ou infinito enumerável de valores
é chamada variável aleatória discreta. Quando assume um número infinito não-enumerável de
valores é chamada de variável aleatória contínua.
Pode-se considerar os seguintes exemplos ilustrativos dos conceitos apresentados:
a) Tendo como experimento aleatório a jogada de dois dados, a soma dos valores obtidos é
uma variável aleatória discreta;
b) Considerando como experimento aleatório a transmissão eletrônica de uma mensagem, o
tempo total necessário para transmiti-la é uma variável aleatória contínua;
c) Tomando como experimento aleatório a emissão de uma nota de empenho por um órgão
da Administração Pública e registrando-se a modalidade de licitação utilizada. O espaço
amostral correspondente a esse experimento seria o conjunto de doze possíveis
modalidades utilizáveis (convite, dispensa, concurso, etc). Um evento simples seria o uso
da modalidade convite, com probabilidade hipotética de 0,4. Definido-se uma função que
atribua a cada evento simples desse espaço amostral um número, no exemplo dado
variando de um a doze (convite – 1, dispensa – 2, etc), essa função, segundo a definição
anterior, seria uma variável aleatória discreta.
- 59 -
4.2.1.1 Distribuições discretas de probabilidade
Sendo X uma variável aleatória discreta, podendo assumir valores x1, x2, x3, ...,
dispostos em ordem crescente de magnitude, a cada um desses valores pode-se atribuir
probabilidades fk, representando a probabilidade da variável aleatória X assumir cada um dos
valores xk, para k = 1, 2, .... Pode-se então definir a função distribuição de probabilidade f(x),
dada por:
( ) ( )xXPxf == , para x = xk
( ) 0=xf , para os demais valores (4-1)
A função f possui as seguintes propriedades:
( ) 0≥xf
( ) 1=∑x
xf (4-2)
A função de distribuição acumulada para uma variável aleatória discreta X, dada por
F(x), é definida como:
( ) ( )xXPxF ≤= , onde x é um número real. (4-3)
Usando a função distribuição de probabilidade f, pode-se definir a função de
distribuição acumulada F como:
( ) ( ) ( )∑≤
=≤=xu
ufxXPXF (4-4)
4.2.1.2 Variáveis aleatórias contínuas
Sendo X uma variável aleatória contínua, a probabilidade de X tomar um determinado
valor específico é, em geral, zero. Para chegar a uma definição de distribuição de
probabilidade contínua, considera-se a probabilidade de X estar compreendida entre dois
valores diferentes. Considerando a função f(x) com as seguintes propriedades:
( ) 0≥xf
- 60 -
( ) 1=∫+∞
∞−
dxxf (4-5)
Define-se a probabilidade de X estar entre a e b por:
( ) ( )∫=<<
b
a
dxxfbXaP (4-6)
A função f(x) que satisfaz as condições anteriores é chamada função de distribuição de
probabilidade para a variável aleatória contínua, também chamada de função de densidade de
probabilidade, ou simplesmente função de densidade.
A função de distribuição acumulada para a variável aleatória contínua X, dada por F(x),
é definida como:
( ) ( ) ( ) ( )∫∞−
=≤<∞−=≤=
x
duufxXPxXPxF (4-7)
4.2.1.3 Distribuições conjuntas
Considerando duas ou mais variáveis aleatórias discretas, por simplicidade apresentando
a seguir o caso particular de duas, tem-se a função de probabilidade conjunta se X e Y dada
por:
( ) ( )yYxXPyxf === ,, (4-8)
onde:
( ) 0, ≥yxf e
( )∑∑ =x y
yxf 1,
Se X e Y são variáveis aleatórias independentes, tem-se:
( ) ( ) ( )yYPxXPyYxXP ===== , (4-9)
A função de distribuição acumulada conjunta de X e Y é definida como:
( ) ( ) ( )∑∑≤ ≤
=≤≤=xu yv
vufyYxXPyxF ,,, (4-10)
- 61 -
Para X e Y variáveis aleatórias contínuas, a função de probabilidade conjunta ou função
de densidade conjunta é dada por:
( ) 0, ≥yxf (4-11)
( ) 1, =∫ ∫+∞
∞−
+∞
∞−
dxdyyxf (4-12)
A probabilidade de X estar entre a e b, e de Y estar entre c e d, é dada por:
( ) ( )∫ ∫= =
=<<<<
b
ax
d
cy
dxdyyxfdYcbXaP ,, (4-13)
A função de distribuição acumulada conjunta de X e Y, no caso contínuo, é dada por:
( ) ( ) ( )∫ ∫−∞= −∞=
=≤≤=
x
u
y
v
dudvvufyYxXPyxF ,,, (4-14)
Se X e Y são variáveis aleatórias independentes, tem-se:
( ) ( ) ( )yYPxXPyYxXP ≤≤=≤≤ , (4-15)
4.2.1.4 Cálculo das funções distribuição de probabilidade para variáveis discretas
A determinação dos valores da função distribuição de probabilidade pode ocorrer de
duas formas: probabilidade "a priori" ou através de funções de distribuição conhecidas.
Na primeira forma, através da probabilidade derivada da freqüência ou "a priori", se
após n repetições de um experimento, considerando n suficientemente grande, observam-se h
ocorrências de determinado evento, então a probabilidade do evento é h/n. Essa probabilidade
é chamada probabilidade empírica. Tratando-se de variável aleatória discreta, assumindo um
conjunto finito de valores, pode-se tabelar a probabilidade da variável assumir cada um dos
valores através do método empírico. Por esse método, somam-se as probabilidades dos
eventos simples que dão origem a determinado valor da variável aleatória, repetindo o
procedimento para cada valor possível desta variável.
- 62 -
No exemplo (c) apresentado na Seção 4.2.1, considerando a variável aleatória que
representa a modalidade de licitação usada numa dada compra, pode-se aplicar o cálculo
anterior da seguinte forma: para cada uma das doze modalidades de licitação (concurso,
convite, etc) calcula-se a probabilidade através da freqüência (h/n). Como os valores da
variável aleatória (xk, k = 1, 2, ..., 12) estão associados a eventos simples, os valores da função
de distribuição correspondem aos doze valores possíveis de probabilidade empírica para os
eventos simples.
Em casos especiais, as probabilidades de ocorrência podem ser parametrizadas, criando-
se funções de distribuição de probabilidade conhecidas. Para exemplificar, considere a função
de probabilidade binomial, caracterizando a variável aleatória X que representa o número de
sucessos em x provas de um total de n, cada qual com probabilidade de sucesso de valor p,
dada por:
( ) ( ) ( ) xnx ppx
nxXPxf −
−
=== 1 (4-16)
Nesse caso não há a necessidade de realizar a tabulação descrita na primeira forma uma
vez que a função informa automaticamente a probabilidade para cada valor da variável
aleatória. Também nesse exemplo o cálculo de p pode ser feito através da freqüência (h/n),
como descrito na primeira forma.
4.2.1.5 Medidas de tendência, dispersão e dependência para variáveis aleatórias
discretas
Dada uma variável aleatória X, podendo tomar os valores x1,...,xn, define-se esperança
matemática de X, comumente designada como média de X, por:
( ) ( )∑=
==n
jjj xfxXE
1
µ (4-17)
onde:
- 63 -
f é a função distribuição de probabilidade de X.
Quando a variável aleatória pode assumir um número infinito contável de valores, pode
ocorrer da soma infinita ( )∑x
xfx não ser bem definida. Como no escopo deste trabalho tal
situação não ocorre, ou seja, as variáveis aleatórias definidas possuem número finito de
valores, esta situação não será abordada. Remete-se à leitura da referência citada para
detalhamento do problema.
Como medida de dispersão dos valores da variável aleatória em redor da média tem-se a
variância, definida como segundo momento da variável aleatória X ou valor esperado da
variável X2. A variância é definida como:
( ) [ ]( )[ ] [ ] [ ]( ) ( ) ( )∑=
−=−=−==n
jjjx xfxXEXEXEXEXVar
1
22222 µσ (4-18)
Outra medida de dispersão da variável aleatória é o desvio padrão, medida mais fácil de
interpretar que a variância pois possui a mesma unidade de medida que a variável aleatória. O
desvio padrão é definido como:
( )XVarx =σ (4-19)
Mais genericamente, define-se o momento de ordem n da variável aleatória X como
[ ]nXE , ou seja, o valor esperado de Xn. Segundo a definição, a média é o primeiro momento
de X e a variância, conforme já citado, o segundo momento.
Dadas duas variáveis aleatórias X e Y, define-se como medida de dependência entre elas
a covariância e o coeficiente de correlação, representados respectivamente por:
[ ] [ ] [ ] [ ] ( )( ) ( )∑∑ −−=−−=−=x y
yxYXXY yxfyxYXEYEXEXYE ,))(( µµµµσ (4-20)
YX
XYXY
σσ
σρ = (4-21)
- 64 -
4.2.2 Inferência estatística
População é o conjunto de dados representando todas as observações possíveis, amostra
é o conjunto de dados representando apenas uma parte dessas observações. Inferência
estatística significa inferir fatos acerca de uma população a partir de resultados observados na
amostra. Valores calculados a partir da população são chamados parâmetros populacionais
(como exemplo a média populacional µ ). Quando esses mesmos valores são calculados a
partir da amostra denominam-se estatísticas amostrais (como exemplo a média amostral x ).
Em paralelo com os parâmetros populacionais apresentados na seção anterior, pode-se
defini-los como estatísticas amostrais segundo as equações seguintes.
Média amostral:
n
xx
n
ii∑
== 1 (4-22)
Desvio padrão amostral:
1
)(1
2
−
−
=∑
=
n
xxs
n
ii
(4-23)
Variância amostral:
∑=
−−
==n
iiXXX xx
nss
1
22 )(1
1(4-24)
22 )(1∑∑ −= x
nxsXX (4-25)
Covariância amostral:
∑=
−−−
==n
iiiYXXY yyxx
nss
1
))((1
1(4-26)
))((1
∑∑∑ −= yxn
xysXY (4-27)
- 65 -
Coeficiente de correlação amostral:
YX
XY
YYXX
XYXY ss
s
ss
sr == (4-28)
∑ ∑
∑−−
−−=
22 )()(
))((
yyxx
yyxxrXY (4-29)
4.2.3 Referências adicionais
Mukhopadhyay (2000) traz um estudo aprofundado sobre probabilidade e funções de
distribuição. Faz também uma abordagem sobre variáveis aleatórias, teste de hipótese,
intervalos de confiança e determinação de tamanho de amostras. Trosset (2004) traz um
estudo semelhante ao apresentado em Mukhopadhyay (2000), enfatizando os temas
probabilidade e variáveis aleatórias. Mukhopadhyay (2000) faz uma abordagem teórica dos
temas, apresentando sua fundamentação matemática detalhada, enquanto Trosset (2004) traz
uma abordagem mais prática, com a apresentação de vários exemplos de aplicação.
Fukunaga (1990) e Webb (2002) utilizam a teoria estatística para a detecção de padrões,
apresentando ambos os autores técnicas semelhantes, tais como: estimação paramétrica e não-
paramétrica de densidade, análise linear e não-linear de discriminantes, métodos baseados em
árvores e clusterização.
4.3 CLUSTERIZAÇÃO
Clusterização é a divisão de dados em grupos de objetos similares dentro de um mesmo
cluster e dissimilares em relação a objetos pertencentes a outros clusters (BERKHIN, 2002).
Segundo Estivill-Castro (2002) os objetos são agrupados baseando-se na minimização das
similaridades interclasse e maximização das similaridades intraclasse. Em ambas as
definições anteriores, a similaridade é medida segundo algum critério estabelecido, por
- 66 -
exemplo a distância euclidiana entre os objetos. O aprendizado é em geral não
supervisionado. O modelo gerado pelo algoritmo é formado pelos clusters descobertos ou as
estruturas utilizadas para representá-los.
Segundo Valente (1995), clusterização é um procedimento importante como auxiliar na
extração de informações em situações onde há pouco conhecimento inicial sobre a estrutura
dos dados em estudo, atuando principalmente nas primeiras etapas da análise para adquirir
noções sobre a natureza dos dados em estudo. O objetivo imediato é a sumarização e
compreensão dos dados, podendo ser também usado para classificação de novos pontos.
4.3.1 Formas de aprendizagem
Segundo Valente (1995), a escolha do procedimento de aprendizagem é influenciada
pelo conhecimento prévio ou não de quatro fatores relacionados aos agrupamentos (clusters
ou subgrupos):
• Localização dos centróides dos subgrupos, caso não sejam conhecidos devem ser
arbitrados pelo algoritmo e posteriormente reposicionados;
• Matriz de espalhamento dos subgrupos, que define a forma dos agrupamentos;
• Probabilidade prévia dos subgrupos, que indica o quão provável é a ocorrência de
cada agrupamento;
• Número total de subgrupos, caso não seja conhecido é arbitrado pelo especialista no
domínio ou determinado automaticamente pelo algoritmo.
Os algoritmos de clusterização podem ser divididos em duas grandes categorias, quais
sejam, métodos globalmente sensíveis e métodos localmente sensíveis. Os primeiros tentam
representar os clusters por centróides e classificam os dados de forma a otimizar um critério
de similaridade entre as amostras e os centróides das classes. Métodos localmente sensíveis
utilizam estruturas locais dos dados, baseando-se por exemplo na densidade de probabilidade.
- 67 -
Em Berkhin (2002) é apresentada uma divisão detalhada dos algoritmos de
clusterização, conforme apresentado na Figura 4-1. Na primeira categoria encontram-se os
algoritmos hierárquicos que constroem uma árvore de clusters, conhecida como dendograma,
permitindo a análise dos dados em diferentes níveis de granularidade. Subdividem-se em
aglomerativos (bottom-up) e divisivos (top-down). Os primeiros começam com clusters de um
único ponto e recursivamente aglomeram novos pontos até a formação final dos clusters. Os
divisivos começam com um cluster englobando todos os dados e recursivamente dividem-no,
criando clusters menores. O processo recursivo continua até alcançar um critério de parada,
geralmente o número de clusters desejado.
Algoritmos deClusterização
OutrasTécnicas
HierárquicosBaseados em
Grid
Agromerativos
Divisivos
Particionamentoe Realocação
Baseados emDensidade
K-Means
Probabilísticos
K-Medoids
Conectividade
FunçãoDensidade
SOMHierárquica
Particionamento
Figura 4-1: Algoritmos de clusterização
Algoritmos baseados em particionamento e realocação dividem os dados em vários
subconjuntos os quais passam por um processo iterativo de otimização, incluindo esquemas
de realocação que redistribuem os pontos entre os clusters. Subdividem-se em probabilísticos
e função objetivo. Os primeiros consideram que o conjunto de dados origina-se de uma
mistura de várias populações cujas distribuições de probabilidade e respectivos parâmetros
precisam ser determinados. Pontos ao redor da média de cada distribuição (suposta unimodal)
constituem centros naturais para os clusters. O segundo grupo, formado por algoritmos
iterativos, são baseados em função objetivo, selecionando pontos representativos de cada
- 68 -
cluster. Dependendo de como é feita a escolha do representante, têm-se os métodos K-
Medoids e K-Means.
Algoritmos baseados em densidade consideram que um cluster é um componente denso
e conectado, o qual pode crescer em qualquer direção. A separação entre os clusters ocorre
pela descoberta de regiões nas quais a densidade é inferior a um limite estabelecido. A
vantagem desse tipo de método é a possibilidade de criação de clusters com qualquer formato.
A principal desvantagem é a dificuldade em interpretar os agrupamentos formados.
Subdividem-se em métodos que consideram a conectividade baseada em densidade e funções
densidade.
Algoritmos baseados em grid dividem o espaço em segmentos retangulares, chamados
cubos, células ou regiões. O particionamento dos dados é conseqüência dos pontos
pertencerem a determinados segmentos. A implementação dos algoritmos de segmentação
pode ser feita de forma hierárquica ou por particionamento.
O autor cita ainda outras técnicas, entre as quais destaca-se o uso de redes neurais
artificiais do tipo Self-Organizing Maps (SOM).
4.3.2 Medidas de similaridade e critério de qualidade
Duas características básicas da grande maioria dos algoritmos de clusterização são uma
medida de similaridade, para julgar a proximidade entre os elementos sendo agrupados, e uma
função critério, para medir a qualidade do particionamento efetuado.
Grande parte das definições de clusterização emprega a palavra similaridade para
definir agrupamentos. Essa similaridade deve ser objetivamente medida para permitir o
correto julgamento por parte do algoritmo. A medida mais utilizada de similaridade é a
distância entre pares de pontos, normalmente sendo empregada a distância euclidiana, assim
definida em Valente (1995):
- 69 -
( ) ( )ijT
ijij VXVXd −−= (4-30)
onde:
Xj, j = 1 ... n, é a amostra observada e
Vi, i = 1 ... c, é o centróide do subgrupo, calculado pela média das posições dos pontos
pertencentes ao subgrupo.
A função critério mede a qualidade da partição criada após cada iteração do algoritmo
de clusterização, servindo normalmente como critério de parada. As funções mais utilizadas
são a soma dos erros quadráticos e matrizes de espalhamento. A seguir é apresentado o
critério da soma dos erros quadráticos:
( ) ∑ ∑= ∈
−=C
i XXi
i
VXVJ1
2(4-31)
onde:
V = [V1 ... Vc] é a matriz de centróides de subgrupos;
Xi = {X | X pertence ao subgrupo i};
c é o número de subgrupos;
2. é a norma euclidiana e
∑∈
=iXXi
i Xn
V1
4.3.3 Algoritmo K-Means
Os algoritmos K-Medoid e K-Means baseiam-se na escolha de um ponto como
representante de cada cluster. Os algoritmos realocam pontos entre clusters em função da sua
proximidade com os pontos representantes de cada agrupamento, possivelmente recalculando
os respectivos representantes (BERKHIN, 2002).
- 70 -
No algoritmo K-Means, possivelmente a ferramenta mais usada para clusterização em
aplicações científicas, os representantes dos clusters são os centróides, ou seja, a média
(ponderada ou não) dos pontos que constituem o cluster. Iterativamente os pontos são
realocados em função da proximidade com os centróides, os quais são posteriormente
recalculados. As iterações continuam até um critério de parada, que pode ser o término da
realocação de pontos (BERKHIN, 2002). A escolha da posição inicial dos centróides é
normalmente feita de forma arbitrária pelo algoritmo. O número de centróides deve ser
estabelecido pelo analista do problema.
4.3.4 Referências adicionais
O artigo apresentado em Berkhin (2002) traz uma excelente categorização dos
algoritmos usados para clusterização. Fukunaga (1990) e Webb (2002) apresentam a
fundamentação estatística sobre o tema, além de fazerem também a categorização dos
algoritmos. Webb (2002) faz uma boa explicação sobre o algoritmo K-Means. Frank e Witten
(2005) e Ye (2003) realizam a abordagem do tema sob o ponto de vista de sua utilização
como técnica de mineração de dados.
4.4 REDES NEURAIS
Segundo a definição apresentada em Hecht-Nielsen (1990, p. 2):
"[...] uma rede neural é uma estrutura de processamento de informação, paralela e distribuída, consistindo
de elementos de processamento [...] interconectados via canais unidirecionais de sinais, chamados conexões.
Cada elemento de processamento possui uma única conexão de saída, cujo sinal é distribuído por tantas
conexões colaterais quanto desejado, todas trafegando o mesmo sinal – o sinal de saída do elemento de
processamento. [...] O processamento da informação executado nos elementos de processamento pode ser
definido arbitrariamente com a restrição que deve ser completamente local [...]".
- 71 -
Segundo Valente (1995), a correta conceituação de redes neurais deve incluir algumas
características fundamentais, tais como a modelagem dos neurônios, a definição da topologia,
a definição de uma função custo que avalie a saída da rede e a regra de aprendizagem. Tais
características serão apresentadas a seguir, conforme as definições apresentadas em Valente
(1995) e Beale, Demuth e Hagan (2007).
4.4.1 Modelagem dos neurônios artificiais
Um dos modelos de neurônio artificial mais usado é o combinador semilinear. O cálculo
da saída do modelo inicia com a combinação linear das entradas xi, ponderadas pelos pesos
sinápticos wi, mais um termo chamado "bias" (b). Tal combinação serve como entrada para
uma função possivelmente não linear g, conhecida como função de ativação, cuja saída y
corresponde ao resultado do processamento do modelo. As operações descritas podem ser
representadas da seguinte forma:
+= ∑
=
N
iii bxwgy
1
(4-32)
4.4.2 Definição da arquitetura da rede
A forma de associação dos neurônios na rede caracteriza sua arquitetura. Uma primeira
caracterização da arquitetura ocorre quando existe um circuito fechado no grafo orientado que
representa a rede, criando uma arquitetura realimentada ou recorrente (redes feedback). Caso
não exista tal fechamento no circuito, a rede é dita não realimentada (redes feedforward).
Outra definição quanto à topologia diz respeito à hierarquia das camadas. Uma rede na
qual os neurônios de uma camada comunicam-se exclusivamente com os neurônios da
camada seguinte é dita hierárquica. Caso contrário é chamada não hierárquica.
- 72 -
De particular interesse para o trabalho será o estudo da arquitetura multicamada,
hierárquica, não realimentada e totalmente conectada; estudada no tópico sobre redes
Backpropagation.
4.4.3 Função custo
A função custo avalia a estimativa produzida pela rede, medindo a diferença entre o
vetor de saída esperado y e o vetor de saída fornecido pela rede x:
( )∑=i
ii yxdE , (4-33)
Uma das mais empregadas é a soma dos quadrados das diferenças entre os elementos
do vetor de saída desejado e o obtido:
( )2
2
1∑ −=
iii yxE (4-34)
Outros critérios para a estimativa do resultado da rede podem ser usados, como o
critério de Minkowski-r, que generaliza o anterior:
( )r
iii yx
rE ∑ −=
1(4-35)
4.4.4 Regra de aprendizagem
O algoritmo de aprendizado aplicado à rede neural objetiva ajustar um conjunto de
parâmetros livres, normalmente representados pelos pesos, fazendo com que a rede consiga
inferir uma estrutura de processamento a partir dos dados em estudo. Os procedimentos de
aprendizado podem ser divididos em duas categorias básicas: supervisionados e não
supervisionados.
Procedimentos supervisionados são aqueles que exigem um conjunto de treinamento
formado por padrões de entrada e as saídas correspondentes. Através do fornecimento desses
- 73 -
padrões combinados, a rede adapta-se ao problema proposto. Um exemplo de treinamento
supervisionado é o algoritmo de retropropagação de erros (Backpropagation).
Procedimentos não supervisionados são aqueles que criam modelos a partir de um
conjunto de entradas, procurando detectar regularidades nesse conjunto de dados, sem receber
os estímulos de saída correspondentes. Um exemplo de rede que utiliza este tipo de
treinamento são os mapas auto-organizáveis (SOM – Self-Organizing Maps).
4.4.5 Redes Backpropagation
Segundo Beale, Demuth e Hagan (2007), o algoritmo Backpropagation é uma
generalização da regra de aprendizado de Widrow-Hoff, aplicada a redes multicamada com
funções de transferência diferenciáveis. Backpropagation padrão é um algoritmo gradiente
descendente, no qual os pesos da rede são alterados na direção negativa do gradiente de erro.
Existem variações do algoritmo baseadas em outras técnicas de otimização, tais como o
gradiente conjugado e métodos de Newton. O termo "Backpropagation" refere-se à forma
como o gradiente é calculado para redes multicamada.
Segundo Valente (1995), redes baseadas no algoritmo de aprendizado Backpropagation
são multicamada, hierárquicas (o sinal de entrada segue de forma unidirecional até a saída
sem loops entre as camadas) e totalmente conectadas (as saídas de todos os neurônios de uma
camada são entregues como entradas a todos os neurônios da camada seguinte). A Figura 4-2
apresenta um exemplo de arquitetura para redes Backpropagation.
- 74 -
Camada de entradaCamada oculta
(uma ou mais camadas) Camada de saída
Neurônio 1
Neurônio 2
Neurônio 3
Neurônio A
Neurônio B
Neurônio Z
Figura 4-2: Representação das camadas, pesos e neurônios de uma rede neural
Conforme apresentado na figura, redes Backpropagation são formadas por três tipos de
camada. A primeira, chamada camada de entrada, possui um neurônio para cada atributo
recebido, ou seja, um neurônio para cada componente do vetor de entrada. Excepcionalmente
atributos categóricos com representação binária podem necessitar de mais que um neurônio,
um para cada bit. Os neurônios da primeira camada servem somente para distribuir as
entradas para os neurônios da camada seguinte.
A rede possui uma ou mais camadas ocultas. O número de neurônios por camada e o
número de camadas são variáveis em função do problema em análise. Poucos neurônios e/ou
poucas camadas implicam em menor poder de processamento e mais generalização. Mais
neurônios e/ou camadas ocultas representam maior poder de processamento ao preço de ter
diminuída a capacidade de generalização da rede.
A rede possui ainda uma camada de saída, onde o número de neurônios depende do
objetivo para o qual a rede foi criada e da codificação usada na saída. Para regressão, um
neurônio é normalmente suficiente (dependendo da codificação). Para classificação pode ser
usado um neurônio, no caso de classificação binária, ou múltiplos neurônios, um por classe.
4.4.5.1 Treinamento
Os neurônios das camadas ocultas e de saída possuem pesos associados às entradas.
Esses pesos terão seus valores alterados durante o processo de aprendizagem. Cada neurônio
- 75 -
dessas camadas recebe como entrada uma combinação linear das saídas dos neurônios da
camada anterior. A ponderação é feita pelos pesos associados às ligações do neurônio com a
camada anterior:
∑= iiawx (4-36)
onde:
wi representa o peso de uma conexão e
ai representa a entrada recebida de um neurônio da camada anterior.
A entrada é fornecida para uma função de ativação. A saída dessa função é o resultado
do processamento do neurônio. Funções diferentes podem ser usadas nas várias camadas. Três
funções de transferência normalmente usadas são a logarítmica sigmóide, tangente hiperbólica
e linear, definidas respectivamente como:
( )xe
xf−+
=1
1(4-37)
( ) 1)1(
22
−+
=− xe
xf (4-38)
( ) xxf = (4-39)
Nas camadas ocultas, a saída dos neurônios, resultante de sua função de ativação, é
fornecida a camada seguinte. Na camada de saída, o resultado da função de ativação é
comparado com o resultado esperado da rede e um valor de erro é determinado. Como
exemplo pode-se utilizar o erro quadrático:
( )( )2
2
1xfyE −= (4-40)
Os pesos da camada de saída são ajustados de forma a minimizar o erro calculado:
( ) ( )i
ii dw
dEtwtw η−=+1 (4-41)
onde:
- 76 -
η representa a taxa de aprendizagem e
( )( )( )
ii dw
xdfxfy
dw
dE−=
Para a função sigmóide:
( )( )
( ) ( )( )xfxfdx
xdfxf −== 1' (4-42)
Como:
∑= iiawx
Tem-se que:
( )( ) i
i
axfdw
xdf '=
Logo:
( )( ) ( ) ii
axfxfydw
dE '−= (4-43)
O erro da camada de saída é retropropagado para a camada oculta de forma que seus
pesos sejam também ajustados. Esse ajuste é feito da seguinte forma:
( )( ) ( )ijijij dw
dxxfxfy
dw
dx
dx
dE
dw
dE '−== (4-44)
onde:
( )∑=i
ii xfwx ;
wi são os pesos do neurônio de saída;
f(xi) é a saída do neurônio i da camada oculta;
( )
ij
ii
ij dw
xdfw
dw
dx= e
( )( ) ( ) ii
ij
ii
ij
i axfdw
dxxf
dw
xdf '' ==
- 77 -
Logo:
( )( ) ( ) ( ) iiiij
axfwxfxfydw
dE ''−= (4-45)
O critério de parada do treinamento pode ser um nível de erro mínimo da camada de
saída. Pode-se também estabelecer um número máximo de ciclos de treinamento caso o nível
de erro não seja alcançado. O treinamento não garante que a rede atingirá uma solução ótima,
ou seja, um mínimo global de erro.
Duas modificações podem ser feitas no procedimento de aprendizagem padrão. A
primeira é a introdução de uma taxa de aprendizagem (possivelmente variável ao longo do
treinamento) que calibre o ajuste dos pesos em cada ciclo. Uma segunda modificação é a
incorporação de um termo de momentum, que incorpora à modificação atual dos pesos uma
parcela da modificação anterior. Com isso cria-se um fator de inércia na direção das correções
anteriores.
Uma desvantagem do uso de redes Backpropagation, apontada em Larose (2005), é que
o modelo criado, representado pelos pesos da rede, não tem uma interpretação compreensível
como no caso das regras e árvores de decisão. O autor sugere a existência de técnicas, como
análise de sensibilidade, que permitiriam uma interpretação parcial do modelo.
Outra desvantagem citada pelo autor é o longo tempo necessário para ajuste dos
parâmetros da rede, tais como: sua arquitetura, funções de transferência, taxa de
aprendizagem e momentum; além do tempo de treinamento para cada combinação de
parâmetros testada. Para tentar solucionar esse problema, Curran e O'Riordan (2002) propõem
a utilização de algoritmos genéticos como auxiliares na construção de redes neurais. Os
autores apresentam várias possibilidades de utilização, tais como a evolução automática da
arquitetura, das funções de transferência e da taxa de aprendizagem. Apresentam também a
possibilidade de substituição do algoritmo Backpropagation por algoritmos genéticos na
- 78 -
determinação dos pesos da rede, ou sua utilização combinada, aplicando Backpropagation
numa fase final de refinamento dos pesos. Uma possibilidade interessante proposta pelos
autores é o uso combinado de vários esquemas, por exemplo a evolução simultânea e
automática dos pesos e da arquitetura, permitindo a criação de redes sem a intervenção
humana. Evidentemente, quanto maior o número de elementos da rede simultaneamente
tratados, maior a complexidade do procedimento, podendo chegar a um problema intratável.
Em contrapartida às desvantagens citadas, Kantardzic (2003) coloca como vantagem do
uso de redes a possibilidade de criação de modelos não lineares, possivelmente de alta
complexidade, cujos parâmetros são parcialmente ajustados de forma automática pelo
algoritmo de aprendizado.
4.4.6 Referências adicionais
O trabalho de Hecht-Nielsen (1990) é importante para a fundamentação conceitual e
matemática do tema. Kohonen (2001) traz a apresentação específica de redes SOM que,
embora não tenham sido usadas na Tese, foram estudadas como alternativa para o
procedimento de clusterização, para o qual optou-se pelo uso do algoritmo K-Means. Um
texto mais acessível sobre o tema é Larose (2005), onde é feita uma abordagem prática com a
colocação de vários exemplos.
4.5 SISTEMAS ESPECIALISTAS
Segundo Buckley e William (2005), sistemas especialistas (SEs) são programas de
computador concebidos para tornar disponível o conhecimento de especialistas para não
especialistas.
Segundo Passos (1989), é um programa destinado a solucionar problemas em um campo
específico do conhecimento, utilizando uma base de conhecimento do domínio, raciocínio
- 79 -
inferencial e com desempenho comparável ao especialista humano. Tem como uma de suas
principais características a capacidade de explicar como deduziu a resposta através de seu
mecanismo de inferência. Ainda segundo o autor, as principais diferenças de SEs em relação à
programação convencional são: o uso de heurísticas (tentativa e erro) e o foco em dados.
Em relação ao uso de heurísticas, os SEs não são simplesmente aplicadores de regras de
produção, conforme explicado pelo autor citado:
"Sistemas especialistas têm que ter experiência anterior, intuição e criação [...]. O que não acontece
quando se resolve um problema usando programação convencional onde um único algoritmo é programado para
resolver um determinado programa, não sendo necessário pesquisar o espaço de soluções possíveis, pois os
passos da solução do problema estão explicitados nos algoritmos." (PASSOS, 1989, p. 97).
Em relação ao foco nos dados, os SEs enfatizam a estrutura lógica do problema,
gerando um conjunto de sentenças para descrever o problema, diferente da programação
tradicional, que foca na construção de procedimentos com o objetivo de resolver os problemas
apresentados (PASSOS, 1989).
Ainda segundo esse autor, um SE ideal tem como principais componentes: o
processador de linguagem natural, responsável pela interação com o usuário; o justificador,
responsável pela explicação ao usuário sobre a solução encontrada para o problema; a base de
conhecimento, formada por fatos e regras; o quadro negro, representando a área de trabalho
do sistema e meio de comunicação entre processos especializados; o mecanismo de
inferência, formado pelo interpretador de regras e pelo seqüenciador das mesmas; o
reforçador de consistência, responsável pela verificação de casos semelhantes já resolvidos e
catalogação de novos casos. O mecanismo de inferência e a representação do conhecimento
serão abordados nas próximas seções.
- 80 -
4.5.1 Representação do conhecimento
Segundo Buckley e William (2005), existem várias maneiras de representar o
conhecimento em sistemas especialistas, entre as quais destacam-se: representação por regras
e redes semânticas ou associativas. Na visão de Passos (1989), a representação do
conhecimento em tais sistemas pode ser feita através de lógica matemática, regras de
produção, redes semânticas e quadros e roteiros.
Ainda segundo Passos (1989), a maioria dos SEs adota regras de produção como forma
de representação do conhecimento pois a estrutura das regras é semelhante à forma das
pessoas explicarem como resolvem seus problemas. Tais regras, do tipo "condição – ação",
formam a base de conhecimento dos SEs. São formadas por um antecedente ("se"),
representando a condição, e por um conseqüente ("então"), representando a ação. Durante a
execução dos SEs, se o antecedente da regra for satisfeito, o conseqüente será executado.
Segundo o mesmo autor, em SEs baseados em regras de produção, a dedução de tais
regras pode ocorrer de duas formas: encadeamento para frente (dirigido para o dado) e
encadeamento para trás (dirigido para o objetivo).
O encadeamento para frente "[...] é um método de inferência (de dedução) que começa
com o conhecimento inicial (dados, fatos) e aplica as regras para gerar um novo
conhecimento, até que tenha chegado a uma solução para o problema ou nenhuma inferência
adicional possa ser feita [...]" (PASSOS, 1989, p. 37).
O encadeamento para trás "[...] começa com o objetivo que se quer provar e que é
recursivamente particionado em sub-objetivos mais simples, até que uma solução é
encontrada ou todos os objetivos foram particionados em seus componentes mais simples
[...]" (PASSOS, 1989, p. 38).
- 81 -
4.5.2 Mecanismo de inferência
Segundo definição apresentada em Passos (1989, p. 58), mecanismo de inferência é:
"[...] um método formal (no caso da lógica formal) ou heurístico (no caso de representação de
conhecimento por: regras de produção, rede semântica, quadros) que podem ser programados
para serem usados como manipuladores de bases de conhecimento com o fim de deduzirmos
algo que não está armazenado naquela base de fatos e conhecimentos".
O motor de inferência, segundo Passos (1989, p. 70), "[...] pode ser construído pelos
processos de encadeamento para frente, que é usado para descobrir conseqüências de novos
fatos, e de encadeamento para trás, onde a prova da hipótese é buscada na base de fatos na
[base] de regras [...]".
O funcionamento simplificado do motor de inferência é descrito em Passos (1989) com
as seguintes operações: recebimento dos comandos que se deseja provar; verificação na base
de fatos se o objetivo já existe (em caso afirmativo encerra-se o processamento); verificação
na base de regras se existem regras que podem ser usadas para provar o objetivo e, se a
conclusão pode ser provada, é passada para o usuário.
4.6 LÓGICA NEBULOSA
Segundo Goldschmidt e Passos (2005, p. 183), lógica nebulosa é "[...] uma teoria
matemática que tem como principal objetivo permitir a modelagem do modo aproximado de
raciocínio, imitando a habilidade humana de tomar decisões em ambientes de incerteza e
imprecisão". Tais informações são características de expressões lingüísticas empregadas por
especialistas ao descrever determinada situação. São exemplos de expressões imprecisas:
"pressão média", "temperatura alta", "muito jovem", etc.
Segundo Zadeh et al. (2007), lógica nebulosa tem dois diferentes significados. Num
sentido estrito, é um sistema lógico, extensão da lógica multivalorada. No sentido amplo, é
- 82 -
um sinônimo de teoria de conjuntos nebulosos, relacionada com conjuntos de objetos sem
fronteiras bem definidas, com graus variados de pertinência. Neste último sentido será
conduzida a análise seguinte.
Outro conceito relacionado com lógica nebulosa, também apresentado em Zadeh et al.
(2007), são as regras nebulosas. Tais regras são usadas conjuntamente com o conceito de
sistemas especialistas para formar os sistemas especialistas nebulosos, também chamados de
sistemas de lógica nebulosa.
Serão apresentados nas próximas seções alguns conceitos básicos de lógica nebulosa
envolvendo conjuntos nebulosos. Tais conceitos serão usados na Seção 4.7 para a construção
de sistemas de lógica nebulosa.
4.6.1 Conjuntos nebulosos
Segundo a Teoria de Conjuntos, uma das formas de representação de um conjunto A é
através de sua função característica ou de pertinência. Conforme apresentado em Lourenço
(1998), sendo A um conjunto do universo de discurso U e sendo x um elemento de U, denota-
se a função de pertinência de A por:
( )
( ) Axx
Axx
A
A
∉=
∈=
,0
,1
µ
µ (4-46)
Essa função indica se um dado elemento pertence ou não ao conjunto. Segundo a lógica
clássica, um elemento pertence ou não pertence a um conjunto, não existindo possibilidade de
situação intermediária (GOLDSCHMIDT; PASSOS, 2005).
Conforme exposto em Lourenço (1998), generalizando o conceito anterior de modo que
a função característica possa assumir um número infinito de valores no intervalo [0, 1], tem-se
o conceito de conjunto nebuloso. Um conjunto nebuloso F, definido em U, é caracterizado por
- 83 -
uma função de pertinência ( )xFµ que assume valores no intervalo [0, 1]. Representa-se F
por:
( )( ){ }UxxxF F ∈= |,µ (4-47)
A função de pertinência nesse caso é uma curva que define o grau de pertinência para
cada ponto do espaço de entrada em relação ao conjunto nebuloso (ZADEH et al., 2007).
Esse conjunto pode ser representado graficamente, conforme apresentado na Figura 4-3,
ou por pares ordenados contendo um elemento genérico x e seu grau de pertinência ( )xFµ ,
conforme apresentado na Tabela 4-1.
Temperatura (oC)
Pertinência
0
1
40 5030
alta
Figura 4-3: Conjunto nebuloso representando temperatura alta
Tabela 4-1: Pertinência da variável temperatura em relação ao conjunto temperatura alta
Temperatura (oC) 25 30 35 40 45 50 55
Pertinência ao conjuntonebuloso temperatura alta
0 0 0,5 1 0,5 0 0
Existem vários formatos para a representação de conjuntos nebulosos, sendo a escolha
determinada pela compatibilidade entre o formato e o conceito representado
(GOLDSCHMIDT; PASSOS, 2005). Em Lourenço (1998) são citados os formatos triangular,
trapezoidal e gaussiano como os mais usados.
- 84 -
4.6.2 Variáveis lingüísticas
Segundo Lourenço (1998, p. 30), são "[...] aquelas cujos valores podem ser palavras ou
sentenças em uma linguagem específica". São usualmente decompostas em um conjunto de
termos cobrindo seu universo de discurso. Segundo Goldschmidt e Passos (2005, p. 168),
"[...] é um objeto utilizado para representar de modo impreciso um conceito de determinado
problema".
Baseado no exemplo exposto em Lourenço (1998), tem-se a variável lingüística
"temperatura", que pode ser decomposta no conjunto {baixa, normal, alta}. Tomando como
universo de discurso U = [5oC, 50oC], pode-se representá-la por conjuntos nebulosos
conforme apresentado na Figura 4-4.
Temperatura (0C)
Pertinência
0
1
40 5010
alta
20 30
normalbaixa
22
0,25
0,75
Figura 4-4: Representação dos conjuntos nebulosos referentes à variável lingüística "temperatura"
Na Figura 4-4 percebe-se que um mesmo valor de temperatura pode estar
simultaneamente em dois conjuntos nebulosos, com seus respectivos graus de pertinência. No
exemplo, a temperatura 22oC pertence ao mesmo tempo aos conjuntos "temperatura baixa" e
"temperatura normal" com pertinências respectivamente de 0,75 e 0,25.
Uma observação apontada em Lourenço (1998) refere-se ao número de conjuntos
nebulosos usados para representar a variável lingüística (no exemplo foram usados três
- 85 -
conjuntos). A escolha é arbitrária, sendo maior a resolução conforme o maior número de
conjuntos, aumentando conseqüentemente a complexidade computacional do sistema.
4.6.3 Operações com conjuntos nebulosos
Como apresentado em Lourenço (1998) e Goldschmidt e Passos (2005), sendo A e B
conjuntos nebulosos, caracterizados por suas funções de pertinência ( )xAµ e ( )xBµ , as
seguintes operações podem ser definidas:
• Operador nebuloso de união (T-Conorm ou S-Norm), correspondente ao operador
lógico "OU", pode ser definido das seguintes formas:
( ) ( ) ( )[ ]xxx BABA µµµ ,max=∪ (4-48)
( ) ( ) ( )[ ]xxx BABA µµµ +=∪ ,1min (4-49)
• Operador nebuloso de interseção (T-Norm), correspondente ao operador lógico "E",
pode ser definido das seguintes formas:
( ) ( ) ( )[ ]xxx BABA µµµ ,min=∩ (4-50)
( ) ( ) ( )xxx BABA µµµ ∗=∩ (4-51)
• Operador nebuloso de complemento, correspondente ao operador lógico "Não",
pode ser definido da seguinte forma:
( ) ( )xx AAµµ −=1 (4-52)
As definições anteriores de função de pertinência, embora não sejam as únicas
possíveis, são as mais encontradas na literatura para os respectivos operadores.
4.6.4 Relação e composição nebulosas
Segundo apresentado em Lourenço (1998), dados dois universos do discurso U e V, a
relação nebulosa R(U, V) é um subconjunto nebuloso no espaço produto U x V, caracterizado
pela função de pertinência ( ) VyUxyxR ∈∈ ,,,µ , definido como:
- 86 -
( ) ( )( ) ( ){ }UxVyxyxyxVUR R ∈= ,|,,,),( µ (4-53)
Uma composição nebulosa das relações R(U, V) e S(V, W), denotada por RoS, é aquela
descrita pela função de pertinência ( )zxRoS ,µ , denotada por:
( ) ( ) ( )[ ]zyyxzx SRVyRoS ,,sup, µµµ ∗= ∈ (4-54)
Essa composição é chamada sup-star de R e S, sendo o operador sup correspondente ao
máximo quando U, V e W são universos discretos. O operador star corresponde ao mínimo ou
produto.
4.7 SISTEMAS DE LÓGICA NEBULOSA
Segundo Lourenço (1998), um sistema de lógica nebulosa é aquele capaz de manipular
dados numéricos (informações precisas) e conhecimento lingüístico (informações imprecisas)
simultaneamente. Tais sistemas mapeiam de forma não-linear valores numéricos de entrada
em valores numéricos de saída.
São compostos de quatro componentes: fuzificador, regras, mecanismo de inferência e
defuzificador. A Figura 4-5 representa esquematicamente os componentes de um sistema de
lógica nebulosa.
Como descrito pelo autor, o componente fuzificador é responsável pelo mapeamento
dos dados numéricos de entrada em conjuntos nebulosos. O conhecimento lingüístico é
expresso através de um conjunto de regras "se - então", baseadas em variáveis lingüísticas.
Tais regras podem ser estabelecidas por especialistas ou extraídas dos dados numéricos. O
mecanismo de inferência realiza a combinação das regras, mapeando conjuntos nebulosos em
conjuntos nebulosos. O defuzificador mapeia conjuntos nebulosos em variáveis numéricas
que correspondem à saída do sistema.
- 87 -
Sistema de lógica nebulosa
Fuzificador
Defuzificador
Mecanismo deinferência
Dados numéricos(Entradas precisas)
Conjuntosnebulosos
Conjuntosnebulosos
Regrasnebulosas
Dados numéricos(Saídas precisas)
Figura 4-5: Sistema de lógica nebulosa
Para exemplificar o uso do sistema, utilizar-se-á um exemplo baseado na emissão de
notas de empenho. Definem-se inicialmente duas variáveis lingüísticas de entrada do sistema:
probabilidade de emissão de uma nota de empenho por um dado órgão e por uma dada UG,
ambas pertencentes ao universo [0, 1]. Criam-se então três conjuntos nebulosos para
representar cada variável, referentes a probabilidades consideradas baixas, médias e altas.
Importante ressaltar que os limites desses conjuntos não são os mesmos para as duas variáveis
linguísticas de entrada, variando em função das particularidades de cada uma. A Figura 4-6
apresenta os dois conjuntos nebulosos propostos.
Dadas as entradas do sistema, por exemplo 0,07 para probabilidade do órgão e 0,28 para
probabilidade da UG, pode-se usar o módulo fuzificador para determinar a pertinência desses
valores em relação aos conjuntos nebulosos. Com os dados apresentados e considerando os
conjuntos da Figura 4-6, ter-se-ia os valores de pertinência da Tabela 4-2.
- 88 -
Probabilidadeórgão
pertinência
0
1
10,1
alta
0,05 0,45
médiabaixa
0,40,07
0,25
0,50
0
1
10,3
alta
0,2 0,5
médiabaixa
0,4 ProbabilidadeUG
pertinência
0,28
0,30
0,40
Figura 4-6: Conjuntos nebulosos para as variáveis lingüísticas probabilidade de órgão e probabilidade deUG
Tabela 4-2: Valores de pertinência
ProbabilidadePertinência ao conjunto
probabilidade baixaPertinência ao conjunto
probabilidade média
Órgão 0,07 0,50 0,25
UG 0,28 0,30 0,40
Considerando um conjunto de regras definidas pelo especialista tais como:
• Regra 1 – Se probabilidade de órgão baixa e probabilidade de UG baixa então
anomalia alta;
• Regra 2 – Se probabilidade de órgão média e probabilidade de UG média então
anomalia média.
- 89 -
Usando o mecanismo de inferência aplicado aos dados de entrada ter-se-ia o resultado
da Tabela 4-3.
Tabela 4-3: Resultado do mecanismo de inferência
Pertinência órgão Pertinência UG Resultado pelo mínimo
Regra 1 0,50 baixa 0,30 baixa 0,30 anomalia alta
Regra 2 0,25 média 0,40 média 0,25 anomalia média
Montando o conjunto nebuloso de saída do mecanismo de inferência ter-se-ia como
resultado a Figura 4-7.
pertinência
anomalia0
1
0,7 10,3
alta
0,5
médiabaixa
0,25
0,30
Figura 4-7: Conjunto nebuloso de saída
Para obter uma saída exata em relação ao valor da anomalia utiliza-se o módulo
defuzificador. Uma das formas de obter a saída exata, como sugerido em Lourenço (1998), é
através do cálculo pelo centróide, cuja equação é dada por:
( )
( )∫∫
=dyy
dyyyy
µ
µ_
(4-55)
- 90 -
4.7.1 Referências adicionais
Kantardzic (2003) faz uma apresentação detalhada sobre conceitos de lógica nebulosa.
Liebowitz et al. (1997) aborda o tema de sistemas especialistas. Buckley e Willian (2005),
além de abordarem os dois assuntos citados de forma introdutória, realizam a junção dos dois
temas, propondo a criação de sistemas especialistas nebulosos.
- 91 -
5 ORÇAMENTO PÚBLICO
5.1 INTRODUÇÃO
O objetivo do capítulo é fazer uma introdução à execução orçamentária no Brasil. Sendo
um tema muito abrangente, serão tratados apenas os assuntos diretamente relacionados com a
Tese, em particular a descrição do ciclo orçamentário e o detalhamento da execução da
despesa.
O capítulo objetiva também apresentar as formas de controle existentes sobre a
Administração Pública, principalmente em relação à contratação de produtos e serviços. A
normatização do tema é estabelecida em grande parte pela Lei no 8.666/93 (BRASIL, 1993),
que institui normas sobre licitações e contratos da Administração. A verificação do
cumprimento dessa e de outras normas relacionadas cabe ao controle interno de cada órgão e
externamente ao Tribunal de Contas da União (TCU).
Para desempenhar a função de controle, os órgãos responsáveis utilizam informações
registradas em sistemas de informação da Administração, entre os quais destaca-se o Siafi,
cujos dados subsidiaram a execução desta Tese. Tais sistemas serão relacionados ao final do
capítulo, dando-se maior ênfase à descrição do Siafi, pela sua importância para a realização
do trabalho.
5.2 ORÇAMENTO PÚBLICO
Segundo Lima (2003, p. 19), orçamento público é
"[...] o planejamento feito pela Administração Pública para atender, durante determinado período, aos
planos e programas de trabalho por ela desenvolvidos, por meio da planificação das receitas a serem obtidas e
pelos dispêndios a serem efetuados, objetivando a continuidade e a melhoria quantitativa e qualitativa dos
serviços prestados à sociedade [...]".
- 92 -
Segundo Mota (2006, p. 23), é
"[...] o ato administrativo revestido de força legal que estabelece um conjunto de ações a serem realizadas,
durante um período de tempo determinado, estimando o montante das fontes de recursos a serem arrecadados
pelos órgãos e entidades públicas e fixando o montante dos recursos a serem aplicados pelos mesmos na
consecução dos seus programas de trabalho, a fim de manter ou ampliar serviços públicos, bem como realizar
obras que atendam às necessidades da população [...]".
Ainda segundo Mota (2006), o orçamento autoriza o recebimento de recursos
financeiros e a realização de gastos. Os recursos não vêm junto com o orçamento, vão se
tornando disponíveis à medida que os contribuintes recolhem seus tributos. Com a
disponibilização efetiva dos recursos pode a Administração efetuar o pagamento de seus
gastos. O ingresso de dinheiro nos cofres públicos e sua posterior utilização para o pagamento
dos gastos caracteriza a execução orçamentária.
O Orçamento Geral da União (OGU) inclui o orçamento fiscal, orçamento da
seguridade social e orçamento de investimento das empresas estatais federais (BRASIL,
MPOG, 2006). Seu planejamento e execução são realizados por um conjunto de órgãos,
divididos em órgãos centrais e setoriais. Como órgãos centrais destacam-se a SPI (Secretaria
de Planejamento e Investimentos - órgão central de planejamento), SOF (Secretaria de
Orçamento Federal - órgão central de orçamento) e STN (Secretaria do Tesouro Nacional -
órgão central de programação financeira e contabilidade). Como órgãos setoriais existem as
subsecretarias de orçamento, planejamento e finanças, sujeitas à orientação normativa e
supervisão técnica dos órgãos centrais, sem prejuízo da subordinação ao órgão em cuja
estrutura administrativa estiverem integrados.
A Constituição Federal de 1988 (BRASIL, 1988) atribuiu ao Poder Executivo a
responsabilidade pelo sistema de planejamento e orçamento. Segundo o art. 165 da
Constituição, leis de iniciativa do Poder Executivo estabelecem o Plano Plurianual (PPA), as
- 93 -
Diretrizes Orçamentárias (LDO) e o Orçamento Anual (LOA). Além dessas, destacam-se na
organização orçamentária a Lei no 4.320/64 (BRASIL, 1964), que estabelece normas gerais de
direito financeiro para elaboração e controle orçamentário; o Decreto-Lei no 200/67
(BRASIL, 1967), que dispõe sobre a organização da Administração Federal; o Decreto no
93.872/86 (BRASIL, 1986), que dispõe sobre a unificação dos recursos de caixa do Tesouro
Nacional e consolida a legislação pertinente e a Lei Complementar no 101/00 (BRASIL,
2000), que estabelece normas de finanças públicas voltadas para a responsabilidade na gestão
fiscal.
5.2.1 Plano Plurianual
O PPA é o planejamento orçamentário de quatro anos, cuja vigência se estende até o
primeiro exercício financeiro do mandato presidencial subseqüente ao de sua criação, visando
à continuidade dos planos e programas instituídos pelo governo anterior (LIMA, 2003). Deve
estabelecer, de forma regionalizada, as diretrizes, objetivos e metas da Administração Pública
para as despesas de capital e relativas aos programas de duração continuada. Nenhum
investimento, cuja execução ultrapasse um exercício financeiro, poderá ser iniciado sem
prévia inclusão no PPA, ou sem lei que autorize a inclusão (BRASIL, 1988).
O projeto de lei do PPA deve ser enviado pelo Presidente da República ao Congresso
Nacional até o dia 31 de agosto do primeiro ano de mandato (BRASIL, MPOG, 2006). O
Poder Legislativo tem até o dia 15 de dezembro (término da Sessão Legislativa) para devolver
o PPA ao Poder Executivo para fins de sanção e publicação (MOTA, 2006). Sua vigência irá
até 31 de dezembro do primeiro ano do governo subseqüente (BRASIL, MF, 2006).
Segundo Castro (2004), o primeiro PPA foi elaborado no governo Fernando Collor para
vigorar de 1991 a 1995, não tendo se tornado efetivamente um orientador da ação
governamental. O segundo PPA, denominado "Brasil em ação", foi elaborado no governo
- 94 -
Fernando Henrique Cardoso para o quadriênio 1996 - 1999. O terceiro PPA, também no
governo Fernando Henrique, denominado "Avança Brasil", foi elaborado para o período 2000
- 2003. Empossado o governo Lula, foi criado o PPA denominado "Brasil de todos" para o
quadriênio 2004 - 2007.
5.2.2 Lei de Diretrizes Orçamentárias
Segundo Lima (2003, p. 28), a LDO
"compreende o conjunto de metas e prioridades da Administração Pública Federal, incluindo as despesas
de capital para o exercício financeiro subseqüente, orientando a elaboração da LOA, dispondo sobre as
alterações da legislação tributária e estabelecendo a política de aplicação das agências oficiais de fomento.
Estabelece a partilha dos recursos orçamentários entre os três poderes e o Ministério Público, bem como os
parâmetros para administração da dívida pública".
Funciona como elo de ligação entre o PPA, que atua como plano de governo, e a LOA,
que é o instrumento de execução desse plano.
O Projeto da LDO deve ser enviado pelo Poder Executivo ao Congresso Nacional até o
dia 15 de abril de cada ano. O Poder Legislativo tem até o dia 30 de junho para devolver a
LDO ao Poder Executivo para fins de sanção e publicação (BRASIL, MPOG, 2006).
Com base na LDO aprovada pelo Legislativo, a SOF elabora a proposta orçamentária
para o ano seguinte, em conjunto com os Ministérios e as unidades orçamentárias dos Poderes
Legislativo e Judiciário (BRASIL, MPOG, 2006).
5.2.3 Lei Orçamentária Anual
A LOA é o orçamento propriamente dito, cuja proposta é de iniciativa do Presidente da
República, consolidando informações dos vários órgãos da Administração Pública Federal
(LIMA, 2003). Compreende o orçamento fiscal referente aos Poderes da União, o orçamento
de investimento das empresas em que a União, direta ou indiretamente, detenha maioria do
- 95 -
capital social com direito a voto e o orçamento da seguridade social, este último incluindo as
áreas de saúde, previdência e assistência social.
O Projeto da LOA deve ser enviado ao Congresso Nacional até 31 de agosto de cada
ano e deve ser votado até o final de cada Legislatura. Depois de aprovado pelo Congresso, o
projeto é sancionado pelo Presidente da República e se transforma em Lei. A LOA entra em
vigor a partir de primeiro de janeiro do ano seguinte (BRASIL, MPOG, 2006).
A LOA estima as receitas e autoriza as despesas de acordo com a previsão de
arrecadação. Pode ocorrer durante o ano a necessidade de despesas acima do limite previsto
na lei, sendo necessária lei que autorize o crédito adicional. Da mesma forma, os gastos
podem sofrer restrições em função da redução na arrecadação, sendo editados decretos pelo
Poder Executivo, chamados Decretos de Contingenciamento, em que são autorizadas somente
despesas no limite das receitas arrecadadas.
5.3 CICLO ORÇAMENTÁRIO
O ciclo orçamentário compreende as diversas etapas pelos quais passa o orçamento,
desde o surgimento da proposta da LOA, passando pela aprovação, sanção, publicação,
execução, até o acompanhamento e avaliação pelos controles interno e externo (MOTA,
2006).
O ciclo orçamentário abrange um período de tempo superior ao exercício financeiro
pois o envio do projeto da LOA é feito antes do início do exercício e sua avaliação somente
poderá ser feita após a execução do orçamento (MOTA, 2006).
São quatro as etapas principais do ciclo orçamentário: elaboração da proposta, discussão
e aprovação da proposta, execução do orçamento e controle e avaliação da execução do
orçamento (VIEIRA et al., 2004). A seguir serão apresentadas as quatro etapas.
- 96 -
5.3.1 Elaboração da proposta orçamentária
A elaboração da proposta orçamentária inicia com a criação de propostas iniciais por
parte das unidades gestoras. As propostas iniciais são consolidadas no nível de órgão ou
ministério e encaminhadas ao órgão central do sistema de orçamento da União, a SOF. Esta
por sua vez consolida as propostas setoriais do Poder Executivo com as dos Poderes
Legislativo e Judiciário. Nesse momento surge o projeto da LOA, obedecidas as diretrizes da
LDO, a ser submetido pelo Presidente da República ao Congresso Nacional (MOTA, 2006).
5.3.2 Discussão e aprovação da proposta orçamentária
No Congresso inicia-se a segunda etapa do ciclo com a apreciação da Comissão Mista
de Orçamento, comissão permanente do Congresso composta de deputados e senadores.
Apresentadas as emendas e emitido o parecer da comissão, a proposta é apreciada pelo
plenário das duas Casas do Congresso. Aprovado em plenário, o projeto é enviado ao
Presidente da República para sanção e publicação. Se todas as etapas forem desenvolvidas
dentro dos prazos, a Lei Orçamentária começará a ser executada a partir do início do exercício
financeiro (MOTA, 2006).
5.3.3 Execução da Lei Orçamentária
Na terceira etapa do ciclo, a STN, por intermédio do SIAFI, contabiliza a dotação
orçamentária, permitindo às unidades gestoras emitir empenhos, descentralizar dotações,
liquidar despesas, emitir ordens bancárias, arrecadar receitas, etc (MOTA, 2006).
A execução da Lei Orçamentária pode ser dividida em execução orçamentária e
execução financeira, vistas na Seção 5.4.
- 97 -
5.3.4 Avaliação da execução orçamentária
A última etapa do ciclo consiste no acompanhamento e avaliação do processo de
execução, que pode ser interno, quando realizado no próprio órgão, ou externo, quando
realizado pelo Congresso Nacional, auxiliado pelo TCU (MOTA, 2006). Mais detalhes sobre
a avaliação feita pelo TCU serão apresentados na Seção 5.8.1.
5.4 EXECUÇÃO ORÇAMENTÁRIA E FINANCEIRA
Publicada a LOA inicia-se a terceira etapa do ciclo orçamentário: a execução
orçamentária e financeira. A primeira corresponde à utilização dos créditos consignados no
orçamento. Créditos representam dotações ou autorizações de gastos ou sua descentralização.
A execução financeira corresponde à utilização dos recursos financeiros com o objetivo de
atender a realização das ações orçamentárias atribuídas a cada unidade. Recursos representam
dinheiro ou saldo de disponibilidade financeira. Sendo assim criam-se dois fluxos entre os
órgãos centrais e setoriais, o fluxo de créditos e o fluxo de recursos. A Figura 5-1 e Figura 5-2
representam respectivamente os fluxos orçamentário e financeiro.
Descentralização Orçamentária(Fluxo de créditos)
SOF/MPOG
Órgão Setorial
Unidade Vinculada
Dotação[Nota de Dotação - ND]
Descentralização interna ou provisão[Nota de Movimentação de Crédito - NC]
Outro Órgão
Descentralização externa ou destaque[Nota de Movimentação de Crédito - NC]
Figura 5-1: Fluxo orçamentário e respectivos documentos de lançamento no Siafi
- 98 -
Descentralização Financeira(Fluxo de recursos)
STN/MF
Órgão Setorial
Unidade Vinculada
Cota[Ordem Bancária - OB e
Nota de Lançamento - NL]
Sub-repasse[OB e NL]
Outro Órgão
Repasse[OB e NL]
Figura 5-2: Fluxo financeiro e respectivos documentos de lançamento no Siafi
Após a sanção presidencial à Lei Orçamentária aprovada pelo Congresso Nacional e
seguindo a orientação do art. 8o da Lei de Responsabilidade Fiscal (BRASIL, 2000), o Poder
Executivo mediante decreto deve estabelecer em até trinta dias a programação financeira e o
cronograma de desembolso mensal por órgãos, observadas as metas de resultados fiscais
dispostas na Lei de Diretrizes Orçamentárias. Após a publicação da LDO, deve também a
SOF encaminhar à STN as informações sobre o orçamento aprovado, as quais são
disponibilizadas para os órgãos da Administração Pública através do SIAFI.
5.4.1 Execução financeira
Segundo (BRASIL, MF, 2006), a execução financeira
"[...] compreende um conjunto de atividades com o objetivo de ajustar o ritmo de execução do orçamento
ao fluxo provável de recursos financeiros. Assegurando a execução dos programas anuais de trabalho, realizados
por meio do SIAFI, com base nas diretrizes e regras estabelecidas pela legislação vigente [...]".
Segundo Vieira et al. (2004, p. 23), a execução financeira
"[...] compreende a utilização efetiva dos recursos para a realização dos programas de trabalho definidos
no orçamento. A movimentação de recursos entre as unidades do sistema de programação financeira é executada
através de liberações de cotas, de repasses e de sub-repasses [...]".
- 99 -
A Programação Financeira se realiza em três níveis distintos, sendo a Secretaria do
Tesouro Nacional o órgão central, contando ainda com a participação das Subsecretarias de
Planejamento, Orçamento e Administração (ou equivalentes os órgãos setoriais - OSPF) e as
Unidades Gestoras Executoras (UGE).
Compete ao Tesouro Nacional estabelecer as diretrizes para a elaboração e formulação
da programação financeira mensal e anual, bem como a adoção dos procedimentos
necessários a sua execução. Aos órgãos setoriais competem a consolidação das propostas de
programação financeira dos órgãos vinculados (UGE) e a descentralização dos recursos
financeiros recebidos do órgão central. Às Unidades Gestoras Executoras cabe a realização da
despesa pública nas suas três etapas, ou seja: o empenho, a liquidação e o pagamento
(BRASIL, MF, 2006).
Com base no Decreto de Programação Orçamentária e Financeira (DPOF), as Unidades
Orçamentárias registram mensalmente no Siafi suas Propostas de Programação Financeira
(PPF) para o mês seguinte, que serão analisadas pela STN. Após a análise e respectivos
ajustes, a STN registra no Siafi a Programação Financeira Aprovada (PFA), contendo os
cronogramas de desembolso que serão obedecidos no mês em análise (LIMA, 2003),
propiciando o acompanhamento das saídas da conta única em favor dos Órgãos Setoriais de
Programação Financeira (OSPF). Estes, por sua vez, descentralizam os limites da PFA às
unidades executoras (LIMA, 2003).
Segundo Brasil (1999), as liberações de recursos da STN aos OSPF e destes para as
unidades gestoras supervisionadas serão efetivadas mediante a concessão de limites de saque
à conta única do Tesouro Nacional, através de registro em conta contábil.
Deve-se ressaltar que o fluxo de caixa do Tesouro inclui não só o cronograma de
desembolso (fluxo de despesa) como também o fluxo de receitas.
- 100 -
5.5 RECEITA PÚBLICA
Segundo Vieira et al. (2004, p. 6), "O Regulamento Geral de Contabilidade Pública
conceitua como receita da União todos os créditos de qualquer natureza que o governo tem
direito de arrecadar em virtude de leis gerais e especiais, de contratos e quaisquer títulos de
que derivem direitos a favor do Estado".
Em Mota (2006), a receita pública é conceituada como o conjunto de ingressos de
recursos financeiros, dividindo-se em orçamentários, aqueles que devem fazer parte da lei de
orçamento para que possam ser utilizados, e extra-orçamentários, aqueles que representam
obrigações a pagar a terceiros, não podendo fazer parte do orçamento. Como exemplos dos
primeiros são citados: receita tributária, de prestação de serviços, de contribuições sociais, de
juros, de alienação de bens, etc. Como exemplos de ingressos extra-orçamentários são citados:
recebimento de depósitos e cauções, salários não reclamados, depósitos não identificados, etc.
Segundo a Lei 4.320/64, pertencem ao exercício financeiro as receitas nele arrecadadas,
estabelecendo para o reconhecimento da receita o regime de caixa.
Segundo o Manual Técnico de Orçamento (BRASIL, 2004), a receita pode ser
classificada segundo sua natureza em categoria econômica, fonte, subfonte, rubrica, alínea e
subalínea. Como exemplo o código 1.1.1.2.04.01 indica como categoria "receita corrente",
como fonte "receita tributária", como subfonte "imposto", como rubrica "imposto sobre
patrimônio e renda", como alínea "renda e proventos" e como subalínea "pessoa física".
5.5.1 Estágios ou fases da receita orçamentária
Há na literatura especializada divergência sobre o número e denominação das fases
pelas quais passa a receita orçamentária. Segundo Kohama (2003) a receita percorre três
estágios: previsão, lançamento e arrecadação, incluindo nesta última o recolhimento. Segundo
Vieira et al. (2004), a receita orçamentária passa por quatro fases denominadas de estágios:
- 101 -
previsão, lançamento, arrecadação e recolhimento. O primeiro ocorre ainda na fase de
formulação orçamentária, o segundo, terceiro e quarto pertencem à fase de execução
orçamentária. Segundo Mota (2006), a receita orçamentária pode ser dividida nos estágios
previsão, arrecadação e recolhimento.
A previsão representa a estimativa de receita quando da elaboração da proposta
orçamentária, encerrando-se com o lançamento fiscal. Este último representa o ato
administrativo do Poder Executivo que consiste na identificação do devedor, discriminação da
espécie, valor e vencimento do tributo. A arrecadação é o ato pelo qual o contribuinte
comparece perante o agente arrecadador e realiza o pagamento do tributo. O recolhimento
representa a entrega diária do produto da arrecadação por parte dos agentes arrecadadores ao
Tesouro Público.
5.6 DESPESA PÚBLICA
Segundo Angélico (1995), a despesa pública é todo pagamento efetuado a qualquer
título pelos agentes pagadores. Em Mota (2006), esses pagamentos são classificados em
desembolso orçamentário, quando autorizados pela Lei do Orçamento (LOA), e desembolso
extra-orçamentário, quando autorizados por via administrativa ou outros instrumentos
normativos. Como exemplos dos primeiros são citados: despesa de pessoal, encargos sociais,
juros, serviços de terceiros, amortização da dívida, etc. Como exemplos de desembolsos
extra-orçamentários são citados: devolução de depósitos e cauções de terceiros, quitação de
retenções e consignações, etc.
Ainda segundo Mota (2006), cabe diferenciar as despesas orçamentárias efetivas e não-
efetivas. Nas primeiras ocorre desembolso financeiro ou assunção de obrigações sem
incorporação de elementos ativos ou desincorporação de elementos passivos, ou seja, são
fatos modificativos diminutivos, produzindo alteração do patrimônio líquido. São exemplos as
- 102 -
despesas com pessoal, encargos sociais e serviços de terceiros. Nas despesas orçamentárias
não-efetivas o patrimônio líquido não é alterado, tratando-se portanto de fatos permutativos.
São exemplos a aquisição de material e concessão de empréstimos.
Conforme exposto em Mota (2006) e Giacomoni (2005), a despesa pública orçamentária
(efetiva e não-efetiva) pode ser classificada segundo apresentado na Tabela 5-1 e Tabela 5-2.
Tabela 5-1: Classificação da despesa pública orçamentária
Classificação Resumo
Institucional
Responde à indagação “Quem” é o responsável pela programação.Permite conhecer a aplicação dos recursos por órgão e unidade orçamentária.É codificada com cinco dígitos (xx.xxx) sendo os dois primeiros indicativosdo órgão e os três últimos da unidade orçamentária.Exemplo: 01.101 – Câmara dos Deputados.
Funcional
Responde à indagação “Em que área” de ação governamental a despesa serárealizada.É codificada com cinco dígitos (xx.xxx) sendo os dois primeiros indicativosda função e os três últimos da subfunção.Exemplo: 10.304 - função saúde, subfunção vigilância sanitária.
Programática
Responde à indagação “Para que” os recursos são alocados.Divide-se em Programa (codificado em quatro dígitos) e Ação (codificadaem quatro dígitos), que pode ser uma atividade (realizada de modo contínuoe permanente), projeto (realizado num período limitado de tempo) ouoperação especial.Exemplo: 0580 2674 – representação judicial e extrajudicial da união.
ClassificaçãoEconômica ouNatureza da
Despesa
Responde às indagações “O que” será adquirido e “Qual” o efeito econômicoda realização da despesa.Divide-se em categoria econômica, grupo da despesa, modalidade deaplicação e elemento de despesa.É codificada com seis dígitos (x.x.xx.xx). A Lei 4.320/64 (BRASIL, 1964)traz a classificação econômica ou natureza da despesa conforme apresentadona Tabela 5-2.Exemplo: 3.3.90.30 – material de consumo.
- 103 -
Tabela 5-2: Classificação da despesa pública orçamentária quanto à natureza da despesa
CategoriaEconômica
Grupo Modalidade de AplicaçãoElemento
da Despesa
9- Reserva decontingência
9 99 99
3- Corrente1- Pessoal e encargos sociais2- Juros e encargos da dívida3- Outras despesas correntes
4- Capital4- Investimento5- Inversões financeiras6- Amortização da dívida
20- Transferências à União30- Transferências a Estados40- Transferências a Municípios50- Transferências a instituiçõesprivadas sem fins lucrativos60- Transferências a instituiçõesprivadas com fins lucrativos70- Transferências a instituiçõesmultigovernamentais80- Transferências ao exterior90- Aplicações diretas99- A definir
Vários
5.6.1 Estágios ou fases da despesa orçamentária
Segundo Mota (2006) e Kohama (2003), a despesa orçamentária é dividida em três
estágios de execução: empenho, liquidação e pagamento. Deve-se considerar ainda um
primeiro estágio, anterior à execução, correspondente à fixação da despesa. Segundo Vieira et
al. (2004), a execução da despesa é dividida em cinco fases: registro dos créditos e dotações,
descentralização de créditos, empenho, liquidação e pagamento. As três últimas fases são
chamadas estágios.
A Figura 5-3 procura conciliar as duas definições anteriores, apresentando as fases (ou
estágios) e os respectivos documentos de lançamento no Siafi. Em seguida são apresentadas
as definições sobre cada fase ou estágio.
- 104 -
Empenho
Liquidação
Pagamento
[NE]
[OB]
[NL]
Fases ou Estágios da Despesa Orçamentária
Registro dos Créditose Dotações (Fixação)
Descentralização deCréditos
Execução
[NC]
[ND]
Figura 5-3: Fases ou estágios da despesa orçamentária com os respectivos documentos de lançamento noSiafi
Segundo Mota (2006), no estágio de fixação estabelece-se o limite de gastos a serem
efetuados pelos órgãos públicos. Esse estágio termina com a publicação da LOA e é
registrado contabilmente no Siafi pela Nota de Dotação (ND).
Segundo Lima (2003, p. 47)
"Após a publicação da LOA, a Secretaria de Orçamento Federal (SOF) procede aos ajustes dos elementos
de despesas dos programas aos dispositivos da Lei. Efetuados os ajustes necessários baseados nas orientações do
Decreto de Programação Orçamentária e Financeira (DPOF), é deflagrado o processo de execução. Através do
DPOF o governo fixa no início de cada exercício, os limites de empenho de dotações orçamentárias e de
pagamento de despesas para cada unidade orçamentária. A programação financeira, segundo a Lei no 4.320/64,
incluirá um quadro de cotas trimestrais de despesa que cada Unidade Orçamentária ficará autorizada a utilizar.
Temos assim um cronograma anual de desembolso financeiro que permite às unidades saber de antemão o
volume de recursos que poderá empenhar e o limite de seus pagamentos".
A descentralização de créditos "é a movimentação das dotações consignadas em Lei,
colocando-as disponíveis aos ordenadores de despesa para que esses possam, por conta de tais
créditos, emitir empenhos" (LIMA, 2003, p. 51). A descentralização pode ser externa, quando
ocorre entre órgãos diferentes ou entre unidades orçamentárias de órgãos diferentes. A
descentralização pode ser também interna, quando ocorre no sentido vertical, ou seja, na
estrutura interna de um órgão ou Ministério. A descentralização interna é a sistemática
- 105 -
comum verificada na execução orçamentária. A descentralização é concretizada por meio de
uma Nota de Movimentação de Créditos (NC), e sua contrapartida do lado financeiro é o
Repasse.
"O empenho da despesa é o ato emanado de autoridade competente que cria para o
Estado obrigação de pagamento pendente ou não de implementação de condição" (BRASIL,
1964, p. 1). O empenho é obrigatório, prévio a realização da despesa e não poderá exceder o
limite de créditos concedidos. A Nota de Empenho (NE) é o documento utilizado para fins de
registro da operação de empenho de uma despesa. Os empenhos, segundo sua natureza e
finalidade, são classificados em ordinário, global e estimativo.
O empenho ordinário atende despesas com montante previamente conhecido e cujo
pagamento deva ocorrer de uma só vez. O empenho global atende despesas com montante
previamente conhecido mas de pagamento parcelado. Exemplos: aluguéis, salários, pensões,
etc. O empenho estimativo atende despesas cujo valor não se possa determinar previamente.
Quando o valor do empenho for insuficiente deve ser reforçado com a emissão de novo
empenho, pelo valor não coberto, mencionando o original. Quando o valor estimado for
superior à despesa deve ser feita a anulação parcial. Segundo Kohama (2003), no momento do
recebimento da conta, onde está o valor do gasto efetivo, é necessário emitir outro documento,
que pode ser subempenho ou ordem de pagamento.
O empenho poderá ser anulado no decorrer do exercício, parcialmente, quando seu valor
exceder o montante da despesa realizada, ou totalmente, quando o serviço não tiver sido
prestado, o material não tiver sido entregue ou ainda quando tiver sido emitido
incorretamente. Poderá também ser anulado no encerramento do exercício, quando se referir a
despesas não liquidadas, salvo as que se enquadrarem nas condições previstas para inscrição
em restos a pagar.
- 106 -
A liquidação, segundo Lima (2003, p. 137), refere-se
"[...] à comprovação de que o credor cumpriu todas as obrigações constantes do empenho, ou seja,
forneceu o bem ou executou o serviço contratado. É nesse estágio que se verifica que o contratante cumpriu o
implemento de condição. No sistema Siafi, a liquidação será aprovada contabilmente por meio de Nota de
Lançamento (NL)"
Feita a liquidação é necessário providenciar a ordem de pagamento, que segundo a Lei
no 4.320/64 é o despacho exarado por autoridade competente, determinando que a despesa
seja paga. O Pagamento consiste na entrega de recursos equivalentes à dívida líquida ao
credor, mediante ordem bancária (OB). O pagamento só poderá ser efetuado após sua regular
liquidação.
Em Kohama (2003) é destacado o fato da realização da despesa ocorrer com a
liquidação e não com o pagamento, uma vez que na liquidação encerra a contabilização no
sistema orçamentário e inicia a contabilização no sistema financeiro.
5.6.2 Créditos adicionais
Segundo a Lei no 4.320/64, créditos adicionais são autorizações de despesas não
computadas ou insuficientemente dotadas na LOA. Dividem-se em: créditos suplementares,
destinados a reforço de dotações orçamentárias; créditos especiais, destinados a despesas para
as quais não há dotação orçamentária específica e créditos extraordinários, destinados a
despesas urgentes e imprevisíveis, em caso de guerra, comoção interna ou calamidade
pública.
5.6.3 Restos a pagar
Segundo o art. 36 da Lei no 4.320/64, consideram-se restos a pagar as despesas
empenhadas mas não pagas dentro do exercício financeiro, ou seja, até 31 de dezembro.
Segundo Lima (2003, p. 148)
- 107 -
"Conforme sua natureza, as despesas inscritas em restos a pagar podem ser classificadas em: processadas,
aquelas já liquidadas, ou seja, o credor já cumpriu suas obrigações dentro do exercício, faltando apenas o
pagamento; não processadas, aquelas não liquidadas, ou seja, dependem do cumprimento da obrigação por parte
do credor. A inscrição de valores em restos a pagar terá validade até 31 de dezembro do ano subseqüente. Após
essa data, os saldos remanescentes serão automaticamente cancelados, permanecendo em vigor, no entanto, o
direito do credor por 5 (cinco) anos, a partir da inscrição".
5.6.4 Despesas de exercícios anteriores
São as dívidas resultantes de compromissos gerados em exercícios anteriores aqueles
em que deve ocorrer o pagamento e que não estejam inscritos em restos a pagar. São
exemplos as despesas de exercícios encerrados, para as quais o orçamento respectivo
consignava crédito próprio com saldo suficiente, e cujo empenho tenha sido considerado
insubsistente e anulado no encerramento do exercício correspondente, mas que, dentro do
prazo estabelecido, o credor tenha cumprido sua obrigação. Outro exemplo são os restos a
pagar com prescrição interrompida, ou seja, despesas cuja inscrição em restos a pagar tenha
sido cancelada, mas ainda vigente o direito do credor.
5.7 LICITAÇÕES
Segundo Mello (2007, p. 505), licitação é
"[...] o procedimento administrativo pelo qual uma pessoa governamental, precisando alienar, adquirir ou
locar bens, realizar obras ou serviços, [...], segundo condições por ela estipuladas previamente, convoca
interessados na apresentação de propostas, a fim de selecionar a que se revele mais conveniente em função de
parâmetros antecipadamente estabelecidos e divulgados".
Ainda segundo Mello (2007), compete à União, aos Estados, aos Municípios e ao
Distrito Federal legislar sobre a matéria, cabendo à primeira editar normas gerais sobre a
matéria, conforme o art. 22 da Constituição. A Lei no 8.666/93 institui normas sobre licitações
e contratos da Administração Pública obrigatórias em todo o país.
- 108 -
Em seu art. 1o estatui que suas normas aplicam-se aos três Poderes, incluindo órgãos da
administração direta, autarquias, fundações públicas, empresas públicas, sociedades de
economia mista e demais entidades controladas direta ou indiretamente pela União, Estados,
Distrito Federal e Municípios.
Segundo seu art. 2o, as obras, serviços, inclusive de publicidade, compras, alienações,
concessões, permissões e locações da Administração Pública, quando contratadas com
terceiros, serão necessariamente precedidas de licitação, ressalvadas as hipóteses previstas na
lei. Segundo Mello (2005), a própria Lei no 8.666/93 prevê casos de dispensa de licitação (art.
24) e inexigibilidade (art. 25). A primeira justifica-se quando seria possível realizá-la,
entretanto, existem razões de interesse público para que se deixe de efetuá-la. A
inexigibilidade resulta da inviabilidade da competição, dada a singularidade do objeto ou do
ofertante.
As modalidades de licitação previstas na Lei no 8.666/93 são: concorrência, tomada de
preços, convite, concurso e leilão. Essas modalidades serão analisadas a seguir.
Concorrência é a modalidade de licitação entre quaisquer interessados que, na fase
inicial de habilitação preliminar, comprovem possuir os requisitos mínimos de qualificação
exigidos no edital para execução de seu objeto.
Tomada de preços é a modalidade de licitação entre interessados devidamente
cadastrados ou que atenderem a todas as condições exigidas para cadastramento até o terceiro
dia anterior à data do recebimento das propostas, observada a necessária qualificação.
Convite é a modalidade de licitação entre interessados do ramo pertinente ao seu objeto,
cadastrados ou não, escolhidos e convidados em número mínimo de três pela unidade
administrativa, a qual afixará, em local apropriado, cópia do instrumento convocatório e o
- 109 -
estenderá aos demais cadastrados na correspondente especialidade que manifestarem seu
interesse com antecedência de até vinte e quatro horas da apresentação das propostas.
Concurso é a modalidade de licitação entre quaisquer interessados para escolha de
trabalho técnico, científico ou artístico, mediante a instituição de prêmios ou remuneração aos
vencedores, conforme critérios constantes de edital publicado na imprensa oficial com
antecedência mínima de quarenta e cinco dias.
Leilão é a modalidade de licitação entre quaisquer interessados para a venda de bens
móveis inservíveis para a Administração ou de produtos legalmente apreendidos ou
penhorados, ou para a alienação de bens imóveis prevista no art. 19 da Lei no 8.666/93, a
quem oferecer o maior lance, igual ou superior ao valor da avaliação.
A Lei no 10.520/2002 (BRASIL, 2002) institui, no âmbito da União, Estados, Distrito
Federal e Municípios, nos termos do art. 37, inciso XXI, da Constituição Federal, modalidade
de licitação denominada pregão, para aquisição de bens e serviços comuns qualquer que seja o
valor estimado da contratação, em que a disputa pelo fornecimento é feita por meio de
propostas e lances em sessão pública. Em seu art. 1o, parágrafo único, a Lei no 10.520/2002
define bens e serviços comuns aqueles cujos padrões de desempenho e qualidade possam ser
objetivamente definidos pelo edital, por meio de especificações usuais no mercado.
5.8 CONTROLE DA ADMINISTRAÇÃO PÚBLICA
Filho (2007, p. 808) define controle da Administração Pública como "[...] o conjunto de
mecanismos jurídicos e administrativos por meio dos quais se exerce o poder de fiscalização e
de revisão da atividade administrativa em qualquer das esferas de Poder".
Segundo Mello (2007), a Administração Pública se sujeita a controles internos,
exercidos por órgãos da própria Administração, e controles externos, efetuados por órgãos
- 110 -
alheios à Administração, compreendendo o controle parlamentar direto, o controle exercido
pelo Tribunal de Contas e o controle jurisdicional.
O controle interno é o exercido pela própria Administração, no acompanhamento e
revisão de seus atos e práticas administrativas, efetuado por um segmento administrativo
formalizado ou não no organograma das instituições.
O controle jurisdicional, tendo como titular o Poder Judiciário, objetiva solucionar
pendências jurídicas, em respeito ao princípio da não-exclusão da apreciação de qualquer
ameaça ou lesão de direito por parte de tal Poder, estabelecida no art. 5o, inciso XXXV, da
Constituição Federal.
O controle parlamentar direto, também chamado de controle externo político, é o
exercido diretamente pelo Congresso Nacional sobre a totalidade da Administração Pública.
Citam-se como exemplos: a sustação de atos e contratos do Executivo, as comissões
parlamentares de inquérito, o julgamento das contas do Executivo, a suspensão e destituição
do Presidente e Ministros, etc.
O controle externo técnico corresponde à instância de controle independente,
personificada pelos Tribunais de Contas, dedicando-se à fiscalização orçamentária, financeira,
patrimonial e operacional, auxiliando o controle político empreendido pelo Poder Legislativo.
No âmbito federal é exercido pelo Tribunal de Contas da União.
5.8.1 Tribunal de Contas da União
Segundo o art. 70 da Constituição Federal, a fiscalização contábil, financeira,
orçamentária, operacional e patrimonial da União e das entidades da administração direta e
indireta, quanto à legalidade, legitimidade, economicidade, aplicação das subvenções e
renúncia de receitas, será exercida pelo Congresso Nacional, mediante controle externo, e
pelo sistema de controle interno de cada Poder. Em seu parágrafo único, o citado artigo
- 111 -
estabelece que prestará contas qualquer pessoa física ou jurídica, pública ou privada, que
utilize, arrecade, guarde, gerencie ou administre dinheiros, bens e valores públicos ou pelos
quais a União responda, ou que, em nome desta, assuma obrigações de natureza pecuniária.
Em seu art. 71, a Constituição Federal estabelece que o controle externo, a cargo do
Congresso Nacional, será exercido com o auxílio do Tribunal de Contas da União. Conclui-se
pelo exposto nos dois artigos citados que o Congresso Nacional possui a titularidade
constitucional para exercer o controle externo enquanto o TCU atua como órgão auxiliar do
Congresso no controle externo.
Nos incisos do art. 71, a Constituição estabelece as atribuições do TCU, sendo
apresentadas a seguir algumas delas com as respectivas explicações:
• Apreciar as contas prestadas anualmente pelo Presidente da República, mediante
parecer prévio. Destaque-se que o Presidente da República presta contas ao
Congresso Nacional, sendo função do TCU realizar a análise técnico-jurídica das
contas, apresentando parecer conclusivo ao Congresso para que este faça o
julgamento das contas;
• Julgar as contas dos administradores e demais responsáveis por dinheiros, bens e
valores públicos da administração direta e indireta. Esse julgamento diz respeito à
legalidade, regularidade e economicidade;
• Apreciar, para fins de registro, a legalidade dos atos de pessoal, tais como admissão
e concessões de aposentadorias, reformas e pensões;
• Realizar, por iniciativa própria, da Câmara dos Deputados, do Senado Federal, de
comissão técnica ou de inquérito, inspeções e auditorias de natureza contábil,
financeira, orçamentária, operacional e patrimonial, nas unidades administrativas
dos Poderes Legislativo, Executivo e Judiciário. Cabe destacar a diferença entre
- 112 -
inspeções e auditorias. As primeiras têm o objetivo de suprimir lacunas e omissões
de informações ou esclarecer dúvidas ou apurar denúncias em relação aos
responsáveis por atos administrativos sujeitos à jurisdição do Tribunal. As auditorias
têm por objetivo obter dados de natureza contábil, financeira, orçamentária e
patrimonial; conhecer a organização e o funcionamento dos órgãos e entidades;
avaliar, do ponto de vista do desempenho operacional, suas atividades e sistemas;
avaliar os resultados alcançados pelos programas e projetos governamentais;
• Fiscalizar a aplicação de quaisquer recursos repassados pela União mediante
convênio, acordo, ajuste ou outros instrumentos congêneres, a Estado, ao Distrito
Federal ou a Município;
• Aplicar aos responsáveis, em caso de ilegalidade de despesa ou irregularidade de
contas, as sanções previstas em lei, assinalando prazo para que o órgão ou entidade
adote as providências necessárias ao exato cumprimento da lei;
• Sustar, se não atendido, a execução do ato impugnado.
5.9 SISTEMAS DE INFORMAÇÃO DA ADMINISTRAÇÃO PÚBLICA
A Administração Pública possui um conjunto de sistemas de informação que a auxiliam
no desempenho de suas atividades, tanto de planejamento como de execução. Esses sistemas
são fonte importante de informações para procedimentos de mineração de dados. Destacam-se
a seguir os principais sistemas, sendo o Siafi, pela sua importância e por ter sido objeto de
estudo deste trabalho, analisado a parte.
Para a realização do planejamento orçamentário destacam-se três sistemas de
informação. Na realização do planejamento plurianual destaca-se o Sistema de Informações
Gerenciais e de Planejamento (SIGPlan), sob responsabilidade da Secretaria de Planejamento
e Investimentos do Ministério do Planejamento. Na elaboração da LOA e da LDO destaca-se
- 113 -
a utilização do Sistema Integrado de Dados Orçamentários (SIDOR), sob responsabilidade da
Secretaria de Orçamento Federal do Ministério do Planejamento. Na etapa de execução
orçamentária destaca-se o Sistema Integrado de Administração Financeira do Governo
Federal (SIAF), sob responsabilidade da Secretaria do Tesouro Nacional do Ministério da
Fazenda. A Figura 5-4 representa a utilização dos três sistemas.
Ministério da Fazenda
Ministério do Planejamento, Orçamento e Gestão
Planejamento Orçamentário- Autorização para o recebimento de recursos financeiros- Autorização para a realização de gastos
SOF SIDOR
STN SIAFIExecução Orçamentária
- Arrecadação da receita- Realização da despesa
Plano PlurianualSPI SIGPlan
Figura 5-4: Sistemas de informação usados no planejamento e execução do orçamento
Para o acompanhamento das atividades da Administração Pública destacam-se ainda os
sistemas:
• Sisbacen – Sistemas de Informações do Banco Central;
• Siscomex – Sistema Integrado de Comércio Exterior;
• Siasg – Sistema Integrado de Administração de Serviços Gerais;
• Spiu – Sistema de Patrimônio da União;
• Siape – Sistema Integrado de Administração de Pessoal;
• Infoseg – Sistema de Integração Nacional de Informações de Justiça e Segurança
Pública;
• Sinapi – Sistema Nacional de Preços de Referência;
• Dívida – Sistema de Acompanhamento de Dívida Ativa;
- 114 -
• Sisobi – Sistema de Controle de Óbitos;
• Renavan – Cadastro Nacional de Veículos.
5.9.1 SIAFI
Segundo Mota (2006, p. 193), o Sistema Integrado de Administração Financeira do
Governo Federal (Siafi) é
"[...] o sistema de teleinformática que processa a execução orçamentária, financeira, patrimonial e
contábil dos órgãos e entidades da Administração Federal, com a utilização de técnicas eletrônicas de tratamento
de dados, objetivando minimizar custos e proporcionar eficiência e eficácia à gestão dos recursos alocados no
Orçamento geral da União".
5.9.1.1 Principais objetivos do sistema
Ainda segundo Mota (2006), os principais objetivos do Siafi são:
• Prover os órgãos da Administração Pública de mecanismos para o registro e controle
orçamentário, financeiro e patrimonial;
• Agilizar a programação financeira;
• Integrar e compartilhar informações dos diversos órgãos pertencentes ao sistema;
• Permitir que as informações sobre a contabilidade pública estejam disponíveis a
todos os níveis da Administração Pública e a sociedade em geral.
5.9.1.2 Subsistemas do Siafi
Para facilitar o trabalho de todas as Unidades Gestoras, o SIAFI foi concebido para se
estruturar por exercícios. Cada ano equivale a um sistema diferente, ou seja, a regra de
formação do nome do sistema é a sigla SIAFI acrescida de quatro dígitos referentes ao ano do
sistema que se deseja acessar: SIAFI2000, SIAFI2001, SIAFI2002, etc.
Por sua vez, cada sistema está organizado por subsistemas (atualmente 21, apresentados
na Figura 5-5) e estes, por módulos. Dentro de cada módulo estão agregadas inúmeras
- 115 -
transações, que guardam entre si características em comum. Nesse nível de transação é que
são efetivamente executadas as diversas operações do SIAFI, desde entrada de dados até
consultas.
Figura 5-5: Subsistemas do Siafi (BRASIL, MF, 2007)
5.9.1.3 Principais documentos
São apresentados a seguir alguns dos documentos emitidos pelo sistema:
• Nota de Dotação (ND) – faz o registro do orçamento da despesa;
• Nota de Movimentação de Crédito (NC) – realiza movimentação de créditos
orçamentários para dentro do mesmo órgão ou órgão externo;
• Nota de Pré-Empenho (PE) – torna o crédito correspondente indisponível
temporariamente para empenho;
• Nota de Empenho (NE) – faz a emissão de empenho, reforço de empenho emitido a
menor ou anulação de empenho emitido a maior;
• Nota de Lançamento (NL) – utilizado para fatos que não envolvam movimentação
financeira, tais como previsão de receita e apropriação de despesa;
- 116 -
• Ordem Bancária (OB) – utilizada nos desembolsos financeiros dos órgãos, tais como
transferências financeiras entre órgãos, pagamento de fornecedores, pagamento de
pessoal, etc.
5.9.2 Projeto Síntese
O projeto Síntese foi instituído em 2003 com o objetivo principal de implantar um
sistema de inteligência e suporte ao controle externo, baseado em tecnologia Data
Warehouse. Na implantação do projeto foram selecionadas as seguintes áreas:
• Contas Públicas - Lei de Responsabilidade Fiscal (LRF);
• Plano de Fiscalização;
• Fiscalização de Pessoal;
• Certificação de Gestão Pública;
• Fiscalização de Obras.
Segundo descrito em Carvalho (2005, p.1):
"[...] atualmente, os dados necessários às atividades de controle externo encontram-se dispersos em
sistemas geridos e mantidos por diversos órgãos da Administração Pública, cujo acesso e manutenção é
dificultado pela diversidade de padrões de organização, codificação, plataformas tecnológicas e bancos de dados.
O Síntese viabilizará tal obtenção de dados, utilizando-se das funcionalidades inerentes da tecnologia data
warehousing. Permitirá, ainda, o cruzamento de dados de diversas fontes, realização de análise de tendências,
comparação de informações, análise de dados nos diversos níveis de agregação, entre outras funcionalidades".
O funcionamento do projeto, também segundo descrito em Carvalho (2005, p.2),
seguirá os passos tradicionais de um procedimento de KDD, quais sejam:
"[...] serão realizadas extrações de dados em bancos de dados dos sistemas de informação mantidos por
diversos órgãos públicos. Posteriormente, esses dados sofrerão transformações para compatibilizar codificações
e formatos, realizar classificações, agrupar registros e agregar valores. Os dados transformados alimentarão o
data warehouse, que é um banco de dados modelado especificamente para consultas analíticas".
- 117 -
Os benefícios citados pelo autor decorrentes da implantação do projeto Síntese são,
entre outros:
• Melhoria no planejamento das ações de controle, pela identificação correta das áreas que
requerem maior concentração de esforços (considerando parâmetros tais como risco,
materialidade e relevância);
• Possibilidade de detecção de indícios de fraude por meio de tratamento estruturado de
dados do Data Warehouse;
• Realização da atividade de controle externo eletrônico, com base nas informações dos
diversos sistemas e seus cruzamentos, possibilitando, por exemplo, o acompanhamento do
cumprimento da LRF.
Esta Tese vem contribuir para o segundo tópico citado anteriormente, detecção de
indícios de fraude, através de mecanismos automatizados de verificação, conforme o modelo
proposto no Capítulo 6.
- 118 -
6 MODELO PARA DETECÇÃO DEIRREGULARIDADES NA EXECUÇÃO DA
DESPESA
6.1 INTRODUÇÃO
Como descrito no Capítulo 1, o problema a ser abordado na Tese é a detecção
automática de indícios de irregularidades na execução da despesa orçamentária, de forma a
subsidiar o trabalho de controle externo executado pelo TCU. A detecção automática permite
aumentar o escopo da fiscalização em número de documentos verificados e concentrar a
atenção dos analistas na validação manual somente daqueles eventos que apresentem fortes
indícios de irregularidades, conseqüentemente reduzindo o tempo da fiscalização, em função
da rápida localização dos indícios e da redução do tempo de análise.
Para solucionar o problema apresentado, propõe-se a adoção de um modelo baseado em
dois módulos de verificação: Mineração de Dados (DM) e Sistema Especialista (SE). Tais
módulos receberiam num primeiro momento informações diretamente do Siafi, sendo numa
fase posterior integrados ao DW Síntese. Também com o objetivo de auxiliar o trabalho do
analista, é proposta a apresentação de relatórios de comportamento e informações estatísticas,
relacionados com as entidades apontadas nos documentos marcados para análise manual. O
modelo completo é apresentado na Figura 6-1.
A contribuição pretendida pelo modelo proposto é a adaptação das técnicas citadas
(sistema especialista e mineração de dados) para que possam ser adequadamente utilizadas
como mecanismo de verificação de irregularidades na execução da despesa. Tais
modificações foram resultado do estudo conduzido ao longo da Tese, não só quanto aos
aspectos teóricos de KDD e orçamento público, como também quanto à utilização dessas
técnicas aplicadas aos dados de quatro anos de execução orçamentária. O modelo assim
- 119 -
criado não possui paralelo na literatura pesquisada, constituindo proposta inovadora na
detecção de irregularidades na execução da despesa.
Mineração de DadosInformação não trivial, sem regras claras
Sistema EspecialistaRegras extraídas da legislação e do conhecimento de especialistas
SiafiExecução da
Despesa
Analista
Modelo deComportamentoModelo de
ComportamentoMecanismo para
Detecção deAnomalias
Modelo deComportamentoModelo de
ComportamentoModelo deComportamento
Atualização das Regras
Atualização dos Modelos
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE/NL/OB
NE/NL/OB
Figura 6-1: Modelo proposto para a detecção automática de indícios de irregularidades na execução dadespesa, baseado na atuação complementar de um módulo de mineração de dados com um sistemaespecialista. O modelo propõe ainda a apresentação de relatórios de comportamento para subsidiar adecisão do analista quanto à presença de irregularidades nos documentos relacionados. As siglas NE, NL eOB significam respectivamente Nota de Empenho, Nota de Lançamento e Ordem Bancária
6.1.1 Implementação prática para validação do modelo
Na implementação prática realizada para validação, optou-se por desenvolver apenas
parte do modelo proposto. Dois motivos principais guiaram essa escolha: ter ao término da
Tese um protótipo que, apesar de não totalmente otimizado, permitisse a execução prática da
detecção de irregularidades e desenvolver inicialmente os componentes do modelo que
oferecessem maior risco futuro de implementação e menor risco atual em relação ao tempo de
desenvolvimento. Essa limitação entretanto não afeta a possibilidade de validar a proposta de
modelo, permitindo comprovar sua aplicabilidade aos dados reais coletados.
Com relação a primeira motivação da redução de escopo, como apresentado no Capítulo
1, um dos objetivos da Tese era demonstrar a viabilidade do emprego de técnicas
automatizadas para a detecção de irregularidades. Para isso considerou-se necessário
apresentar como fruto deste trabalho, além do estudo teórico, um protótipo que conseguisse
- 120 -
realizar tal detecção. Apesar dos algoritmos usados não terem sido completamente
otimizados, nem testado um grande número de técnicas de mineração, os resultados
apresentados foram satisfatórios e motivadores quanto à continuação da pesquisa.
Ainda sobre a redução de escopo, entre os dois módulos de detecção propostos, optou-
se pelo desenvolvimento do módulo de DM. A escolha deste último deveu-se à maior
complexidade na sua implementação, em função principalmente da variedade de técnicas
disponíveis e a incerteza quanto aos resultados possíveis de serem alcançados. Por outro lado,
as regras para a criação do módulo SE são parcialmente conhecidas, oriundas da legislação,
de acórdãos do TCU, do conhecimento dos analistas, dentre outras fontes, conseqüentemente
representam um menor risco técnico para implementação. O levantamento das regras, apesar
de não ser tarefa tecnicamente complexa, poderia tomar um tempo considerável, superior ao
período de execução desta Tese, não permitindo com isso o término da construção do
protótipo como desejado.
A Figura 6-2 apresenta as partes do modelo original a serem implementadas na Tese
após a redução de escopo descrita. Nela é apresentado um maior detalhamento do módulo de
mineração de dados, constando os dois modelos de comportamento (probabilístico e por redes
neurais) e os dois mecanismos de detecção (regras nebulosas e redes neurais) escolhidos para
implementação dentro do módulo de DM.
No restante do capítulo será apresentada a descrição de cada componente do modelo
proposto, sua fundamentação teórica, a justificativa mais detalhada para a não implementação
de algumas partes do modelo e a localização, dentro da Tese, dos capítulos onde os módulos
selecionados para implementação foram desenvolvidos.
- 121 -
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
Despesa
Analista
Modelo Probabilístico
Modelo por Redes Neurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras Fuzzy
Detecção de Anomaliaspor Redes Neurais
Figura 6-2: Modelo simplificado para a detecção automática de anomalias na emissão de notas deempenho. Representam as partes do modelo original a serem efetivamente implementadas. A sigla NEsigneifica Nota de Empenho
6.2 INFORMAÇÕES DE ENTRADA DO MODELO
A execução da despesa, conforme descrito no Capítulo 5, é dividida em três fases:
empenho, liquidação e pagamento. Os documentos de lançamento no Siafi dos eventos dessas
três fases são respectivamente a nota de empenho (NE), nota de liquidação (NL) e ordem
bancária (OB). Cada um desses documentos possui informações sobre a caracterização da
despesa (modalidade de licitação, natureza da despesa, valor, data, etc) e sobre as entidades
envolvidas no evento (órgão, unidade gestora, favorecido e usuário). Como apresentado na
Figura 6-1, o modelo proposto recebe como entrada os três documentos citados (NEs, NLs e
OBs) e realiza sua verificação nos dois módulos principais: sistema especialista e módulo de
mineração de dados.
Optou-se no trabalho pela análise somente das notas de empenho (Figura 6-2). A
escolha deriva do fato desse documento pertencer à primeira fase da execução da despesa,
permitindo, caso seja detectada alguma irregularidade, a atuação imediata do controle,
evitando possivelmente o gasto ou pelo menos reduzindo o prejuízo ao erário. A mesma
sistemática adotada para o tratamento de NEs pode ser usada para verificar os demais
documentos, criando modelos análogos de comportamento no módulo DM e novas regras de
validação no módulo SE.
- 122 -
Vale ressaltar que os três documentos (NE, NL e OB) são interdependentes,
constituindo etapas de um fluxo único, qual seja, a execução da despesa. A detecção de
possíveis irregularidades pode ser realizada independentemente em cada fase. Torna-se porém
mais eficiente quando todo o fluxo é analisado conjuntamente. Para que o modelo proposto
cumpra adequadamente seu papel de detecção de irregularidades, é recomendável que numa
próxima fase do trabalho as NLs e OBs sejam contempladas pelo procedimento de
verificação, não só de forma independente, como citado no parágrafo anterior, mas também
de forma integrada.
6.3 MÓDULOS DE DETECÇÃO
A adoção de dois módulos de detecção, SE e DM, deveu-se às experiências encontradas
na pesquisa bibliográfica, como em Javitz e Valdes (1993), Dickerson et al. (2001), Lane
(2000) e Haft et al. (1998). De particular relevância foi o estudo de sistemas detectores de
intrusão, descritos na Seção 2.2 deste trabalho, nos quais sugere-se reiteradamente a utilização
de um módulo baseado em regras e outro baseado em detecção de anomalias.
Os dois módulos propostos para detecção são complementares, enquanto o SE captura
situações já previstas de ilegalidade através das regras pré-definidas, o módulo de DM detecta
possíveis irregularidades ainda não identificadas pelos especialistas ou pela legislação, além
de poder também detectar as situações previstas de ilegalidade, desde que tais situações
caracterizem um comportamento anormal da entidade em análise.
A proposta do módulo de relatórios e análises estatísticas, que subsidia a decisão do
analista, foi fruto da utilização prática do piloto implementado com o módulo de DM. A
análise dos documentos apontados pelo modelo acaba por se tornar um gargalo no processo
de verificação, em função da necessidade de realizar um levantamento histórico do
comportamento das entidades envolvidas na realização da despesa classificada como
- 123 -
irregular. A simples apresentação dos relatórios criados durante o trabalho de compreensão
dos dados facilita em muito o julgamento do especialista. A utilização desses relatórios, além
de aproveitar o trabalho já realizado na Tese, será no futuro conseqüência natural do uso do
DW Síntese (ver Seção 5.9.2). Para melhor compreensão do uso prático dos relatórios, sugere-
se a leitura do Apêndice D, onde é feita a análise de uma nota de empenho classificada como
anômala pelo sistema.
6.3.1 Módulo Sistema Especialista
O sistema especialista será responsável por armazenar o conjunto de regras extraídas da
legislação, de acórdãos do TCU e do conhecimento dos analistas. A legislação sobre
contratação pública, conforme descrito no Capítulo 5, apresenta regras bem definidas em
relação a alguns comportamentos, permitidos ou proibidos, relacionados a execução da
despesa. Tais regras dizem respeito à natureza da despesa a ser usada na contratação de cada
produto, à inexigibilidade ou dispensa de licitação de acordo com o tipo da compra ou
fornecedor, à modalidade de licitação a ser utilizada em função do produto e valor da compra,
etc. Só a leitura da Lei 8.666/93 já fornece um amplo conjunto de regras, complementadas
pelo restante da legislação sobre o tema, pelos acórdãos do TCU, por decretos
regulamentadores da Administração, etc.
Outra importante fonte de conhecimento para a criação de regras é a experiência dos
analistas em controle externo, acumulada ao longo de várias fiscalizações. Tais regras
permitiriam compartilhar o conhecimento de vários analistas, consolidando informações que
atualmente encontram-se dispersas e sob risco de serem perdidas na medida em que não sejam
documentadas. As regras criadas pelos analistas permitem identificar situações que, apesar de
não consideradas ilegais pela legislação, merecem atenção especial durante as fiscalizações.
- 124 -
Essas situações constituem comportamentos já identificados em fiscalizações anteriores por
representarem indícios de irregularidades, embora sob a aparência de procedimentos legais.
As regras baseadas no conhecimento dos analistas podem ser definidas individualmente
para cada órgão, fornecedor ou unidade gestora, contemplando particularidades de cada
entidade. Esse conhecimento fica normalmente restrito aos analistas que lidam diretamente
com as entidades em questão, não sendo difundidas para os demais auditores. Diferente das
regras criadas pelos analistas, as regras extraídas da legislação têm aplicabilidade genérica,
não incorporando particularidades de cada entidade. Portanto estas últimas são mais
adequadas para capturar situações explícitas de fraude, enquanto as primeiras aplicam-se a
casos em que a irregularidade foi camuflada através de procedimentos de aparente legalidade.
As regras de conhecimento permitem não só identificar eventos com indícios de
ilegalidade como também descartar da análise manual eventos que aparentemente são
irregulares mas legalmente permitidos. Tal fato foi constatado diversas vezes durante os testes
do módulo de mineração de dados. Houve várias indicações de possíveis irregularidades que
foram posteriormente descartadas durante a verificação manual feita pelo analista, por
conterem informações sabidamente regulares, porém de ocorrência rara. O descarte desses
eventos poupa trabalho do analista, diminuindo o número de falsos positivos apresentados
pelo sistema. O módulo especialista funcionará dessa forma complementando o módulo de
mineração de dados, convalidando ou rejeitando as decisões tomadas por este último.
Como já citado na introdução do capítulo, o módulo sistema especialista não foi
contemplado no sistema piloto implementado durante a Tese.
6.3.2 Módulo de Mineração de Dados
O módulo de mineração de dados serve para identificar documentos que, apesar de
aparentemente legais (não identificados pelo sistema especialista), indicam comportamentos
- 125 -
que fogem aos procedimentos normais das entidades envolvidas na despesa, considerando
como normais os procedimentos executados pelas entidades durante a fase de treinamento dos
modelos de comportamento. Tais comportamentos podem indicar desde uma simples
mudança nos procedimentos de contratação da entidade até um indício de irregularidade a ser
investigada.
No módulo de DM, em função da diversidade de técnicas e algoritmos existentes na
área, optou-se por propor uma arquitetura aberta, ou seja, sem preestabelecer quais algoritmos
ou técnicas deveriam ser usados, indicando apenas a necessidade de dois componentes
principais e definindo-se as informações que seriam trocadas entre eles. Os dois componentes
definidos na arquitetura são: a modelagem do comportamento das entidades quanto à
execução da despesa e o mecanismo de detecção de anomalia que, através da comparação do
documento em análise com o modelo de comportamento, possa informar, segundo parâmetros
configuráveis pelo analista, a anomalia ou normalidade do documento.
O objetivo da separação do módulo de DM em dois componentes foi permitir que
técnicas diferentes pudessem ser usadas na modelagem do comportamento e na detecção de
anomalias, como exemplificado em Lourenço (1998) e Brugger (2004). No presente trabalho,
conforme apresentado na Figura 6-2, optou-se por realizar duas implementações para cada
componente, permitindo assim uma comparação mínima de desempenho entre técnicas
diferentes.
Em implementações futuras, não necessariamente os dois componentes devam ser
criados isoladamente, podendo ser o modelo de comportamento e o componente de detecção
integrados num único elemento. Vale destacar que, mantendo os componentes separados, é
possível reaproveitar implementações anteriores de um dos componentes, implementações já
testadas e validadas, não necessitando obrigatoriamente desenvolver sempre os dois
- 126 -
componentes a cada nova técnica a ser testada. A implementação do piloto desenvolvido na
Tese demonstra tal facilidade pois ambos os modelos de comportamento criados podem ser
usados pelos dois algoritmos de detecção.
Para que os modelos de comportamento possam ser usados de forma independente dos
algoritmos de detecção é necessário estabelecer o comportamento genérico esperado de cada
componente e uma interface padronizada para a troca de informações entre os dois elementos.
No presente trabalho definiu-se que o componente de modelo de comportamento,
independente da técnica de modelagem utilizada, deve ser capaz de receber como entrada
informações de caracterização da despesa e sobre as entidades envolvidas, todas presentes na
nota de empenho em análise, e fornecer na saída dois vetores com cinco componentes, o
primeiro indicando a probabilidade de cada uma das entidades citadas na nota ter emitido um
empenho com as características apresentadas, o segundo vetor contendo o suporte utilizado na
criação dos modelos das respectivas entidades. Ambos os vetores serão descritos nas seções
seguintes.
Da mesma forma, os algoritmos de detecção, independente da técnica escolhida, devem
receber como entrada os dois vetores já citados, a identificação das entidades envolvidas,
além de um conjunto de parâmetros opcionais fornecidos pelo analista. A combinação das
probabilidades presentes no primeiro vetor determina a normalidade da nota. O vetor de
suportes auxilia o algoritmo a julgar se as probabilidades informadas para as entidades são
confiáveis ou não. A identificação das entidades permite que os algoritmos de detecção
utilizem mecanismos diferentes para cada entidade. Como saída, o componente de detecção
informa se considera a nota analisada anômala ou não, possivelmente fornecendo informações
adicionais que justifiquem a classificação.
- 127 -
A definição das técnicas a serem usadas para a implementação do módulo de DM foi
fortemente influenciada pela ausência de uma base de documentos classificados como
irregulares. Caso houvesse uma base de dados contendo registros de notas anômalas e
normais, poder-se-ia utilizar algoritmos relacionadas à classificação simples, com treinamento
supervisionado. No entanto, durante a execução da Tese, não se dispunha de tal base contendo
exemplos de ambas as categorias. Em função dessa limitação optou-se por duas alternativas
para o módulo de DM: a detecção estatística de outliers e a simulação de casos anômalos para
uso em treinamento supervisionado de algoritmos de classificação. Tais alternativas estão
presentes tanto na implementação dos modelos de comportamento como no mecanismo de
detecção.
Caso houvesse uma base de documentos pré-classificados, seriam alteradas as técnicas
usadas na implementação dos dois componentes do módulo de DM, porém o modelo proposto
permaneceria válido uma vez que independe das técnicas e algoritmos usados em sua
implementação.
6.3.2.1 Procedimento geral de classificação usado no módulo de mineração
Formalizando o procedimento de classificação realizado globalmente pelo módulo de
DM, seu objetivo é, dada uma NE, estabelecer se a mesma é normal ou anômala.
Considerando uma nota de empenho como um conjunto de informações: NE = {favorecido,
usuário, unidade gestora, órgão, data, valor, modalidade de licitação, natureza da despesa},
procurou-se definir um procedimento que faça a classificação da nota em anômala ou normal,
tomando como base a probabilidade de ocorrência da combinação de informações presentes
na NE e alguns parâmetros de corte fornecidos pelo usuário do sistema.
O cálculo da probabilidade considera as entidades envolvidas, a combinação dos valores
dos atributos e o histórico de NEs usadas no treinamento. A classificação fornecida é um
- 128 -
indicativo da legitimidade da NE, ou pelo menos informa a freqüência de ocorrência da
combinação de valores dos atributos presentes na nota, baseando-se no histórico usado no
treinamento.
Em relação às informações presentes na NE, observa-se que quatro delas são indicativos
de entidades: favorecido, usuário, unidade gestora e órgão. Assim, para a determinação da
normalidade da NE, são consultados cinco modelos de comportamento, correspondentes às
quatro entidades citadas, além do modelo da Administração Pública como um todo.
Ainda sobre os parâmetros da nota, além das informações sobre entidades, observam-se
ainda quatro atributos: data, valor, natureza da despesa e modalidade de licitação. Esses
valores servem como indexadores para buscar, dentro de cada um dos cinco modelos de
comportamento criados para as entidades, a probabilidade de ocorrência da combinação de
valores desses atributos, resultando conseqüentemente em cinco probabilidades, cada qual
referente a uma das entidades citadas no parágrafo anterior.
Da combinação das cinco probabilidades referentes às entidades citadas na nota obtém-
se a saída do procedimento de classificação, qual seja, um indicativo de anomalia ou de
normalidade da NE. A combinação das probabilidades e suportes é realizada no mecanismo
para detecção de anomalias, configurado segundo parâmetros fornecidos pelo analista. A
Figura 6-3 apresenta esquematicamente os passos descritos, detalhando o conteúdo do módulo
de mineração de dados.
- 129 -
Mineração de DadosInformação não trivial, sem regras claras
Data, ML, ND e CVNE
Parâmetros fornecidospelo analista
AnômalaNormal
Favorecido, Usuário,UG e Órgão
Probabilidade esuporte por
entidade
Modelo deComportamento
Modelo deComportamento
Modelo paraFavorecido
Modelo paraUsuário
Modelo paraUG
Modelo paraAdministração
Pública
Modelo paraÓrgão
Mecanismo paraDetecção deAnomalias
Mecanismo paraDetecção deAnomalias
Combinação deProbabilidades
Figura 6-3: Detalhamento dos componentes do módulo de mineração de dados
6.3.2.2 Implementação dos modelos de comportamento
Os modelos de comportamento foram criados, conforme apresentado na Figura 6-4, de
duas formas: matrizes de probabilidade e redes neurais.
Mineração de DadosInformação não trivial, sem regras claras
Detecção de AnomaliasModelo de Comportamento
Modelo Probabilístico
Modelo por RedesNeurais
Detecção de Anomaliaspor Regras
Detecção de Anomaliaspor Redes Neurais
Figura 6-4: Modelos de comportamento
No primeiro modelo, foram criados perfis estatísticos para representar o modelo de
comportamento para cada entidade, segundo o exposto em Javitz e Valdes (1993). Foram
criados perfis independentes para cada uma das entidades envolvidas na execução da despesa,
conforme recomendado no trabalho dos autores. Os perfis foram montados através da
- 130 -
probabilidade calculada para favorecidos, usuários, UGs, órgãos e a probabilidade geral da
Administração, em função da freqüência de ocorrência da combinação de valores dos
atributos Data, ML, ND e CV, presentes nas NEs emitidas no período de treinamento. Nesse
caso o modelo de comportamento para cada entidade é representado por uma matriz de
probabilidades.
Na segunda forma de criação dos modelos de comportamento, utilizou-se uma rede
neural do tipo Backpropagation, como sugerido em Haft et al. (1998). A rede foi treinada para
"aprender" o comportamento das entidades citadas, usando como base de treinamento as NEs
emitidas durante um ano, e considerando a combinação de valores dos atributos Data, ML,
ND e CV, num procedimento semelhante ao adotado na construção das matrizes de
probabilidade. Lembrando que o treinamento da rede Backpropagation é supervisionado,
procurou-se suprir a falta do conjunto de exemplos de comportamentos irregulares através da
criação simulada de tais casos. Essa proposta fundamenta-se no trabalho de Abe, Zadrozny e
Langford (2006). Da mesma forma que no modelo estatístico, foram criados modelos
individuais para cada entidade, ou seja, treinadas redes neurais exclusivas para classificar o
comportamento de cada órgão, UG, usuário e favorecido.
Apesar de ambos os modelos de comportamento terem sido criados em função da
combinação dos atributos da nota, a possibilidade informada pela rede neural para cada
combinação não corresponde exatamente à probabilidade informada pela matriz. Tal diferença
será abordada na Seção 8.4, onde é feita a comparação das duas abordagens.
A necessidade de criação de perfis independentes por entidade, tanto no caso de
matrizes de probabilidade como no de redes neurais, surgiu após o procedimento de
clusterização de órgãos, quando ficou aparente a existência de comportamentos diferenciados
e característicos por grupo. A necessidade de criação de perfis únicos por entidade ficou
- 131 -
definitivamente comprovada quando foram analisados os comportamentos individuais de
favorecidos, órgãos e UGs. A correta caracterização do comportamento só seria possível, com
detalhamento suficiente para permitir a detecção de anomalias, através do desenvolvimento de
modelos individualizados, como foi efetivamente implementado na Tese.
A criação dos modelos de comportamento, tanto por métodos estatísticos como por
redes neurais, é detalhada no Capítulo 8.
6.3.2.3 Mecanismos de detecção de anomalias
O mecanismo de detecção de anomalias foi criado, conforme apresentado na Figura 6-5,
de duas formas: através de regras e redes neurais.
Mineração de DadosInformação não trivial, sem regras claras
Detecção de AnomaliasModelo de Comportamento
Modelo Probabilístico
Modelo por Redes Neurais
Detecção de Anomaliaspor Regras
Detecção de Anomaliaspor Redes Neurais
Figura 6-5: Detecção de anomalias
Em função da modelagem individual de comportamento, para cada nota de empenho
analisada são fornecidas cinco informações sobre a probabilidade de ocorrência da despesa
nela caracterizada, quatro referentes às entidades citadas na nota e mais a probabilidade
fornecida pelo modelo global da Administração Pública. São fornecidas ainda cinco
informações referentes ao suporte, permitindo ao componente de detecção julgar a
confiabilidade das probabilidades.
Cabe ao componente de detecção realizar a combinação ponderada das cinco
probabilidades e informar sobre a anomalia ou não do documento de despesa como um todo.
Tal componente foi implementado por regras nebulosas, conforme apresentado em Dickerson
et al. (2001), e por redes neurais, conforme exposto em Haft et al. (1998).
- 132 -
Na implementação por regras nebulosas, de forma semelhante à proposta apresentada
para o sistema especialista, o analista cria regras de combinação de probabilidade segundo sua
experiência prática de auditoria. A diferença entre as regras nos dois módulos é que, no
sistema especialista, as regras são derivadas dos procedimentos de compra, estabelecidos na
legislação ou definidos pelo próprio analista. As regras nebulosas têm o objetivo de combinar
probabilidades fornecidas pelos modelos individuais de comportamento. O uso de regras
nebulosas facilita a combinação das probabilidades, sem que o analista tenha que lidar com
valores absolutos.
O segundo mecanismo de detecção, implementado por redes neurais Backpropagation,
visou realizar a ponderação das probabilidades fornecidas pelos modelos de comportamento
de forma automática, sem a necessidade de criação de regras explícitas de ponderação.
Devido à falta de uma base de treinamento com notas irregulares, foram geradas
probabilidades simuladas para tais notas, permitindo o treinamento supervisionado das redes
neurais.
Em ambos os mecanismos de detecção, o uso combinado das cinco probabilidades
oriundas de modelos diferentes objetiva dar mais segurança à classificação realizada pelo
modelo. A combinação de fontes diversas se torna mais necessária em função da inexistência
de bases de treinamento para os modelos, filtradas quanto à presença de documentos com
irregularidades. Tais documentos, caso existam em quantidade suficiente, poderiam
influenciar na caracterização do comportamento da entidade, fazendo com que seu modelo
fornecesse probabilidade alta de normalidade para eventos irregulares. A correlação de
probabilidades oriundas de modelos diferentes reduz o risco da classificação incorreta de um
documento.
- 133 -
Os mecanismos de detecção, por regras nebulosas e redes neurais, bem como os testes e
comparações, foram implementados no Capítulo 9.
6.4 VERIFICAÇÃO MANUAL PELO ANALISTA
Os documentos marcados como anômalos por um dos módulos de detecção, SE ou DM,
devem passar pela verificação manual do analista, para concluir-se ou não pela ocorrência de
irregularidades. A automatização de todo o processo de verificação de irregularidades sem a
presença do auditor, conforme exposto no Capítulo 1, não é recomendável.
Para facilitar o trabalho manual de verificação, é conveniente apresentar informações
adicionais sobre o comportamento das entidades citadas no documento selecionado como
irregular. Tais informações dizem respeito ao comportamento histórico da entidade quanto à
execução da despesa e medidas estatísticas que possam auxiliar no julgamento do auditor.
Sugere-se a apresentação de relatórios sobre as quatro entidades citadas na nota e sobre a
Administração Pública como um todo.
A necessidade do módulo de informações históricas e estatísticas (módulo de relatório
de comportamento) surgiu durante a avaliação prática do piloto implementado com o módulo
de DM. O analista, confrontado com uma informação simples de probabilidade quanto à
possível presença de irregularidade fornecida pelo modelo, pode ficar inseguro para decidir
quanto à existência de ilegalidade sem consultar informações adicionais referentes ao
documento. O próprio sistema poderia fornecer algumas informações extras, justificando a
classificação do documento como anômalo, principalmente quando a possível irregularidade
foi detectada pelo módulo baseado em Sistema Especialista, o qual possibilita informar a
regra, ou conjunto de regras, usadas para classificar a nota.
Já o módulo baseado em mineração de dados, particularmente os componentes
implementados com redes neurais, não são adequados para prover informação detalhada sobre
- 134 -
a classificação. Mesmo o componente implementado com regras nebulosas, apesar de permitir
a explicitação das regras usadas, realiza a classificação baseado em correlação de
probabilidades que, informadas sem contextualização, pouco acrescentam para fundamentar a
decisão.
A consulta às informações adicionais não é simples de ser realizada através do SIAFI,
pois o sistema não provê relatórios com essa finalidade. A existência de um DW, nos moldes
do proposto pelo projeto Síntese, facilitaria a criação de tais relatórios. Nos testes do modelo
proposto foram usados os próprios relatórios criados durante a execução da Tese, visando à
compreensão dos dados (ver capítulo 7). Como já citado no início do capítulo, o Apêndice D
fornece um exemplo prático da utilização desses relatórios.
6.4.1 Retroalimentação
Caso uma irregularidade seja confirmada pelo analista, o sistema deve ser
retroalimentado conforme exposto em Steensma et al. (2003). Se a anomalia tiver sido
apontada somente pelo módulo de DM, possivelmente uma nova regra tenha que ser criada no
SE para representar a irregularidade recém descoberta e ainda não documentada através de
uma regra específica. Caso a anomalia tenha sido detectada somente pelo SE, possivelmente
os modelos e mecanismos de detecção do módulo de DM tenham que sofrer alterações em
seus parâmetros. Deve ser verificado também se o comportamento irregular foi incorporado
aos modelos de comportamento pela presença de casos anômalos semelhantes na base de
treinamento.
Na hipótese de falsos positivos, principalmente gerados pelo módulo de DM, pode ser
necessário criar regras de liberação no módulo SE, informando ao modelo sobre casos
excepcionais que, apesar de anômalos, são aceitáveis do ponto de vista legal.
- 135 -
6.5 VALIDAÇÃO DOS RESULTADOS
A validação dos resultados diz respeito ao teste do piloto implementado com o módulo
de mineração de dados. Para que tal validação pudesse ser conclusiva, seria necessária a
presença de exemplos normais e irregulares, verificando-se a capacidade do sistema realizar a
classificação corretamente. Infelizmente, durante a execução da Tese, não havia disponível
uma base com tais exemplos pré-classificados.
Para contornar o problema optou-se por testar o modelo proposto com as notas de
empenho emitidas pelo TCU no ano de 2006. Tais notas não possuem irregularidades, porém
tal ausência não invalida o teste do modelo, pois o objetivo do módulo de mineração é
detectar casos anômalos, não necessariamente irregulares. A medida da anomalia dos
documentos é muitas vezes um conceito subjetivo, tendo o sistema sido avaliado inicialmente
conforme sua capacidade de selecionar notas que seriam também relacionadas por verificação
manual feita por um especialista.
Uma segunda avaliação foi feita através do uso de notas de empenho simuladas,
medindo-se a capacidade do sistema em diferenciá-las das notas reais. Nessa última avaliação
foi analisada tanto a proporção de notas verdadeiras classificadas como anômalas (falsos
positivos) como a proporção de notas simuladas não classificadas como anômalas (falsos
negativos). Essas duas proporções serviram para comparar o piloto implementado em relação
a outros trabalhos encontrados na revisão bibliográfica.
Com a utilização efetiva do sistema e a retroalimentação proposta, será naturalmente
criada uma base de exemplos irregulares, permitindo posteriormente uma melhor avaliação do
modelo e a calibração dos parâmetros usados nos algoritmos. Tal base é fundamental para o
teste do módulo de detecção por sistema especialista, a ser implementado futuramente.
- 136 -
7 ANÁLISE DA EMISSÃO DE NOTAS DEEMPENHO PELA ADMINISTRAÇÃO
PÚBLICA FEDERAL
7.1 INTRODUÇÃO
O capítulo tem por objetivo analisar o comportamento da Administração Pública no que
tange à emissão de notas de empenho (NEs), tomando por base o período de 2003 a 2006. O
estudo objetiva subsidiar a criação dos modelos de comportamento, desenvolvidos no
Capítulo 8, e fundamentar as decisões tomadas na escolha e modificação dos algoritmos
aplicados na identificação de anomalias, descritos no Capítulo 9.
As informações foram obtidas através de consulta e exportação de dados via Siafi. A
análise está direcionada a três atributos da nota de empenho, quais sejam, a modalidade de
licitação (ML), a natureza da despesa (ND) e o valor da nota (CV). Esses atributos foram
selecionados com base na opinião de especialistas, como sendo os que mais contribuiriam
para o procedimento de verificação de possíveis irregularidades. As entidades cujo
comportamento foi analisado são órgãos públicos, unidades gestoras (UGs), favorecidos e
usuários do sistema, além da Administração Pública como um todo.
Serão apresentadas as diferenças de comportamentos entre os órgãos, entre órgãos e
suas UGs, entre as UGs de um mesmo órgão e entre essas entidades e a média da
Administração Pública. O estudo procura demonstrar a impossibilidade da criação de um
modelo único de comportamento, a ser usado pelos algoritmos de detecção, que seja genérico
o suficiente para representar o comportamento de toda a Administração Pública, sendo
necessária a criação de modelos individuais por entidade.
O capítulo apresenta ainda a variação de comportamento ao longo do ano na emissão de
NEs pelas entidades citadas (movimentos sazonais), devendo tal variação ser considerada na
- 137 -
criação dos modelos. Aponta também para o fato de haver variação de comportamento na
emissão de NEs ao longo dos quatro anos (tendência geral), forçando a criação de
mecanismos para a atualização dos modelos.
A Figura 7-1 traz o modelo para detecção de irregularidades proposto na Tese,
ressaltando na figura as contribuições do capítulo para sua implementação. Como já citado, a
análise das entidades públicas serve para subsidiar a criação dos modelos de comportamento
do módulo de mineração de dados e para gerar as informações presentes nos relatórios que
auxiliam a verificação manual do analista.
Mineração de DadosInformação não trivial, sem regras claras
Sistema EspecialistaRegras extraídas da legislação e do conhecimento de especialistas
SiafiExecução da
Despesa
Analista
Modelo deComportamentoModelo de
ComportamentoMecanismo para
Detecção deAnomalias
Modelo deComportamentoModelo de
ComportamentoModelo deComportamento
Atualização das Regras
Atualização dos Modelos
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE/NL/OB
NE/NL/OB
Figura 7-1: Contribuições do capítulo atual para o modelo proposto
7.1.1 Exportação de dados do Siafi
A exportação dos dados do Siafi foi realizada utilizando o módulo extrator de dados do
sistema, através da transação CONARQ. Essa transação possibilita aos usuários realizar a
extração de dados diretamente das tabelas que subsidiam as demais operações do sistema. A
vantagem de exportar os dados do Siafi, ao invés de analisá-los dentro do próprio sistema, é a
possibilidade de realizar o tratamento da informação em ferramentas matemáticas mais
adequadas, uma vez que o Siafi não oferece recursos de mineração de dados nem ferramentas
adequadas para visualização.
- 138 -
Utilizou-se como fonte de dados para exportação o arquivo SIAFI-EMPENHO. Os
dados exportados são do período de 2003 a 2006. Deve-se observar que após o término da
implantação do projeto Síntese, os dados poderão ser obtidos diretamente do DW.
Os dados exportados são disponibilizados em arquivos no formato texto, cada linha do
arquivo correspondendo a uma nota de empenho. Para que fosse possível realizar a análise das
NEs, os arquivos exportados passaram por uma fase de pré-processamento, com o objetivo de
eliminar inconsistências e filtrar parte das NEs. Em seguida, as informações foram importadas
para o programa Matlab, onde ocorreram as análises apresentadas neste trabalho.
O período escolhido, compreendendo os anos de 2003 a 2006, corresponde a um
mandato presidencial, relacionado ao qual espera-se caracterizar o comportamento da
Administração Pública na emissão de empenhos. Mais especificamente objetiva-se analisar as
diferenças entre os quatro anos de um mesmo mandato, diferenças que possam afetar os
algoritmos de identificação de anomalias ou que forcem a atualização de seus parâmetros.
Essas possíveis variações de comportamento dizem respeito à entrada em vigor de um novo
Plano Plurianual (PPA), às eleições estaduais realizadas na metade do período, à eleição
presidencial ocorrida no último ano do mandato e à própria dinâmica de funcionamento do
governo ao longo dos quatro anos.
Entre as várias informações disponíveis no arquivo SIAFI-EMPENHO, optou-se pela
análise dos atributos descritos na Tabela 7-1. Deve-se ressaltar que o arquivo citado possui
outros campos que, embora não tenham sido utilizados neste trabalho, podem conter
informações relevantes e mereceriam uma maior atenção em trabalhos futuros. Algumas
dessas informações foram relacionadas no Capítulo 10.
- 139 -
Tabela 7-1: Campos exportados do arquivo SIAFI-EMPENHO e sua descrição
Campo Descrição
IT-CO-USUARIO
Usuário emitente da NE. Campo alfanumérico com 11 posições, queguarda o CPF ou código do usuário responsável pela emissão dodocumento.
GR-UG-GESTAO-NA-
NUMERO
Campo com 23 posições a ser desmembrado nas seguintes informações:• Unidade gestora emitente (6 posições)• Gestão de emissão (5 posições)• Ano da emissão• Número da NE
O número da NE é único para uma dada UG e gestão, dentro de umdeterminado ano.
IT-DA-EMISSAO
Data de emissão da NE.
IT-CO-FAVORECIDO
Código do favorecido para o qual a NE foi emitida. Possui 14 posições,podendo representar:• Um CPF, no caso de pessoa física• Um CNPJ, no caso de pessoa jurídica• Uma inscrição genérica, representando um código atribuído dentro do
sistema para entidades isentas de CNPJ ou pessoas físicas que nãopossuem CPF
• Um código UG-GESTÃO, quando o favorecido encontra-se dentro daprópria Administração e não foi identificado pelo CNPJ
GR-CODIGO-EVENTO
Evento da NE. Representa um entre os seguintes tipos:• 40.1.091 Empenho da Despesa• 40.1.092 Reforço do Empenho da Despesa• 40.1.093 Anulação de Empenho• 40.1.094 Cancelamento por Insuficiência de Recursos Financeiros• 40.1.095 Outros Cancelamentos• 40.1.096 Empenho da Despesa Pré-Empenhada• 40.1.097 Reforço do Empenho da Despesa Pré-Empenhada• 40.1.098 Anulação do Empenho da Despesa Pré-Empenhada• 40.1.191 Utilização de Limite Financeiro
Somente as NEs cujos tipos são 091 e 096 foram usadas no trabalho.
- 140 -
GR-NATUREZA-
DESPESA
Natureza da despesa (ND) da NE. Traz codificadas informações sobre:• Categoria Econômica (uma posição)• Grupo (uma posição)• Modalidade de Aplicação (duas posições)• Elemento da Despesa (duas posições)
O Capítulo 5 faz uma descrição sobre o significado da natureza da despesa.
IT-VA-TRANSACAO
Valor da NE. O campo exportado inclui os centavos mas não há marcadorde casa decimal. O valor bruto recebido foi dividido por 100 para obter-seo valor correto.
IT-IN-MODALIDADE
-LICITACAO
Modalidade de licitação (ML) utilizada na NE. Assume um dos seguintesvalores:• 01 – Concurso• 02 – Convite• 03 – Tomada de preço• 04 – Concorrência• 06 – Dispensa de licitação• 07 – Inexigibilidade• 08 – Não se aplica• 09 – Suprimento de fundo• 11 – Consulta• 12 – Pregão
O Capítulo 5 faz uma descrição sobre as modalidades de licitação.
A Figura 7-2 traz uma tela de consulta de nota de empenho no Siafi. A figura serve para
visualizar os demais campos não usados do arquivo SIAFI-EMPENHO, em negrito estão
aqueles utilizados no trabalho. As informações foram alteradas para preservar o sigilo dos
dados.
- 141 -
__ SIAFI2005-DOCUMENTO-CONSULTA-CONNE (NOTA DE EMPENHO)_______________________24/02/07 09:23 USUARIO : EDUARDOF
DATA EMISSAO: ddmmmaa NUMERO: aaaaNExxxxxxUG EMITENTE: xxxx (NOME-UG)GESTAO EMITENTE : XXXXX
FAVORECIDO: xxxx-xx (NOME-FAVORECIDO)
OBSERVACAODESPESA COM DIARIA …
EVENTO ESF PTRES FONTE ND UGR PI V A L O RXXXXXX X XXXXXX XXXXXXXXXX xxxx XXXXXX XXXXXX xxxx,xx
TIPO : ORDINARIO MODALIDADE: xxxx (MODALIDADE-LICITAÇÃO)AMPARO : INCISO :PROCESSO : XXXXXXXXXX PRECATORIO :UF BENEFICIADA : xx MUNICIPIO BENEF. :ORIGEM MATERIAL :REFERENCIA DISPENSA: NUM.CV/CR/TP:
LANCADO POR: xxxx (USUÁRIO) UG : XXXXXX DDMMMAA XX:XX
Figura 7-2: Tela de consulta à nota de empenho no Siafi. Somente os campos em negrito foram utilizadosno trabalho
7.1.2 Eventos considerados
Conforme apresentado na Tabela 7-1, as NEs podem corresponder a nove eventos
diferentes. Neste trabalho foram estudados os eventos "40.1.091 - Empenho da Despesa" e
"40.1.096 - Empenho da Despesa Pré-Empenhada", não tendo sido feita nenhuma distinção,
durante as análises, entre as notas oriundas das duas categorias pois tal separação é irrelevante
para o procedimento de detecção, uma vez que o foco da análise é a criação do empenho,
representada de igual forma pelos dois eventos. Foram descartadas as notas referentes às
anulações (40.1.093 e 40.1.098), aos cancelamentos (40.1.094 e 40.1.095), aos reforços
(40.1.092 e 40.1.097) e à utilização de limite financeiro (40.1.191). Os eventos descartados
seria melhor analisados em um procedimento que levasse em conta o ciclo de vida da nota de
empenho, como será descrito a seguir.
Cabe ressaltar que o tratamento dos eventos pode seguir duas abordagens principais. Na
primeira, não usada neste trabalho, poder-se-ia considerar a NE conceitual, composta de um
- 142 -
ou mais documentos individuais (NEs exportadas do Siafi). Essa NE conceitual seria criada
através do processamento dos vários documentos individuais relacionados entre si, referentes
à mesma despesa, considerados na seqüência de emissão. Assim, uma NE conceitual seria por
exemplo o resultado da união de um empenho (40.1.091), um ou mais reforços (40.1.092) e
um ou mais cancelamentos parciais (40.1.094). Essa NE conceitual seria contabilizada uma
única vez e seu valor líquido calculado através de somas e subtrações correspondentes aos
vários eventos que serviram para formá-la. Nessa primeira abordagem, NEs conceituais que
recebessem um documento de cancelamento total seriam excluídas do procedimento de
verificação.
Uma segunda abordagem, usada no trabalho, é considerar cada documento (NE
exportada) como independente dos demais, não levando em consideração os vários eventos
relacionados, ou seja, se integrantes ou não da mesma despesa. Dessa forma, cada NE é
contabilizada uma vez e seu valor considerado de forma bruta, ainda que pertença a um
mesmo processo de contratação juntamente com outras NEs e mesmo que posteriormente esse
processo venha a ser cancelado, acarretando o descarte de todas as NEs com ele relacionadas.
A vantagem do tratamento individualizado é a possibilidade de realizar a análise da nota
de empenho no momento da sua emissão, sem ter que aguardar toda a seqüência de eventos
até a formação da NE conceitual, processo esse que pode demorar todo o ano. A desvantagem
é trabalhar com documentos (NEs) cujos valores podem ser posteriormente alterados ou até
mesmo integralmente cancelados, ou seja, não representam necessariamente o valor
efetivamente contratado.
Deve-se ressaltar que ambas as abordagens são válidas. A primeira abordagem, não
estudada, mereceria atenção em trabalhos futuros. Sua análise poderia complementar o
tratamento individual das NEs realizado neste trabalho, obtendo-se um resultado mais
- 143 -
completo através não só da análise individual dos documentos que compõem a NE conceitual,
como também do resultado final da composição.
A Tabela 7-2 apresenta a quantidade anual de notas referentes a cada evento, bem como
o total em reais e o percentual das notas aproveitadas no trabalho. Constata-se que não
ocorreu mudança significativa na relação percentual entre os eventos ao longo do período
2003 – 2006.
Tabela 7-2: Quantidade de notas emitidas por evento/ano. As últimas duas linhas da tabela apresentam ototal em reais anual e o percentual de notas utilizadas no trabalho, referentes aos eventos 1 e 6
2003 2004 2005 2006
Total de NEs 2.606.193 2.575.239 2.719.539 2.970.729
1- Empenho da Despesa 1.512.718 1.550.942 1.644.142 1.766.727
2- Reforço do Empenho 566.873 431.257 419.307 578.504
3- Anulação de Empenho 443.409 431.623 466.532 483.428
4- Cancelamento por Insuficiência deRecursos
2.419 1.223 3.110 2.458
5- Outros Cancelamentos 37.757 18.907 36.184 39.521
6- Empenho da Despesa Pré-empenhada 32.489 114.288 121.451 77.077
7- Reforço do Empenho da Despesa Pré-empenhada
3.334 6.038 7.803 8.629
8- Anulação do Empenho da DespesaPré-empenhada
7.194 20.961 21.010 14.385
Total em reais das NEs usadasR$ 0,807
trilhõesR$ 1,44trilhões
R$ 1,68trilhões
R$ 1,69trilhões
Percentual de notas usadas 59,29% 64,66% 64,92% 62,07%
7.1.3 Entidades e atributos
Entidades são os emitentes ou destinatários das NEs. Foram consideradas no trabalho
três tipos de entidades emitentes: órgãos, unidades gestoras (UGs) e usuários. Como entidades
- 144 -
destinatárias estão os favorecidos. Para todas essas entidades será modelado o padrão de
comportamento para emissão ou recebimento de NEs. No restante do capítulo será citado
simplesmente padrão de comportamento, sem distinção entre emissão e recebimento, ficando
subentendido que se trata do padrão de emissão quando se referir às primeiras e de
recebimento quando referido a favorecidos.
O relacionamento entre as entidades é apresentado na Figura 7-3. Um órgão,
independente de ser superior ou subordinado, tem ligado a si um conjunto de UGs. As UGs
possuem cadastrados um conjunto de usuários, capacitados a emitir NEs em seu nome. Pode
ocorrer de um mesmo usuário emitir NEs em mais de uma UG. A nota de empenho emitida
tem como destino um favorecido, que pode ser pessoa física, jurídica ou outro órgão da
Administração.
Órgão Superior
ÓrgãoSubordinado
ÓrgãoSubordinado
EntidadeSupervisionada...
UnidadeGestora
UnidadeGestora
UnidadeGestora
Usuário
Usuário
UsuárioNota de
Empenho
Nota deEmpenho
Favorecido
Favorecido
UnidadeGestora
Figura 7-3: Relacionamento entre as entidades analisadas
Agrupando o conjunto de notas emitidas por um órgão (notas emitidas por todos os
usuários de cada uma de suas UGs) pretende-se traçar um modelo de comportamento para o
mesmo. Da mesma forma, agrupando as notas referentes a uma UG, usuário ou favorecido,
consegue-se traçar os respectivos modelos de comportamento. Obtido o modelo, espera-se
estabelecer limites de variação, fora dos quais as NEs emitidas por uma dada entidade possam
- 145 -
ser consideradas anômalas (em relação ao comportamento usual da entidade caracterizado por
seu modelo). O estabelecimento desses limites será visto no Capítulo 9.
Para definir o padrão de comportamento das entidades citadas, foram considerados três
atributos encontrados nas NEs, quais sejam, natureza da despesa (ND), modalidade de
licitação (ML) e valor da NE (CV).
Considerando um espaço tridimensional, esses atributos correspondem aos três eixos
ordenados. Uma NE pode então ser definida como um ponto nesse espaço, em função dos
valores apresentados para ND, ML e CV. Uma entidade, produzindo um conjunto de NEs,
cria uma "nuvem" de pontos no espaço. Cada entidade possui uma "nuvem" característica,
que serve para diferenciá-la das demais entidades. A definição dos limites dessa "nuvem",
bem como sua densidade nas várias regiões do espaço, corresponde ao que se espera do
modelo de comportamento criado.
7.2 NÚMERO DE NOTAS DE EMPENHO EMITIDAS POR ENTIDADE
E SEU IMPACTO NA CRIAÇÃO DOS MODELOS
Um fator relevante para a criação dos modelos de comportamento é a quantidade de
NEs emitidas durante o período considerado para sua construção, quantidade essa
denominada "suporte". Uma vez que os algoritmos para criação dos modelos são treinados
utilizando as NEs emitidas somente durante períodos determinados, a quantidade de dados
disponível para treinamento, se muito baixa, pode afetar negativamente a confiabilidade do
resultado.
Serão apresentadas a seguir informações sobre o número de NEs emitidas por órgãos,
UGs e usuários, e recebidas por favorecidos. Os histogramas apresentados referem-se ao ano
de 2005. Os demais anos dentro do período analisado apresentam comportamento semelhante,
- 146 -
conforme as tabelas correspondentes às entidades. Esses dados serão utilizados novamente na
análise dos modelos construídos por matrizes de probabilidade (Seção 8.2.2.2) e por redes
neurais (Seção 8.3.5).
7.2.1 Quantidade de notas de empenho emitidas por órgão
A Figura 7-4 apresenta os histogramas do número de NEs emitidas por órgão. O
histograma geral (gráfico da esquerda) mostra que alguns poucos órgãos emitiram uma grande
quantidade de NEs (pontos com valor acima de 5 x 104 no eixo horizontal). Para exemplificar,
no ano de 2005 o Comando do Exército emitiu 142.662 NEs e o Comando da Marinha emitiu
100.723 NEs. Esse grande número de NEs ocorre como conseqüência do tamanho desses
órgãos e de sua capilaridade, abrangendo todo o território nacional.
O segundo histograma detalha o comportamento dos órgãos com menos de 10.000 NEs
emitidas. Nesse histograma pode-se observar com mais detalhe a distribuição de NEs nessa
faixa, que abrange a grande maioria dos órgãos.
0 5 10 15
x 104
0
20
40
60
80
100
120
140
160
180
Número de NEs
Núm
ero
de ó
rgão
s
Histograma NEs por Órgão - 2005
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 100000
5
10
15
20
25
30
35
Número de NEs
Núm
ero
de ó
rgão
s
Histograma NEs por Órgão com < 10.000NEs - 2005
Figura 7-4: Histograma do número de NEs emitidas por órgão no ano de 2005. O histograma da esquerdaapresenta todos os órgãos, destacando-se o fato de alguns poucos órgãos emitirem grande quantidade deNEs (pontos acima de 50.000 NEs). O histograma da direita apresenta a distribuição para os órgãos queemitiram menos de 10.000 NEs. Considerar como referência que no ano de 2005 houve 312 órgãos comemissão de NEs
A Tabela 7-3 detalha a situação dos órgãos quanto à emissão de NEs nos quatro anos da
análise. Pelos dados da tabela observa-se que pelo menos 90% dos órgãos emitiram mais de
- 147 -
100 NEs e próximo de 50% dos órgãos emitiram mais de 1.000 NEs. Assim sendo, a criação
do modelo dos órgãos não enfrenta problema quanto ao suporte necessário para sua
construção, tendo em vista a quantidade razoável de NEs emitidas e considerando o limite
mínimo de 100 NEs como valor aceitável. Esse limite foi o que produziu melhores resultados
durante as análises com os dados reais, não implicando necessariamente que seja o valor mais
adequado para todas as situações, valor esse que possivelmente deve variar em função do
comportamento da entidade.
Apesar de um grande número de NEs dar mais confiabilidade ao modelo criado, pode
também significar que o órgão efetua despesas em várias áreas e atua em diversas regiões do
território nacional (exemplo citado do Comando do Exército). Com isso o órgão pode
apresentar comportamentos característicos em cada segmento de atuação ou região, sendo seu
modelo global pouco confiável para servir como base de julgamento para todas as NEs
emitidas. Esse comportamento ficará claro quando forem analisadas as duas UGs selecionadas
para estudo na Seção 7.5. Independente da constatação anterior, ao longo do trabalho não
foram criados modelos segmentados por área ou região para uma mesma entidade,
considerando-se sempre o modelo global.
Tabela 7-3: Quantidade de notas de empenho emitidas por órgão no período analisado
Órgãos 2003 2004 2005 2006
Com emissão de NEs 284 310 312 316
Com mais de 100 NEs emitidas271
95,42%286
92,26%293
93,91%296
93,67%
Com mais de 1.000 NEs emitidas143
50,35%154
49,68%158
50,64%165
52,22%
7.2.2 Quantidade de notas de empenho emitidas por unidade gestora
A Figura 7-5 apresenta os histogramas do número de NEs emitidas por UG. O
histograma das UGs com mais de 1.000 NEs (gráfico da esquerda) mostra que algumas
- 148 -
poucas UGs emitiram uma grande quantidade de NEs. O segundo histograma, das UGs com
menos de 1.000 NEs emitidas (gráfico da direita), mostra que um grande número de UGs
(aproximadamente 500 do total de 3.888) emitiram pequeno número de NEs.
0 0.5 1 1.5 2 2.5
x 104
0
20
40
60
80
100
120
Número de NEs
Núm
ero
de ó
rgão
s
Histograma NEs por UG com >= 1.000 NEs - 2005
0 100 200 300 400 500 600 700 800 900 10000
50
100
150
200
250
300
350
400
450
500
Número de NEs
Núm
ero
de ó
rgão
s
Histograma NEs por UG com < 1.000 NEs - 2005
Figura 7-5: Histograma do número de NEs emitidas por UG no ano de 2005. O histograma da esquerdaapresenta as UGs com mais de 1.000 NEs emitidas, destacando-se o fato de algumas poucas UGs emitiremgrande quantidade de NEs (pontos acima de 15.000 NEs). O histograma da direita apresenta adistribuição para as UGs que emitiram menos de 1.000 NEs. Considerar como referência que no ano de2005 houve 3.888 UGs com emissão de NEs
A Tabela 7-4 detalha a situação das UGs. Observa-se que no período analisado, mais de
65% das UGs possuem suporte superior a 100 para a construção de seus modelos. Por outro
lado, um número razoável de UGs possuem poucas NEs emitidas, no ano de 2005, 482 UGs
emitiram menos de 10 NEs. Esse número representa 12,40% das UGs com emissão de NEs
em 2005.
Uma alternativa para amenizar esse problema é considerar as NEs emitidas ao longo dos
quatro anos, e não só dentro de um mesmo ano. Essa alternativa, expandindo o período de
treinamento, apesar de suprir a falta de NEs para o modelo, traz um outro problema: em
função da possível variação de comportamento da entidade ao longo dos anos, a utilização de
NEs de um longo período (mais de um ano) acaba por criar um modelo que não representa
precisamente o comportamento da entidade em nenhum momento específico, e sim
caracteriza sua média de comportamento. Para entidades cujo comportamento sofra poucas
- 149 -
alterações ao longo do tempo, essa alternativa pode ser viável, para a maioria entretanto não
poderá ser usada. Com exceção de alguns poucos modelos mensais, todos os demais modelos
usados no trabalho levaram em consideração o período de um ano de treinamento.
Tabela 7-4: Quantidade de notas de empenho emitidas por unidade gestora no período analisado
UGs 2003 2004 2005 2006
Com emissão de NEs 2.987 3.825 3.888 3.879
Com mais de 100 NEs emitidas2.181
73,02%2.551
66,69%2.563
65,92%2.638
68,01%
Com mais de 1000 NEs emitidas406
13,59%391
10,22%420
10,80%439
11,32%
7.2.3 Quantidade de notas de empenho recebidas por favorecido
A Figura 7-6 apresenta os histogramas do número de NEs recebidas por favorecido. Da
mesma forma que nos casos anteriores, o histograma dos favorecidos com mais de 100 NEs
recebidas (gráfico da esquerda) mostra que alguns poucos favorecidos receberam uma grande
quantidade de NEs. O histograma dos favorecidos com menos de 100 NEs recebidas (gráfico
da direita) ressalta o grande número de favorecidos com poucas NEs.
0 1000 2000 3000 4000 5000 6000 7000 80000
200
400
600
800
1000
1200
Número de NEs
Núm
ero
de F
avor
ecid
os
Histograma NEs por Favorecido com >= 100 NEs - 2005
0 10 20 30 40 50 60 70 80 90 1000
2
4
6
8
10
12x 10
4
Número de NEs
Núm
ero
de F
avor
ecid
os
Histograma NEs por Favorecido com < 100 NEs - 2005
Figura 7-6: Histograma do número de NEs recebidas por favorecido no ano de 2005. O histograma daesquerda apresenta os favorecidos com mais de 100 NEs recebidas, destacando-se o fato de alguns poucosfavorecidos receberem grande quantidade de NEs (pontos acima de 5.000 NEs). O histograma da direitaapresenta a distribuição para os favorecidos que receberam menos de 100 NEs. Considerar comoreferência que no ano de 2005 houve 251.055 favorecidos recebendo NEs
- 150 -
A Tabela 7-5 detalha a situação dos favorecidos. Os valores apresentados ressaltam o
fato de que os modelos construídos para favorecidos serem pouco confiáveis, em função do
pequeno suporte oferecido para sua construção. Para a grande maioria não será sequer
possível realizar o treinamento dos modelos em função do baixo número de exemplos
disponíveis. Dessa forma, a análise das notas será feita em grande parte dos casos
considerando-se apenas as informações provenientes dos modelos das demais entidades, o que
não inviabiliza o procedimento de verificação proposto.
Tabela 7-5: Quantidade de notas de empenho recebidas por favorecido no período analisado
Favorecidos 2003 2004 2005 2006
Com recebimento de NEs 225.083 242.183 251.055 256.056
Com mais de 100 NEs recebidas1.5730,70%
1.8030,74%
1.9340,77%
2.1390,84%
Com mais de 1000 NEs recebidas36
0,016%40
0,017%48
0,019%52
0,020%
7.2.4 Quantidade de notas de empenho emitidas por usuário
A Figura 7-7 apresenta os histogramas do número de NEs emitidas por usuário. De
forma semelhante ao histograma de favorecidos, o histograma dos usuários com mais de 100
NEs emitidas (gráfico da esquerda) mostra que alguns poucos usuários emitiram uma grande
quantidade de NEs. O segundo histograma (gráfico da direita) detalha os usuários com menos
de 100 NEs.
A Tabela 7-6 detalha a situação dos usuários. Os dados da tabela mostram que para um
número razoável de usuários (acima de 33%) é possível construir modelos de comportamento
confiáveis, considerando para tanto um suporte mínimo de 100 NEs. Para a maioria porém a
confiabilidade dos modelos fica comprometida em função do pequeno suporte oferecido.
- 151 -
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 100000
200
400
600
800
1000
1200
1400
1600
Número de NEs
Núm
ero
de U
suár
ios
Histograma NEs por Usuário com >= 100 NEs - 2005
0 10 20 30 40 50 60 70 80 90 1000
100
200
300
400
500
600
700
800
900
Número de NEs
Núm
ero
de U
suár
ios
Histograma NEs por Usuário com < 100 NEs - 2005
Figura 7-7: Histograma do número de NEs emitidas por usuários no ano de 2005. O histograma daesquerda apresenta os usuários com mais de 100 NEs emitidas, destacando-se o fato de alguns poucosusuários emitirem grande quantidade de NEs. O histograma da direita apresenta a distribuição para osusuários que emitiram menos de 100 NEs. Considerar como referência que no ano de 2005 houve 10.646usuários emitindo NEs
Tabela 7-6: Quantidade de notas de empenho emitidas por usuário no período analisado
Usuários 2003 2004 2005 2006
Com emissão de NEs 10.218 10.502 10.646 10.996
Com mais de 100 NEs emitidas3.447
33,73%3.685
35,09%3.870
36,35%3.956
35,98%
Com mais de 1000 NEs emitidas227
2,22%259
2,47%260
2,44%284
2,58%
7.2.5 Influência do número de notas para a criação dos modelos
Como citado anteriormente, a quantidade de NEs disponíveis (suporte) durante o
treinamento é fundamental para a confiabilidade do modelo de comportamento criado. Em
não havendo disponível dados precisos sobre o mínimo de NEs necessário para a definição de
modelos confiáveis, cabe ao analista definir um valor que considere mais adequado em cada
caso. Nos testes realizados, arbitrou-se na maioria das vezes o valor 100 como mínimo
necessário para a utilização dos modelos criados.
Analisando as informações presentes na Tabela 7-3 e na Tabela 7-4, constata-se que o
valor 100 não é restritivo para a análise de órgãos e UGs, uma vez que, para os primeiros, em
- 152 -
média 93% tem mais de 100 NEs emitidas. Em relação às UGs, em média 68% tem mais de
100 NEs emitidas. Em relação a usuários, conforme a Tabela 7-6, tem-se que em média 34%
possui mais de 100 NEs registradas. A pior situação ocorre em relação a favorecidos,
conforme a Tabela 7-5 apenas 0,76% possui mais de 100 NEs recebidas. A conclusão desses
números é que, para a análise de grande parte das NEs, não será possível usar o modelo de
comportamento do favorecido e conseqüentemente descartada a probabilidade de anomalia
fornecida para essa entidade.
A não consideração de alguns dos modelos no julgamento de normalidade da NE não
invalida o mesmo, apenas fica-se sem um parâmetro adicional de verificação. A situação ideal
ocorre quando todos os quatro modelos de entidades referenciadas na nota, mais o da
Administração Pública, podem ser usados na análise de normalidade da NE.
A Figura 7-8 apresenta a diferença entre os modelos de comportamento criados para um
mesmo órgão, dentro de um mesmo período, a partir de quantidades variadas de NEs,
aleatoriamente escolhidas. O modelo padrão (diferença zero) corresponde ao criado utilizando
todas as NEs disponíveis. Os demais modelos foram criados com menor número de NEs,
variando-se de dez NEs até o máximo disponível. Os pontos nos gráficos da Figura 7-8
representam as diferenças entre os diversos modelos e o padrão. Os modelos foram calculados
para o Tribunal de Contas da União e para o Ministério das Cidades. Em destaque nas figuras
está a diferença entre o modelo criado com 100 NEs e o modelo padrão. O procedimento para
o cálculo das diferenças será descrito na Seção 7.5.
O que se procura mostrar nas figuras é que para algumas entidades pode haver
mudanças significativas no modelo de comportamento em função do número de NEs
disponíveis para sua construção (exemplo do gráfico do TCU na Figura 7-8). Para outras
entidades, com comportamento mais homogêneo, um número relativamente pequeno de NEs
- 153 -
pode ser suficiente para a criação de um modelo representativo (exemplo do gráfico do
Ministério das Cidades na Figura 7-8). Ou seja, não existe um número mínimo de NEs
(suporte mínimo) que possa ser adotado genericamente para todas as entidades.
0 500 1000 1500 2000 2500 3000 3500 40000
10
20
30
40
50
60
70
80
90
100
Número de NEs consideradas
Dife
renç
a
Diferença para a matriz de frequencia - TCU - 2005
0 1000 2000 3000 4000 5000 60000
10
20
30
40
50
60
70
80
90
100
Número de NEs consideradas
Dife
renç
a
Diferença para a matriz de frequencia - Ministério das Cidades - 2006
Figura 7-8: Diferença entre a matriz de freqüência calculada com todas as NEs e as matrizes calculadascom número menor de NEs. Os pontos destacados representam a diferença entre a matriz calculada comtodas as notas e a matriz calculada com 100 NEs. Essa diferença é de 26,3 para o TCU e 13,6 para oMinistério das Cidades. A diferença máxima possível é 200. Os dados referem-se ao ano de 2005
7.3 CATEGORIZAÇÃO DOS VALORES DAS NOTAS DE EMPENHO
Para justificar a categorização, a Tabela 7-7 apresenta algumas notas de valor elevado.
Tabela 7-7: Exemplos de notas de empenho de valor elevado, emitidas pela Administração Pública. Amodalidade de licitação 8 significa "não se aplica". A coluna valor está representada em bilhões de reais
Órgão ND ML Data Valor
STN Principal Corrigido da Dívida Mobiliária Refinanciado 8 03/01/2005 885
STN Juros, Deságios e Descontos da Dívida Mobiliária 8 03/01/2005 57
STN Principal da Dívida Mobiliária Resgatado 8 06/01/2005 12
SPOA Distribuição Constitucional ou Legal de Receitas 8 04/01/2005 21
INSS Aposentadorias e Reformas 8 02/02/2005 60
INSS Pensões 8 31/01/2005 16
INSS Outros Benefícios Previdenciários 8 31/01/2005 14
- 154 -
Essas notas, emitidas pela Secretaria do Tesouro Nacional (STN), pela Subsecretaria de
Planejamento e Administração (SPOA) e pelo Instituto Nacional de Seguro Social (INSS),
nos meses de janeiro e fevereiro de 2005, acabam por distorcer os gráficos de distribuição de
valores.
Como exemplo tem-se o gráfico da Figura 7-9 (lado esquerdo) onde é possível observar
somente a utilização da modalidade de licitação 8, em função das poucas notas de grande
valor emitidas nessa modalidade. Essa aparente distorção, apesar de corresponder à realidade
da distribuição de valores, dificulta a visualização das demais categorias. Sendo assim, nos
próximos gráficos, quando os valores não estiverem distribuídos por categoria, serão
consideradas somente notas com valores inferiores a R$ 1.000.000,00. A Figura 7-9 (lado
direito) apresenta a nova distribuição de valores considerando a filtragem citada. Apesar da
preponderância da modalidade oito, já é possível analisar a distribuição nas demais
modalidades.
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
70
80
90
100
Modalidade Licitação
% V
alor
% de Valores por Modalidade de Licitação - Ano 2005
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
Modalidade Licitação
% V
alor
% de Valores (<1.000.000) por Modalidade de Licitação - Ano 2005
Figura 7-9: Percentual de valores por modalidade de licitação. O gráfico do lado esquerdo inclui todas asnotas de empenho, o do lado direito somente aquelas com valor inferior a R$ 1.000.000,00. Dadosreferentes ao ano de 2005. Relação de MLs: 01 – Concurso, 02 – Convite, 03 – Tomada de Preço, 04 –Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 – Suprimento defundo, 11 – Consulta e 12 – Pregão
A Tabela 7-8 detalha a distribuição de notas por valor. Uma informação relevante
extraída da tabela é que a grande maioria das NEs (99,28%) possui valor inferior a um milhão
- 155 -
de reais. Em contrapartida essas NEs representam somente 1,56% do valor total anual
empenhado.
Aparentemente faz sentido ter atenção maior sobre as poucas notas de grande valor, em
função do volume de recursos financeiros envolvidos, o que impediria a realização da
filtragem proposta para os gráficos, uma vez que tais notas não ficariam visíveis. Deve-se no
entanto ter em mente que o objetivo deste trabalho é a detecção automática de notas de
empenho anômalas, as quais provavelmente terão seus valores inferiores a R$ 1.000.000,00.
Essa afirmação justifica-se uma vez que para valores mais elevados é natural que ocorra um
controle intensivo por parte dos órgãos de fiscalização, e devido a seu volume menor é mais
fácil realizar tal controle de forma manual. Com o exposto não se pretende afirmar que não
ocorram irregularidades em notas de maior valor, apenas que irregularidades cometidas nessas
notas seriam provavelmente detectadas por análise manual, não necessitando de um sistema
automatizado. Leve-se em conta também que fraudes em contratações de maior valor são
normalmente realizadas por mecanismos mais requintados, os quais não seriam detectados
pelos procedimentos definidos neste trabalho.
Tabela 7-8: Percentual acumulado de valores por percentual de notas de empenho. Dados de 2005
NEs com valor menor que % de Notas % do Valor Total
R$ 100,00 R$ 1.000,00
R$ 10.000,00 R$ 100.000,00
R$ 1.000.000,00 R$ 10.000.000,00
R$ 100.000.000,00 R$ 1.000.000.000,00
R$ 10.000.000.000,00
10,2849,2184,6696,0499,2899,8799,9799,99
100,00
0,000,020,150,561,563,376,48
13,48100,00
Para simplificar o estudo da distribuição de valores, ao invés de apresentar a
distribuição de NEs por valores absolutos, foram criadas classes de valores que facilitam a
- 156 -
visualização dos dados. Os valores foram categorizados em nove classes, definidas na Tabela
7-9. Não foi utilizado nenhum critério específico na definição dos intervalos de valores,
apenas procurou-se trabalhar com um número razoável de classes, que facilitasse as análises
posteriores.
Tabela 7-9: Percentuais anuais de notas de empenho emitidas por classe de valor
ClasseValor (CV)
Faixa (R$) 2003 2004 2005 2006
1 0 – 100 12,95% 11,74% 10,28% 10,36%
2 101 – 1.000 42,11% 40,16% 38,93% 38,15%
3 1.001 – 10.000 33,03% 34,11% 35,45% 36,11%
4 10.001 – 100.000 9,05% 10,37% 11,38% 11,32%
5 100.001 – 1.000.000 2,29% 2,92% 3,24% 3,34%
6 1.000.001 – 10.000.000 0,46% 0,57% 0,59% 0,58%
7 10.000.001 – 100.000.000 0,09% 0,10% 0,10% 0,11%
8 100.000.001 – 1.000.000.000 0,01% 0,02% 0,02% 0,02%
9 Acima de 1.000.000.000 0% 0,01% 0,01% 0,01%
7.4 COMPORTAMENTO DA ADMINISTRAÇÃO PÚBLICA NA
EMISSÃO DE NOTAS DE EMPENHO
Será apresentado nesta seção o estudo do comportamento da Administração Pública na
emissão de empenhos. Seu comportamento será caracterizado pela distribuição de NEs nos
seguintes tópicos:
• Por modalidade de licitação (ML);
• Por classe de valor (CV);
- 157 -
• Por natureza da despesa (ND);
• Pelas combinações de dois atributos: ML x CV, ML x ND e CV x ND;
• Pela combinação dos três atributos: ND, CV e ML.
Será também apresentada a distribuição de valores das NEs nos seguintes tópicos:
• Por modalidade de licitação (ML);
• Por natureza da despesa (ND).
Após as análises globais, será apresentado um estudo demonstrando a variação das
distribuições citadas ao longo dos doze meses do ano.
7.4.1 Distribuição de notas de empenho por classe de valor
Usando a categorização da Tabela 7-9 e considerando a distribuição de NEs no período
analisado (Figura 7-10), observa-se pouca variação no percentual de notas por classe.
Percebe-se na Tabela 7-9 uma pequena tendência de crescimento no percentual de NEs para
as classes intermediárias (3, 4 e 5) e queda no percentual de NEs nas classes baixas (1 e 2).
Parte dessa tendência pode ter sido causada em função do efeito inflacionário, uma vez
que não foi feito nenhum ajuste nos valores das NEs. Outra causa possível seria uma
contratação pouco adequada por parte da Administração Pública, pagando mais pelos mesmos
produtos ao longo dos anos, descontado o efeito inflacionário. Está fora do escopo deste
trabalho aprofundar a discussão sobre o tema pois envolveria uma análise mais detalhada das
modalidades de licitação usadas e a variação do valor médio pago por produto comprado.
- 158 -
1 2 3 4 5 6 7 8 90
5
10
15
20
25
30
35
40
45
50
Valor
% N
Es
% de NEs por Classe Valor - Ano 2003
1 2 3 4 5 6 7 8 90
5
10
15
20
25
30
35
40
45
50
Valor
% N
Es
% de NEs por Classe Valor - Ano 2004
1 2 3 4 5 6 7 8 90
5
10
15
20
25
30
35
40
45
50
Valor
% N
Es
% de NEs por Classe Valor - Ano 2005
1 2 3 4 5 6 7 8 90
5
10
15
20
25
30
35
40
45
50
Valor
% N
Es
% de NEs por Classe Valor - Ano 2006
Figura 7-10: Percentual de notas de empenho por classe de valor no período de 2003 a 2006. Relação declasses de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6(1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de1.000.000.000). Todos os valores em reais
7.4.2 Distribuição de notas de empenho e valores por modalidade de licitação
Da análise da Figura 7-11, que apresenta a distribuição do número de notas por
modalidade, constata-se como principal característica da Administração Pública quanto à
modalidade de licitação o crescimento da modalidade pregão eletrônico (modalidade 12), que
saltou de 4,78% das NEs em 2003 para 23,73% em 2006. Esse rápido crescimento (18,95%
em quatro anos) demonstra o sucesso dessa modalidade.
Em contrapartida observa-se a diminuição no uso de outras modalidades, como convite
(modalidade 2) e dispensa de licitação (modalidade 6). Essa mudança no modelo de
contratação é salutar uma vez que são trocadas modalidades cuja escolha do fornecedor é
- 159 -
muitas vezes subjetiva, por uma modalidade mais transparente e que estimula a maior
participação e concorrência entre fornecedores, acarretando teoricamente a redução do valor
pago pelos produtos e serviços empenhados.
Na Tabela 7-9, observa-se um percentual crescente de notas emitidas ao longo do
período analisado nas classes mais altas (acima de 2) e a redução progressiva no percentual de
notas nas classes mais baixas (1 e 2), indicando um aumento no valor das notas emitidas, o
que pode contradizer a afirmação anterior. Esse ponto mereceria maior atenção em trabalhos
futuros, de forma a verificar a eficácia do uso do pregão eletrônico como forma de baratear o
preço dos produtos comprados pela Administração Pública.
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - Ano 2003
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - Ano 2004
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - Ano 2005
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - Ano 2006
Figura 7-11: Percentual de notas de empenho por modalidade de licitação no período de 2003 a 2006. Emdestaque na figura o crescimento da modalidade Pregão Eletrônico, com acentuado crescimento duranteos quatro anos da análise. Relação de modalidades de licitação: 01 – Concurso, 02 – Convite, 03 – Tomadade Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 –Suprimento de fundo, 11 – Consulta e 12 – Pregão
- 160 -
A Figura 7-12, que apresenta o percentual de valores por modalidade de licitação,
ratifica o crescimento da modalidade pregão, que subiu em valores de 9% em 2003 para 22%
em 2006. Essa informação considera apenas as NEs com valores inferiores a R$ 1.000.000,00
evitando assim a distorção citada na Seção 7.3.
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
Modalidade Licitação
% V
alor
% de Valores (<1.000.000) por Modalidade de Licitação - Ano 2003
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
Modalidade Licitação
% V
alor
% de Valores (<1.000.000) por Modalidade de Licitação - Ano 2004
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
Modalidade Licitação
% V
alor
% de Valores (<1.000.000) por Modalidade de Licitação - Ano 2005
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
Modalidade Licitação
% V
alor
% de Valores (<1.000.000) por Modalidade de Licitação - Ano 2006
Figura 7-12: Percentual de valores por modalidade de licitação no período de 2003 a 2006. Consideradassomente as notas com valor inferior a R$ 1.000.000,00. Relação de modalidades de licitação: 01 –Concurso, 02 – Convite, 03 – Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 –Inexigibilidade, 08 – Não se aplica, 09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão
7.4.3 Distribuição de notas de empenho e valores por natureza da despesa
Devido ao grande número de NDs (315 categorias), na distribuição percentual de NEs
(Figura 7-13) só foram representadas as NDs que tenham recebido mais de 1% de NEs por
ano. No caso da distribuição de valores (Figura 7-14), considerando somente as notas com
- 161 -
valor menor que R$ 1.000.000, foram apresentadas as NDs que tenham recebido mais de 2%
do valor total anual empenhado.
Pela análise da Figura 7-13 e Figura 7-14, constata-se que a composição percentual do
número de NEs e de valores por ND permaneceu estável dentro do período analisado.
135 136 137 143 146 148 151 154 159 160 243 2810
5
10
15
20
25
30
35
40
45
50
ND
% N
Es
% de NEs por ND - NDs com mais de 1% - Ano 2003
135 136 143 146 148 151 154 159 160 2430
5
10
15
20
25
30
35
40
45
50
ND
% N
Es
% de NEs por ND - NDs com mais de 1% - Ano 2004
135 136 143 146 148 151 154 160 2430
5
10
15
20
25
30
35
40
45
50
ND
% N
Es
% de NEs por ND - NDs com mais de 1% - Ano 2005
135 136 143 146 148 151 154 160 170 243 2810
5
10
15
20
25
30
35
40
45
50
ND
% N
Es
% de NEs por ND - NDs com mais de 1% - Ano 2006
Figura 7-13: Percentual de notas de empenho por natureza da despesa. Consideradas somente asnaturezas de despesa com pelo menos 1% do total de notas. Relação de naturezas de despesa: 135 - DiáriasCivil, 136 – Diárias Militar, 137 – Auxílio Financeiro a Estudantes, 143 - Material de Consumo, 146 –Passagens e Despesas com Locomoção, 148 - Outros Serviços de Terceiros Pessoa Física, 151 - OutrosServiços de Terceiros Pessoa Jurídica, 154 – Obrigações tributárias e Contributivas, 159 – Despesas deExercícios Anteriores, 160 – Indenizações e Retribuições, 170 – Obrigações Tributárias, 200 - Auxílios,243 - Equipamentos e Material Permanente, 281 – Aquisição de Produtos para Revenda
- 162 -
25 84 101 143 149 151 200 242 243 2810
5
10
15
20
25
30
Natureza da Despesa
% V
alor
% de Valores (<1.000.000) por Natureza da Despesa - Ano 2003
17 69 84 101 143 149 151 200 242 2430
5
10
15
20
25
30
Natureza da Despesa
% V
alor
% de Valores (<1.000.000) por Natureza da Despesa - Ano 2004
84 101 143 149 151 200 201 242 243 2850
5
10
15
20
25
30
Natureza da Despesa
% V
alor
% de Valores (<1.000.000) por Natureza da Despesa - Ano 2005
84 101 143 149 151 199 200 242 243 281 2850
5
10
15
20
25
30
Natureza da Despesa
% V
alor
% de Valores (<1.000.000) por Natureza da Despesa - Ano 2006
Figura 7-14: Percentual de valores por natureza da despesa. Consideradas somente as notas com valorinferior a R$ 1.000.000,00 e naturezas de despesa com pelo menos 2% do valor total empenhado norespectivo ano. Relação de naturezas de despesa: 17 – Vencimentos Pessoal Civil, 25 – Despesas deExercícios Anteriores, 69 - Contribuições, 84 - Contribuições, 101 - Contribuições, 143 - Material deConsumo, 149 – Locação de Mão-de-obra, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 199 –Contribuições, 200 - Auxílios, 201 – Obras e Instalações, 242 - Obras e Instalações, 243 - Equipamentos eMaterial Permanente, 281 – Aquisição de Produtos para Revenda, 285 – Concessão de Empréstimos eFinanciamentos
A Figura 7-14 apresenta a distribuição percentual de valores para NEs com valor menor
que R$ 1.000.000,00. Caso não fosse colocado nenhum filtro ter-se-ia a visão real do gasto da
Administração Pública, conforme apresentado na Figura 7-15 para o ano de 2005.
- 163 -
11 17 42 72 87 127 128 130 152 285 303 3070
10
20
30
40
50
60
70
80
90
100
Natureza da Despesa
% V
alor
% de Valores por Natureza da Despesa - Ano 2005
Figura 7-15: Percentual de valores por natureza da despesa. Consideradas todas as notas de empenho.Relação de naturezas de despesa: 11 - Aposentadorias e Reformas, 17 – Vencimentos Pessoal Civil, 42 -Juros, Deságios e Descontos da Dívida Mobiliária, 72 – Distribuição Constitucional ou Legal de Receitas,87 - Distribuição Constitucional ou Legal de Receitas, 127 - Aposentadorias e Reformas, 128 - Pensões, 130– Outros Benefícios Previdenciários, 152 – Equalização de Preços e Taxas, 285 - Concessão deEmpréstimos e Financiamentos, 303 - Principal da Dívida Mobiliária Resgatado, 307 - Principal Corrigidoda Dívida Mobiliária Refinanciado
Observa-se na Figura 7-15 uma preponderância de gastos com refinanciamento da
dívida e aposentadorias. Essas NDs sequer aparecem na Figura 7-13, a qual representa o
percentual de notas emitidas, apesar de representarem grande parte dos recursos empenhados.
Isso se deve ao fato dessas NDs possuírem poucas notas com grandes valores.
7.4.4 Distribuição de notas de empenho por natureza da despesa e valor
A Figura 7-16 apresenta a distribuição combinada ND x CV.
Assim como na Figura 7-13, só foram representadas as NDs que tenham recebido mais
de 1% de NEs anuais. Conforme mostra a figura, a distribuição de NEs não sofreu alteração
relevante nos quatro anos analisados.
- 164 -
135136
137143
146148
151154
159160
2432811
23
45
67
89
0
5
10
15
20
ND
%NEs por ND,Classe Valor - NDs > 1% - Ano 2003
Valor
% d
e N
Es
135136
143146
148151
154159
160243
12
34
56
78
9
0
5
10
15
20
ND
%NEs por ND,Classe Valor - NDs > 1% - Ano 2004
Valor
% d
e N
Es
135136143
146148151
154160243
12
34
56
78
9
0
5
10
15
20
ND
%NEs por ND,Classe Valor - NDs > 1% - Ano 2005
Valor
% d
e N
Es
135136
143146
148151
154160
170243
2811
23
45
67
89
0
5
10
15
20
ND
%NEs por ND,Classe Valor - NDs > 1% - Ano 2006
Valor
% d
e N
Es
Figura 7-16: Distribuição combinada de notas de empenho por classe de valor e natureza da despesa.Foram consideradas somente as naturezas de despesa com pelo menos 1% do total de notas. Relação denaturezas de despesa: 135 - Diárias Civil, 136 – Diárias Militar, 137 – Auxílio Financeiro a Estudantes,143 - Material de Consumo, 146 – Passagens e Despesas com Locomoção, 148 - Outros Serviços deTerceiros Pessoa Física, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 154 – Obrigações tributárias eContributivas, 159 – Despesas de Exercícios Anteriores, 160 – Indenizações e Retribuições, 170 –Obrigações Tributárias, 200 - Auxílios, 243 - Equipamentos e Material Permanente, 281 – Aquisição deProdutos para Revenda. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)
7.4.5 Distribuição de notas de empenho por modalidade de licitação e valor
A Figura 7-17 apresenta a distribuição combinada ML x CV. A mudança substancial
ocorrida ao longo dos quatro anos foi o crescimento da modalidade pregão eletrônico, como já
exposto na Seção 7.4.2. Observa-se seu crescimento nas classes de valor de um a cinco, ou
seja, de zero a R$ 1.000.000,00.
- 165 -
12
34
56
78
910
11121
23
45
67
89
0
5
10
15
20
ML
% de NEs por Classe Valor,Modalidade Licitação - Ano 2003
CV
% d
e N
Es
12
34
56
78
910
11121
23
45
67
89
0
5
10
15
20
ML
% de NEs por Classe Valor,Modalidade Licitação - Ano 2004
CV
% d
e N
Es
12
34
56
78
910
11121
23
45
67
89
0
5
10
15
20
ML
% de NEs por Classe Valor,Modalidade Licitação - Ano 2005
CV
% d
e N
Es
1 23 4 5
6 7 89 10 11
121
23
45
67
89
0
5
10
15
20
ML
% de NEs por Classe Valor,Modalidade Licitação - Ano 2006
CV
% d
e N
Es
Figura 7-17: Distribuição combinada de notas de empenho por classe de valor e modalidade de licitação.Relação de modalidades de licitação: 01 – Concurso, 02 – Convite, 03 – Tomada de Preço, 04 –Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 – Suprimento defundo, 11 – Consulta e 12 – Pregão. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8(100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)
7.4.6 Distribuição de notas de empenho por natureza da despesa e modalidade de
licitação
A Figura 7-18 apresenta a distribuição combinada ML x ND. Observa-se o crescimento
da modalidade de licitação pregão eletrônico. Na figura destaca-se o aumento no uso de
pregão eletrônico para as contratações de serviços de pessoa jurídica (151), equipamentos e
materiais permanentes (243) e principalmente material de consumo (143). Neste último, o
pregão substitui as modalidades convite e dispensa de licitação.
- 166 -
135136137143146148151154159160243281
12 3 4
5 67 8
9101112
0
5
10
15
20
ND
%NEs por ND,Modalidade Licitação - NDs > 1% - Ano 2003
ModLici
% d
e N
Es
135136143146148151154159160243
12 3
45
6 78
910
1112
0
5
10
15
20
ND
%NEs por ND,Modalidade Licitação - NDs > 1% - Ano 2004
ModLici
% d
e N
Es
135136143146148151154160243
12
34
56
78
910
1112
0
5
10
15
20
ND
%NEs por ND,Modalidade Licitação - NDs > 1% - Ano 2005
ModLici
% d
e N
Es
135136143146148151154160170243281
12 3
4 56
7 891011
12
0
5
10
15
20
ND
%NEs por ND,Modalidade Licitação - NDs > 1% - Ano 2006
ModLici
% d
e N
Es
Figura 7-18: Distribuição combinada de notas de empenho por modalidade de licitação e natureza dadespesa. Foram consideradas somente as naturezas de despesa com pelo menos 1% do total de notas.Relação de naturezas da despesa: 135 - Diárias Civil, 136 – Diárias Militar, 137 – Auxílio Financeiro aEstudantes, 143 - Material de Consumo, 146 – Passagens e Despesas com Locomoção, 148 - OutrosServiços de Terceiros Pessoa Física, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 154 – Obrigaçõestributárias e Contributivas, 159 – Despesas de Exercícios Anteriores, 160 – Indenizações e Retribuições,170 – Obrigações Tributárias, 200 - Auxílios, 243 - Equipamentos e Material Permanente, 281 – Aquisiçãode Produtos para Revenda. Relação de modalidades de licitação: 01 – Concurso, 02 – Convite, 03 –Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica,09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão
7.4.7 Distribuição combinada de notas de empenho pelos três atributos
A Figura 7-19 apresenta a distribuição combinada pelos três atributos em estudo. Cada
ponto no espaço significa a ocorrência de NEs numa dada combinação de ML, ND e CV. A
figura não representa o percentual de NEs em cada combinação, apenas sua presença ou não.
- 167 -
0
5
10
024681012
0
50
100
150
200
250
300
350
ML
% de NEs por ND, ML e CV - Ano 2006
CV
ND
Figura 7-19: Distribuição combinada de notas de empenho por modalidade de licitação, classe de valor enatureza da despesa. Dados referentes ao ano de 2006. Cada ponto representa a existência ou não de NEsna respectiva combinação de atributos. Não está representada na figura a variação na concentração deNEs emitidas por ponto
Conclui-se pela análise da figura que a ocorrência de NEs por combinação dos três
atributos não é distribuída uniformemente no espaço. Enquanto algumas combinações
possuem maior freqüência de ocorrência, outras não receberam nenhuma NE no período
analisado. Essa variação percentual por combinação será a base para o procedimento de
detecção apresentado no Capítulo 8.
Pode-se considerar que a distribuição apresentada na Figura 7-19, mais a informação de
densidade por ponto, representam a "assinatura" da entidade em análise. Cada entidade
(órgão, UG, favorecido e usuário) possui uma distribuição característica, muitas vezes
próximas entre si. Não se pretende que a assinatura sirva para diferenciar as entidades, mas
- 168 -
que sirva para estabelecer o quão provável é que uma NE seja emitida por uma entidade dada
sua combinação de atributos.
7.4.8 Variação mensal na emissão de notas de empenho
Outro aspecto relevante a ser analisado é a variação no número de NEs emitidas (Figura
7-20) e a variação no total de valores (Figura 7-21) ao longo dos meses do ano. Como
apresentado na Figura 7-20, observa-se uma elevada concentração na emissão de NEs no mês
de dezembro, com a correspondente concentração de valores nesse mês (Figura 7-21). Essa
tendência manteve-se constante no período analisado, de 2003 a 2006.
A tendência pode ser um indício de má gestão de recursos públicos, tendo em vista que
o gasto não é uniforme ao longo do ano. Em função da necessidade de gastar a verba alocada
dentro do exercício financeiro, evitando assim sua devolução e o não recebimento do mesmo
montante no exercício seguinte, a Administração Pública demonstra a tendência de realizar
grande volume de compras no último mês do ano.
Além de um indício de mau planejamento por parte dos gestores, pode significar
também um contingenciamento de recursos por parte do governo ao longo do ano, visando ao
cumprimento das metas inflacionárias ou do superávit primário, entre outros motivos. Dessa
forma não permite que a Administração realize os gastos nos momentos mais oportunos, o
que de qualquer forma implica em má gestão de recursos.
Pode-se ainda citar a demora na aprovação de créditos suplementares pelo Congresso
Nacional como fator que motiva a distribuição não homogênea de gastos. Foge do escopo
deste trabalho uma análise mais aprofundada sobre o tema.
- 169 -
1 2 3 4 5 6 7 8 9 10 11 120
2
4
6
8
10
12
14
16
18
20
Mês
%N
Es
%NEs por mês - 2003
1 2 3 4 5 6 7 8 9 10 11 120
2
4
6
8
10
12
14
16
18
20
Mês
%N
Es
%NEs por mês - 2004
1 2 3 4 5 6 7 8 9 10 11 120
2
4
6
8
10
12
14
16
18
20
Mês
%N
Es
%NEs por mês - 2005
1 2 3 4 5 6 7 8 9 10 11 120
2
4
6
8
10
12
14
16
18
20
Mês
%N
Es
%NEs por mês - 2006
Figura 7-20: Percentual de notas de empenho emitidas por mês
A Figura 7-21, que traz o gráfico da distribuição de valores no ano de 2006, apresenta
uma discrepância no mês de junho em relação aos anos anteriores. O percentual de valores
empenhados nesse mês está muito acima do percentual empenhado em anos anteriores.
Uma possível explicação para a distorção é o fato de 2006 ter sido um ano de eleição
presidencial, o que impede o governo federal de realizar transferências a estados e municípios
após 30 de junho, e até um mês após a realização das eleições.
Observa-se também nesse mesmo ano percentuais baixos nos meses anteriores a
junho. Essas observações poderiam ser melhor detalhadas em trabalhos futuros,
principalmente no que tange à caracterização do comportamento da Administração Pública
num ano de eleição presidencial.
- 170 -
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
Mês
%V
alor
%Valor < 1.000.000 por mês - 2003
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
Mês
%V
alor
%Valor < 1.000.000 por mês - 2004
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
Mês
%V
alor
%Valor < 1.000.000 por mês - 2005
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
Mês
%V
alor
%Valor < 1.000.000 por mês - 2006
Figura 7-21: Percentual de valores empenhados por mês. Foram consideradas somente as notas com valorinferior a R$ 1.000.000,00
A Figura 7-22 apresenta a mesma informação da Figura 7-21, só que sem a filtragem de
valor para as NEs. Com isso observa-se uma inversão na concentração de gastos,
principalmente no mês de janeiro. Isso se deve às poucas NEs com elevados valores emitidas
nesse mês, principalmente com relação ao refinanciamento da dívida pública, como descrito
na Seção 7.3.
- 171 -
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
70
80
90
100
Mês
%V
alor
%Valor por mês - 2003
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
70
80
90
100
Mês
%V
alor
%Valor por mês - 2004
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
70
80
90
100
Mês
%V
alor
%Valor por mês - 2005
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
70
80
90
100
Mês
%V
alor
%Valor por mês - 2006
Figura 7-22: Percentual de valores empenhados por mês. Consideradas as notas de empenho de todos osvalores
7.4.8.1 Distribuição mensal de notas de empenho por modalidade de licitação
Na Figura 7-23 é apresentado o percentual de NEs emitidas ao longo do ano por
modalidade de licitação para o ano de 2006. No Apêndice C são apresentados os gráficos
referentes aos anos de 2003, 2004 e 2005.
A modificação perceptível é a preponderância da modalidade 8 ("não se aplica") no mês
de janeiro e parcialmente em fevereiro. Os demais meses têm modelo de comportamento
semelhante, com preponderância da modalidade 6 (dispensa de licitação).
Nota-se no mês de junho uma discrepância em relação à tendência anual, qual seja, a
concentração de NEs na modalidade 8. Esse fato já foi comentado anteriormente na Seção
7.4.8.
- 172 -
1 2 3 4 5 6 7 8 9 10 11 120
20
40
1
1 2 3 4 5 6 7 8 9 10 11 120
20
40
2
1 2 3 4 5 6 7 8 9 10 11 120
20
40
3
1 2 3 4 5 6 7 8 9 10 11 120
20
40
4
1 2 3 4 5 6 7 8 9 10 11 120
20
40
5
1 2 3 4 5 6 7 8 9 10 11 120
20
40
6
1 2 3 4 5 6 7 8 9 10 11 120
20
40
7
1 2 3 4 5 6 7 8 9 10 11 120
20
40
8
1 2 3 4 5 6 7 8 9 10 11 120
20
40
9
1 2 3 4 5 6 7 8 9 10 11 120
20
40
10
1 2 3 4 5 6 7 8 9 10 11 120
20
40
11
1 2 3 4 5 6 7 8 9 10 11 120
20
40
12
Figura 7-23: Percentual mensal de notas de empenho referentes ao ano de 2006 por modalidade delicitação. Cada gráfico corresponde a um mês do ano. Relação de MLs: 01 – Concurso, 02 – Convite, 03 –Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica,09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão
A análise mensal apresentada é relevante no sentido de indicar se um modelo único
pode ser usado para todos os meses do ano ou se é necessário construir modelos
individualizados por mês. No caso da modalidade de licitação, aparentemente só seria
justificável a criação de modelos diferenciados para os meses de janeiro e fevereiro, podendo
os demais serem representados por um modelo único de comportamento. Essa afirmação é
aplicável ao modelo da Administração Pública, não sendo necessariamente válida para as
demais entidades em análise, como será visto posteriormente.
7.4.8.2 Distribuição mensal de notas de empenho por classe de valor
Na Figura 7-24 é apresentado o percentual de NEs emitidas ao longo do ano de 2006
por classe de valor. No Apêndice C são apresentados os gráficos referentes aos anos de 2003,
2004 e 2005.
- 173 -
Observa-se a tendência na emissão de NEs com valores mais altos nos meses de janeiro
e dezembro. Os demais meses mantêm modelo semelhante de comportamento. Pela análise
das figuras observa-se a necessidade de criação de modelos diferenciados somente para os
meses de janeiro e dezembro.
1 2 3 4 5 6 7 8 90
20
40
1
1 2 3 4 5 6 7 8 90
20
40
2
1 2 3 4 5 6 7 8 90
20
40
3
1 2 3 4 5 6 7 8 90
20
40
4
1 2 3 4 5 6 7 8 90
20
40
5
1 2 3 4 5 6 7 8 90
20
40
6
1 2 3 4 5 6 7 8 90
20
40
7
1 2 3 4 5 6 7 8 90
20
40
8
1 2 3 4 5 6 7 8 90
20
40
9
1 2 3 4 5 6 7 8 90
20
40
10
1 2 3 4 5 6 7 8 90
20
40
11
1 2 3 4 5 6 7 8 90
20
40
12
Figura 7-24: Percentual mensal de notas de empenho referentes ao ano de 2006 por classe de valor. Cadagráfico corresponde a um mês do ano. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8(100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)
7.4.8.3 Distribuição mensal de notas de empenho por natureza da despesa
Na Figura 7-25 é apresentado o percentual de NEs emitidas ao longo do ano de 2006
por natureza da despesa, considerando apenas as NDs que receberam pelo menos 1% das NEs
ao longo dos meses. No Apêndice C são apresentados os gráficos referentes aos anos de 2003,
2004 e 2005.
Observa-se uma concentração de contratação de serviço de pessoa jurídica (ND 151) no
primeiro trimestre do ano. Em contrapartida tem-se uma menor contratação de material de
- 174 -
consumo (ND 143) também no primeiro trimestre. Essa tendência inverte-se nos demais
meses do ano.
135 143 146 148 151 1600
20
40
1
135 143 146 148 151 1600
20
40
2
135 143 146 148 151 1600
20
40
3
135 143 146 148 151 1600
20
40
4
135 143 146 148 151 1600
20
40
5
135 143 146 148 151 1600
20
40
6
135 143 146 148 151 1600
20
40
7
135 143 146 148 151 1600
20
40
8
135 143 146 148 151 1600
20
40
9
135 143 146 148 151 1600
20
40
10
135 143 146 148 151 1600
20
40
11
135 143 146 148 151 1600
20
40
12
Figura 7-25: Percentual mensal de notas de empenho referentes ao ano de 2006 por natureza da despesa.Apresentadas somente as naturezas de despesa com mais de 1% de notas por mês. Cada gráficocorresponde a um mês do ano. 135 - Diárias Civil, 143 - Material de Consumo, 146 – Passagens e Despesascom Locomoção, 148 - Outros Serviços de Terceiros Pessoa Física, 151 - Outros Serviços de TerceirosPessoa Jurídica, 160 – Indenizações e Retribuições
7.5 ANÁLISE DA EMISSÃO DE NOTAS DE EMPENHO POR ÓRGÃOS
E UNIDADES GESTORAS
O objetivo desta seção é realizar uma comparação entre o modelo de comportamento da
Administração Pública, o de quatro órgãos selecionados e o de duas unidades gestoras. A
escolha dos órgãos procurou selecionar aqueles com comportamentos variados entre si e
representativos em relação aos demais órgãos da Administração. Tal escolha baseou-se na
utilização de mecanismos de clusterização, como será apresentado nos próximos tópicos.
- 175 -
7.5.1 Clusterização para seleção de órgãos
O uso da clusterização objetivou a formação de conjuntos de órgãos com
comportamento semelhante no que se refere à distribuição do número de notas de empenho
nos três atributos escolhidos para estudo: modalidade de licitação, valor da nota e natureza da
despesa. Ou seja, foram criados agrupamentos diferentes considerando individualmente cada
atributo. Outras opções seriam a criação de agrupamentos considerando a distribuição de
notas nos três atributos simultaneamente e a utilização da distribuição de valores no lugar da
de notas. Cada opção adotada provavelmente levaria a criação de grupos diferentes.
O algoritmo de clusterização adotado foi K-Means, como descrito no Capítulo 4. Para a
utilização do algoritmo foi necessário definir uma métrica para indicar a distância entre os
órgãos. Para isso adotou-se o seguinte procedimento: cada órgão foi representado por um
vetor cujas componentes são os percentuais do número de notas em cada valor possível do
atributo. Para exemplificar, na clusterização por modalidade de licitação, para cada órgão foi
construído um vetor de 12 posições contendo o percentual de NEs emitidas pelo órgão em
cada modalidade de licitação. Na clusterização por classe de valor foram usados vetores com
nove posições e por natureza da despesa vetores com elementos representando as NDs com
pelo menos 5% de NEs recebidas.
Tendo sido definida a representação dos órgãos como vetores, o algoritmo K-Means,
usando distância euclidiana, determinou o centro de cada cluster e os órgãos pertencentes aos
mesmos. Pode-se considerar que os centros dos clusters representam protótipos de
distribuição que caracterizam a média de comportamento para os órgãos nele contidos.
O número de clusters a serem definidos é um parâmetro informado para o algoritmo. A
princípio não se conhece o número de clusters necessários, sendo preciso executar o algoritmo
com diversos valores e comparar os resultados até chegar-se a um número de clusters
- 176 -
satisfatório. Não existe normalmente um número preestabelecido de clusters, cabendo ao
analista, observando os resultados e usando procedimentos de aferição da qualidade dos
agrupamentos, determinar o número que melhor represente o problema.
Durante o procedimento de clusterização descrito a seguir foram selecionados quatro
órgãos (DNIT, Ministério das Cidades, TCU e Senado) que por se encontrarem em clusters
separados na maioria das classificações, foram escolhidos como representantes de cada grupo.
7.5.1.1 Clusterização por modalidade de licitação
Clusterizar por modalidade de licitação significa descobrir órgãos que tenham formas de
contratação semelhantes. Essa forma de contratação pode ser influenciada pelos valores
empenhados, pelo tipo de material ou serviço contratado ou pela própria cultura do órgão em
termos de contratação.
Considerando-se os critérios citados para a definição do número de clusters, para a
clusterização por modalidade de licitação no ano de 2006, chegou-se ao valor de 4 clusters
como o mais apropriado. A Figura 7-26 apresenta os protótipos de distribuição, ou seja, a
configuração dos vetores que são os centros dos clusters. Esses vetores representam a
distribuição percentual média das NEs por modalidade de licitação para cada cluster.
1 2 3 4 5 6 7 8 91011120
20
40
60
80
100
ML
%N
Es
1
1 2 3 4 5 6 7 8 91011120
20
40
60
80
100
ML
%N
Es
2
1 2 3 4 5 6 7 8 91011120
20
40
60
80
100
ML
%N
Es
3
1 2 3 4 5 6 7 8 91011120
20
40
60
80
100
ML
%N
Es
4
Figura 7-26: Protótipos de distribuição de notas de empenho por modalidade de licitação, formados apartir dos centros dos quatro clusters definidos. Dados de 2006 incluindo os órgãos com mais de 100 NEs.Relação de MLs: 01 – Concurso, 02 – Convite, 03 – Tomada de Preço, 04 – Concorrência, 06 – Dispensa delicitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão
O TCU foi classificado no cluster um, o DNIT encontra-se no cluster dois, o Ministério
das Cidades no cluster três e o Senado no cluster quatro.
- 177 -
7.5.1.2 Clusterização por classe de valor
Clusterizar por classe de valor serve para caracterizar o gasto quanto ao valor
empenhado. É importante não concluir que órgãos no mesmo cluster tenham gasto quantidade
de recursos semelhante. Como a distribuição é por percentual de NEs, e não por quantidade,
órgãos no mesmo cluster podem ter quantidade de gastos bem diferentes, embora tenham
emitido na média notas com valores semelhantes.
Para a clusterização por classe de valor no ano de 2006 adotou-se três clusters. O
resultado da distribuição percentual de NEs por classe de valor no centro de cada cluster é
apresentado na Figura 7-27.
O TCU foi classificado no cluster três, DNIT e Senado ocupam o cluster dois e o
Ministério das Cidades o cluster um.
1 2 3 4 5 6 7 8 90
10
20
30
40
50
CV
%N
Es
1
1 2 3 4 5 6 7 8 90
10
20
30
40
50
CV
%N
Es
2
1 2 3 4 5 6 7 8 90
10
20
30
40
50
CV
%N
Es
3
Figura 7-27: Protótipos de distribuição de notas de empenho por classe de valor, formados a partir doscentros dos três clusters definidos. Dados de 2006 incluindo os órgãos com mais de 100 NEs. Relação declasses de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6(1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de1.000.000.000)
7.5.1.3 Clusterização por natureza da despesa
Clusterizar por natureza da despesa significa descobrir órgãos que tenham modelo de
compra semelhante, o que serve como indicativo de que os referidos órgãos tenham
preponderantemente as mesmas atividades, uma vez que as compras realizadas pelo órgão
destinam-se normalmente a atender a atividade fim do mesmo.
- 178 -
Para a clusterização por natureza da despesa no ano de 2006 adotou-se três clusters. O
resultado da distribuição de NEs por natureza da despesa no centro de cada cluster é
apresentado na Figura 7-28. São apresentadas somente as naturezas da despesa com pelo
menos 5% do total de NEs emitidas.
O TCU, o DNIT e o Senado foram classificados no cluster dois, o Ministério das
Cidades no cluster um.
69 84 101 151 199 2000
10
20
30
40
50
ND
%N
Es
1
135 143 148 151 2430
10
20
30
40
50
ND
%N
Es
2
143 148 151 2430
10
20
30
40
50
ND%
NE
s
3
Figura 7-28: Protótipos de distribuição de notas de empenho por natureza da despesa, formados a partirdos centros dos três clusters definidos. Dados de 2006 incluindo os órgãos com mais de 100 NEs.Apresentadas somente as NDs com pelo menos 5% das NEs. Relação de naturezas da despesa: 69 -Contribuições, 84 - Contribuições, 101 - Contribuições, 135 - Diárias Civil, 143 - Material de Consumo,148 - Outros Serviços de Terceiros Pessoa Física, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 199 -Contribuições, 200 - Auxílios, 243 - Equipamentos e Material Permanente
7.5.2 Seleção de unidades gestoras
Pretende-se também comparar o comportamento dos órgãos em relação a suas UGs.
Para tanto foram selecionadas para análise duas UGs do TCU. Apesar do reduzido número de
UGs selecionadas, o objetivo do estudo é demonstrar que podem ocorrer diferenças
significativas entre o comportamento do órgão e de suas UGs, o que fica claro com as análises
realizadas. Seguindo o mesmo critério adotado na seleção dos órgãos, as duas UGs foram
escolhidas por apresentarem comportamento bastante diferenciado, uma delas aproximando-
se do comportamento médio do Tribunal, a segunda apresentando comportamento atípico para
o órgão, provavelmente por se tratar de uma unidade de ensino. A escolha foi realizada
- 179 -
manualmente, sem o uso de procedimentos de clusterização como ocorreu na seleção dos
órgãos.
Na Figura 7-29 são apresentados os percentuais de NEs emitidas pelas 29 UGs do TCU,
bem como o percentual de valores emitido por cada UG (considerando somente as NEs com
valor inferior a R$ 1.000.000,00). As 2 maiores UGs (em quantidade de NEs emitidas) são a
UG correspondente à sede do Tribunal (UG-Sede) e o Instituto Serzedello Corrêa (UG-ISC).
Os modelos de comportamento das duas UGs serão comparados com o modelo do Tribunal e
com o da Administração Pública.
0 5 10 15 20 25 300
5
10
15
20
25
UGs
% N
Es
% de NEs por UG - TCU - Ano 2006
0 5 10 15 20 25 300
10
20
30
40
50
60
70
80
90
100
UGs
% V
alor
es% de Valores (<R$1.000.000) por UG - TCU - Ano 2006
Figura 7-29: Percentual de notas de empenho e percentual de valores (considerando somente as NEs comvalor inferior a R$ 1.000.000,00) no ano de 2006 pelas 29 UGs do TCU. A UG 1 corresponde à UG-Sede, aUG 29 corresponde à UG-ISC. As demais UGs representam as secretarias do TCU nos estados. Observara diferença de escala nos gráficos
7.5.3 Distribuição de notas por modalidade de licitação para órgãos e UGs
A Figura 7-30 apresenta o percentual de NEs emitidas pela Administração Pública,
TCU, Senado, DNIT e Ministério das Cidades por modalidade de licitação, referente ao ano
de 2006.
- 180 -
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - Ano 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - TCU - Ano 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - Senado - Ano 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - DNIT - Ano 2006
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
70
80
90
100
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - Ministério das Cidades - Ano 2006
Figura 7-30: Distribuição de NEs por modalidade de licitação para a Administração Pública, TCU,Senado, DNIT e Ministério das Cidades. Observar a diferença de escala no gráfico do Ministério dasCidades. Dados referentes ao ano de 2006. Relação de MLs: 01 – Concurso, 02 – Convite, 03 – Tomada dePreço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica, 09 –Suprimento de fundo, 11 – Consulta e 12 – Pregão
A primeira observação a ser feita refere-se às diferenças entre os órgãos e a média da
Administração Pública. Percebe-se no TCU a preponderância das modalidades dispensa de
- 181 -
licitação e suprimento de fundos, enquanto a Administração apresenta maior destaque para a
modalidade "não se aplica" e pregão.
A análise das informações apresentadas deve ser feita com grande cuidado e levando em
consideração os demais atributos. Aparentemente o elevado uso da modalidade dispensa de
licitação em detrimento do uso de pregão eletrônico seria considerado um mau indício para a
forma de contratação no órgão.
Se no entanto for analisado na Figura 7-31 o comportamento da UG-Sede, a qual é
responsável pela maioria das compras, ver-se-á que a qualidade da contratação, em relação ao
uso das modalidades de licitação, é superior ao da Administração Pública, considerando-se
principalmente o menor uso de dispensa de licitação e o elevado grau de adoção do pregão
eletrônico. Destaca-se a rápida implantação dessa modalidade na UG-Sede, observando-se a
diferença de uso entre os anos de 2005 e 2006. Reforçando o comentário anterior, pela análise
da Figura 7-32 e Figura 7-33, observa-se que a UG-Sede possui modelo de compra com
valores mais elevados do que o restante das UGs do Tribunal, na grande maioria
representadas pelas secretarias do TCU nos Estados. Essas UGs, tendo modelo de compra
com valores menores, utilizam mais a dispensa de licitação, o que é permitido por lei em
função dos valores contratados, fazendo com que o modelo do órgão como um todo seja
caracterizado por essa modalidade de licitação. Já a UG-Sede, comprando valores mais
elevados, utiliza prioritariamente a modalidade pregão eletrônico, o que corresponde a uma
boa prática na contratação. Pelo exposto, há que se ter cuidado nas análises superficiais das
informações apresentadas, sob pena de chegar-se a conclusões equivocadas.
Ainda em relação à Figura 7-30, o Senado apresenta um percentual de inexigibilidade
12% superior à Administração Pública. O DNIT destaca-se pelo elevado uso da modalidade
concorrência. O Ministério das Cidades possui um modelo totalmente atípico, com
- 182 -
preponderância quase exclusiva para a modalidade "não se aplica", provavelmente em função
da atividade fim do órgão.
A Figura 7-31 apresenta a distribuição de NEs para as duas UGs selecionadas no TCU,
nos anos de 2005 e 2006. Observa-se que o comportamento da UG-Sede fica mais próximo da
média da Administração, principalmente no uso de dispensa de licitação e pregão eletrônico.
Já em relação à modalidade "não se aplica", aproxima-se mais do comportamento do TCU. A
UG-ISC, em função de suas peculiaridades como unidade de ensino, apresenta modelo
bastante diferente, tanto da Administração Pública como do TCU e da UG-Sede. Como
exemplo dessa diferença, percebe-se a grande utilização da modalidade inexigibilidade.
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - TCU - UG1 - Ano 2005
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - TCU - UG2 - Ano 2005
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - TCU - UG1 - Ano 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - TCU - UG2 - Ano 2006
Figura 7-31: Percentual de notas de empenho emitidas nos anos de 2005 e 2006 por modalidade delicitação para as duas UGs selecionadas no TCU. Relação de MLs: 01 – Concurso, 02 – Convite, 03 –Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 – Inexigibilidade, 08 – Não se aplica,09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão
- 183 -
7.5.4 Distribuição de notas por valor para órgãos e UGs
A Figura 7-32 apresenta o percentual de NEs emitidas por classe de valor durante o ano
de 2006.
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - Ano 2006
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - TCU - Ano 2006
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - Senado - Ano 2006
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - DNIT - Ano 2006
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - Ministério das Cidades - Ano 2006
Figura 7-32: Percentual de notas de empenho por classe de valor para a Administração Pública, TCU,Senado, DNIT e Ministério das Cidades. Dados referentes ao ano de 2006. Relação de classes de valores: 1(0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000),7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)
- 184 -
Na figura são apresentadas as NEs emitidas pela Administração Pública, TCU, Senado,
DNIT e Ministério das Cidades.
Observa-se que o modelo de comportamento do TCU é bastante próximo da
Administração, apresentando maior percentual de notas na classe 2, com valores variando de
R$ 100,00 a R$ 1.000,00.
O Senado e o DNIT apresentam modelo de gasto com valores mais elevados que a
Administração. O DNIT em particular apresenta um gráfico com acentuada dispersão de
valores.
O Ministério das Cidades tem elevada concentração nas classes 4 e 5, com valores
variando de R$ 10.000,00 a R$ 1.000.000,00.
A Figura 7-33 apresenta a distribuição para as duas UGs selecionadas. Na análise das
UGs tem-se que a UG-Sede apresenta maior tendência que o TCU no uso de valores elevados,
afastando-se assim do modelo geral da Administração Pública.
Como descrito na Seção 7.5.3, a UG-ISC apresenta modelo bastante diferenciado das
demais, com elevada concentração de NEs na classe de valor três, faixa de R$ 1.000,00 a R$
10.000,00.
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - TCU - UG1 - Ano 2006
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - TCU - UG2 - Ano 2006
Figura 7-33: Percentual de notas de empenho emitidas no ano de 2006 por classe de valor para as UGsselecionadas. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5(100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9(Acima de 1.000.000.000)
- 185 -
7.5.5 Distribuição de notas por natureza da despesa para órgãos e UGs
A Figura 7-34 apresenta o percentual de NEs emitidas por natureza da despesa.
135 136 143 146 148 151 154 160 170 243 2810
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND - NDs com mais de 1% - Ano 2006
135 143 146 148 149 151 154 159 160 2430
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND(>1%) - TCU - Ano 2006
135 143 146 148 149 151 159 160 170 242 2430
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND(>1%) - Senado - Ano 2006
143 146 151 154 159 160 169 193 201 237 242 243 2440
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND(>1%) - DNIT - Ano 2006
84 192 2000
10
20
30
40
50
60
70
80
90
100
ND
% N
Es
% de NEs por ND(>1%) - Ministério das Cidades - Ano 2006
Figura 7-34: NEs por natureza da despesa para Administração, TCU, Senado, DNIT e Ministério dasCidades em 2006. Observar a diferença de escala no gráfico do Ministério das Cidades. NDs: 84 -Contribuições, 135 - Diárias Civil, 143 - Material de Consumo, 146 – Passagens, 148 - Outros Serviços deTerceiros Pessoa Física, 149 - Locação de Mão de Obra, 151 - Outros Serviços de Terceiros PessoaJurídica, 154 – Obrigações tributárias e Contributivas, 159 – Despesas de Exercícios Anteriores, 160 -Indenizações e Restituições, 170 - Obrigações Tributárias e Contributivas, 192 - Auxílios, 193 - Obras eInstalações, 200 - Auxílios, 201 - Obras e Instalações, 237 - Serviços de Consultoria, 242 - Obras eInstalações, 243 - Equipamentos e Material Permanente, 244 - Aquisição de Imóveis
- 186 -
A primeira observação diz respeito à diferença de composição de NDs para os órgãos.
Enquanto no modelo da Administração Pública destacam-se as NDs referentes a diárias civis
(135) e militares (136), no modelo do TCU destaca-se locação de mão de obra (149) e
despesas de exercícios anteriores (159). Também em destaque no modelo do TCU é o
percentual de NEs em serviço de pessoa jurídica (151). O Senado possui modelo muito
semelhante ao do TCU. No modelo do DNIT observa-se destaque para a ND Obras e
Instalações (242). O Ministério das Cidades apresenta grande preponderância da ND Auxílios
(200) e algum destaque para a ND Contribuições (84).
A Figura 7-35 apresenta a distribuição para as duas UGs selecionadas. Em ambos os
casos são apresentadas somente as NDs com percentual de NEs superior a 1%.
No tocante às UGs, a UG-Sede segue o modelo do Tribunal com poucas modificações.
A UG-ISC apresenta modelo diferenciado, com maior destaque para indenizações e
restituições (160) e serviço de pessoa física (148), sendo reduzido por outro lado o percentual
de NEs em material de consumo (143).
143 149 151 159 160 169 2430
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND(>1%) - TCU - UG1 - Ano 2006
143 148 151 160 2430
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND(>1%) - TCU - UG2 - Ano 2006
Figura 7-35: Percentual de notas de empenho emitidas no ano de 2006 por natureza da despesa para asduas UGs selecionadas no TCU. Consideradas somente as naturezas de despesa com mais de 1% de notas.143 - Material de Consumo, 148 - Outros Serviços de Terceiros Pessoa Física, 149 - Locação de Mão deObra, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 159 – Despesas de Exercícios Anteriores, 160 -Indenizações e Restituições, 169 - Outros Serviços de Terceiros (Pessoa Jurídica), 243 - Equipamentos eMaterial Permanente
- 187 -
7.5.6 Análise da emissão mensal de notas para órgãos e UGs
A Figura 7-36 apresenta o percentual de NEs emitidas mensalmente pela Administração
Pública, TCU, Senado, DNIT e Ministério das Cidades, referentes ao ano de 2006.
A Figura 7-37 apresenta a distribuição para as duas UGs selecionadas.
Pela análise dos gráficos percebe-se uma inversão de percentuais nos primeiros e
últimos meses do ano, da Administração Pública em relação ao TCU. Como destacado na
Seção 7.4.8, a Administração apresenta tendência de concentração de NEs nos últimos meses
do ano. Já o TCU apresenta concentração maior nos primeiros meses, com distribuição mais
uniforme ao longo de todo o ano.
O Senado segue modelo semelhante ao do TCU, com distribuição uniforme ao longo do
ano. O DNIT não só segue a tendência da Administração Pública de concentração nos últimos
meses, como reforça a concentração no mês de dezembro.
O Ministério das Cidades apresenta modelo singular no ano de 2006, com concentração
nos meses de junho e dezembro. Esse fato, como explicado na Seção 7.4.8, ocorre em função
de 2006 ter sido um ano de eleições presidenciais.
Para corroborar com esse comentário, foi colocado excepcionalmente o gráfico de
distribuição mensal para o ano de 2005, o qual apresenta uma distribuição menos concentrada
em junho, mas ainda com acúmulo de NEs no último semestre do ano.
Da análise das UGS, apresentada na Figura 7-37, tem-se que a UG-Sede segue a
tendência do Tribunal para concentração de NEs nos primeiros meses do ano, com grande
destaque para o mês de janeiro.
- 188 -
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
Mês
%N
Es
%NEs por mês - 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
Mês
%N
Es
%NEs por mês - TCU - 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
Mês
%N
Es
%NEs por mês - Senado - 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
Mês
%N
Es
%NEs por mês - DNIT - 2006
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
Mês
%N
Es
%NEs por mês - Ministério das Cidades - 2005
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
Mês
%N
Es
%NEs por mês - Ministério das Cidades - 2006
Figura 7-36: Percentual de notas de empenho emitidas mensalmente pela Administração Pública, TCU,Senado, DNIT e Ministério das Cidades. Observar a diferença de escala no gráfico do Ministério dasCidades. Dados referentes ao ano de 2006 com exceção do Ministério das Cidades, que inclui 2005
- 189 -
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
Mês
%N
Es
%NEs por mês - TCU - UG1 - 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
Mês
%N
Es
%NEs por mês - TCU - UG2 - 2006
Figura 7-37: Percentual de notas de empenho emitidas mensalmente pelas duas UGs em 2006
7.6 ANÁLISE DE FAVORECIDOS E USUÁRIOS
Não será apresentada a análise detalhada do comportamento dos favorecidos e usuários.
Todas as análises feitas para a Administração Pública e para os órgãos e UGs selecionadas
poderiam ser aplicadas a favorecidos (recebedores dos empenhos) e usuários (emitentes das
NEs). A seguir serão apresentadas algumas informações para um favorecido (Figura 7-38) e
um usuário (Figura 7-39), escolhidos aleatoriamente para demonstrar a aplicabilidade das
análises feitas até aqui a essas duas entidades.
O favorecido em análise na Figura 7-38 é o Fundo de Imprensa Nacional. Pelos gráficos
observa-se que a contratação com essa entidade é feita por dispensa de licitação,
inexigibilidade ou "não se aplica". Os valores recebidos concentram-se na faixa de R$ 100,00
a R$ 10.000. Os pagamentos efetuados à entidade são feitos basicamente na modalidade
"serviço de pessoa jurídica". O recebimento de notas pela entidade é bem distribuído ao longo
do ano.
- 190 -
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
ML
% N
Es
1 2 3 4 5 6 7 8 90
5
10
15
20
25
30
35
40
45
CV
% N
Es
169 173 2500
10
20
30
40
50
60
70
80
90
100
ND
% N
Es
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
Mês
%N
Es
Figura 7-38: Distribuição de NEs por modalidade de licitação (ML), classe de valor (CV), natureza dadespesa (ND) e mês para o Fundo de Imprensa Nacional no ano de 2006. As NDs apresentadas têm oseguinte significado: 169 - Outros Serviços de Terceiros Pessoa Jurídica (19)(I), 173 – Despesas deExercícios Anteriores (25)(I), 250 - Outros Serviços de Terceiros Pessoa Jurídica (27)(I)
O usuário analisado na Figura 7-39 possui maior percentual de notas emitidas na
modalidade concorrência. Os valores médios das notas emitidas está acima da média da
Administração. Destaque também para a distribuição mensal de notas com grande variação,
com emissão concentrada em janeiro e maio.
Vale ressaltar que para uma completa análise do comportamento do usuário é necessário
contextualizá-la na sua UG e órgão de origem. Tendo em vista resguardar o sigilo do usuário
apresentado, tais informações não foram apresentadas o que conseqüentemente inviabiliza a
análise completa de comportamento.
- 191 -
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
ML
% N
Es
1 2 3 4 5 6 7 8 90
5
10
15
20
25
30
35
40
CV
% N
Es
143 149 151 159 169 2430
10
20
30
40
50
60
70
80
90
100
ND
% N
Es
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Mês
%N
Es
Figura 7-39: Distribuição de NEs por modalidade de licitação (ML), classe de valor (CV), natureza dadespesa (ND) e mês para um usuário emissor no ano de 2006. As NDs apresentadas têm o seguintesignificado: 143 - Material de Consumo, 149 – Locação de Mão-de-obra, 151 - Outros Serviços deTerceiros Pessoa Jurídica, 159 – Despesas de Exercícios Anteriores, 169 - Outros Serviços de TerceirosPessoa Jurídica (19)(I), 243 - Equipamentos e Material Permanente, 250 - Outros Serviços de TerceirosPessoa Jurídica (27)(I)
7.7 CONCLUSÕES SOBRE A ANÁLISE DE COMPORTAMENTO DAS
ENTIDADES
As análises apresentadas ao longo do capítulo tiveram por objetivo demonstrar a
diferença de comportamento entre órgãos e UGs, bem como a variação temporal do
comportamento dos três atributos selecionados para análise.
Pelos dados apresentados, conclui-se que a criação de um único modelo de
comportamento para toda a Administração Pública não geraria bons resultados, em função das
variações existentes entre órgãos e, dentro de um mesmo órgão, em relação a suas UGs. Essas
variações refletem-se na diversidade de utilização de modalidades de licitação (Figura 7-30 e
- 192 -
Figura 7-31), valores das NEs (Figura 7-32 e Figura 7-33) e naturezas de despesa (Figura 7-34
e Figura 7-35) empregados. Assim sendo, para a correta definição de comportamento, serão
definidos no Capítulo 8 modelos diferenciados para cada órgão, UG, usuário e favorecido,
além do modelo global da Administração Pública.
Outro fator observado ao longo do capítulo é a variação temporal de comportamento.
Como exemplo, a inflação afeta a distribuição de NEs por classe de valor (Figura 7-10) ao
longo do tempo. Da mesma forma, o crescimento no uso do pregão eletrônico afeta a
distribuição de notas por modalidade de licitação (Figura 7-11 e Figura 7-12). Logo, não basta
a criação dos modelos diferenciados por entidade, é necessária a constante atualização dos
mesmos, para permitir a adequação dos modelos às variações de comportamento das
entidades.
Relevante também é a variação de comportamento ao longo dos meses do ano, tanto
para a Administração Pública (da Figura 7-20 à Figura 7-25), como para órgãos (Figura 7-36)
e UGs (Figura 7-37). Percebe-se nos dados apresentados a existência de um ciclo anual de
comportamento. A definição de um modelo único anual para a entidade pode não refletir
corretamente as variações mensais, principalmente para as entidades com variações
significativas ao longo do ano.
Finalmente justifica-se a utilização de três atributos para a composição do modelo de
comportamento em função de nenhum deles caracterizar de forma completa o comportamento
das entidades. A análise conjunta dos três traz resultados mais confiáveis para os modelos
criados.
As informações apresentadas no capítulo, além de servir como base para a criação dos
modelos de comportamento na emissão de notas de empenho, a serem criados no Capítulo 8,
servem como referência para que trabalhos futuros possam vir a explorar os dados
- 193 -
apresentados e tentar responder alguns questionamentos levantados. Conforme observado
durante a pesquisa bibliográfica, existem poucos trabalhos científicos relacionados com o
tema apresentado, qual seja, análise estatística da execução da despesa, principalmente na área
de modelagem computacional de tal comportamento, a despeito da complexidade e relevância
do assunto.
- 194 -
8 MODELOS PARA A EMISSÃO DE NOTAS DEEMPENHO NA ADMINISTRAÇÃO PÚBLICA
8.1 INTRODUÇÃO
O objetivo do capítulo é criar modelos que representem o comportamento das entidades
públicas quanto à emissão de notas de empenho. A Figura 8-1 apresenta a contribuição do
capítulo para o modelo global de detecção de indícios de irregularidades proposto na Tese,
construindo parte do módulo de mineração de dados.
Mineração de DadosInformação não trivial, sem regras claras
Sistema EspecialistaRegras extraídas da legislação e do conhecimento de especialistas
SiafiExecução da
Despesa
Analista
Modelo deComportamentoModelo de
ComportamentoMecanismo para
Detecção deAnomalias
Modelo deComportamentoModelo de
ComportamentoModelo deComportamento
Atualização das Regras
Atualização dos Modelos
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE/NL/OB
NE/NL/OB
Figura 8-1: Contribuição do capítulo para o modelo de detecção, correspondendo à construção dos doismodelos de comportamento para a emissão de notas de empenho
Os dois modelos criados baseiam-se em matrizes de probabilidade (analisado na Seção
8.2) e em redes neurais (analisado na Seção 8.3). Cada entidade (órgãos, UGs, favorecidos e
usuários) teve seu modelo individualmente definido. Foi também criado um modelo único
para toda a Administração Pública.
Para a criação dos modelos considerou-se a combinação de quatro atributos presentes
nas notas, quais sejam, a modalidade de licitação, a natureza da despesa, o valor e
opcionalmente a data. A seleção dos atributos que compuseram os modelos foi feita
manualmente por especialistas, tendo sido esses atributos testados no Capítulo 7 quanto a
- 195 -
capacidade de representar corretamente o comportamento das entidades públicas na execução
da despesa.
8.2 MODELO DA EMISSÃO DE NOTAS DE EMPENHO POR MATRIZ
DE PROBABILIDADE
A Figura 8-2 indica o componente do processo de detecção a ser abordado nesta seção:
modelagem de comportamento através da criação de matrizes de probabilidade.
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
Despesa
Analista
Modelo Probabilístico
Modelo por Redes Neurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras Fuzzy
Detecção de Anomaliaspor Redes Neurais
Figura 8-2: Processo completo para detecção de anomalia. A seção atual apresenta a criação do modelo decomportamento usando matrizes de probabilidade
8.2.1 Formalização estatística
Segundo as definições apresentadas na Seção 4.2, considera-se que para cada entidade
em estudo (cada órgão, UG, favorecido e usuário, além da Administração Pública) exista uma
população formada pelas suas notas de empenho, já emitidas ou ainda por emitir. Dessa
população selecionou-se uma amostra, correspondente às notas emitidas durante determinado
ano, considerado como período de treinamento do modelo.
Definiu-se para cada nota de empenho três variáveis aleatórias, que associam
respectivamente as informações presentes na nota a uma modalidade de licitação (variável
ML, assumindo valores no intervalo [1 12]), a uma natureza da despesa (variável ND,
assumindo valores no intervalo [1 316]) e a uma classe de valor (variável CV, assumindo
- 196 -
valores no intervalo [1 9]). Para cada uma das três variáveis aleatórias discretas associa-se
uma função de distribuição de probabilidade, indicando a probabilidade dessas variáveis
assumirem determinado valor dentro dos intervalos citados. Define-se ainda uma função de
distribuição conjunta de probabilidade, indicando a probabilidade das três variáveis aleatórias
assumirem uma entre as 34.128 combinações possíveis de valores.
Pressupõe-se que as quatro funções de distribuição de probabilidade sejam definidas
individualmente para cada entidade. Para determinar os valores das funções de distribuição
individuais e da função de distribuição conjunta utilizou-se o cálculo empírico de
probabilidade, baseado na freqüência de ocorrência para cada valor individual das variáveis e
de cada combinação de valor no caso da distribuição conjunta.
Em não se conhecendo todos os elementos das populações, os valores de probabilidade
das funções individuais e da função de distribuição conjunta foram inferidos a partir da
amostra acima definida, qual seja, as notas emitidas durante um ano por cada entidade. Nesse
procedimento considera-se que as funções de distribuição não sofram alterações durante o
período de construção e que permanecem válidas para representar o comportamento das
entidades durante pelo menos o ano subseqüente, no qual serão usadas para classificar as
notas de empenho emitidas.
8.2.2 Cálculo dos valores da função de distribuição conjunta de probabilidade
Dado que uma NE traz informações sobre ND, ML e CV, pode-se criar uma matriz
tridimensional, onde cada dimensão representa um dos atributos citados e cada elemento da
matriz representa uma possível combinação dos valores desses atributos. O atributo ND tem
seus valores no intervalo [1 316], o atributo ML tem seus valores no intervalo [1 12] e o
atributo CV tem seus valores no intervalo [1 9]. Para representar todas as combinações
possíveis, a matriz tridimensional deve possuir 34.128 elementos.
- 197 -
Considerando todas as NEs emitidas num ano por uma entidade, é montada sua matriz
de ocorrência, onde cada posição representa o número de NEs que possuem a mesma
combinação ND x ML x CV para o respectivo ponto. Dividindo o valor de cada posição da
matriz pelo número total de NEs emitidas no período obtém-se a freqüência de ocorrência
para cada combinação, freqüência essa que serviu como estimativa da probabilidade
correspondente à combinação (probabilidade empírica). A matriz resultante das operações
anteriores será chamada de "matriz de probabilidade", referente ao período de treinamento
escolhido. A matriz de probabilidade assim calculada nada mais é do que uma forma de
representar os valores da função de distribuição de probabilidade conjunta de forma tabulada,
uma vez que não foi encontrada uma função de distribuição conhecida que se assemelhe às
probabilidades verificadas.
O procedimento descrito foi repetido para cada Usuário, Favorecido, UG e Órgão.
Chegou-se, no ano de 2005, a um total de 562.060 matrizes de probabilidade para
Favorecidos, 20.458 matrizes para Usuários, 392 matrizes para Órgãos e 13.378 matrizes para
UGs, além de uma matriz representando o comportamento da Administração Pública em
geral. Esses números referem-se às entidades que participaram da emissão de NEs em 2005.
Como a grande maioria das combinações ND x ML x CV não ocorre nas notas emitidas
(ver Figura 7-19), as matrizes ficam com poucos elementos ocupados. Para exemplificar, em
2005, as matrizes referentes aos órgãos possuem em média 0,34% de ocupação, ou seja,
somente 115 das 34.128 combinações possíveis são utilizadas em média. O uso de matrizes
esparsas tornou possível o armazenamento do grande número de matrizes com pouco uso de
memória. Uma matriz completa com 34.128 elementos ocupa em memória 273.024 bytes, sua
correspondente esparsa com 115 elementos preenchidos ocupa 1.388 bytes.
Conseqüentemente, as 562.060 matrizes de favorecidos foram armazenadas em
- 198 -
aproximadamente 7MB. Os valores de consumo de memória referem-se ao software Matlab
versão 7.0.
Lembrando que uma nota de empenho referencia simultaneamente quatro entidades (o
órgão e UG emissores, o usuário responsável e o favorecido destinatário), o cálculo do vetor
contendo as probabilidades referentes às cinco funções de distribuição conjunta (considerando
também a da Administração Pública) é feito através da consulta às cinco matrizes de
probabilidade correspondentes. Para exemplificar, considerando uma NE com os seguintes
valores de atributos:
• ND = Diária Civil
• ML = Não se aplica
• CV = 4
Os resultados da consulta às matrizes de probabilidade referentes às entidades citadas na
NE e os respectivos suportes (número de NEs usadas para criar as matrizes) são apresentados
na Tabela 8-1. Conforme definido no Capítulo 6, os modelos de comportamento devem
fornecer ao componente de detecção dois vetores: vetor de probabilidades e vetor de suportes.
As duas linhas da Tabela 8-1 representam as informações desses dois vetores.
Tabela 8-1: Probabilidades para a combinação de atributos presentes na NE e suporte correspondente acada entidade. O suporte representa o número de NEs usadas na fase de treinamento para a montagemdas matrizes de probabilidade
Administração Favorecido Usuário UG Órgão
Probabilidade 0,0015 0,25 0,0185 0,0152 0,0036
Suporte 1.765.593 4 54 66 3.580
Sobre o exemplo apresentado podem ser feitas duas observações: quanto aos valores de
probabilidade e quanto aos valores dos suportes, ambas detalhadas nos próximos tópicos.
- 199 -
8.2.2.1 Observação quanto aos valores de probabilidade informados pelas matrizes
A probabilidade 0,0036 para o órgão, apresentada na Tabela 8-1, indica que, das 3.580
NEs emitidas pelo órgão (suporte) durante o período de treinamento, 0,36% delas (12 NEs)
possuíam a combinação de valores para ND, CV e ML encontrada na NE em análise. Esse
valor de probabilidade, aparentemente baixo, não é necessariamente um indicativo de
irregularidade, informa apenas que a combinação dos valores de ND, CV e ML não é comum
para a entidade. Pode indicar também que as NEs da entidade estão espalhadas de forma
uniforme por um grande número de elementos da matriz, tornando baixas as probabilidades
da maioria das combinações. Na primeira hipótese, combinação incomum de valores, a nota
deve ser analisada com maior cuidado; na segunda hipótese, distribuição uniforme, a nota
pode ser descartada da análise. Pelo exposto, percebe-se que o valor isolado da probabilidade
não traz toda a informação necessária para a classificação, devendo ser contextualizada em
relação à distribuição de probabilidade.
Para se ter uma idéia melhor sobre o que representa o valor apresentado para a
probabilidade de ocorrência da nota no órgão (0,0036), convém analisar a distribuição de
probabilidades para a matriz referente ao órgão citado, apresentada na Figura 8-3. Nessa
matriz, somente 172 elementos foram ocupados, taxa de 0,50% de ocupação. Das
combinações ML x ND x CV possíveis presentes na matriz de probabilidade, considerando as
172 combinações com probabilidade diferente de zero, 139 combinações possuem
probabilidade inferior ou igual a 0,005. Em termos percentuais, observa-se que 80,81% das
posições ocupadas da matriz referente ao órgão possuem probabilidade inferior a 0,005, sendo
essas posições usadas por 17,63% das NEs emitidas. Isso indica que o órgão tem
concentração de NEs emitidas em poucas combinações, descartando assim a citada hipótese
de distribuição uniforme de probabilidade.
- 200 -
0 0.02 0.04 0.06 0.08 0.1 0.120
10
20
30
40
50
60
70
80
90
Probabilidade
# C
ombi
naçõ
es M
L x
ND
x C
VHistograma da matriz de probabilidade
Figura 8-3: Análise da matriz de probabilidade de um órgão, apresentando o histograma contendo adistribuição de probabilidade por número de combinações de atributos (número de posições da matriz)
Da análise anterior conclui-se que o resultado 0,0036 para a probabilidade de emissão
da NE pelo órgão, apesar de baixo, ocorrerá em várias NEs emitidas pelo mesmo, mais
especificamente 499 NEs (13,93%) terão probabilidade igual ou inferior a 0,0036. Sabendo-se
que para o órgão em questão essas NEs não são anômalas, deve-se ter cuidado na escolha do
fator de corte (nível de probabilidade) usado como indicativo de anomalia, sob pena de ser
gerado um número excessivamente grande de alertas, a serem posteriormente investigados
manualmente. Para diminuir a possibilidade da existência de grande número de falsos
positivos adotou-se a correlação das cinco probabilidades como indicativo de anomalia, e não
somente as probabilidades individuais por entidade. Esse tema será melhor tratado no
Capítulo 9, que trata dos mecanismos de detecção.
Caso a NE seja marcada para verificação manual, o analista deve ter a sua disposição
informações sobre as distribuições de probabilidade para as entidades envolvidas na nota, de
forma que possa fazer uma interpretação mais precisa sobre o indício de irregularidade
apontado pelo sistema. Trata-se aqui de contextualizar o valor da probabilidade como já
citado. Vale lembrar que o módulo de mineração de dados baseia sua seleção em
comportamentos anômalos, julgamento esse baseado em probabilidades, dificultando
conseqüentemente a posterior análise do auditor. Para atenuar esse problema, o trabalho
- 201 -
propõe incorporar ao modelo de detecção um módulo de "Relatório de Comportamento" (ver
Figura 8-1), dentro do qual estariam, entre outras, informações sobre a distribuição de
probabilidade.
8.2.2.2 Observação quanto ao suporte usado na construção das matrizes
Segundo dados de 2005, 93,91% dos órgãos, 65,92% das UGs, 36,65% dos usuários e
1,16% dos favorecidos possuem mais de 100 NEs emitidas (Seção 7.2). Esse número,
chamado suporte, é importante para a análise pois a probabilidade está sendo estimada pelo
percentual de NEs correspondentes a cada elemento da matriz. Com poucas NEs emitidas, a
estimativa da probabilidade fica comprometida, pois não se consegue estimar com segurança
o modelo de comportamento de uma entidade baseando-se num número baixo de exemplos
(NEs emitidas). Como citado na Seção 4.2.1.4, o cálculo da probabilidade empírica baseia-se
no fato de n (número de repetições) ser suficientemente grande. No caso, n corresponde ao
suporte, ou seja, número de NEs emitidas durante o período de treinamento.
Ainda usando como exemplo a Tabela 8-1, a probabilidade do favorecido é de 0,25,
sendo a maior entre as probabilidades das entidades. Observando o suporte do favorecido,
constata-se que seu modelo foi construído com base em quatro NEs. Pode-se questionar se,
com base em tão poucas NEs, consegue-se traçar corretamente o modelo de uma entidade, e
afirmar com precisão sua probabilidade de emissão de uma NE com determinada combinação
de atributos.
Em função do exposto, é importante que o analista informe um valor mínimo de suporte
para que o componente de detecção leve ou não em consideração, na análise da NE, a
probabilidade fornecida para determinada entidade, ou seja, utilize ou não a informação
proveniente do modelo de comportamento criado para a mesma.
- 202 -
Considerando o valor 100 como mínimo aceitável, na Tabela 8-1 somente seriam
aproveitadas duas das cinco probabilidades calculadas. Tal fato pode comprometer a
correlação de probabilidades necessária para diminuir o número de NEs marcadas para análise
manual. O uso do suporte será melhor tratado no Capítulo 9, que trata dos mecanismos de
detecção.
8.2.3 Redução do número de elementos da matriz de probabilidade
Analisando os três atributos formadores da matriz de probabilidade, constata-se que o
maior responsável pelo grande número de elementos da mesma (34.128) é a natureza da
despesa, a qual assume 316 valores diferentes. Como descrito na Seção 5.6, esse atributo tem
codificação hierárquica, com quatro níveis, tendo em seu nível mais baixo (Elemento da
Despesa) 316 elementos. Se os itens forem agrupados por Modalidade de Aplicação (terceiro
nível), restariam 31 valores diferentes, reduzindo o total de elementos da matriz de 34.128
para 3.348 elementos.
Essa estratégia apresenta como inconveniente a classificação, na mesma categoria, de
despesas completamente diferentes, tais como salário-família e despesas de exercícios
anteriores, o que comprometeria o mecanismo de detecção de indícios de irregularidades. Em
função disso, foi utilizado o detalhamento máximo para a natureza da despesa, com 316
elementos.
Deve-se considerar também, como apresentado na Seção 8.2.2, que apenas 115 das
34.128 posições são ocupadas em média, o que representa uma redução natural no número de
elementos da matriz de probabilidade.
- 203 -
8.2.4 Aplicação da matriz de probabilidade
Para demonstrar o procedimento de análise com o uso da função de distribuição
conjunta de probabilidade, foram criadas matrizes modelando o comportamento de todas as
entidades envolvidas na emissão de empenhos, usando como base de treinamento as NEs
emitidas no ano de 2005. Em seguida avaliou-se as 4.008 NEs emitidas pelo TCU em 2006.
A Figura 8-4 apresenta as probabilidades calculadas para cada NE emitida pelo TCU em
2006, considerando as quatro entidades referenciadas nas notas mais a Administração Pública.
A Figura 8-5 apresenta os histogramas das probabilidades calculadas para as NEs emitidas em
2005 e 2006. Nos histogramas só foram consideradas as probabilidades das entidades com
suporte superior a 100 NEs. A Tabela 8-2 resume alguns dados importantes presentes nas
figuras.
0 500 1000 1500 2000 2500 3000 3500 4000 45000
0.05
0.1
NEs 2006
Pro
b. G
eral
0 500 1000 1500 2000 2500 3000 3500 4000 45000
0.5
1
NEs 2006
Pro
b. F
avor
ecid
o
0 500 1000 1500 2000 2500 3000 3500 4000 45000
0.5
1
NEs 2006
Pro
b. U
suár
io
0 500 1000 1500 2000 2500 3000 3500 4000 45000
0.2
0.4
NEs 2006
Pro
b. U
G
0 500 1000 1500 2000 2500 3000 3500 4000 45000
0.1
0.2
NEs 2006
Pro
b. Ó
rgão
Figura 8-4: Probabilidades referentes à Administração Pública, favorecido, usuário, UG e órgão (TCU)em função da combinação de valores dos atributos presentes nas 4.008 NEs emitidas pelo TCU em 2006,segundo as matrizes de probabilidade calculadas com os dados de 2005. Observar na figura a diferença deescala no eixo das probabilidades
- 204 -
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Geral - Ano 2005
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Geral - Ano 2006
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Favorecido - Ano 2005
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Favorecido - Ano 2006
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Usuário - Ano 2005
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Usuário - Ano 2006
Figura 8-5: Histogramas de probabilidade referentes a notas de empenho emitidas pelo TCU nos anos de2005 e 2006. Probabilidades calculadas com matrizes de probabilidade criadas com as NEs de 2005. Sóforam calculadas as probabilidades para as entidades com suporte mínimo de 100 NEs. Deve-se observara diferença de escala no eixo da probabilidade em função da entidade analisada
- 205 -
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade UG - Ano 2005
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade UG - Ano 2006
0 0.05 0.1 0.150
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Órgão - Ano 2005
0 0.05 0.1 0.150
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Órgão - Ano 2006
Figura 8-5 (Continuação): Histogramas de probabilidade referentes a notas de empenho emitidas peloTCU nos anos de 2005 e 2006. Probabilidades calculadas com matrizes de probabilidade criadas com asNEs de 2005. Só foram calculadas as probabilidades para as entidades com suporte mínimo de 100 NEs.Deve-se observar a diferença de escala no eixo da probabilidade em função da entidade analisada
Tabela 8-2: A segunda e terceira coluna indicam a probabilidade máxima e mínima para cada entidade noano de 2005. A última coluna traz o número de NEs de 2006 com probabilidade igual ou menor que aprobabilidade mínima de 2005. Destaque para o grande número de NEs com probabilidade zero parafavorecidos e usuários.
EntidadeProbabilidade
Máxima em 2005Probabilidade
Mínima em 2005NEs em 2006 com Prob. <= Prob.
Mínima de 2005Administração
Pública0,07 2,27 10-6 37 (0,92%), 33 com prob. 0
Favorecido 1 0,0008 1.303 (32,51%), 1.303 com prob. 0
Usuário 1 0,0052 1.629 (40,64%), 1.629 com prob. 0
UG 0,30 0,0014 580 (14,47%), 547 com prob. 0
Órgão 0,11 0,0003 185 (4,62%), 115 com prob. 0
- 206 -
Da análise da Figura 8-4 e da Tabela 8-2 observa-se que a probabilidade máxima e
mínima das NEs emitidas pelo TCU, considerando o modelo da Administração Pública,
assume valores baixos (probabilidade máxima de 0,07 e mínima de 2,27 10-6). Em 2006 foram
emitidas 33 NEs cuja combinação de valores dos atributos não foi encontrada em nenhuma
NE emitida pelo restante da Administração Pública em 2005.
Por outro lado, analisando as probabilidades dos favorecidos na Figura 8-4 observa-se a
presença de probabilidades altas, chegando até o valor "um". Uma probabilidade com valor
"um" indica que todas as NEs emitidas para o favorecido em 2005 possuíram a mesma
combinação de valores dos atributos, ou seja, o favorecido referenciado na nota recebeu
apenas um tipo de NE.
Pode-se destacar na Figura 8-4 e na Tabela 8-2 o grande número de NEs em 2006,
referentes a usuários e favorecidos, com probabilidades baixas ou iguais a zero. O número de
NEs com probabilidades pequenas é importante pois implica que essas NEs deverão passar
por análise manual. Tomando como exemplo as probabilidades de usuário, e usando como
critério de seleção a probabilidade mínima do período de treinamento, 40,64% das NEs
seriam selecionadas para análise, o que constitui um número extremamente alto para permitir
uma análise mais detalhada. Comparando com os dados do órgão e da Administração Pública,
percebe-se que nesses modelos existem poucas NEs em 2006 com probabilidade baixa, 4,62%
e 0,92% respectivamente, considerando o critério da probabilidade mínima do período de
treinamento.
O grande número de NEs com probabilidade zero encontradas para favorecidos e
usuários, bem como algumas NEs com probabilidades altas, ocorre porque as matrizes de
2005, para usuários e favorecidos, não caracterizam adequadamente o comportamento dessas
entidades, em função provavelmente dos baixos suportes encontrados para a montagem das
- 207 -
matrizes, ou seja, pequeno número de NEs usadas na definição das mesmas. Suportes baixos
trazem pouca segurança em relação ao modelo criado para a entidade e conseqüentemente
baixa confiabilidade para a probabilidade calculada a partir do modelo. O número reduzido de
NEs disponíveis para favorecidos e usuários já havia sido constatado na Seção 7.2.5 e o
conseqüente impacto no modelo criado.
Para ratificar essa conclusão, a Tabela 8-3 apresenta novamente o número de NEs
emitidas em 2006 com probabilidade menor ou igual ao mínimo de 2005, só que considerando
apenas as entidades com suporte igual ou superior a 100, ou seja, desprezando os resultados
criados com modelos pouco confiáveis. Observa-se uma redução significativa no número de
ocorrências com valor zero, ou seja, indica que os modelos criados passaram a representar
corretamente o comportamento das entidades.
Tabela 8-3: Repetição dos cálculos da Tabela 8-2 considerando apenas as entidades com suporte igual ousuperior a 100. Não foram apresentadas as probabilidades para a Administração Pública e para o órgãouma vez que seu suporte é fixo e superior a 100, ou seja, os dados são idênticos aos da tabela citada
EntidadeProbabilidade
Máxima em 2005Probabilidade
Mínima em 2005#NEs em 2006 com Prob. <= Prob.
Mínima de 2005
Favorecido 0,80 0,0008 70 (1,75%), 70 com probabilidade 0
Usuário 0,32 0,0052 173 (4,32%), 173 com probabilidade 0
UG 0,30 0,0014 298 (7,44%), 265 com probabilidade 0
A redução do número de NEs com probabilidade baixa é relevante em função da
posterior análise manual pela qual essas notas devem passar. No caso da probabilidade de
usuário, houve uma redução de 40,64% para 4,32% no número de NEs selecionadas para
análise, tornando factível a verificação manual. Vale lembrar que esse percentual de seleção
fica ainda mais reduzido se consideradas simultaneamente as cinco probabilidades, o que
efetivamente é realizado no componente de detecção.
- 208 -
Resta sem definição o número mínimo de NEs necessárias para a criação de um modelo
confiável. A definição correta desse valor impacta tanto na confiabilidade do resultado como
no número de NEs selecionadas em função da baixa probabilidade. A Tabela 8-4 apresenta o
número de NEs por entidade, referentes às notas emitidas pelo TCU em 2005 e 2006, cujo
cálculo de probabilidade pode ser considerado, tomando por base um suporte mínimo de 100
NEs para que fosse considerado seguro sua utilização. Pelos dados da tabela observa-se que a
maioria das probabilidades de favorecidos e usuários seria descartada pelo componente de
detecção, em função do baixo suporte dessas entidades.
Tabela 8-4: Notas de empenho para as quais as probabilidades das entidades foram analisadas, tomandopor base o suporte mínimo de 100. Para exemplificar, das 3.580 NEs analisadas em 2005, somente 774tiveram a probabilidade calculada para o favorecido referenciado na nota. Nas demais notas, osfavorecidos referenciados não emitiram mais de 100 NEs, tornando não confiável o modelo e ocorrespondente cálculo de probabilidade.
2005 2006
Total de NEs 3.580 4.008
NEs Administração Pública 3.580 (100%) 4.008 (100%)
NEs Favorecido 774 (21,62%) 862 (21,51%)
NEs Usuário 1.159 (32,37%) 842 (21,01%)
NEs UG 2.391 (66,79%) 2.647 (66,04%)
NEs Órgão 3.580 (100%) 4008 (100%)
8.2.5 Definição mensal das matrizes de probabilidade
As matrizes de probabilidade usadas até agora foram construídas utilizando todas as
NEs emitidas num ano, sem levar em consideração o mês de emissão. Considerou-se portanto
que as funções de distribuição de probabilidade não sofrem mudanças significativas ao longo
- 209 -
do ano, podendo-se utilizar uma amostra anual de NEs para sua estimação. Tal hipótese é
cabível para a grande maioria das entidades estudadas no Capítulo 7.
Para algumas entidades, as variações mensais são insignificantes para o cálculo da
probabilidade, podendo-se descartar o atributo "mês de emissão". Para outras entidades, só é
relevante considerar as variações em alguns poucos meses, normalmente janeiro, fevereiro e
dezembro, tendo os demais meses modelo de comportamento semelhante, como apresentado
no Capítulo 7.
Para entidades com grandes variações de comportamento mensal ou para aquelas que
apresentam comportamento atípico em determinados meses, as funções de distribuição, e
conseqüentemente as matrizes de probabilidade, podem ser criadas de forma independente
para cada mês, ou englobando as NEs emitidas dentro de um conjunto de meses com modelo
semelhante. Ao invés de construir um único modelo anual de comportamento para a entidade,
seriam construídos até 12 modelos de comportamento ou 12 funções de distribuição mensais.
Essas entidades, com grandes variações anuais de comportamento, são minoria na
administração, conforme o estudo realizado no Capítulo 7.
A Figura 8-6 apresenta na parte esquerda a análise das NEs emitidas pelo TCU em 2005
sem considerar a variação mensal (uma única matriz anual). Na parte direita tem-se a mesma
análise considerando uma matriz por mês. Observa-se no caso da utilização de matrizes
mensais um pequeno aumento das probabilidades de ocorrência, tendo em vista a maior
precisão do modelo criado.
- 210 -
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.20
5
10
15
Probabilidade
% N
Es
Histograma de Probabilidade Órgão - Ano 2005
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.20
5
10
15
Probabilidade
% N
Es
Histograma de Probabilidade Mensal Órgão - Ano 2005
Figura 8-6: Histogramas de probabilidade para notas de empenho emitidas pelo TCU em 2005. Ohistograma do lado esquerdo não leva em consideração as variações mensais. O histograma do lado direitofoi calculado tendo como base probabilidades emitidas por matrizes criadas especificamente para cadamês do ano
Vale lembrar que a segurança na estimativa da probabilidade está relacionada com o
número de NEs (suporte) levadas em conta no cálculo das freqüências de ocorrência. Com a
utilização de uma matriz por mês, diminui o número de NEs disponíveis e por conseguinte a
confiabilidade do resultado. O procedimento de segmentação das matrizes por mês só faz
sentido quando ficar demonstrado haver variações significativas ao longo do ano, que
justifiquem a análise em separado. Tais variações são perceptíveis através das análises
apresentadas no Capítulo 7.
8.3 MODELO DA EMISSÃO DE NOTAS DE EMPENHO POR REDE
NEURAL
A Figura 8-7 apresenta esquematicamente o processo de detecção por mineração de
dados, ressaltando a contribuição da seção atual, ou seja, a modelagem do comportamento da
Administração Pública na emissão de empenhos via redes neurais.
- 211 -
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
Despesa
Analista
Modelo Probabilístico
Modelo por RedesNeurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras Fuzzy
Detecção de Anomaliaspor Redes Neurais
Figura 8-7: Processo completo para detecção de anomalia. A seção atual apresenta a criação do modelo deemissão de notas por rede neural
Para a criação do segundo modelo de comportamento foram treinadas redes neurais do
tipo Backpropagation, já detalhadas na Seção 4.4. Cada neurônio da camada de entrada
recebeu três atributos: ML, ND e CV. O neurônio da camada de saída informa se a
combinação de entrada é normal ou anômala para uma entidade específica. Esse último
neurônio tem sua saída variando no intervalo [0 1], dependendo se a NE for considerada
normal (saída próxima de 1) ou considerada anômala (saída próxima de 0). Cada entidade
(órgãos, UGs, usuários, favorecidos e Administração Pública) deve ter uma rede específica
treinada para reconhecer suas NEs, ou seja, representar seu modelo de comportamento na
emissão de notas de empenho. Para o detalhamento do treinamento das redes usadas bem
como de sua arquitetura, consultar o Apêndice E.
Fazendo um paralelo com a Seção 8.2, pode-se considerar que as redes neurais são as
correspondentes das matrizes de probabilidade. As entradas, tanto para utilização das matrizes
como das redes, são as mesmas, ou seja, os valores dos atributos da NE. Da mesma forma, a
saída da matriz e da rede tem significado semelhante, qual seja, a possibilidade da nota
pertencer ou não à entidade (ser normal ou anômala para a entidade). No caso da matriz, a
possibilidade é expressa pela probabilidade da combinação de valores pertencer ao modelo
criado. No caso da rede, a possibilidade é expressa pelo grau de confiança da rede no fato da
combinação pertencer à entidade. Apesar de ambos os valores variarem de zero a um, não
- 212 -
devem ser tratados da mesma forma pois a saída da rede não representa efetivamente uma
probabilidade de ocorrência da combinação dos atributos de entrada. Em ambos os casos,
cada entidade deve possuir uma matriz de probabilidade ou uma rede específica, que
modelem individualmente seu comportamento na emissão de NEs.
8.3.1 Treinamento da rede
Redes do tipo Backpropagation são treinadas através de exemplos pertencentes às várias
categorias que se deseja identificar (treinamento supervisionado). No problema em análise,
deveriam ser fornecidos exemplos de NEs consideradas normais para a entidade e NEs
consideradas anômalas. Dessa forma a rede aprenderia a diferenciar NEs pertencentes às duas
categorias. O problema para a realização desse tipo de treinamento é dispor, para cada
entidade, de um número suficiente de NEs classificadas como anômalas e normais, de forma a
permitir o treinamento da rede. Isso implicaria em fazer uma filtragem manual de NEs,
partindo do princípio de que todas as entidades tivessem emitido NEs anômalas e normais em
quantidade suficiente para permitir o treinamento de suas redes. Essa tarefa foi impraticável
durante o período de realização da Tese, primeiro por não existirem tantas NEs anômalas por
entidade, segundo porque a filtragem manual das NEs para criar a base de treinamento
tomaria um tempo excessivamente grande. Tal treinamento, com NEs pré-classificadas em
normais e anômalas, pode vir a se tornar possível com a construção de bases de treinamento
apropriadas, o que deve ocorrer com a efetiva utilização do modelo proposto e a marcação
automática de NEs irregulares.
Tendo em vista contornar o problema citado, foram adotadas duas abordagens: a
primeira foi a criação de NEs simuladas classificadas como anômalas, a segunda foi treinar a
rede utilizando a própria matriz de probabilidade. As próximas seções apresentam as duas
propostas e a comparação dos resultados.
- 213 -
Para facilitar a visualização e o entendimento do comportamento da rede nas duas
situações, foram utilizados inicialmente somente dois atributos: modalidade de licitação e
classe de valor. Os dados são referentes às NEs emitidas pelo TCU no ano de 2005,
totalizando 3.580 NEs. A Tabela 8-5 apresenta o número de NEs emitidas por combinação de
valores dos atributos.
A Figura 8-8 representa a proporção de notas em cada uma das 108 combinações
possíveis para os dois atributos usados. O tamanho de cada ponto na figura é proporcional ao
número de NEs na respectiva combinação, ou seja, proporcional à probabilidade de
ocorrência da combinação de atributos numa NE emitida pelo órgão no período considerado.
A figura facilita a visualização dos dados da tabela, ressaltando a distribuição desproporcional
de notas por combinação de atributos.
Tabela 8-5: Número de NEs emitidas pelo TCU no ano de 2005 em cada uma das 108 combinaçõespossíveis de modalidade de licitação e classe de valor
Modalidade de Licitação
1 2 3 4 5 6 7 8 9 10 11 12
1 0 5 1 1 0 99 10 24 24 0 0 1
2 1 41 11 3 0 831 22 145 574 0 0 12
3 0 77 52 5 0 751 122 89 56 0 0 94
4 0 44 81 12 0 72 51 38 0 0 0 88
5 0 0 11 13 0 18 13 23 0 0 0 36
6 0 0 0 6 0 4 0 6 0 0 0 1
7 0 0 0 0 0 0 0 9 0 0 0 0
8 0 0 0 0 0 0 0 3 0 0 0 0
Cla
sse
de V
alor
9 0 0 0 0 0 0 0 0 0 0 0 0
- 214 -
0 1 2 3 4 5 6 7 8 90
2
4
6
8
10
12
Classe de Valor
Mod
alid
ade
de L
icita
ção
Proporção de NEs - TCU - 2005
Figura 8-8: Proporção de NEs emitidas pelo TCU no ano de 2005 em cada uma das 108 possíveiscombinações de classe de valor e natureza da despesa. O tamanho do ponto é proporcional ao número deNEs na respectiva combinação
8.3.2 Treinamento com notas de empenho simuladas
Para contornar o problema da falta de NEs anômalas para treinamento, adotou-se a
estratégia de substituir os exemplos de NEs anômalas por notas cujos atributos ML e CV
tivessem seus valores arbitrados dentro dos respectivos intervalos de variação. Tal proposta
foi apresentada na Seção 6.3.2 e baseia-se no trabalho de Abe, Zadrozny e Langford (2006).
A geração de NEs anômalas foi feita através da criação de um vetor de 108 posições,
onde cada posição representa uma combinação possível de CV e ML, todas as NEs
consideradas anômalas. O vetor de NEs anômalas foi concatenado com o vetor representando
as 3.580 NEs efetivamente emitidas pelo TCU em 2005, todas classificadas como normais.
A geração de NEs anômalas como descrito anteriormente traz um inconveniente: a
produção de NEs classificadas como anômalas cuja combinação de atributos ocorre de fato
- 215 -
para NEs normais da entidade, devendo tal NE ter sido classificada a princípio como normal.
Na simulação de NEs usadas no trabalho, todas as notas produzidas foram classificadas como
anômalas, não se testando o fato da combinação gerada ter sido utilizada por alguma NE
emitida pela entidade. No exemplo proposto, 44 das 108 NEs marcadas como anômalas
possuem combinações de atributos presentes em NEs verdadeiras. Esse procedimento foi
adotado em função de que, numa situação real, seria impraticável verificar para cada entidade
quais combinações, entre as 34.128 possíveis, poderiam ser consideradas normais ou
anômalas. O simples fato da entidade ter emitido uma NE com uma dada combinação de
atributos não implica necessariamente que a combinação deva ser considerada normal, tendo
em vista que a base de treinamento não é filtrada, podendo conter também NEs irregulares.
Por segurança e simplicidade optou-se pela distribuição uniforme das NEs simuladas por todo
o espaço de entrada.
A rede consegue contornar essa ambigüidade, qual seja, a mesma combinação de
atributos ser apresentada hora como normal, hora como anômala, em função do maior número
de exemplos com uma dada combinação, classificados como normais, se comparado com o
número de exemplos classificados como anômalos. Nesse caso a rede considera a combinação
como normal, ignorando o estímulo recebido para classificá-la como anômala, por ser este
último mais fraco que o primeiro. Caso a rede receba mais NEs anômalas simuladas numa
dada combinação que NEs normais, a combinação será classificada como anômala, apesar da
existência de NEs verdadeiras na posição. Essa classificação estará correta uma vez que o
reduzido número de NEs verdadeiras numa combinação é um sinal de anomalia. Percebe-se
pelo exposto a importância do número de NEs simuladas por posição, usadas no treinamento
da rede, como critério de normalidade ou anomalia. Esse fato será constatado claramente nos
próximos exemplos.
- 216 -
A Tabela 8-6 apresenta o resultado da simulação da rede, após o treinamento, em cada
uma das combinações dos atributos. Deve-se observar que a saída da rede representa o grau
de confiança para afirmar se uma dada combinação de atributos pertence ou não ao conjunto
de NEs emitidas pela entidade. Comparando com a Tabela 8-5, conclui-se que a rede indica,
para combinações que aparecem no vetor de treinamento classificadas como normais, grau de
confiança próximo de um, independente do número de NEs que ocuparam a combinação.
A saída da rede para a linha dois, coluna um, onde foi informada no treinamento
simultaneamente a presença de uma NE anômala e de uma NE normal, foi de 0,51 como nível
de confiança para a classificação da combinação. O mesmo ocorre para as demais
combinações com uma única NE normal. Basicamente a rede treinada dessa forma é uma
identificadora de combinações existentes no conjunto de treinamento, sem discernir
claramente variações no grau de confiança para combinações com muitas ou poucas NEs.
Tabela 8-6: Resultado da simulação da rede para todas as combinações dos atributos. Rede comarquitetura [10/logsig;5/logsig;1/logsig] (número de neurônios na camada / função de transferência), 108casos anômalos e 3580 verdadeiros fornecidos para treinamento, com um exemplo anômalo fornecidopara cada combinação
Modalidade de Licitação
1 2 3 4 5 6 7 8 9 10 11 12
1 0,02 0,83 0,50 0,50 0,00 0,99 0,91 0,96 0,96 0,00 0,00 0,50
2 0,51 0,98 0,97 0,75 0,00 1,00 1,00 1,00 1,00 0,00 0,00 0,93
3 0,00 0,98 0,94 0,94 0,94 1,00 1,00 1,00 0,98 0,00 0,00 0,98
4 0,00 0,97 0,99 0,92 0,93 0,98 1,00 0,98 0,00 0,00 0,00 0,98
5 0,00 0,00 0,94 0,99 0,92 0,92 0,93 0,96 0,00 0,00 0,00 0,98
6 0,00 0,00 0,00 0,85 0,07 0,73 0,12 0,86 0,00 0,00 0,00 0,50
7 0,00 0,00 0,00 0,00 0,03 0,00 0,00 0,88 0,00 0,00 0,00 0,00
8 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,76 0,00 0,00 0,00 0,00
Cla
sse
de V
alor
9 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
- 217 -
Outro fator importante é o comportamento da rede para as modalidades de licitação
cinco, dez e onze, para as quais nenhuma NE foi emitida. O resultado da simulação da rede
foi correto para as duas últimas, ou seja, possibilidade zero de ocorrência. Analisando a
modalidade cinco observa-se um resultado inadequado, com probabilidades altas de
ocorrência, apesar de nenhuma NE ter sido emitida com essa modalidade. O motivo provável
para o erro é a presença de grande quantidade de NEs verdadeiras nas modalidades seis e
quatro, que circundam a modalidade cinco. Isso influencia as posições próximas, ou seja, a
rede generaliza o comportamento da entidade para a modalidade de licitação adjacente
àquelas com presença de grande número de NEs. A presença das NEs anômalas na ML cinco
não foi suficiente para mudar o comportamento da rede, provavelmente por estarem em
pequeno número, tendo seu efeito sido suplantado pelo das NEs normais nas MLs adjacentes.
A Figura 8-9 traz a representação dos dados da Tabela 8-6, permitindo a comparação
com a Figura 8-8 (copiada na Figura 8-9). Como citado anteriormente, pode-se observar na
figura que a rede faz pouca distinção entre as combinações de atributos com poucas ou muitas
NEs.
0 1 2 3 4 5 6 7 8 90
2
4
6
8
10
12
Classe de Valor
Mod
alid
ade
de L
icita
ção
Proporção de NEs - TCU - 2005
0 1 2 3 4 5 6 7 8 90
2
4
6
8
10
12
Classe de Valor
Mod
alid
ade
de L
icita
ção
Proporção de NEs - TCU - 2005
Figura 8-9: Resultado apresentado pela rede (lado esquerdo) representando seu grau de confiança paracada combinação. O tamanho dos pontos é proporcional ao grau de confiança. No lado direito a figuraque representa a proporção de NEs reais por combinação. Observa-se que o grau de confiança informadopela rede guarda pouca relação com o número efetivo de NEs presentes numa determinada posição
- 218 -
Uma segunda tentativa de treinamento foi utilizar um número de casos anômalos
semelhante ao de casos normais. Para isso repetiu-se 33 vezes as 108 linhas anômalas,
chegando a 3.564 casos, concatenados com os 3.580 casos reais, totalizando 7.144 instâncias
de treinamento. Treinando a rede com arquitetura igual à anterior obtém-se o resultado da
Tabela 8-7.
Observa-se que cada uma das 108 combinações de atributos recebeu durante o
treinamento 33 casos de anomalia. Analisando a Tabela 8-7 percebe-se que todas as
combinações com número de NEs verdadeiras abaixo de 33 receberam confiança inferior a
0,5. A coluna 12, linha 5, com 36 NEs verdadeiras, recebeu grau 0.52.
Tabela 8-7: Resultado da simulação da rede para todas as combinações dos atributos. Rede comarquitetura [10/logsig; 5/logsig; 1/logsig] (número de neurônios na camada / função de transferência),3564 casos anômalos e 3580 verdadeiros fornecidos para treinamento. 33 exemplos anômalos fornecidosno treinamento para cada combinação
Modalidade de Licitação
1 2 3 4 5 6 7 8 9 10 11 12
1 0,01 0,13 0,04 0,00 0,01 0,75 0,21 0,43 0,42 0,01 0,01 0,02
2 0,01 0,55 0,24 0,08 0,01 0,96 0,41 0,81 0,95 0,01 0,01 0,27
3 0,00 0,70 0,61 0,14 0,00 0,96 0,78 0,73 0,63 0,01 0,01 0,74
4 0,00 0,57 0,71 0,27 0,00 0,68 0,61 0,53 0,01 0,00 0,01 0,73
5 0,00 0,00 0,25 0,28 0,00 0,35 0,28 0,41 0,00 0,00 0,00 0,52
6 0,00 0,00 0,00 0,15 0,01 0,11 0,01 0,00 0,00 0,00 0,00 0,00
7 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00
8 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Cla
sse
de V
alor
9 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nota-se que para as demais combinações houve maior diferenciação no resultado, tendo
a saída da rede variado em função do número de NEs verdadeiras presentes na combinação,
não servindo a mesma simplesmente para indicar combinações usadas ou não pela entidade.
- 219 -
Esse resultado pode ser observado na Figura 8-10, embora ainda distante do resultado
apresentado na Figura 8-8 (copiada na Figura 8-10).
Apesar da diferença apresentada na saída da rede em função do número de NEs
presentes na posição, sua capacidade de diferenciação é baixa, uma vez que combinações com
831 e 751 NEs verdadeiras receberam o mesmo grau (0,96). Ao mesmo tempo, algumas
combinações com uma ou nenhuma NE receberam também o mesmo grau (0,1). A presença
de um maior número de NEs anômalas inibiu significativamente a generalização da rede para
a ML cinco, como constatado na Figura 8-10 e na Tabela 8-7.
0 1 2 3 4 5 6 7 8 90
2
4
6
8
10
12
Classe de Valor
Mod
alid
ade
de L
icita
ção
Proporção de NEs - TCU - 2005
0 1 2 3 4 5 6 7 8 90
2
4
6
8
10
12
Classe de Valor
Mod
alid
ade
de L
icita
ção
Proporção de NEs - TCU - 2005
Figura 8-10: Resultado apresentado pela rede (lado esquerdo) representando seu grau de confiança paracada combinação. O tamanho dos pontos é proporcional ao grau de confiança. No lado direito a figuraque representa as NEs reais. Observa-se que o grau de confiança informado pela rede já apresenta algumarelação com o número efetivo de NEs presentes numa determinada posição. Embora pequena, a distinçãodo número de NEs é melhor que a do resultado apresentado na Figura 8-9
8.3.3 Treinamento com matriz de probabilidade
Uma segunda forma de treinamento da rede é utilizar a própria matriz de probabilidade
como entrada para o treinamento. Nesse caso a rede recebe o valor da probabilidade em cada
uma das combinações de atributos da matriz. Esses valores foram calculados dividindo-se os
elementos da Tabela 8-5 pelo total de notas.
Treinando uma rede com arquitetura idêntica às anteriores obtém-se como resultado da
simulação em cada ponto do espaço de entrada os mesmos valores fornecidos para
- 220 -
treinamento. A rede simplesmente "copia" a matriz de probabilidade, o que aparentemente
parece um excelente resultado. No entanto, a simples cópia da matriz não representa grande
vantagem pois não deixa margem à generalização, que é uma das principais características das
redes neurais.
O treinamento da rede com os dados da matriz traz duas desvantagens. A primeira é a
necessidade de calcular inicialmente a matriz de probabilidade. A segunda, como já citado, é
que o resultado da rede representa simplesmente a cópia de uma informação já conhecida, ou
seja, as probabilidades da matriz. Não se consegue portanto a independência dos modelos,
conforme o objetivo inicial para construção desse componente.
Uma possível vantagem seria a generalização feita pela rede, fato não observado no
exemplo apresentado. Um motivo para a rede ter realizado a cópia dos dados de treinamento
pode ter sido a simplicidade destes últimos em relação à arquitetura adotada para a rede. Com
um espaço de entrada maior ou com arquitetura mais simples provavelmente a rede teria
maior capacidade de generalização. Outra vantagem é a possibilidade de realizar o
treinamento supervisionado sem a necessidade de criar NEs simuladas.
Em função das vantagens e desvantagens observadas nos dois tipos de treinamento,
optou-se pelo primeiro, ou seja, o treinamento utilizando somente NEs anômalas simuladas,
como apresentado na Seção 8.3.2, e não com o uso das probabilidades presentes nas matrizes.
Todos os testes realizados no Capítulo 9 foram feitos com redes treinadas com NEs
simuladas.
8.3.4 Treinamento com três atributos
Nas seções anteriores o treinamento da rede levou em consideração somente dois
atributos: CV e ML. As redes foram treinadas em todos os pontos do espaço de entrada, seja
- 221 -
com a geração de notas anômalas simuladas, seja com o uso de matriz de probabilidade.
Foram fornecidas informações sobre as 108 combinações possíveis dos dois atributos.
Considerando os três atributos (CV, ML e ND), o número de combinações do espaço de
entrada sobe de 108 para 34.128 possibilidades. Se fossem gerados exemplos com anomalia
para cada ponto, o vetor de treinamento teria 37.708 entradas, considerando nesse total as
3.580 NEs reais escolhidas para compor o conjunto de treinamento. Mesmo utilizando esse
número elevado de entradas, só seria possível fornecer um exemplo anômalo para cada ponto,
diferente do exemplo de treinamento da Seção 8.3.2, onde foram usados 33 exemplos
anômalos por ponto.
Em função das restrições impostas pelo tamanho do espaço de entrada, adotou-se a
técnica de cobrir parcialmente as combinações possíveis. Ao invés de fornecer exemplos
anômalos para todos os pontos, foram escolhidos somente alguns pontos do espaço. A
proporção utilizada foi de um para quatro entre NEs verdadeiras e simuladas, como existem
3.580 NEs reais no conjunto de treinamento, foram selecionados (sem repetição) 14.320
pontos do espaço de entrada, proporcionando uma cobertura de 41,96% desse espaço. O
Apêndice E, onde é detalhado o treinamento das redes, traz mais informações sobre o
percentual de cobertura.
A Figura 8-11 apresenta os dados para treinamento da rede, correspondentes às NEs
emitidas pelo TCU em 2005, mais as NEs simuladas. Pontos simples representam NEs
simuladas, pontos grossos (marcados com asterisco) representam NEs verdadeiras.
- 222 -
1 2 3 4 5 6 7 8 90
5
10
15
0
50
100
150
200
250
300
350Matriz de Treinamento NN
CV
ML
ND
Figura 8-11: Matriz de treinamento para a rede neural. Pontos simples representam NEs simuladas,pontos grossos (marcados com asterisco) representam NEs verdadeiras. Pontos marcados com um círculocorrespondem a NEs para as quais a simulação não deu bons resultados.
A Figura 8-12 (lado esquerdo) apresenta o resultado da simulação feita pela rede para as
NEs emitidas em 2005 pelo TCU. O resultado não serve para validar o desempenho da rede
uma vez que essas mesmas NEs foram usadas na fase de treinamento. Na Figura 8-12 (lado
direito) é apresentado o resultado dessa mesma rede classificando as NEs emitidas pelo TCU
em 2006, permitindo dessa forma avaliar sua capacidade de generalização. Pelos histogramas
da figura conclui-se que a rede apresentou boa capacidade de generalização, uma vez que
atribuiu probabilidades altas para as NEs de 2006, algumas das quais possuindo combinações
de valores dos atributos não fornecidos à rede durante seu treinamento. Na Figura 8-13 é
apresentado o resultado da rede para as NEs simuladas utilizadas no treinamento.
- 223 -
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
5
10
15
20
25
Probabilidade
% N
Es
Histograma de Probabilidade por NN - NEs verdadeiras - Ano 2005
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
5
10
15
20
25
Probabilidade
% N
Es
Histograma de Probabilidade por NN - Ano 2006
Figura 8-12: Histogramas de probabilidades calculados pela rede treinada com NEs de 2005 emitidas peloTCU. No lado esquerdo a rede simula as NEs reais de 2005, que foram usadas no treinamento. No ladodireito a rede simula as NEs reais de 2006
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
10
20
30
40
50
60
70
80
Probabilidade
% N
Es
Histograma de Probabilidade por NN - NEs simuladas - Ano 2005
Figura 8-13:Histogramas de probabilidades calculados pela rede treinada com NEs anômalas usadas notreinamento.
Na Figura 8-12, que representa as probabilidades para as NEs verdadeiras, observa-se
que algumas NEs (aproximadamente 8%) receberam probabilidade baixa de ocorrência,
apesar dessas NEs serem de fato normais (ver os pontos com círculos ao redor na Figura
8-11). Esse comportamento da rede deve-se ao fato dessas NEs ocuparem posições na matriz
(combinações ML x ND x CV) com poucas ocorrências de NEs reais. Como NEs simuladas
também ocuparam essas posições, ou posições próximas, a rede recebeu dois estímulos
contraditórios, um no sentido de considerar as combinações como verdadeiras, outro no
sentido inverso. Esses estímulos contraditórios são inerentes à forma de treinamento adotada,
- 224 -
como explicado na Seção 8.3.1. No caso de posições ocupadas por NEs verdadeiras, os
estímulos corretos deveriam superar os estímulos errados, em função do número de exemplos
corretos ser superior ao de errados. Nos pontos marcados como de baixa probabilidade na
Figura 8-11, o reforço errado superou o reforço correto, fazendo com que a rede classificasse
as NEs como anômalas. Tal classificação, como já explicado, não representa necessariamente
um equívoco. Sendo posições com poucas NEs emitidas, faz sentido a rede tê-las classificado
como anômalas.
Para exemplificar, das NEs verdadeiras emitidas em 2005, o valor mais baixo de
probabilidade de ocorrência produzido pela rede foi para a combinação (CV=4, ML=8,
ND=41). Essa combinação de atributos só ocorre duas vezes entre as NEs reais. Observando a
Figura 8-11, nota-se que essa posição possui baixa densidade de NEs verdadeiras ao seu
redor. Ao mesmo tempo a posição é cercada de pontos com NEs anômalas simuladas. Nessa
situação, a rede generalizou o comportamento dos pontos ao redor da posição (CV=4, ML=8,
ND=41), considerando-o anômalo, apesar da presença das NEs verdadeiras na posição.
De forma análoga, na Figura 8-13 observa-se que 1,15% das NEs simuladas foram
classificadas pela rede como tendo probabilidade elevada (acima de 0,9). Essas NEs
correspondem a posições que têm próximas de si posições ocupadas por grande número de
NEs verdadeiras. Nesses casos, apesar da rede ter recebido um estímulo no sentido de
classificar as posições como anômalas, o número de estímulos no sentido contrário foi
suficiente para que a rede classificasse as posições como normais. Esse comportamento
também não pode ser considerado como um erro da rede, tendo a mesma procurado realizar
uma generalização válida.
Exemplificando a situação anterior, das NEs simuladas, a que recebeu maior
probabilidade foi a combinação (CV=3, ML=12, ND=150). Entre as NEs originais, nenhuma
- 225 -
possui a combinação anterior, no entanto 44 têm a combinação (CV=3, ML=12, ND=151) e
oito têm a combinação (CV=3, ML=12, ND=149). Assim sendo, a rede generalizou para o
ponto (CV=3, ML=12, ND=150) o comportamento dos pontos próximos, apesar da presença
da NE anômala na posição.
8.3.5 Observação quanto ao número de notas usadas no treinamento da rede
Da mesma forma que discutido na Seção 8.2.2.2 para a construção dos modelos de
comportamento baseados em matrizes de probabilidade, o treinamento das redes neurais é
afetado pelo número de exemplos disponíveis. Esses exemplos, no caso do treinamento com
NEs simuladas, são formados parte pelas notas emitidas pelo órgão, parte pelas notas
simuladas. Estas últimas evidentemente não têm limitação de quantidade, podendo-se criá-las
na medida da necessidade. Quanto às primeiras, dependem do número de notas efetivamente
criadas pela entidade durante o período de treinamento.
Para exemplificar o problema, segundo informações da Seção 7.2, menos de 40% dos
usuários e principalmente menos de 1% dos favorecidos produziram mais de 100 notas
durante um ano. Embora não exista uma definição precisa sobre o número mínimo de casos
necessários para treinamento dos modelos, entidades com menos de 100 notas emitidas não
tiveram suas redes treinadas. Como já discutido na Seção 7.2.5, o número mínimo de
exemplos necessários pode variar de entidade para entidade, dependendo do quão homogêneo
é seu comportamento na execução da despesa. Esse tema, definição do número mínimo de
casos por entidade, não será abordado no escopo da Tese, tendo sido deixado como sugestão
para trabalhos futuros.
- 226 -
8.4 COMPARAÇÃO DOS MODELOS POR MATRIZ DE
PROBABILIDADE E REDES NEURAIS
Nesta seção serão comparados os resultados fornecidos pelos modelos de quatro
entidades, implementados por matrizes e por redes neurais, para um conjunto de 1.273 NEs
emitidas em 2006. As entidades cujos modelos foram usados são: a Administração Pública, o
TCU, a UG-Sede e a UG-ISC. A comparação é meramente visual, abordando duas diferenças
básicas de ambos os modelos. Uma comparação numérica será feita no Capítulo 9, após a
apresentação dos mecanismos de detecção.
A Figura 8-14 apresenta o cálculo de probabilidade para as 960 NEs emitidas pela UG-
Sede em 2006. Do lado esquerdo estão as probabilidades calculadas por matrizes, do lado
direito estão as probabilidades calculadas por redes neurais. De forma análoga a Figura 8-15
apresenta os cálculos para as 313 NEs emitidas pela UG-ISC. Enquanto as probabilidades
calculadas por matrizes são em geral baixas, os resultados para redes neurais aproximam-se
do valor "um". As matrizes apresentam uma probabilidade de ocorrência para a NE. Já a rede
neural foi treinada para dar como resultado sua confiança no fato da NE ter sido emitida ou
não pela entidade para a qual foi treinada. A rede não "aprendeu" a freqüência das
combinações dos atributos, apenas sua presença ou não durante o treinamento.
Uma segunda diferença entre as duas técnicas diz respeito ao resultado fornecido para
combinações de valores de atributos que, durante o treinamento, não receberam nenhuma NE
verdadeira. Usando matrizes de probabilidade, o resultado para esses pontos será sempre
probabilidade igual a zero. Com redes neurais, o resultado pode variar em função da presença
ou não de NEs verdadeiras em combinações próximas. Pode também ser afetado pela
presença ou não de NEs simuladas no ponto em análise e pela quantidade dessas NEs. Esse
resultado é inerente à capacidade de generalização das redes.
- 227 -
0 200 400 600 800 10000
0.02
0.04
0.06
0.08
NE
Pro
b M
atriz
Adm
0 200 400 600 800 10000
0.2
0.4
0.6
0.8
1
NE
Pro
b R
ede
Adm
0 200 400 600 800 10000
0.05
0.1
0.15
0.2
NE
Pro
b M
atriz
Órg
ão
0 200 400 600 800 10000
0.2
0.4
0.6
0.8
1
NE
Pro
b R
ede
Órg
ão
0 200 400 600 800 10000
0.02
0.04
0.06
0.08
0.1
NE
Pro
b M
atriz
UG
1
0 200 400 600 800 10000
0.2
0.4
0.6
0.8
1
NE
Pro
b R
ede
UG
1
Figura 8-14: Probabilidades calculadas por matriz (esquerda) e rede neural (direita) para as NEs emitidaspela UG-Sede em 2006
0 50 100 150 200 250 300 3500
0.02
0.04
0.06
0.08
NE
Pro
b M
atriz
Adm
0 50 100 150 200 250 300 3500
0.2
0.4
0.6
0.8
1
NE
Pro
b R
ede
Adm
0 50 100 150 200 250 300 3500
0.05
0.1
0.15
0.2
NE
Pro
b M
atriz
Órg
ão
0 50 100 150 200 250 300 3500
0.2
0.4
0.6
0.8
1
NE
Pro
b R
ede
Órg
ão
0 50 100 150 200 250 300 3500
0.05
0.1
0.15
0.2
0.25
NE
Pro
b M
atriz
UG
2
0 50 100 150 200 250 300 3500
0.2
0.4
0.6
0.8
1
NE
Pro
b R
ede
UG
2
Figura 8-15: Probabilidades calculadas por matriz (esquerda) e rede neural (direita) para as NEs emitidaspela UG-ISC em 2006
- 228 -
No problema em questão nem sempre a generalização é bem vinda. Como observado na
Seção 7.4.1, ao longo dos anos ocorreu aumento de NEs em classes intermediárias de valor.
Assim sendo, a possibilidade da rede generalizar sua previsão para classes de valor ainda não
ocupadas durante o treinamento é de grande interesse. Já para o atributo modalidade de
licitação, o fato de haver NEs em determinada modalidade não significa que seja correto
generalizar esse fato para modalidades vizinhas. Um exemplo é a utilização das modalidades
quatro e seis e a não utilização da modalidade cinco. Caso a rede viesse a considerar correta
uma NE emitida na modalidade cinco estaria cometendo um grave erro pois essa modalidade
não é utilizada.
8.5 ATUALIZAÇÃO DOS MODELOS
O modelo de emissão de NEs pelas entidades estudadas neste trabalho sofre variação ao
longo do tempo. Como apresentado na Seção 7.4.2, a implantação do pregão eletrônico
alterou a distribuição de NEs por modalidade de licitação. O efeito da inflação, como
apresentado na Seção 7.4.1, afetou a distribuição por classe de valor. O uso de novas NDs,
como apresentado na Seção 7.4.3, afetou a distribuição de NEs por natureza da despesa.
Todas essas modificações impactam a distribuição de probabilidades. A utilização de modelos
antigos na classificação de novas NEs pode acarretar a indicação equivocada de anomalias.
Dessa forma, é necessária a implementação de mecanismos de atualização, tanto para as
matrizes de probabilidade como para as redes neurais.
Um mecanismo possível para a atualização das matrizes é, mensalmente, subtrair as
NEs emitidas no mês correspondente do ano anterior, e incluir as NEs emitidas no mês
correspondente do ano corrente. Em seguida seriam recalculadas as probabilidades referentes
a cada combinação de valores dos atributos.
- 229 -
Outra possibilidade para manter os resultados atualizados é utilizar matrizes construídas
considerando somente as NEs emitidas no último mês. Com isso o modelo criado refletiria o
comportamento mais atualizado das entidades. Essa proposta enfrenta restrições em função do
apresentado na Seção 7.4.8. Entre os meses do ano existem diferenças de comportamento
significativas. Uma matriz treinada no mês de fevereiro não é necessariamente melhor na
avaliação das NEs de março do que uma matriz montada com as NEs dos 12 meses anteriores.
Em função das particularidades de fevereiro, seu desempenho seria provavelmente pior que o
do modelo treinado nos 12 meses precedentes.
Uma proposta intermediária seria usar no modelo as NEs emitidas nos últimos 12
meses, atribuindo peso maior para as NEs mais recentes. Poderia ser criado um fator de
decaimento, linear ou exponencial, que privilegiasse no treinamento as NEs mais recentes.
Novamente poderiam ocorrer problemas logo após os meses atípicos (janeiro, fevereiro e
dezembro). Em função do comportamento diferenciado verificado nesses meses, aplicar um
peso maior às NEs emitidas nesse período tenderia a levar o modelo a assumir esse
comportamento, principalmente no período imediatamente subseqüente. O julgamento das
NEs emitidas em março poderia gerar um grande número de classificações incorretas, até que
o modelo voltasse ao comportamento normal verificado nos demais meses do ano.
Quando são utilizadas matrizes mensais independentes, como exposto na Seção 8.2.5, o
problema da atualização fica ainda mais crônico. Nesse caso, uma matriz treinada 12 meses
atrás estaria sendo usada para validar as NEs do mês corrente. Essa matriz não teria
incorporado as modificações ocorridas nos últimos 11 meses. Esse problema é o oposto do
causado pelo uso somente das NEs emitidas no mês imediatamente anterior. Em ambos os
casos verificam-se distorções na classificação.
- 230 -
A atualização das redes neurais poderia ser feita de forma semelhante ao sugerido para
matrizes, ou seja, a cada novo mês as redes sofreriam um novo treinamento, considerando
somente as NEs emitidas dentro daquele mês ou considerando de forma ponderada as NEs
emitidas nos 12 meses anteriores.
Como descrito no Capítulo 6, embora no modelo de detecção proposto na Tese conste a
atualização dos modelos, não faz parte do escopo deste trabalho o estudo detalhado desses
mecanismos. As propostas apresentadas de atualização não foram testadas, ficam apenas
como sugestões para trabalhos futuros. Os testes do piloto implementado foram realizados
considerando modelos treinados durante o ano de 2005 aplicados às NEs emitidas durante o
ano de 2006, sem nenhum tipo de atualização.
O Apêndice D traz um exemplo prático da análise de um NE classificada como anômala
e o impacto negativo da não atualização dos modelos de comportamento, provocando a
classificação equivocada da nota.
- 231 -
9 DETECÇÃO DE ANOMALIAS NA EMISSÃODE NOTAS DE EMPENHO
9.1 INTRODUÇÃO
O objetivo do capítulo é definir um conjunto de procedimentos que permitam
identificar, de forma automática, notas de empenho (NEs) consideradas anômalas. No escopo
deste trabalho, uma NE anômala é definida como uma nota de empenho cuja combinação de
valores dos atributos modalidade de licitação (ML), natureza da despesa (ND) e classe de
valor (CV), para uma ou mais entidades envolvidas na emissão, tem probabilidade de
ocorrência inferior a determinado parâmetro selecionado pelo analista.
Uma NE pode ser considerada anômala segundo o modelo de comportamento de uma
das entidades envolvidas na sua emissão (favorecido, usuário, órgão e UG) sem no entanto ser
classificada pelo sistema como anômala. Para tanto é necessário que, após a ponderação das
probabilidades para cada entidade envolvida, o resultado final supere o valor estabelecido
pelo analista.
A anomalia não é necessariamente uma indicação de irregularidade, significa apenas
que são NEs cuja combinação de valores dos atributos é pouco usual para as entidades
envolvidas, considerando como parâmetro de normalidade o período de treinamento, sendo
recomendado que passem posteriormente por uma verificação manual. Os procedimentos
matemáticos aqui apresentados não se propõem a demonstrar categoricamente a presença de
irregularidades em NEs, têm o objetivo de servir como filtro, diminuindo significativamente o
número de notas a serem analisadas manualmente num procedimento de auditoria.
Os procedimentos definidos neste capítulo irão combinar o conjunto de probabilidades
informadas pelos modelos do Capítulo 8 (implementados por matrizes de probabilidade e
redes neurais), de forma a obter a classificação final da NE como normal ou anômala. A
- 232 -
primeira implementação, apresentada na Seção 9.2, foi feita por regras de ponderação de
probabilidades, a serem montadas manualmente pelo analista. Para facilitar a criação das
regras, é sugerido o uso de sistemas especialistas nebulosos, apresentados na Seção 9.2.4. A
segunda implementação foi realizada com redes neurais que, uma vez treinadas, definem
automaticamente os valores de ponderação, sendo necessário informar apenas um valor de
corte, usado como limite para a classificar as NEs. A implementação por redes é apresentada
na Seção 9.3.
A Figura 9-1 apresenta a contribuição do capítulo no processo de detecção de indícios
de irregularidades. Dentro do procedimento de mineração de dados, o capítulo enquadra-se na
criação dos mecanismos para detecção de anomalias.
Mineração de DadosInformação não trivial, sem regras claras
Sistema EspecialistaRegras extraídas da legislação e do conhecimento de especialistas
SiafiExecução da
Despesa
Analista
Modelo deComportamentoModelo de
ComportamentoMecanismo para
Detecção deAnomalias
Modelo deComportamentoModelo de
ComportamentoModelo deComportamento
Atualização das Regras
Atualização dos Modelos
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE/NL/OB
NE/NL/OB
Figura 9-1: Contribuição do capítulo atual no processo de detecção de indícios de irregularidades,correspondendo à localização de notas com desvios de comportamento
9.2 DETECÇÃO DE ANOMALIAS POR REGRAS
A Figura 9-2 posiciona a seção atual dentro do mecanismo global de detecção. Trata-se
da ponderação das probabilidades fornecidas pelos modelos matemáticos de comportamento
através de regras estabelecidas pelo especialista em controle externo.
- 233 -
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
DespesaAnalista
Modelo Probabilístico
Modelo por Redes Neurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras
Detecção de Anomaliaspor Redes Neurais
Figura 9-2: Processo completo para detecção de anomalia. A seção atual apresenta a criação das regras deponderação de probabilidade
Obtido o vetor de probabilidades individuais para cada entidade referenciada numa NE,
seja pelos modelos construídos por matrizes ou por redes neurais, cabe agora fazer a
combinação desses valores de forma a obter um resultado único de saída, qual seja, informar
se a NE é normal ou anômala.
A combinação das probabilidades individuais para a obtenção do resultado final não é
tarefa simples, tendo em vista a variedade de parâmetros e combinações possíveis. Como
definido no Capítulo 6, o componente de detecção tem a sua disposição o vetor de
probabilidades, o vetor de suportes e a identificação das entidades citadas na nota em análise.
A seguir serão apresentados alguns fatores a serem considerados na montagem das regras.
Inicialmente pode-se levar em conta separadamente níveis mínimos de probabilidade
para cada uma das entidades. Por exemplo, NEs que tenham probabilidade menor que 0,01
para o órgão citado na nota e probabilidade menor que 0,005 para a Administração Pública
poderiam ser selecionadas para análise.
Leve-se em conta porém as baixas probabilidades fornecidas por algumas entidades,
como apresentado na Seção 8.2.2.1, que provocariam, se usadas independentemente, a seleção
de um grande número de NEs para análise. A combinação de várias probabilidades diminui a
chance de seleção da NE pois implica na ocorrência simultânea de probabilidades baixas para
cinco entidades.
- 234 -
Uma segunda consideração sobre a montagem das regras diz respeito ao grau de
importância atribuído a cada probabilidade. A informação vinda da UG é mais específica do
que a informação de probabilidade do órgão, merecendo portanto maior peso. Da mesma
forma pode-se considerar a informação do órgão tendo maior importância em relação à da
Administração Pública. Seguindo o raciocínio exposto, chegar-se-ia à conclusão de que é
necessário trabalhar somente com a probabilidade mais específica, no caso a probabilidade
calculada para a UG. Considerando no entanto a situação onde uma UG emitisse
sistematicamente NEs com problemas (possíveis irregularidades), seu comportamento seria
assimilado pelo modelo de comportamento (matriz de probabilidade ou rede neural) e
nenhuma NE emitida seria considerada anômala, segundo o modelo "corrompido". Avaliando
essas mesmas NEs em relação ao modelo do órgão, possivelmente seriam identificadas como
anômalas, a não ser que o órgão como um todo também sofresse do mesmo tipo de
irregularidade.
Deve ser lembrado que, para o treinamento e posteriores atualizações, não existe uma
base de notas com garantia de inexistência de irregularidades. A possível presença de notas
irregulares pode "contaminar" o modelo da entidade, sendo aconselhável a realização de
validações cruzadas. Pelo exposto é interessante utilizar não só informações mais específicas
(da UG) como também as mais genéricas (do órgão e da Administração), ponderando porém o
peso de cada uma, dando mais importância para a primeira do que para as últimas. As
probabilidades referentes ao usuário e ao favorecido são independentes das anteriores e
devem ser usadas de qualquer forma.
Outro fator relevante a ser considerado para a criação das regras é o suporte, ou seja, o
número de NEs utilizadas para o treinamento do modelo (matriz ou rede) da entidade. Pelo
exposto na Seção 8.2, favorecidos e usuários possuem normalmente suporte baixo, devendo
- 235 -
em muitos casos ser ignorada a probabilidade fornecida pelos modelos dessas entidades. Cabe
ao analista definir o suporte mínimo requerido para que o sistema leve em consideração ou
não a probabilidade de uma entidade. Esse suporte mínimo pode fazer parte da regra de
seleção.
Por fim pode-se levar em consideração na construção das regras a relação entre as
probabilidades das entidades ou a relação com probabilidades mínimas do período de
treinamento. Como exemplo do primeiro caso pode-se selecionar NEs com probabilidade de
UG inferior à metade da probabilidade do órgão. No segundo caso, pode-se selecionar NEs
com probabilidades iguais ou inferiores ao mínimo do período de treinamento.
Tendo em vista as possibilidades apresentadas, podem ser criadas as mais variadas
regras de detecção. A regra criada influencia o número de NEs consideradas anômalas. Com
regras muito restritivas, o número de NEs selecionadas é grande, inviabilizando o trabalho de
pós-processamento. Com regras menos sensíveis, diminui-se o número de NEs selecionadas,
com o risco de não serem marcadas NEs possivelmente irregulares. Assim sendo deve-se
ponderar os parâmetros usados nas regras em relação ao número de documentos selecionados.
As regras não precisam ser únicas para todas as entidades, sendo aconselhável haver
variações para atender particularidades em cada uma delas. Poder-se-ia por exemplo criar
regras específicas por órgão ou UG. Vale também destacar que devem ser montadas regras
diferentes para receber as probabilidades fornecidas por matrizes e redes, se considerados os
valores brutos de saída dos modelos de comportamento. Os valores gerados pelos dois
modelos têm significado diferente, não sendo comparáveis em termos absolutos. A Seção 8.4
traz mais informações sobre a comparação dos valores dos dois modelos.
Não é objetivo deste trabalho criar uma relação fechada de regras, apenas propor o
mecanismo genérico e citar possibilidades de combinação dos parâmetros disponíveis. Cabe
- 236 -
aos analistas, usuários do sistema, criar tais regras, pois sua definição depende
fundamentalmente do conhecimento do domínio.
9.2.1 Aplicação de regras à saída do modelo de matrizes
Inicialmente serão montadas regras para receber os valores fornecidos pelas matrizes de
probabilidade, como indicado na Figura 9-3.
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
DespesaAnalista
Modelo Probabilístico
Modelo por Redes Neurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras
Detecção de Anomaliaspor Redes Neurais
Figura 9-3: Regras aplicadas à ponderação de probabilidades oriundas do modelo de matrizes
Serão apresentadas, de forma exemplificativa, apenas duas regras e sua aplicação a um
conjunto de notas de forma a realizar a classificação das mesmas.
As regras sugeridas consideraram anômalas as NEs cujas probabilidades fornecidas por
matrizes para as NEs testadas (PMentidade(NE)) sejam menores ou iguais ao mínimo do período
de treinamento (min(PMentidade)). Levam em conta somente as probabilidades para a
Administração Pública, órgão e UG, considerando o suporte mínimo para as entidades
(suporte(entidade)) de 100 NEs emitidas no período de treinamento. Na primeira regra foi
utilizado o conectivo "E" para determinar a seleção, na segunda foi usado o conectivo "OU".
Resumindo têm-se as seguintes regras:
SE PMadm (NE) <= min(PMadm) E PMórgão (NE) <= min(PMórgão) E PMug (NE) <= min(PMug) E
suporte(órgão(NE)) >= 100 E suporte(ug(NE)) >= 100
ENTÃO NE Anômala; (9-1)
- 237 -
SE (PMadm (NE) <= min(PMadm) OU PMórgão (NE) <= min(PMórgão) OU PMug (NE) <= min(PMug)) E
(suporte(órgão(NE)) >= 100 E suporte(ug(NE)) >= 100)
ENTÃO NE Anômala; (9-2)
Aplicando a primeira regra às NEs emitidas pela UG-Sede e UG-ISC do TCU em 2006
chega-se a 27 NEs selecionadas para análise de um total de 1.273 notas emitidas, ou seja,
aproximadamente 2% de notas selecionadas como anômalas.
Nas duas regras anteriores foram usados limites de probabilidade relativos (min(PMórgão)),
tomando como base as probabilidades mínimas para cada entidade no período de treinamento
(ano de 2005). Pode-se criar também regras com valores absolutos para o limite de
probabilidade. Para exemplificar foram criadas regras variando a probabilidade mínima de
detecção entre 0,01 e 0,3. As NEs que possuíam probabilidades de órgão, UG e geral
simultaneamente inferiores à probabilidade mínima no intervalo foram selecionadas como
anômalas. A Figura 9-4 apresenta o resultado do teste feito com as NEs da UG-Sede e UG-
ISC do TCU em 2006. Nesse conjunto constam NEs reais e NEs geradas artificialmente, estas
últimas usadas para testar a capacidade de seleção do modelo.
0 0.05 0.1 0.15 0.2 0.25 0.3 0.3598.2
98.4
98.6
98.8
99
99.2
99.4
99.6
99.8NEs simuladas
Probabilidade
%N
Es
0 0.05 0.1 0.15 0.2 0.25 0.3 0.352
3
4
5
6
7
8
9
10NEs verdadeiras
Probabilidade
%N
Es
Figura 9-4: Percentual de NEs simuladas (esquerda) e verdadeiras (direita) classificadas como anômalasem função da variação do parâmetro de detecção
Como esperado, ao elevar-se o valor da probabilidade mínima para detecção, maior é o
número de NEs normais classificadas como anômalas (falsos positivos). Em compensação
- 238 -
maior o número de NEs simuladas corretamente classificadas como anômalas (verdadeiros
positivos). Para exemplificar, adotando a probabilidade mínima no valor de 0,1 seriam
classificadas 4,1% das NEs normais como anômalas e 99,3% das NEs simuladas como
anômalas.
A comparação desses resultados com os apresentados por outros autores fica
comprometida em função da não presença de uma base de teste contendo NEs reais,
classificadas como irregulares e como normais. A geração de NEs simuladas, embora ofereça
uma possibilidade de avaliação do sistema, não representa fielmente o comportamento de
situações verdadeiramente irregulares. Deve-se levar em conta que a detecção de NEs
simuladas é provavelmente mais fácil para o sistema que o seria num caso de irregularidade
real. Leve-se em conta também que, ao classificar algumas NEs verdadeiras como anômalas,
o sistema não está cometendo necessariamente um erro pois sua função, no caso do módulo
baseado em mineração de dados, é detectar situações que fujam ao comportamento usual da
entidade, o que efetivamente ocorreu com as NEs verdadeiras rotuladas pelo sistema como
anômalas.
Considerando todas as observações anteriores, para posicionar os resultados obtidos
frente aos de outros autores, serão usados os dados apresentados por Haft et al. (1998). Em
seu trabalho os autores utilizam três processos de detecção de fraude em telefonia celular (ver
Seção 2.8). Com o uso de redes neurais os autores obtiveram 85% de detecção de casos de
fraude, com misturas gaussianas para estimação de densidade de probabilidade obtiveram
70% e com redes bayesianas obtiveram 75% de detecção. Nas três situações, sem produzir
falsos positivos. Os resultados apresentados nesta seção, no melhor caso quanto a falsos
positivos (3%) consegue 96,4% de detecção.
- 239 -
9.2.2 Aplicação de regras à saída do modelo de redes neurais
Nesta seção serão aplicadas regras de ponderação à saída do modelo criado por redes,
como descrito na Figura 9-5.
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
DespesaAnalista
Modelo Probabilístico
Modelo por RedesNeurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras
Detecção de Anomaliaspor Redes Neurais
Figura 9-5: Regras para ponderar as probabilidades oriundas do modelo de redes neurais
Em relação à ponderação de probabilidade da saída da rede neural, deve-se considerar
que as probabilidades tendem a ser próximas de zero (para NEs classificadas como anômalas)
ou próximas de um (para NEs classificadas como normais). Esse comportamento tem a ver
com a forma de treinamento da rede, explicada na Seção 8.3.2. Sendo assim, poder-se-ia
estabelecer como regra que NEs com probabilidade fornecida pela rede (PRentidade(NE))
inferior a "0,5", simultaneamente ou individualmente para as três entidades, fossem
classificadas como anômalas, considerando o mesmo suporte da regra anterior (no mínimo
100 NEs no conjunto de treinamento da entidade), produzindo as seguintes regras:
SE PRadm (NE) <= 0,5 E PRórgão (NE) <= 0,5 E PRug (NE) <= 0,5 E
suporte(órgão(NE)) >= 100 E suporte(ug(NE)) >= 100
ENTÃO NE Anômala (9-3)
SE (PRadm (NE) <= 0,5 OU PRórgão (NE) <= 0,5 OU PRug (NE) <= 0,5) E
(suporte(órgão(NE)) >= 100 E suporte(ug(NE)) >= 100)
ENTÃO NE Anômala (9-4)
- 240 -
Aplicando a primeira regra às NEs emitidas em 2006 pela UG-Sede e UG-ISC do TCU,
chega-se a 19 NEs selecionadas para análise de um total de 1.273 notas emitidas, ou seja,
aproximadamente 1,5% de notas selecionadas como anômalas.
As 19 NEs selecionadas com base no modelo criado por redes neurais estão entre as 27
NEs selecionadas na Seção 9.2.1, baseado no modelo de matrizes de probabilidade,
demonstrando que ambos os mecanismos foram coerentes na seleção das NEs consideradas
anômalas.
Para visualizar o efeito da variação da probabilidade mínima para detecção (o valor 0,5
usado nas regras anteriores), seu valor foi variado entre 0,01 e 0,3. O resultado do teste
encontra-se na Figura 9-6.
0 0.05 0.1 0.15 0.2 0.25 0.3 0.350
10
20
30
40
50
60
70
80NEs simuladas
Probabilidade
%N
Es
0 0.05 0.1 0.15 0.2 0.25 0.3 0.350
5
10
15NEs verdadeiras
Probabilidade
%N
Es
Figura 9-6: Percentual de NEs simuladas (esquerda) e verdadeiras (direita) classificadas como anômalasem função da variação do parâmetro de detecção
Ao elevar o valor da probabilidade mínima para detecção, maior é o número de falsos
positivos e de verdadeiros positivos. Para exemplificar, adotando a probabilidade mínima no
valor de "0,3", seriam classificadas 14,5% das NEs normais como anômalas e 78% das NEs
anômalas como tal. Vale neste exemplo a mesma observação da seção anterior quanto à
presença de NEs anômalas simuladas misturadas às NEs verdadeiras emitidas pela entidade.
- 241 -
Considerando as mesmas observações apresentadas na seção anterior, pode-se comparar
esses resultados com os de Haft et al. (1998) que, no melhor e pior caso, conseguem
respectivamente 85% e 70% de detecção sem apresentar falsos positivos.
9.2.3 Comparação da aplicação de regras aos dois modelos de comportamento
Com o objetivo de comparar a aplicação de regras aos dois modelos de comportamento,
foram realizados testes com conjuntos padronizados de dados. Em todos os testes, os modelos
foram construídos com base nas NEs emitidas em 2005.
A comparação será feita pela aplicação das regras definidas na Seção 9.2.1 e Seção
9.2.2 às saídas de três matrizes de probabilidade e de três redes neurais, representando os
modelos de comportamento da Administração Pública, do TCU e da UG-ISC.
A Figura 9-7 apresenta esquematicamente o teste realizado.
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
DespesaAnalista
Modelo Probabilístico
Modelo por RedesNeurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras
Detecção de Anomaliaspor Redes Neurais
Figura 9-7: Processo completo para detecção de anomalia. A seção atual apresenta o resultado dacomparação do uso de regras aplicadas às saídas da matriz e rede neural
A Tabela 9-1 traz um resumo da composição, em número de NEs, dos sete grupos a
serem analisados. Em seguida será feita a explicação de cada um dos grupos e a análise dos
resultados.
- 242 -
Tabela 9-1: Composição dos grupos de notas de empenho a serem analisados quanto à combinação dosatributos. Os modelos foram treinados com as notas de 2005. Valores repetidos nos dois anos indicam queas mesmas combinações de atributos aparecem em ambos os conjuntos
NEs emitidas pelaAdministração
NEs emitidas peloTCU
NEs emitidas pelaUG-ISC
Gru
po
2005 2006 2005 2006 2005 2006
Total de NEsno grupo
1 0 0 0 0 0 0 1.000
2 0 323 0 0 0 0 323
3 1.138 1.138 0 0 0 0 1.138
4 31 31 0 31 0 0 31
5 96 96 96 96 0 0 96
6 6 6 6 6 0 6 6
7 23 23 23 23 23 23 23
O primeiro grupo testado foi um conjunto de 1.000 NEs simuladas cuja combinação de
valores dos atributos não ocorreu em nenhuma NE da Administração Pública em 2005 e 2006,
conseqüentemente também não ocorreu no TCU e na UG-ISC. Os resultados estão na Tabela
9-2.
Tabela 9-2: Percentual de notas detectadas como anômalas para o grupo 1. A linha NEs indica, das notasusadas no teste, a quantidade emitida nos anos 2005 e 2006 para as respectivas entidades. Vale lembrarque o treinamento foi feito com as notas de 2005. As três colunas intermediárias (linhas três e quatro)indicam os resultados individuais de cada modelo e o resultado desejado (última linha). A última coluna(linhas três e quatro) apresenta a combinação dos resultados individuais pelo conectivo "E" e "OU"
Grupo 1 Administração Pública TCU UG-ISC Total (E - OU)
NEs 0/2005, 0/2006 0/2005, 0/2006 0/2005, 0/2006 1.000
Matrizes 100% 100% 100% 100% - 100%
Redes 96,8% 99% 99,8% 96,1% - 100%
Desejado 100% 100% 100% 100%
- 243 -
Como nenhuma NE do grupo foi usada durante o treinamento, praticamente todas foram
consideradas anômalas. Pelo resultado, ambas as regras apresentaram comportamento
semelhante. O resultado obtido corresponde ao esperado, ou seja, a seleção de todas as NEs
como anômalas.
O segundo grupo testado foi um conjunto de 323 NEs cuja combinação de valores dos
atributos não ocorreu em nenhuma NE da Administração Pública em 2005 e nem no TCU nos
dois anos. Essas combinações ocorreram em outros órgãos da Administração que não o TCU
em 2006. Os resultados estão na Tabela 9-3.
Tabela 9-3: Percentual de notas detectadas como anômalas para o grupo 2. A linha NEs indica, das notasusadas no teste, a quantidade emitida nos anos 2005 e 2006 para as respectivas entidades. Vale lembrarque o treinamento foi feito com as notas de 2005. As três colunas intermediárias (linhas três e quatro)indicam os resultados individuais de cada modelo e o resultado desejado (última linha). A última coluna(linhas três e quatro) apresenta a combinação dos resultados individuais pelo conectivo "E" e "OU"
Grupo 2 Administração Pública TCU UG-ISC Total (E - OU)
NEs 0/2005, 323/2006 0/2005, 0/2006 0/2005, 0/2006 323
Matrizes 100% 100% 100% 100% - 100%
Redes 65% 95,7% 99,7% 64,4% - 100%
Desejado 0% 100% 100% 100%
Como nenhuma NE do grupo foi usada durante o treinamento, todas foram consideradas
anômalas pela regra usando as matrizes. O mesmo ocorre para as redes do TCU e da UG-ISC.
Já a rede neural treinada para reconhecer as NEs da Administração considerou 35% delas
como normais.
O resultado desejado seria que grande parte das notas fosse considerada normal para a
Administração Pública uma vez que essas notas foram realmente emitidas em 2006 e espera-
se que a maioria tenha sido criada de forma legal. Para o TCU e UG-ISC o desejado seria que
todas fossem consideradas anômalas. No caso da Administração, as matrizes apresentaram um
- 244 -
resultado ruim enquanto a rede saiu-se um pouco melhor, embora distante do desejável.
Considerando que as NEs não foram usadas no treinamento da rede, obter um resultado de
35% de aprovação demonstra a capacidade de generalização da rede neural. Os resultados dos
dois modelos para o TCU e UG-ISC são semelhantes e aproximam-se do desejado.
O terceiro grupo testado foi um conjunto de 1.138 NEs cuja combinação de valores dos
atributos ocorreu em NEs da Administração Pública em 2005 e 2006. Essas combinações não
ocorreram no TCU nos dois anos. Os resultados estão na Tabela 9-4.
Tabela 9-4: Percentual de notas detectadas como anômalas para o grupo 3. A linha NEs indica, das notasusadas no teste, a quantidade emitida nos anos 2005 e 2006 para as respectivas entidades. Vale lembrarque o treinamento foi feito com as notas de 2005. As três colunas intermediárias (linhas três e quatro)indicam os resultados individuais de cada modelo e o resultado desejado (última linha). A última coluna(linhas três e quatro) apresenta a combinação dos resultados individuais pelo conectivo "E" e "OU"
Grupo 3 Administração Pública TCU UG-ISC Total (E - OU)
NEs 1.138/2005, 1.138/2006 0/2005, 0/2006 0/2005, 0/2006 1.138
Matrizes 22,8% 100% 100% 22,7% - 100%
Redes 5,4% 80% 94% 5,2% - 95%
Desejado 0% 100% 100% 100%
Deve-se considerar na análise do resultado que as NEs desse grupo foram usadas no
treinamento dos modelos da Administração. Considerando que o modelo baseado em matrizes
seleciona NEs com probabilidades baixas, é explicado o resultado de classificação de 22,76%
das NEs da Administração como anômalas, apesar de terem sido usadas para o treinamento. A
rede por sua vez, por não levar em conta a probabilidade de ocorrência, apresentou resultado
mais próximo do desejável, selecionando apenas 5,36% das NEs da Administração como
anômalas.
- 245 -
Em relação ao TCU e UG-ISC, como as NEs não apareceram no treinamento dessas
entidades, a matriz classificou todas como anômalas. A rede do TCU apresentou um resultado
não muito bom, tendo classificado 20% das NEs como normais.
O quarto grupo testado foi um conjunto de 31 NEs cuja combinação de valores dos
atributos ocorreu em NEs da Administração Pública em 2005 e 2006. Essas combinações não
ocorreram no TCU em 2005 mas ocorreram em 2006. Os resultados estão na Tabela 9-5.
O resultado dos dois modelos treinados para a Administração Pública foi semelhante e
próximo do desejável. O resultado referente ao TCU foi o que apresentou maior diferença.
Como a matriz não foi treinada com as NEs, o resultado, como nos casos anteriores, foi
classificar todas como anômalas. A rede, apesar de não ter sido treinada com as notas, foi
capaz de identificar metade delas como normais.
Tabela 9-5: Percentual de notas detectadas como anômalas para o grupo 4. A linha NEs indica, das notasusadas no teste, a quantidade emitida nos anos 2005 e 2006 para as respectivas entidades. Vale lembrarque o treinamento foi feito com as notas de 2005. As três colunas intermediárias (linhas três e quatro)indicam os resultados individuais de cada modelo e o resultado desejado (última linha). A última coluna(linhas três e quatro) apresenta a combinação dos resultados individuais pelo conectivo "E" e "OU"
Grupo 4 Administração Pública TCU UG-ISC Total (E - OU)
NEs 31/2005, 31/2006 0/2005, 31/2006 0/2005, 0/2006 31
Matrizes 6,5% 100% 100% 6,5% - 100%
Redes 0% 49,4% 87,1% 0% - 87,1%
Desejado 0% 0% 100% 100%
O quinto grupo testado foi um conjunto de 96 NEs cuja combinação de valores dos
atributos ocorreu em NEs da Administração Pública e do TCU em 2005 e 2006. Essas
combinações não ocorreram na UG-ISC nos dois anos. Os resultados estão na Tabela 9-6.
As notas do quinto grupo estavam presentes no treinamento de ambos os modelos para a
Administração e para o TCU. Coincidentemente o resultado dos dois modelos foi idêntico
- 246 -
para as duas entidades citadas. No caso da UG, as NEs não foram usadas no treinamento,
acarretando na classificação da maioria delas como anômalas.
Tabela 9-6: Percentual de notas detectadas como anômalas para o grupo 5. A linha NEs indica, das notasusadas no teste, a quantidade emitida nos anos 2005 e 2006 para as respectivas entidades. Vale lembrarque o treinamento foi feito com as notas de 2005. As três colunas intermediárias (linhas três e quatro)indicam os resultados individuais de cada modelo e o resultado desejado (última linha). A última coluna(linhas três e quatro) apresenta a combinação dos resultados individuais pelo conectivo "E" e "OU"
Grupo 5 Administração Pública TCU UG-ISC Total (E - OU)
NEs 96/2005, 96/2006 96/2005, 96/2006 0/2005, 0/2006 96
Matrizes 0% 17,7% 100% 0% - 100%
Redes 0% 17,7% 87,5% 0% - 87,5%
Desejado 0% 0% 100% 100%
O sexto grupo testado foi um conjunto de 6 NEs cuja combinação de valores dos
atributos ocorreu em NEs da Administração Pública e do TCU em 2005 e 2006. Essas
combinações não ocorreram na UG-ISC em 2005 mas ocorreram em 2006. Os resultados
estão na Tabela 9-7.
Tabela 9-7: Percentual de notas detectadas como anômalas para o grupo 6. A linha NEs indica, das notasusadas no teste, a quantidade emitida nos anos 2005 e 2006 para as respectivas entidades. Vale lembrarque o treinamento foi feito com as notas de 2005. As três colunas intermediárias (linhas três e quatro)indicam os resultados individuais de cada modelo e o resultado desejado (última linha). A última coluna(linhas três e quatro) apresenta a combinação dos resultados individuais pelo conectivo "E" e "OU"
Grupo 6 Administração Pública TCU UG-ISC Total (E - OU)
NEs 6/2005, 6/2006 6/2005, 6/2006 0/2005, 6/2006 6
Matrizes 0% 0% 100% 0% - 100%
Redes 0% 16,7% 33% 0% - 33,4%
Desejado 0% 0% 0% 0%
- 247 -
Como nos casos anteriores, quando as notas aparecem no vetor de treinamento, ambos
os modelos apresentam resultados favoráveis. Quando não aparecem, só as redes são capazes
de fazer alguma generalização.
O sétimo e último grupo testado foi um conjunto de 23 NEs cuja combinação de valores
dos atributos ocorreu em NEs da Administração Pública, do TCU e da UG-ISC em 2005 e
2006. Os resultados estão na Tabela 9-8.
Além das observações já feitas nos casos anteriores, destaca-se a classificação elevada
de NEs anômalas pela rede, apesar das mesmas terem aparecido no vetor de treinamento. Isso
se deveu a generalização feita pela rede. Se em vários dos casos anteriores a generalização foi
um fator positivo, neste último acaba agindo de forma contrária, fazendo com que a rede se
equivocasse na classificação de 17,4% das NEs.
Tabela 9-8: Percentual de notas detectadas como anômalas para o grupo 7. A linha NEs indica, das notasusadas no teste, a quantidade emitida nos anos 2005 e 2006 para as respectivas entidades. Vale lembrarque o treinamento foi feito com as notas de 2005. As três colunas intermediárias (linhas três e quatro)indicam os resultados individuais de cada modelo e o resultado desejado (última linha). A última coluna(linhas três e quatro) apresenta a combinação dos resultados individuais pelo conectivo "E" e "OU"
Grupo 7 Administração Pública TCU UG-ISC Total (E - OU)
NEs 23/2005, 23/2006 23/2005, 23/2006 23/2005, 23/2006 23
Matrizes 0% 4,4% 0% 0% - 4,3%
Redes 0% 4,4% 17,4% 0% - 21,7%
Desejado 0% 0% 0% 0%
9.2.4 Sistemas especialistas nebulosos
Uma dificuldade inerente à montagem de regras é a identificação de valores exatos para
os níveis de probabilidade usados para classificar uma NE como anômala. Para exemplificar,
conforme os dados apresentados na Seção 8.2.4, a probabilidade com valor 0,07 para uma
- 248 -
combinação de atributos seria considerada alta para a Administração Pública no ano de 2005,
tendo em vista ter sido essa a maior probabilidade alcançada entre os elementos da matriz de
probabilidade. Esse mesmo valor de probabilidade seria considerado baixo para as
combinações de atributos das NEs dos favorecidos, uma vez que a maior probabilidade
alcançada no ano de 2005 foi de 0,8.
Existem grandes variações entre probabilidades consideradas baixas, médias e altas para
as cinco entidades cujos modelos foram calculados (Administração, órgãos, UGs, favorecidos
e usuários). Considerando o elevado número de entidades referenciadas nas NEs emitidas
durante um ano (562.060 favorecidos, 20.458 usuários, 392 órgãos, e 13.378 UGs, dados de
2005) é impossível que um analista verifique individualmente quais valores mínimos de
probabilidade seriam adequados para cada uma delas.
É importante que o analista possa montar regras genéricas, possivelmente variáveis por
entidade, sem ter que especificar limites precisos de probabilidade. As regras criadas na seção
anterior seguem essa filosofia quando estabelecem por exemplo "PMadm (NE) <=
min(PMadm)". Nessa regra trabalha-se com valores relativos de probabilidade, comparando a
probabilidade da nota em análise com o mínimo de probabilidade do período de treinamento,
sem considerar valores absolutos.
Outro exemplo de regra genérica, sem considerar valores absolutos de probabilidade,
seria:
SE
(Padm (NE) MÉDIA) E (Pórgão (NE) BAIXA) E (Pug (NE) BAIXA) E
(suporte(órgão(NE)) MÉDIO OU suporte(órgão(NE)) ALTO) E
(suporte(ug(NE)) MÉDIO OU suporte(ug(NE)) ALTO)
ENTÃO Panomalia ALTA (9-5)
- 249 -
Nessa regra o analista não tem que saber os valores exatos de probabilidade
considerados baixos, médios ou altos; deve apenas estabelecer combinações considerando
abstratamente as expressões "baixa", "média" e "alta". A separação em três faixas é
meramente exemplificativa, podendo-se criar um maior número de divisões. Quanto maior o
número de divisões, maior a granularidade da regra e em contrapartida maior a complexidade
da mesma.
Propõe-se neste trabalho a utilização de regras nebulosas, com a delimitação das faixas
de probabilidade (limites dos conjuntos nebulosos) calculada automaticamente e
individualmente para cada entidade pelo sistema. Para exemplificar, considerando as NEs
emitidas pelo TCU em 2005, seriam criados os conjuntos nebulosos apresentados na Figura
9-8.
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Geral - Ano 2005
0
1
1
alta
0,007 0,07
médiabaixa
0,063
Probabilidade Administração
Pertinência
...
...
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Favorecido - Ano 2005
0
1
10,08 0,80,72Probabilidade Favorecido
Pertinência
...
altamédiabaixa...
Figura 9-8: Conjuntos nebulosos criados a partir dos histogramas de probabilidade de cada entidade
- 250 -
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Usuário - Ano 2005
0
1
10,03 0,320,28Probabilidade Usuário
Pertinência
...
altamédiabaixa...
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade UG - Ano 2005
0
1
10,03 0,30,27Probabilidade UG
Pertinência
...
altamédiabaixa...
0 0.05 0.1 0.150
2
4
6
8
10
12
14
16
18
20
Probabilidade
% N
Es
Histograma de Probabilidade Órgão - Ano 2005
0
1
10,01 0,110,1
Probabilidade Órgão
Pertinência
...
altamédiabaixa...
Figura 9-8 (Continuação): Conjuntos nebulosos criados a partir dos histogramas de probabilidade decada entidade
A regra de formação usada na montagem dos conjuntos nebulosos foi a seguinte:
montar o conjunto de probabilidade "média" como um trapézio iniciando na probabilidade
zero e terminando na probabilidade máxima do conjunto de treinamento. Esse valor máximo
de probabilidade foi usado para demarcar o fim do conjunto de probabilidade "baixa" (até
- 251 -
10% do máximo) e o início do conjunto de probabilidade "alta" (máximo menos 10%). Esses
dois últimos pontos serviram também para fechar o trapézio do conjunto de probabilidade
"média". Os três conjuntos nebulosos para a normalidade são apresentados na Figura 9-9.
0
1
1
altamédiabaixa
0,5Normalidade
Pertinência
Figura 9-9: Conjuntos nebulosos para normalidade
Com essa proposta, a definição dos conjuntos é feita de forma automática pelo sistema e
se adapta a cada entidade analisada, sem que o analista tenha que conhecer os valores
absolutos de probabilidade utilizados em cada caso. O uso da probabilidade máxima do
período de treinamento, considerando 10% desse valor para criação dos conjuntos, é
meramente exemplificativo, outros valores podem ser usados, tendo sido esse o limite dos
conjuntos que ofereceu melhores resultados nos testes práticos.
Resta ao analista a criação das regras nebulosas para a classificação das NEs. Para testar
os conjuntos anteriormente criados, são propostas três regras simples:
SE (Padm (NE) BAIXA) E (Pórgão (NE) BAIXA) E (Pug (NE) BAIXA) ENTÃO Normalidade BAIXA (9-6)
SE (Padm (NE) MÉDIA) E (Pórgão (NE) MÉDIA) E (Pug (NE) MÉDIA) ENTÃO Normalidade MÉDIA (9-7)
SE (Padm (NE) ALTA) E (Pórgão (NE) ALTA) E (Pug (NE) ALTA) ENTÃO Normalidade ALTA (9-8)
Nos testes foram utilizados os conjuntos nebulosos definidos na Figura 9-8 e Figura 9-9;
as três regras anteriores; as definições de operadores (4-47), (4-49) e (4-51); juntamente com
um mecanismo de inferência semelhante ao proposto em Assilian e Mamdani (1975).
Aplicando-se as 960 notas emitidas pela UG-Sede do TCU em 2006, têm-se 19 notas
- 252 -
selecionadas com maior pertinência ao conjunto de normalidade baixa, com valor calculado
para o centróide de normalidade de 0,16.
9.3 DETECÇÃO DE ANOMALIAS POR REDE NEURAL
A Figura 9-10 posiciona a seção atual dentro do mecanismo global de detecção,
definido a ponderação de probabilidades por redes neurais.
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
Despesa
Analista
Modelo Probabilístico
Modelo por Redes Neurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras Fuzzy
Detecção de Anomaliaspor Redes Neurais
Figura 9-10: Processo completo para detecção de anomalia. A seção atual apresenta a ponderação deprobabilidades por rede neural
Para estabelecer a combinação das probabilidades oriundas dos modelos de
comportamento, visando à detecção de NEs anômalas, utilizou-se uma rede Backpropagation.
Os neurônios da camada de entrada receberam as probabilidades individuais do órgão, UG e
Administração Pública. O neurônio de saída informa se a NE é "normal" (saída próxima de
um) ou anômala (saída próxima de zero), indicando a probabilidade de anomalia para a NE.
Para o detalhamento do treinamento das redes usadas, consultar o Apêndice E.
Para simplificar o treinamento optou-se por treinar a rede sem as probabilidades
referentes a favorecido e usuário. Caso tais informações tivessem sido usadas, a rede teria
duas entradas extras, mantendo inalterado o restante do procedimento de treinamento descrito
a seguir. Tal restrição deveu-se ao fato de não terem sido criados modelos de comportamento,
usando redes neurais, para essas duas entidades, em função da complexidade do treinamento
das redes (ver Apêndice E), principalmente no que se refere ao tempo de treinamento, e em
- 253 -
função também do número de usuários e favorecidos existentes (em 2005, 562.060
favorecidos e 20.458 usuários), o que tornaria a criação de seus modelos por redes inviável de
ser realizado num período aceitável (considerando os equipamentos disponíveis para os
testes).
No treinamento da rede ocorreu o mesmo problema descrito na Seção 8.3, qual seja, a
ausência de probabilidades referentes a NEs anômalas. Como solução de contorno foram
simuladas as probabilidades referentes a tais NEs, de forma semelhante ao adotado na Seção
8.3.
Da mesma forma que na criação de regras, devem ser treinadas redes independentes
para lidar com as probabilidades fornecidas pelos modelos de comportamento baseados em
matrizes e redes neurais. As redes podem ser treinadas individualmente por entidade ou
treinada uma única rede aplicável à detecção das NEs de todas as entidades. Para permitir
uma melhor especialização da rede, adotou-se a primeira opção, tendo sido treinada uma rede
específica para o teste com as notas emitidas pelo TCU. Poderiam ter sido criadas também
redes específicas para cada UG, permitindo uma especialização ainda maior das mesmas.
9.3.1 Aplicação de redes à saída do modelo de matrizes
Será apresentado a seguir o resultado da rede treinada com as informações do modelo
matemático de comportamento baseado em matrizes, como descrito na Figura 9-11.
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
Despesa
Analista
Modelo Probabilístico
Modelo por Redes Neurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras Fuzzy
Detecção de Anomaliaspor Redes Neurais
Figura 9-11: Redes neurais usadas para ponderar as probabilidades oriundas do modelo de matrizes
- 254 -
A rede foi treinada tendo como entradas as probabilidades referentes à Administração
Pública, órgão e UG, calculadas sobre as NEs emitidas pelo TCU em 2005. Para esses
exemplos a rede foi treinada com valor de saída "um". Para as probabilidades das NEs
simuladas, foram arbitrados valores que variaram de zero até a probabilidade máxima para
cada uma das três entidades citadas, calculadas pelas matrizes de probabilidade durante sua
fase de treinamento. No caso das probabilidades simuladas a rede foi treinada para dar saída
"zero".
No procedimento de teste, após o treinamento, é necessário informar o valor a partir do
qual a saída da rede deve ser considerada como referente a uma NE normal. Nos exemplos
aqui colocados, considerou-se o limite de 0,5 na saída para diferenciar NEs normais de NEs
anômalas.
A Figura 9-12 apresenta o resultado da simulação da rede, após seu treinamento, tendo
como entrada diversas probabilidades arbitradas para as três entidades, variando do mínimo
ao máximo encontrado nas matrizes durante a fase de treinamento. Os pontos marcados na
figura referem-se a combinações de probabilidades para as quais a rede fornece como saída
resultado superior a "0,5", indicando tratar-se de uma NE normal.
Aplicando a rede descrita a um conjunto de teste formado por NEs verdadeira, emitidas
pelo TCU em 2006, juntamente com NEs simuladas, obtém-se 6,83% de NEs verdadeiras
consideradas anômalas (falsos positivos) e 97,96% das NEs simuladas consideradas anômalas
(verdadeiros positivos).
Considerando as observações apresentadas na Seção 9.2.1, pode-se comparar esses
resultados com os de Haft et al. (1998) que, no melhor caso, conseguem 85% de detecção sem
apresentar falsos positivos.
- 255 -
0 0.010.02 0.03
0.04 0.050.06 0.07
0
0.02
0.04
0.06
0.08
0.1
0
0.05
0.1
0.15
0.2
0.25
0.3
Probabilidade geral
Combinações de Probabilidades com Saída > 0.5
Probabilidade orgao
Pro
babi
lidad
e ug
Figura 9-12: Combinações de probabilidades fornecidas pelas matrizes para as quais a rede dá como saídavalores superiores a 0,5. Os eixos têm como limites os valores máximos das probabilidades de 2005referentes as NEs do TCU
9.3.2 Aplicação de redes à saída do modelo de redes neurais
Será apresentado a seguir o resultado da rede treinada com as informações do modelo
matemático de comportamento baseado em redes neurais, como descrito na Figura 9-13.
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho da
Despesa
Analista
Modelo Probabilístico
Modelo por RedesNeurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da entidade
NE Detecção de Anomaliaspor Regras Fuzzy
Detecção de Anomaliaspor Redes Neurais
Figura 9-13: Redes neurais usadas para ponderar as probabilidades oriundas do modelo de redes
Realizando o treinamento da nova rede de forma análoga ao da Seção 9.3.2, utilizando
os mesmos atributos e a mesma arquitetura de rede, variando apenas as entradas que passaram
a ser calculadas com base nos modelos de comportamento por redes neurais, obtém-se 9,58%
de NEs verdadeiras consideradas anômalas (falsos positivos) e 94,19% das NEs simuladas
consideradas anômalas (verdadeiros positivos). Pelos resultados das duas redes verifica-se que
- 256 -
a primeira, treinada com as probabilidades fornecidas pelas matrizes, teve desempenho um
pouco melhor que a segunda.
9.4 COMPARAÇÃO DA CLASSIFICAÇÃO POR REGRAS COM A
CLASSIFICAÇÃO POR REDES NEURAIS
O primeiro ponto a ser considerado na comparação diz respeito à determinação dos
parâmetros. Na classificação por regras (Seção 9.2) os parâmetros utilizados na seleção de
NEs, em particular as probabilidades mínimas para detecção, são estabelecidos manualmente,
o que torna complexa a construção do detector. O uso de regras nebulosas atenua o problema
pois o analista não precisa trabalhar com valores absolutos de probabilidade mas, mesmo
neste caso, cabe ainda ao analista a criação das regras. Utilizando redes neurais (Seção 9.3),
os parâmetros são determinados automaticamente pela rede, sem a necessidade de intervenção
humana, e não há necessidade de criação de regras, somente a definição do valor da saída da
rede a partir do qual as NEs serão classificadas como normais ou anômalas.
Um segundo ponto de comparação diz respeito à flexibilidade de manipulação dos
parâmetros de detecção. Na classificação por regras há total liberdade para alterar os
parâmetros e as regras, tornando mais ou menos sensível o detector, e obtendo-se
conseqüentemente mais ou menos NEs para análise. Com a utilização de redes neurais, os
parâmetros de ponderação são fixos, embutidos nos pesos da rede treinada. O único parâmetro
configurável é o valor a partir do qual a saída da rede será indicativo de anomalia da NE, ou
seja, existe menos espaço para a configuração do detector.
A Figura 9-14 apresenta as NEs selecionadas como anômalas pelos dois procedimentos
descritos neste capítulo. As NEs marcadas com asterisco foram selecionadas pelo uso de rede
neural aplicada às saídas das matrizes de probabilidade. Na mesma figura estão marcadas com
- 257 -
círculos as NEs selecionadas como anômalas pelo mecanismo de regras, também aplicadas à
saída do modelo de matrizes, de acordo com a primeira regra estabelecida na Seção 9.2.
Observa-se que, enquanto a seleção feita por regras foca nas NEs com baixas
probabilidades, a seleção por rede neural foca em combinações de probabilidades
consideradas por ela como anômalas, não necessariamente tendo probabilidades baixas
simultaneamente para todas as entidades. Os dois mecanismos se complementam na tarefa de
detecção de NEs anômalas, devendo ser utilizados em conjunto. A seleção de probabilidades
baixas é facilmente implementada na ponderação de probabilidades feita por regras, enquanto
a detecção de combinações de probabilidades pouco usuais é mais facilmente determinada
com o uso de redes neurais.
0 500 1000 1500 2000 2500 3000 3500 4000 45000
0.02
0.04
0.06
0.08
NEs 2006
Pro
b. G
eral
0 500 1000 1500 2000 2500 3000 3500 4000 45000
0.1
0.2
0.3
0.4
NEs 2006
Pro
b. U
G
0 500 1000 1500 2000 2500 3000 3500 4000 45000
0.05
0.1
0.15
0.2
NEs 2006
Pro
b. Ó
rgão
Figura 9-14: NEs selecionadas como anômalas por redes neurais (marcadas com asterisco) e porponderação de probabilidade (marcadas com círculos). Os pontos representam as probabilidadescalculadas para cada NE emitida pelo TCU em 2006. Este último cálculo foi realizado com as matrizes deprobabilidade criadas em 2005
- 258 -
10 CONCLUSÕES E TRABALHOS FUTUROS
10.1 CONCLUSÕES E CONTRIBUIÇÕES
O objetivo primário do trabalho e sua principal contribuição foi a proposta de um
modelo para a detecção automática de indícios de irregularidades na execução da despesa
orçamentária. O modelo, proposto no Capítulo 6, é fruto de idéias trazidas das áreas de
segurança de redes e mineração de dados, conciliadas com a teoria de execução orçamentária
e complementadas pela experiência prática dos analistas de controle externo do TCU. A
organização e adaptação dos conceitos dessas várias áreas imprimem ao modelo proposto a
originalidade esperada de um trabalho de doutorado. Reforça a importância do trabalho a
inexistência de outros modelos similares, no que se refere à detecção de irregularidades na
execução da despesa pública.
Tendo em vista a possibilidade de integração com o DW criado no projeto Síntese, o
modelo aqui proposto cumpre também um dos objetivos desse projeto, qual seja, a detecção
automática de irregularidades nos dados armazenados no DW.
Em função das áreas pesquisadas, mineração de dados e orçamento público entre outras,
o trabalho alcançou o caráter interdisciplinar buscado, cumprindo dessa forma um dos
objetivos do programa de pós-graduação em modelagem computacional do LNCC. Procurou
reforçar a parceria entre pesquisa acadêmica, através do emprego dos conceitos de
modelagem computacional, e a área de controle externo da Administração Pública, através da
experiência dos analistas de controle externo que auxiliaram na realização da Tese. Espera-se
que novos trabalhos possam ser realizados abordando simultaneamente as duas áreas.
A Tese produziu como resultado, além do modelo teórico, um protótipo para a detecção
de indícios de irregularidades, implementando parcialmente o modelo proposto através da
- 259 -
construção do módulo de mineração de dados. Nesse componente foram testadas técnicas
estatísticas, redes neurais e lógica nebulosa. O protótipo construído, apesar de não totalmente
otimizado, serviu para validar parcialmente o modelo proposto, indicando pontos a serem
corrigidos e permitindo identificar várias melhorias no mesmo. Os resultados práticos
apresentados pelo protótipo demonstram a viabilidade técnica da utilização de mecanismos
automáticos de detecção de irregularidades como auxiliares do controle externo, cumprindo
assim o segundo grande objetivo do trabalho. Espera-se que os resultados apresentados
possam servir como incentivo para a continuação do desenvolvimento do sistema.
Por fim, destaca-se o estudo realizado da Administração Pública no tocante à emissão
de notas de empenho, no período de 2003 a 2006. Através desse estudo foi possível identificar
as principais características referentes à emissão de notas pelas entidades envolvidas, suas
particularidades e variações ao longo do tempo. O estudo do comportamento da
Administração Pública por si só já representa uma contribuição relevante da Tese, permitindo
que outros trabalhos sejam realizados com base nas informações apresentadas, em particular
referenciando os questionamentos levantados no Capítulo 7.
Essa parte do trabalho ganha relevância principalmente pela falta de dados disponíveis
para os pesquisadores no que se refere à contratação por entidades públicas. Apesar das
informações usadas no trabalho estarem no Siafi, o sistema é de uso restrito e não possui
ferramentas para apresentar, de forma simples e consolidada, análises estatísticas. Embora o
trabalho tenha focado no estudo de notas de empenho, procurou criar um procedimento
genérico para a exportação e análise dos demais documentos presentes no Siafi referentes à
execução da despesa.
- 260 -
10.2 TRABALHOS FUTUROS
Como a formulação do problema a ser abordado pela Tese foi muito ampla, algumas
reduções de escopo tiveram que ser adotadas para tornar o trabalho factível dentro do período
disponível para sua execução. Optou-se por realizar um trabalho abrangente, voltado para o
desenho do mecanismo de detecção como um todo, sem focar na otimização pontual ou
seleção criteriosa dos algoritmos a serem posteriormente usados. Tal escolha deveu-se ao fato
deste trabalho ser um dos primeiros, em nível acadêmico, a ser executado no TCU para a área
proposta, procurando criar um arcabouço a partir do qual novos trabalhos possam ser
realizados, complementando e expandindo o atual. Nesse sentido, seria pouco produtivo
avançar na otimização de mecanismos pontuais sem que antes fosse estabelecida a arquitetura
genérica, dentro da qual esses mecanismos seriam utilizados. As reduções de escopo citadas
ao longo do trabalho abrem caminho para inúmeras possibilidades de continuação desta Tese,
as quais serão apresentadas a seguir.
10.2.1 Análise do ciclo completo de execução da despesa
A execução da despesa, como apresentada no Capítulo 5, é composta resumidamente
pela emissão da nota de empenho (NE), liquidação da despesa através de nota de lançamento
(NL) e pagamento através de Ordem Bancária (OB). O presente trabalho limitou-se à análise
de notas de empenho. Os demais estágios da execução da despesa não foram analisados,
embora tragam importantes informações, como por exemplo o detalhamento dos produtos
comprados e o recebedor da ordem bancária.
Estatísticas sobre essas informações podem ser criadas para complementar as já
existentes, possibilitando que o sistema de detecção ofereça informações mais precisas, e
diminuindo o número de falsos positivos. O mesmo tipo de análise aplicada às NEs poderia de
imediato ser usada para verificar notas de lançamento e ordens bancárias, bastando para isso
- 261 -
identificar seus atributos relevantes e treinar novas matrizes ou redes neurais para modelar o
comportamento das entidades na emissão desses documentos.
O sistema poderia ser expandido para considerar não só as probabilidades individuais de
ocorrência de NEs, NLs e OBs, mas para considerar também a combinação dos três eventos,
analisando de forma integrada todo o processo de execução da despesa e oferecendo
conseqüentemente maior segurança na classificação das operações.
10.2.2 Estudo de outros mandatos presidenciais
A escolha do período de análise, de 2003 a 2006, visou englobar um mandato
presidencial completo. Como descrito na Seção 7.1, pretendeu-se avaliar mudanças de
comportamento identificáveis ao longo dos quatro anos de gestão de um presidente. Para
confirmar se as mudanças apontadas neste trabalho são realmente sazonais, ou seja, repetem-
se a cada mandato, seria necessário avaliar períodos correspondentes a outros mandatos, por
exemplo o intervalo de 1999 a 2002 e o mandato presidencial iniciado em 2007.
10.2.3 Implementação do módulo baseado em sistema especialista
Como descrito no Capítulo 6, o módulo de detecção baseado em sistema especialista
não foi implementado no piloto construído, tendo-se limitado à criação do detector baseado
em mineração de dados.
Conforme descrito na proposta do modelo de detecção, o levantamento das regras do
sistema especialista, apesar de não ser tarefa complexa, provavelmente tomaria mais tempo
que o disponível para a execução da Tese. Por esse motivo e pelos demais citados no Capítulo
6, a implementação do sistema especialista foi deixada para um trabalho futuro, em nível
acadêmico ou como um projeto a ser realizado dentro do TCU.
- 262 -
Vale a pena ressaltar a importância do módulo especialista para o modelo proposto.
Além de servir para dar mais segurança à detecção de irregularidades, esse módulo
complementaria a mineração de dados, não só na captura de situações irregulares como na
liberação de documentos aparentemente anômalos, mas que sejam considerados normais na
opinião dos auditores. Por fim serviria também para incorporar ao modelo proposto o
conhecimento de analistas com grande experiência prática, que fatalmente será perdido
quando esses profissionais deixarem o serviço público. Além disso, sendo o sistema utilizado
simultaneamente por vários analistas, cada um poderia dar sua contribuição individual para
melhorá-lo, servindo assim como coletor de regras de conhecimento dispersas na experiência
de cada profissional.
10.2.4 Estudo do modelo referente a usuários e fornecedores
No presente trabalho foi analisado com detalhes o modelo de comportamento de órgãos,
UGs e da Administração Pública (itens 7.4 e 7.5). Não foi apresentado o estudo detalhado
com usuários e fornecedores, apesar de seus modelos de comportamento terem sido criados
com matrizes de probabilidade. Utilizou-se como hipótese que os mesmos três atributos
usados para caracterizar o comportamento das demais entidades serviriam também para
modelar o comportamento de usuários e favorecidos. O Capítulo 7 demonstrou que os
atributos selecionados pelos especialistas efetivamente caracterizam o comportamento de
órgãos, UGs e da Administração. Caberia a um trabalho futuro, realizando as mesmas análises
do Capítulo 7, confirmar a hipótese citada quanto ao comportamento das duas entidades em
questão.
- 263 -
10.2.5 Definição do suporte mínimo para a confiabilidade do modelo
Um ponto que merece maior análise neste trabalho é a definição do suporte mínimo para
aferir a confiabilidade dos modelos de comportamento criados, ou seja, o número mínimo de
NEs necessárias para a criação dos modelos. Em não se conhecendo o número exato, arbitrou-
se nos testes realizados como 100 o limite mínimo para o suporte, descartando as informações
fornecidas pelos modelos criados com menos NEs.
Tal número, como exposto na Seção 7.2.5, pode ser restritivo quanto ao uso
principalmente dos modelos de usuários e favorecidos. Seria importante a definição de uma
faixa de valores mais criteriosa para que o modelo de detecção proposto pudesse, de forma
automática, determinar quais modelos de comportamento são realmente confiáveis para
utilização na classificação de NEs.
10.2.6 Análise das NEs que não representam criação de empenho
Como citado na Seção 7.1.2, somente os eventos referente ao empenho da despesa e ao
empenho da despesa pré-empenhada foram considerados. Foram descartados os eventos
referentes a anulações, a cancelamentos, a reforços de empenho e à utilização de limite
financeiro. Essa opção foi tomada no sentido de considerar somente os eventos que
representam a criação de empenho, eliminando suas posteriores modificações.
Os eventos descartados poderiam passar também pelo mesmo procedimento de análise
proposto no modelo de detecção. Mais importante, deveriam ser analisados conjuntamente
todos os eventos relacionados a uma mesma despesa (a NE conceitual definida na Seção
7.1.2).
- 264 -
10.2.7 Verificação dos problemas referentes à contabilidade pública
No Capítulo 7 foram feitas algumas observações como por exemplo sobre o aumento
dos valores das NEs ao longo dos anos, a concentração dos gastos no mês de dezembro, o uso
preferencial de determinadas modalidades de licitação em alguns meses do ano, etc. Essas
observações poderiam ser desenvolvidas em trabalhos específicos sobre contabilidade
pública, o que não é o foco do presente trabalho.
Ainda em relação ao modelo de gasto da Administração Pública, chamou atenção o
rápido crescimento da modalidade de licitação pregão eletrônico. Um trabalho mais detalhado
poderia ser feito no sentido de analisar as naturezas de despesa e classes de valores afetadas
pela mudança. Poderia ser verificado se a utilização dessa nova modalidade trouxe
efetivamente benefícios para a Administração Pública, estabelecendo ou não relação desse
crescimento com o aumento de valor bruto das NEs.
10.2.8 Definição dos mecanismos de atualização dos modelos
O mecanismo de atualização do modelo de detecção, proposto formalmente no Capítulo
6, não foi implementado no piloto construído. Foram apresentadas na Seção 8.5 algumas
propostas para a atualização das matrizes de probabilidade e redes neurais, correspondentes
aos modelos de comportamento criados.
Esse tópico tem complexidade alta e mereceria um estudo mais aprofundado, feito num
trabalho específico sobre o tema. A correta atualização do modelo é de fundamental
importância para incorporar as modificações de comportamento mais recentes e para que, ao
mesmo tempo, não se perca o histórico de comportamento construído ao longo do tempo.
Outro ponto relevante é evitar que durante a atualização sejam aprendidos pelo sistema
comportamentos irregulares, o que impediria a correta detecção de NEs anômalas.
- 265 -
10.2.9 Estudo de ferramentas
O processo de KDD vincula-se fortemente à utilização de ferramentas especializadas
que permitam a realização das várias tarefas. Em Goldschmidt e Passos (2005) são citadas
algumas ferramentas disponíveis no mercado como por exemplo: SAS Enterprise Miner,
Weka, SPSS/Clementine, Intelligent Miner e Oracle Data Mining.
No piloto implementado não foram usadas ferramentas específicas para realizar
mineração de dados, tendo-se limitado à utilização do MatLab como ferramenta genérica para
teste e execução dos algoritmos selecionados. Quando o modelo proposto for implementado
num ambiente de produção é fundamental analisar as ferramentas disponíveis, principalmente
a integração com os Softwares usados no DW Síntese, a partir do qual provavelmente serão
extraídos os dados utilizados no processo de detecção.
10.2.10 Aprimoramento dos algoritmos usados
Não estava incluída no escopo do trabalho a otimização dos algoritmos usados, apenas
demonstrar a viabilidade da sua utilização para a criação dos modelos de comportamento e
para a detecção de anomalias. Uma vez tendo sido demonstrada sua utilidade prática,
deveriam passar por um processo de otimização que permitisse a melhoria de seu desempenho
e dos resultados obtidos com sua utilização.
Em particular destaca-se a otimização das redes neurais, a criação de regras para
alimentar o componente detector de anomalia e a definição de novos conjuntos nebulosos.
Todo o trabalho de desenvolvimento foi realizado no Software MatLab que, apesar de
oferecer uma ampla gama de recursos para desenvolvimento e visualização, não atende os
requisitos de performance desejados para o sistema e principalmente não oferece facilidades
para integração com as bases de dados necessárias para alimentar o modelo.
- 266 -
REFERÊNCIAS BIBLIOGRÁFICAS
ABE, Naoki; LANGFORD, John; ZADROZNY, Bianca. Outlier Detection by ActiveLearning. In Proceedings of the 12th ACM SIGKDD international Conference onKnowledge Discovery and Data Mining, 2006, Philadelphia, p. 504-509, 2006.Disponível em: <http://doi.acm.org/10.1145/1150402.1150501>. Acesso em: 11 jan. 2008.
ANGÉLICO, João. Contabilidade Pública. 8. ed. São Paulo: Atlas, 1995.
ANKERST, Mihael. Visual Data Mining. 2000. Master Thesis - Ludwig-Maximilians-Universitat Munchen, Munique, 2000.
ASSILIAN, S.; MAMDANI, E. H. An experiment in linguistic synthesis with a fuzzy logiccontroller. In International Journal of Man-Machine Studies, v. 7, n. 1, p. 1-13, 1975.
AXELSSON, Stefan. The Base-Rate Fallacy and the Difficulty of Intrusion Detection. In:ACM Transactions on Information and System Security (TISSEC), v. 3, n. 3, p. 186-205,2000.Disponível em: <http://doi.acm.org/10.1145/357830.357849>. Acesso em: 11 jan. 2008.
BAKIRAS, Spiridon; KALNIS, Panos; MAMOULIS, Nikos. On Discovering MovingClusters in Spatio-temporal Data. In: Proc. 9th International Symposium on Spatial andTemporal Databases, p. 364-381, 2005.Disponível em: <http://www.cs.hku.hk/~nikos/67.pdf>. Acesso em: 11 jan. 2008.
BARAS, John; RADOSAVAC, Svetlana. Detection and Classification of NetworkIntrusions Using Hidden Markov Models. In: 37th Conference on Information Sciences andSystems (CISS), Baltimore, 2003.Disponível em: <http://www.docomolabsresearchers-usa.com/~sradosavac>. Acesso em: 11jan. 2008.
BAY, Stephen et al. The UCI KDD Archive of Large Data Sets for Data Mining Researchand Experimentation. In: ACM SIGKDD Explorations Newsletter, v. 2 n. 2, p. 81-85, 2000.Disponível em: <http://doi.acm.org/10.1145/380995.381030>. Acesso em: 11 jan. 2008.
BAY, Stephen et al. Data Mining Methods for Anomaly Detection: KDD-2005 WorkshopReport. In: SIGKDD Explorations Newsletter, v.7 n.2, p. 132-136, 2005.Disponível em: <http://doi.acm.org/10.1145/1117454.1117473>. Acesso em: 11 jan. 2008.
BEALE, Mark; DEMUTH, Howord; HAGAN, Martin. Neural Network Toolbox 5: User'sGuide. The MathWorks, Massachusetts, 2007.Disponível em: <http://www.mathworks.com/access/helpdesk/help/pdf_doc/nnet/nnet.pdf>.Acesso em: 11 jan. 2008.
BERKHIN, Pavel. Survey of Clustering Data Mining Techniques. Technical report, AccrueSoftware, San Jose, CA, 2002.Disponível em: <http://citeseer.ist.psu.edu/berkhin02survey.html>. Acesso em: 11 jan. 2008.
- 267 -
BLOEDORN, Eric et al. Data Mining for Network Intrusion Detection: How to GetStarted. Technical report, The MITRE Corporation, 2001.Disponível em: <http://citeseer.ist.psu.edu/bloedorn01data.html>. Acesso em: 11 jan. 2008.
BOLTON, Richard; HAND, David. Statistical Fraud Detection: A Review. StatisticalScience, v. 17, n. 3, p. 235-255, 2002.Disponível em: <http://citeseer.ist.psu.edu/bolton02statistical.html>. Acesso em: 11 jan. 2008.
BRASIL. Lei no 4.320, de 17 de março de 1964. Estatui Normas Gerais de DireitoFinanceiro para elaboração e controle dos orçamentos e balanços da União, dos Estados, dosMunicípios e do Distrito Federal. Brasília, 1964.Disponível em: <http://www.planalto.gov.br/CCIVIL/Leis/L4320.htm>. Acesso em: 11 jan.2008.
BRASIL. Decreto-Lei no 200, de 25 de fevereiro de 1967. Dispõe sobre a organização daAdministração Federal, estabelece diretrizes para a Reforma Administrativa e dá outrasprovidências. Brasília, 1967.Disponível em: <http://www.planalto.gov.br/ccivil/Decreto-Lei/Del0200.htm>. Acesso em:11 jan. 2008.
BRASIL. Decreto no 93.872, de 23 de dezembro de 1986. Dispõe sobre a unificação dosrecursos de caixa do Tesouro Nacional, atualiza e consolida a legislação pertinente e dá outrasprovidências. Brasília, 1986.Disponível em: <http://www.planalto.gov.br/ccivil/decreto/D93872.htm>. Acesso em: 11 jan.2008.
BRASIL. Constituição da República Federativa do Brasil de 1988. Brasília, 1988.Disponível em:<http://www.planalto.gov.br/ccivil_03/Constituicao/Constitui%C3%A7ao.htm>. Acesso em:11 jan. 2008.
BRASIL. Lei no 8.443, de 16 de julho de 1992. Dispõe sobre a Lei Orgânica do Tribunal deContas da União e dá outras providências. Brasília, 1992.Disponível em: <http://www.planalto.gov.br/CCIVIL/leis/L8443.htm>. Acesso em: 11 jan.2008.
BRASIL. Lei no 8.666, de 21 de junho de 1993. Regulamenta o art. 37, inciso XXI, daConstituição Federal, institui normas para licitações e contratos da Administração Pública edá outras providências. Brasília, 1993.Disponível em: <http://www.planalto.gov.br/ccivil/Leis/L8666cons.htm>. Acesso em: 11 jan.2008.
BRASIL, Secretaria do Tesouro Nacional. Instrução Normativa no 2, de 26 abril de 1999.DOU de 27 de abril de 1999. Brasília, 1999.Disponível em: <http://www.tesouro.fazenda.gov.br/legislacao/download/programacao>.Acesso em: 11 jan. 2008.
- 268 -
BRASIL. Lei Complementar no 101, de 4 de maio de 2000. Estabelece normas de finançaspúblicas voltadas para a responsabilidade na gestão fiscal e dá outras providências. Brasília,2000.Disponível em: <http://www.planalto.gov.br/CCIVIL/Leis/LCP/Lcp101.htm>. Acesso em: 11jan. 2008.
BRASIL. Lei no 10.520, de 17 de julho de 2002. Institui, no âmbito da União, Estados,Distrito Federal e Municípios, nos termos do art. 37, inciso XXI, da Constituição Federal,modalidade de licitação denominada pregão, para aquisição de bens e serviços comuns, e dáoutras providências. Brasília, 2002.Disponível em: <http://www.planalto.gov.br/ccivil/leis/2002/L10520.htm>. Acesso em: 11jan. 2008.
BRASIL. Ministério do Planejamento, Orçamento e Gestão. Secretaria de Orçamento Federal.Manual Técnico de Orçamento MTO-02: instruções para elaboração da propostaorçamentária da União para 2005. Brasília, 2004.Disponível em: <http://www.planejamento.gov.br>. Acesso em: 11 jan. 2008.
BRASIL. Ministério da Fazenda. Secretaria do Tesouro Nacional. Programação Financeira.Brasília, 2006.Disponível em <http://www.stn.fazenda.gov.br/programacao_financeira/index.asp>. Acessoem: 18 fev 2007.
BRASIL. Ministério da Fazenda. Secretaria do Tesouro Nacional. Conheça o Siafi:Estrutura do Siafi. Brasília, 2007.Disponível em <http://www.stn.fazenda.gov.br/siafi/subsistemas.asp>. Acesso em: 18 fev2007.
BRASIL. Ministério do Planejamento, Orçamento e Gestão. Secretaria de Orçamento Federal.Como é feito o orçamento. Brasília, 2006.Disponível em <https://www.portalsof.planejamento.gov.br/sof>. Acesso em: 18 fev. 2007.
BRUGGER, Sterry. Data Mining Methods for Network Intrusion Detection. TechnicalReport. 2004.Disponível em: <http://www.bruggerink.com/~zow/GradSchool/brugger_dmnid.pdf >.Acesso em: 11 jan. 2008.
BUCKLEY, James; WILLIAM, Silver. Fuzzy Expert Systems and Fuzzy Reasoning. NewJersey: John Wiley & Sons, 2005.
CARVALHO, Paulo André Mattos et al. Programa de Formação de Analistas de ControleExterno TCU – Unidade III: Sistemas de Suporte à Decisão. In: Curso de Formação paraAnalistas de Controle Externo TCU, Brasília, 2005.
CASTRO, Domingos Poubel de; GARCIA, Leice Maria. Contabilidade Publica noGoverno Federal. São Paulo: Atlas, 2004.
- 269 -
CHAPMAN, Pete et al. CRISP-DM 1.0: Step-by-step data mining guide. Tecnical report.The CRISP-DM consortium, 2000.Disponível em: <http://www.crisp-dm.org/CRISPWP-0800.pdf>. Acesso em: 11 jan. 2008.
CURRAN, Dara; O'RIORDAN, Colm. Applying Evolutionary Computation to DesigningNeural Networks: A Study of the State of the Art. Technical Report NUIG-IT-111002 of theDepartment of Information Technology. National University of Ireland, Galway, 2002.Disponível em: <http://citeseer.ist.psu.edu/rd/52978682%2C570551%2C1%2C0.25%>.Acesso em: 16 jan. 2008.
DICKERSON, John et al. Fuzzy Intrusion Detection. In: Proceedings of North AmericanFuzzy Information Processing Society 2001 (NAFIPS 2001), Vancouver, Canada, 2001.Disponível em: <http://www.cs.hut.fi/~jtjuslin/nafipsv6.pdf >. Acesso em: 11 jan. 2008.
DILLON, William; GOLDSTEIN, Matthew. Multivariate Analysis: Methods andApplications. New York: John Wiley & Sons, 1984.
EBECKEN, Nelson; EVSUKOFF, Alexandre; PINHEIRO, Carlos. Revenue Recoveringwith Insolvency Prevention on a Brazilian Telecom Operator. In: SIGKDD Explorations,v. 8, n. 1, p. 65-70, 2006.Disponível em: <http://doi.acm.org/10.1145/1147234.1147244 >. Acesso em: 11 jan. 2008.
ERZOT, Levent et al. A Comparative Study of Anomaly Detection Schemes in NetworkIntrusion Detection. In: Proceedings of the Third SIAM International Conference on DataMining 2003, San Francisco, 2003.Disponível em: <http://www.siam.org/meetings/sdm03/proceedings/sdm03_03.pdf>. Acessoem: 11 jan. 2008.
ESTIVILL-CASTRO, Vladimir. Why so many clustering algorithms: A Position Paper. In:SIGKDD Explorations, v. 4, n. 1, p. 65-75, 2002.Disponível em: <http://doi.acm.org/10.1145/568574.568575 >. Acesso em: 11 jan. 2008.
FILHO, José dos Santos Carvalho. Manual de Direito Administrativo. 17. ed. Rio deJaneiro: Lumen Juris, 2007.
FRANK, Eibe; WITTEN, Ian. Data Minig: Practical Machine Learning Tools andTechniques. 2. ed. San Francisco: Elsevier, 2005. Morgan Kaufmann series in datamanagement systems.
FRIED, D. J. et al. Evaluating Intrusion Detection Systems: The 1998 DARPA Off-lineIntrusion Detection Evaluation. In: Proceedings DARPA Information SurvivabilityConference and Exposition (DISCEX), 2000, v. 2, p. 12-26, IEEE Computer Society Press,Los Alamitos, CA, 2000.Disponível em: <http://citeseer.ist.psu.edu/lippmann00evaluating.html >. Acesso em: 11 jan.2008.
FUKUNAGA, Keinosuke. Introduction to Statistical Pattern Recognition. 2. ed. England:Morgan Kaufmann, 1990.
- 270 -
GIACOMONI, James. Orçamento Público. 13. ed. São Paulo: Atlas, 2005.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. Rio deJaneiro: Elsevier, 2005. 2. Reimpressão.
HAFT, Michael et al. Fraud Detection in Communications Networks Using Neural andProbabilistic Methods. IN: Proc. 1998 IEEE Internat. Conf. on Acoustics, Speech and SignalProcessing (ICASSP'98), v. 2, p. 1241-1244, 1998.Disponível em: <http://citeseer.ist.psu.edu/taniguchi98fraud.html>. Acesso em: 11 jan. 2008.
HAGAN, Martin; MENHAJ, Mohammad. Training Feedforward Networks with theMarquardt Algorithm. IN: IEEE Transactions on Neural Networks, v. 5, n. 6, p. 989-993,1994.
HAND, David; MANNILA, Heikki; SMYTH, Padhraic. Principles of Data Mining.Massachusetts: Mit Press, 2001.
HECHT-NIELSEN, Robert. Neurocomputing. California: Addison-Wesley, 1990.
JAVITZ, Harold; VALDES, Alfonso. The NIDES Statistical Component: Description andJustification. SRI report, SRI International, California, 1993.Disponível em: <http://www.cs.ucdavis.edu/~wu/ecs236/papers >. Acesso em: 11 jan. 2008.
KANTARDZIC, Mehmed. Data Mining: Concepts, Models, Methods and Algorithms. NewYork: John Wiley & Sons, 2003.
KOHAMA, Heilio. Contabilidade Pública: teoria e prática. 9. ed. São Paulo: Atlas, 2003.
KOHONEN, Teuvo. Self-Organizing Maps. 3. ed. Berlin: Springer, 2001.
LANE, Terran. Machine Learning Techniques for the Computer Security Domain ofAnomaly Detection. 2000. Ph.D. Thesis - Department of Electrical and ComputerEngineering, Purdue University, 2000.
LAROSE, Daniel. Discovering Knowledge in Data: An Introduction to Data Mining. NewJersey: John Wiley & Sons, 2005.
LIEBOWITZ, Jay et al. The Handbook of Applied Expert Systems. New York: CRC, 1997.
LIMA, Diana Vaz. Contabilidade Pública. São Paulo: Editora Atlas, 2000.
LOPES, Carlos Henrique Pereira. Classidicação de Registros em Banco de Dados porEvolução de Regras de Associação Utilizando Algoritmos Genéticos. 1999. Dissertação(Mestrado em Engenharia Elétrica) - Pontifícia Universidade Católica do Rio de Janeiro, Riode Janeiro, 1999.
- 271 -
LOURENÇO, Plutarcho Maravilha. Um Modelo de Previsão de Curto Prazo de CargaElétrica Combinando Métodos Estatísticos e Inteligência Computacional. 1998. Tese(Doutorado em Engenharia Elétrica) - Pontifícia Universidade Católica do Rio de Janeiro, Riode Janeiro, 1998.
MELLO, Celso Antônio Bandeira de. Curso de Direito Administrativo. 22. ed. São Paulo:Malheiros, 2007.
MOTA, Francisco Glauber Lima. Contabilidade Aplicada à Administração Pública. 6. ed.Brasília: Vestcon, 2006.
MUKHOPADHYAY, Nitis. Probability and Statistical Inference. New York: MarcelDekker, 2000.
NORVIG, Peter; RUSSELL, Stuart. Inteligência Artificial. Rio de Janeiro: Elsevier, 2004.Tradução da segunda edição.
NTOUTSI, Irene et al. MONIC – Modeling and Monitoring Cluster Transitions. In:Proceedings of the 12th ACM SIGKDD international Conference on Knowledge Discoveryand Data Mining, 2006, Philadelphia, p. 706-711, 2006.Disponível em: <http://doi.acm.org/10.1145/1150402.1150491>. Acesso em: 11 jan. 2008.
VALENTE, Romildo Gonçalves. Predição de Séries Temporais Usando Redes Neurais.1995. Dissertação (Mestrado em Sistemas e Computação) - Instituto Militar de Engenharia,Rio de Janeiro, 1995.
PASSOS, Emmanuel Lopes. Inteligência Artificial e Sistemas Especialistas ao Alcance deTodos. Rio de Janeiro: Livros Técnicos e Científicos, 1989. Série a era da informática,tópicos avançados da informática.
RADAMAS, Manikantan. Detecting Anomalous Network Traffic with Self-OrganizingMaps. 2003. Master Thesis - College of Engineering and Technology of Ohio University,Ohio, 2003.
SPIEGEL, Murray Ralph. Probabilidade e Estatística. Tradução de Alfredo Alves de Farias.São Paulo: McGraw-Hill do Brasil, 1978 (Coleção Schaum).
STEENSMA, David et al. Summary Report on the Joint Review of Selected DoDPurchase Card Transactions. Virginia, 2003.Disponível em: < http://www.dodig.osd.mil/Audit/reports/fy03/03-109.pdf >. Acesso em: 20dez. 2007.
TAFT, Margaret et al. Oracle Data Mining Concepts 10g Release 2 (10.2) B14339-01.White Paper Oracle Data Mining. 2005.Disponível em: <http://download.oracle.com/docs/pdf/B14339_01.pdf>. Acesso em: 11 jan.2008.
- 272 -
TROSSET, Michael. An Introduction to Statistical Inference ant its Applications . NewYork: Chapman & Hall, 2004.
VIEIRA, Laércio Mendes et al. SIAFI e Contabilidade Pública para Curso de Formação.In: Curso de Formação para Analistas de Controle Externo TCU, Brasília, 2004. 1 CD-ROM.Versão 1.
WANGENHEIM, Aldo von. WANGENHEIM, Christiane Gresse von. Raciocínio Baseadoem Casos. São Paulo: Manole, 2003.
WEBB, Andrew. Statistical Pattern Recognition. 2. ed. England: John Wiley & Sons, 2002.
YE, Nong. A Markov Chain Model of Temporal Behavior for Anomaly Detection. In:Proceedings of the 2000 IEEE Workshop on Information Assurance and Security, UnitedStates Military Academy, West Point, NY, 2000.Disponível em: <http://citeseer.ist.psu.edu/ye00markov.html >. Acesso em: 11 jan. 2008.
YE, Nong (Ed.). The Handbook of Data Mining. London: Lawrence Erlbaum Associates,2003.
ZADEH, Lotfi et al. Fuzzy Logic Toolbox 2: User's Guide. The MathWorks, Massachusetts,2007.Disponível em: <http://www.mathworks.com/access/helpdesk/help/pdf_doc/fuzzy/fuzzy.pdf>.Acesso em: 11 jan. 2008.
ZHANG, Yingjian. Prediction of Financial Time Series with Hidden Markov Models.2001. Master Thesis - Shandong University, China, 2001.
- 273 -
APÊNDICE A – NOTAÇÕES
Escalares Letras minúsculas não negrito em itálico: x
Vetores
Letras minúsculas em negrito itálico (vetores são considerados noformato coluna):
( )Tn
n
xx
x
x
LM 1
1
=
=x
Matrizes Letras maiúsculas em negrito itálico:
=
npn
p
xx
xx
K
MOM
K
1
111
X
Variável Aleatória Letra maiúscula não negrito itálico: X1, ... , Xp
Medidas de VariáveisAleatórias
Letras minúsculas não negritoitálico: x1, ... , xp
- 274 -
APÊNDICE B – DISTÂNCIA ENTRE PERFIS DECOMPORTAMENTO
Na Seção 7.5.1 foi realizado um procedimento de clusterização tendo em vista descobrir
conjuntos de órgãos com comportamento semelhante no que se refere ao uso de modalidade
de licitação, natureza da despesa e valor empenhado. A partir dos grupos formados foram
selecionados quatro órgãos que tiveram seu perfil de comportamento analisado em detalhes.
Para realizar o procedimento descrito, cada órgão foi representado por três vetores cujas
componentes indicam o percentual de notas emitidas nos valores possíveis de cada atributo.
Os vetores assim definidos derivaram dos histogramas de distribuição de NEs, como
apresentado na Figura B-1. Cada vetor representa o órgão num dos três espaços estudados:
modalidade de licitação, natureza da despesa e valor. Adotou-se a distância euclidiana como
métrica de proximidade.
135 143 146 148 149 151 154 159 160 2430
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND(>1%) - TCU - Ano 2006
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - TCU - Ano 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - TCU - Ano 2006
Figura B-1: Distribuição de NEs por ND, CV e ML para o TCU em 2006. Esses dados serviram como basepara a criação dos vetores que representam os órgãos
A definição de um critério de proximidade permite, além de realizar a clusterização,
determinar, a partir de um órgão base, quais as entidades que mais se aproximam desse órgão,
segundo cada um dos três atributos. O objetivo prático desse procedimento é, uma vez
identificada uma entidade com modelo de comportamento de interesse (possivelmente com
presença de irregularidades), relacionar o conjunto de entidades que estejam próximas da
entidade selecionada, possivelmente apresentando comportamento semelhante (mesmas
- 275 -
irregularidades). Esse procedimento é aplicável não só a órgãos como também a UGs,
fornecedores e usuários.
Para exemplificar o procedimento descrito, a Tabela B-1 apresenta o resultado do
cálculo tomando por base o TCU, e relacionando os órgãos mais próximos e mais afastados
segundo cada atributo e segundo a combinação dos três atributos. Importante observar na
tabela que a proximidade entre órgãos segundo um critério não implica necessariamente a
proximidade em relação aos demais critérios.
Tabela B-1: Órgãos mais próximos e mais afastados do TCU, considerando os três atributos analisados esua combinação
Combinada ND ML CV
Justiça Militar Senado ANAU. F. Triângulo
Mineiro
MPF IPEA MPFFundação Biblioteca
Nacional
MPT Justiça Federal MPTFundação
UniversidadeFederal São Carlos
Justiça do Trabalho INMETRO I. N. Meteorologia U. F. Ouro Preto
TRF 1o Região Câmara Colégio Pedro IIFundação Casa de
Rui Barbosa
Órg
ãos
mai
s pr
óxim
os
Ministério da Fazenda Justiça Militar INMETRO
Ministério do EsporteMinistério da
Integração Nacional
Fundação Nacionalde Assistência
Social
Ministério doEsporte
Ministério daIntegração Nacional
Ministério doTurismo
Ministério doTurismo
Ministério dasCidades
Órg
ãos
mai
s af
asta
dos
Ministério doTurismo
Ministério doEsporte
Ministério daIntegração Nacional
Ministério daIntegração Nacional
- 276 -
A Figura B-2 apresenta a distância dos demais órgãos da Administração Pública em
relação ao TCU (posição zero). Cada eixo representa a distância segundo um dos atributos.
0 20 40 60 80 100 120
0
50
100
150
0
20
40
60
80
100
ND
Distâncias entre Órgãos
ML
CV
Figura B-2: Representação 3D da distância entre órgãos, considerados somente aqueles com mais de 100notas de empenho emitidas
Uma segunda aplicação prática para o procedimento apresentado é aplicá-lo ao cálculo
de distâncias para a mesma entidade em momentos diferentes no tempo, seja entre meses
diferentes do ano, seja entre um ano e outro. As distâncias assim calculadas servem para
indicar se a entidade manteve seu comportamento inalterado ou sofreu algum tipo de mudança
de comportamento no que se refere à forma de contratação de produtos e serviços. A mudança
pode ser ocasionada por vários fatores: troca da administração, modificação orçamentária,
alteração dos objetivos institucionais, etc. Pode também indicar que algum procedimento
irregular está ocorrendo na entidade.
Deve-se no entanto considerar que, quando se trata da emissão de NEs irregulares, o
número dessas notas é provavelmente pequeno, insuficiente para forçar uma mudança de
comportamento perceptível via cálculo de distância. Uma situação mais plausível de
utilização do cálculo é quando o comportamento do órgão como um todo é afetado por algum
evento, que não necessariamente caracterize uma irregularidade. O exemplo citado no
- 277 -
Ministério das Cidades no ano de 2006 (Seção 7.5.6) seria facilmente detectado pela análise
da variação de comportamento, embora no caso trate-se de uma restrição legal forçando a
mudança do modelo de contratação do órgão.
O cálculo de distâncias para o mesmo órgão em momentos diferentes no tempo pode
também ser usado como indicador de que o modelo criado para representar o comportamento
do mesmo está desatualizado. Tomando como base o momento de criação do modelo,
poderiam ser feitos cálculos de distância em intervalos regulares até que a distância superasse
um limite preestabelecido. Nesse momento o modelo seria atualizado e o procedimento de
cálculo da distância reiniciado, tomando como nova base o momento de atualização do
modelo.
Para exemplificar, a Figura B-3 apresenta as distâncias entre os vetores representando o
comportamento do TCU em relação ao uso de modalidade de licitação no período de 2005 a
2006, tomando como base de comparação o mês de janeiro de 2005. Observam-se variações
significativas entre janeiro e fevereiro de 2005, entre dezembro de 2005 e janeiro de 2006 e
entre outubro e novembro de 2006.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 250
20
40
60
80
100
120
Mês
Dife
renç
a
Figura B-3: Diferença de comportamento ao longo de 2005 e 2006 no uso de modalidade de licitação peloTCU
- 278 -
A variação entre janeiro e fevereiro de 2005 deveu-se à maior utilização de dispensa de
licitação em fevereiro, comparado com o mês anterior. A variação de comportamento ocorrida
entre dezembro de 2005 e janeiro de 2006 é característica de toda virada de ano, em função
das peculiaridades dos meses de dezembro e janeiro. A variação entre outubro e novembro de
2006 deveu-se à maior utilização do pregão eletrônico em novembro, comparado com o mês
anterior.
Apesar das oscilações citadas, o modelo permaneceu estável durante os 24 meses
analisados, apresentando pouca distância na média em relação ao mês base, janeiro de 2005.
Sendo assim, conclui-se que o modelo pode ser usado na avaliação das NEs emitidas pelo
órgão no período considerado, sem necessariamente sofrer atualização.
- 279 -
APÊNDICE C – DISTRIBUIÇÃO MENSAL DENOTAS DE EMPENHO
A Seção 7.4.8 apresentou o estudo sobre a distribuição mensal de notas de empenho por
modalidade de licitação, natureza da despesa e classe de valor para a Administração Pública.
Para não sobrecarregar o texto, naquela seção foram apresentados somente os gráficos
referentes ao ano de 2006. A seguir serão apresentadas as distribuições mensais de notas nos
três atributos citados para os anos 2003, 2004 e 2005. Da Figura C-1 à Figura C-3 são
apresentadas as distribuições por modalidade de licitação, da Figura C-4 à Figura C-6 são
apresentadas as distribuições por classe de valor e da Figura C-7 à Figura C-9 são
apresentadas as distribuições por natureza da despesa.
1 2 3 4 5 6 7 8 9 10 11 120
20
40
1
1 2 3 4 5 6 7 8 9 10 11 120
20
40
2
1 2 3 4 5 6 7 8 9 10 11 120
20
40
3
1 2 3 4 5 6 7 8 9 10 11 120
20
40
4
1 2 3 4 5 6 7 8 9 10 11 120
20
40
5
1 2 3 4 5 6 7 8 9 10 11 120
20
40
6
1 2 3 4 5 6 7 8 9 10 11 120
20
40
7
1 2 3 4 5 6 7 8 9 10 11 120
20
40
8
1 2 3 4 5 6 7 8 9 10 11 120
20
40
9
1 2 3 4 5 6 7 8 9 10 11 120
20
40
10
1 2 3 4 5 6 7 8 9 10 11 120
20
40
11
1 2 3 4 5 6 7 8 9 10 11 120
20
40
12
Figura C-1: Percentual mensal de notas de empenho referentes ao ano de 2003 por modalidade delicitação para a Administração Pública. Cada gráfico corresponde a um mês do ano. Relação de MLs: 01 –Concurso, 02 – Convite, 03 – Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 –Inexigibilidade, 08 – Não se aplica, 09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão
- 280 -
1 2 3 4 5 6 7 8 9 10 11 120
20
40
1
1 2 3 4 5 6 7 8 9 10 11 120
20
40
2
1 2 3 4 5 6 7 8 9 10 11 120
20
40
3
1 2 3 4 5 6 7 8 9 10 11 120
20
40
4
1 2 3 4 5 6 7 8 9 10 11 120
20
40
5
1 2 3 4 5 6 7 8 9 10 11 120
20
40
6
1 2 3 4 5 6 7 8 9 10 11 120
20
40
7
1 2 3 4 5 6 7 8 9 10 11 120
20
40
8
1 2 3 4 5 6 7 8 9 10 11 120
20
40
9
1 2 3 4 5 6 7 8 9 10 11 120
20
40
10
1 2 3 4 5 6 7 8 9 10 11 120
20
40
11
1 2 3 4 5 6 7 8 9 10 11 120
20
40
12
Figura C-2: Percentual mensal de notas de empenho referentes ao ano de 2004 por modalidade delicitação para a Administração Pública. Cada gráfico corresponde a um mês do ano. Relação de MLs: 01 –Concurso, 02 – Convite, 03 – Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 –Inexigibilidade, 08 – Não se aplica, 09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão
1 2 3 4 5 6 7 8 9 10 11 120
20
40
1
1 2 3 4 5 6 7 8 9 10 11 120
20
40
2
1 2 3 4 5 6 7 8 9 10 11 120
20
40
3
1 2 3 4 5 6 7 8 9 10 11 120
20
40
4
1 2 3 4 5 6 7 8 9 10 11 120
20
40
5
1 2 3 4 5 6 7 8 9 10 11 120
20
40
6
1 2 3 4 5 6 7 8 9 10 11 120
20
40
7
1 2 3 4 5 6 7 8 9 10 11 120
20
40
8
1 2 3 4 5 6 7 8 9 10 11 120
20
40
9
1 2 3 4 5 6 7 8 9 10 11 120
20
40
10
1 2 3 4 5 6 7 8 9 10 11 120
20
40
11
1 2 3 4 5 6 7 8 9 10 11 120
20
40
12
Figura C-3: Percentual mensal de notas de empenho referentes ao ano de 2005 por modalidade delicitação para a Administração Pública. Cada gráfico corresponde a um mês do ano. Relação de MLs: 01 –Concurso, 02 – Convite, 03 – Tomada de Preço, 04 – Concorrência, 06 – Dispensa de licitação, 07 –Inexigibilidade, 08 – Não se aplica, 09 – Suprimento de fundo, 11 – Consulta e 12 – Pregão
- 281 -
1 2 3 4 5 6 7 8 90
20
40
1
1 2 3 4 5 6 7 8 90
20
40
2
1 2 3 4 5 6 7 8 90
20
40
3
1 2 3 4 5 6 7 8 90
20
40
4
1 2 3 4 5 6 7 8 90
20
40
5
1 2 3 4 5 6 7 8 90
20
40
6
1 2 3 4 5 6 7 8 90
20
40
7
1 2 3 4 5 6 7 8 90
20
40
8
1 2 3 4 5 6 7 8 90
20
40
9
1 2 3 4 5 6 7 8 90
20
40
10
1 2 3 4 5 6 7 8 90
20
40
11
1 2 3 4 5 6 7 8 90
20
40
12
Figura C-4: Percentual mensal de notas de empenho referentes ao ano de 2003 por classe de valor para aAdministração Pública. Cada gráfico corresponde a um mês do ano. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7(10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)
1 2 3 4 5 6 7 8 90
20
40
1
1 2 3 4 5 6 7 8 90
20
40
2
1 2 3 4 5 6 7 8 90
20
40
3
1 2 3 4 5 6 7 8 90
20
40
4
1 2 3 4 5 6 7 8 90
20
40
5
1 2 3 4 5 6 7 8 90
20
40
6
1 2 3 4 5 6 7 8 90
20
40
7
1 2 3 4 5 6 7 8 90
20
40
8
1 2 3 4 5 6 7 8 90
20
40
9
1 2 3 4 5 6 7 8 90
20
40
10
1 2 3 4 5 6 7 8 90
20
40
11
1 2 3 4 5 6 7 8 90
20
40
12
Figura C-5: Percentual mensal de notas de empenho referentes ao ano de 2004 por classe de valor para aAdministração Pública. Cada gráfico corresponde a um mês do ano. Relação de classes de valores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7(10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)
- 282 -
1 2 3 4 5 6 7 8 90
20
40
1
1 2 3 4 5 6 7 8 90
20
40
2
1 2 3 4 5 6 7 8 90
20
40
3
1 2 3 4 5 6 7 8 90
20
40
4
1 2 3 4 5 6 7 8 90
20
40
5
1 2 3 4 5 6 7 8 90
20
40
6
1 2 3 4 5 6 7 8 90
20
40
7
1 2 3 4 5 6 7 8 90
20
40
8
1 2 3 4 5 6 7 8 90
20
40
9
1 2 3 4 5 6 7 8 90
20
40
10
1 2 3 4 5 6 7 8 90
20
40
11
1 2 3 4 5 6 7 8 90
20
40
12
Figura C-6: Percentual mensal de notas de empenho em 2005 por classe de valor. Relação de classes devalores: 1 (0-100), 2 (101-1.000), 3 (1.001-10.000), 4 (10.001-100.000), 5 (100.001-1.000.000), 6 (1.000.001-10.000.000), 7 (10.000.001-100.000.000), 8 (100.000.001-1.000.000.000) e 9 (Acima de 1.000.000.000)
135 143 146 148 151 154 1600
20
40
1
135 143 146 148 151 154 1600
20
40
2
135 143 146 148 151 154 1600
20
40
3
135 143 146 148 151 154 1600
20
40
4
135 143 146 148 151 154 1600
20
40
5
135 143 146 148 151 154 1600
20
40
6
135 143 146 148 151 154 1600
20
40
7
135 143 146 148 151 154 1600
20
40
8
135 143 146 148 151 154 1600
20
40
9
135 143 146 148 151 154 1600
20
40
10
135 143 146 148 151 154 1600
20
40
11
135 143 146 148 151 154 1600
20
40
12
Figura C-7: Percentual mensal de notas de empenho em 2003 por natureza da despesa. Apresentadassomente as naturezas de despesa com mais de 1% de notas por mês. Cada gráfico corresponde a um mêsdo ano. 135 - Diárias Civil, 143 - Material de Consumo, 146 – Passagens e Despesas com Locomoção, 148 -Outros Serviços de Terceiros Pessoa Física, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 154 –Obrigações tributárias e Contributivas, 160 – Indenizações e Retribuições
- 283 -
135 143 146 148 151 154 1600
20
40
1
135 143 146 148 151 154 1600
20
40
2
135 143 146 148 151 154 1600
20
40
3
135 143 146 148 151 154 1600
20
40
4
135 143 146 148 151 154 1600
20
40
5
135 143 146 148 151 154 1600
20
40
6
135 143 146 148 151 154 1600
20
40
7
135 143 146 148 151 154 1600
20
40
8
135 143 146 148 151 154 1600
20
40
9
135 143 146 148 151 154 1600
20
40
10
135 143 146 148 151 154 1600
20
40
11
135 143 146 148 151 154 1600
20
40
12
Figura C-8: Percentual mensal de notas de empenho em 2004 por natureza da despesa. Apresentadas NDscom mais de 1% de notas por mês. NDs: 135 - Diárias Civil, 143 - Material de Consumo, 146 – Passagens eDespesas com Locomoção, 148 - Outros Serviços de Terceiros Pessoa Física, 151 - Outros Serviços deTerceiros Pessoa Jurídica, 154 – Obrigações tributárias e Contributivas, 160 – Indenizações e Retribuições
1351361431461481491511541592430
20
40
1
1351361431461481491511541592430
20
40
2
1351361431461481491511541592430
20
40
3
1351361431461481491511541592430
20
40
4
1351361431461481491511541592430
20
40
5
1351361431461481491511541592430
20
40
6
1351361431461481491511541592430
20
40
7
1351361431461481491511541592430
20
40
8
1351361431461481491511541592430
20
40
9
1351361431461481491511541592430
20
40
10
1351361431461481491511541592430
20
40
11
1351361431461481491511541592430
20
40
12
Figura C-9: Percentual mensal de NEs em 2005 por natureza da despesa. Apresentadas NDs com mais de1% de notas por mês. NDs: 135 - Diárias Civil, 136 – Diárias Militar, 143 - Material de Consumo, 146 –Passagens e Despesas com Locomoção, 148 - Outros Serviços de Terceiros Pessoa Física, 149 - Locação deMão de Obra, 151 - Outros Serviços de Terceiros Pessoa Jurídica, 154 – Obrigações tributárias eContributivas, 159 – Despesas de Exercícios Anteriores, 243 - Equipamentos e Material Permanente
- 284 -
APÊNDICE D - EXEMPLO DE ANÁLISE DENOTA DE EMPENHO
Será apresentado a seguir um exemplo de utilização do modelo de detecção proposto na
Tese. Utilizando o piloto implementado, foi feita a seleção de uma nota de empenho
classificada como anômala. Foi usado para isso o módulo de mineração de dados, com o
componente detector baseado em regras nebulosas, utilizando as probabilidades fornecidas
pelo modelo de comportamento baseado em matrizes de probabilidade. O fluxo completo de
detecção é apresentado na Figura D-1.
Mineração de DadosInformação não trivial, sem regras claras
SiafiEmpenho
da DespesaAnalista
Modelo Probabilístico
Modelo por Redes Neurais
Relatório de ComportamentoGráficos e análise estatística sobre o comportamento da
entidade
NE Detecção de Anomaliaspor Regras Fuzzy
Detecção de Anomaliaspor Redes Neurais
Figura D-1: Procedimento completo executado na verificação da nota de empenho
Conforme apresentado no Capítulo 8, foram montados os modelos de comportamento,
baseados em matrizes de probabilidade, para todas as entidades emissoras de empenhos em
2005. Utilizando-se tais modelos foram calculadas as probabilidades referentes a um conjunto
de notas emitidas em 2006, obtendo-se para cada uma um vetor com cinco probabilidades,
referentes às entidades citadas nas notas (órgão, UG, usuário e favorecido) além da
probabilidade de emissão para a Administração.
Utilizando a regra nebulosa (9-6), apresentada na Seção 9.2.4, foi selecionado um
conjunto de notas julgadas pelo sistema como de normalidade baixa. Entre elas está a nota
que será analisada em detalhes a seguir, contendo as seguintes características:
- Modalidade de licitação (ML): Inexigibilidade, código 7;
- 285 -
- Natureza da despesa (ND): Material de consumo (19)(I) – 3.3.91.30, código 166;
- Valor (CV): código 4.
O sistema informa apenas que todas as probabilidades fornecidas pelos modelos de
comportamento têm valor zero, indicando que nenhuma nota emitida pelas entidades
relacionadas no ano de 2005 tem a combinação de atributos da nota selecionada.
Caberia então ao analista julgar a nota quanto à existência ou não de irregularidades. No
modelo de detecção proposto é sugerida a apresentação de um relatório de comportamento
(ver Figura D-1) juntamente com a nota selecionada, de forma a subsidiar o julgamento a ser
realizado pelo analista. Esse relatório conteria informações sobre o comportamento das
entidades referenciadas na nota marcada como anômala. Um exemplo parcial das informações
sugeridas para o relatório encontram-se na Tabela D-1. Tais informações foram extraídas das
análises do Capítulo 7. Não foram transcritos os gráficos de distribuição cruzada de NEs (por
mais de um atributo simultaneamente) nem sobre a emissão mensal das entidades.
Pela análise das informações presentes na Tabela D-1 constata-se que o uso da
modalidade de licitação 7, apesar de não ter uso destacado pelas entidades e legalmente ser de
uso excepcional, apresenta probabilidade aceitável para as entidades relacionadas na nota
(entre 5% e 10%). Em particular para o favorecido, verifica-se que em torno de 38% das notas
recebidas por ele utilizaram essa modalidade. Esse percentual alto é explicável por tratar-se
do Fundo de Imprensa Nacional, sendo provavelmente fornecedor exclusivo de alguns
materiais, como é o caso do produto citado na nota analisada, daí ser procedente o uso da
modalidade inexigibilidade.
- 286 -
Tabela D-1: Informações sugeridas para o relatório de comportamento sobre as entidades citadas na notade empenho classificada como anômala pelo modelo de detecção
Natureza da Despesa Modalidade de Licitação Classe de Valor
Adm
inis
traç
ão
135 136 143 146 148 151 154 160 170 243 2810
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND - NDs com mais de 1% - Ano 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - Ano 2006
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - Ano 2006
Órg
ão
135 143 146 148 149 151 154 159 160 2430
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND(>1%) - TCU - Ano 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - TCU - Ano 2006
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - TCU - Ano 2006
UG
143 149 151 159 160 169 2430
10
20
30
40
50
60
ND
% N
Es
% de NEs por ND(>1%) - TCU - UG1 - Ano 2006
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
40
45
50
Modalidade Licitação
% N
Es
% de NEs por Modalidade de Licitação - TCU - UG1 - Ano 2006
1 2 3 4 5 6 7 8 90
10
20
30
40
50
60
Valor
% N
Es
% de NEs por Classe Valor - TCU - UG1 - Ano 2006
Usu
ário
143 149 151 159 169 2430
10
20
30
40
50
60
70
80
90
100
ND
% N
Es
1 2 3 4 5 6 7 8 9 10 11 120
5
10
15
20
25
30
35
ML
% N
Es
1 2 3 4 5 6 7 8 90
5
10
15
20
25
30
35
40
CV
% N
Es
Fav
orec
ido
169 173 2500
10
20
30
40
50
60
70
80
90
100
ND
% N
Es
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
ML
% N
Es
1 2 3 4 5 6 7 8 90
5
10
15
20
25
30
35
40
45
CV
% N
Es
- 287 -
Ainda segundo a Tabela D-1, uma nota com valor de categoria 4 também está dentro de
limites de probabilidade aceitáveis, variando entre 10% e 35% para as entidades em análise. O
usuário emissor por exemplo tem 35% de suas notas emitidas nessa categoria.
Constata-se que o problema levantado pelo sistema em relação à nota está ligado à
natureza da despesa utilizada. Na Tabela D-1, para as entidades relacionadas, não aparece o
uso da natureza 166. Chama atenção o gráfico do favorecido, indicando que o mesmo trabalha
com poucas naturezas de despesa, entre as quais não aparecendo a utilizada na nota
selecionada. A natureza da despesa código 166 passou a ser utilizada somente em 2006, ou
seja, fora do período utilizado para a criação dos modelos de comportamento.
Conseqüentemente todos os modelos indicarão probabilidade zero para notas que utilizem
essa natureza.
Pelas informações levantadas até o momento já seria possível afirmar com alguma
certeza que a nota em questão não é um evento ilegal. A posterior verificação do objeto da
compra constatou que todo o procedimento foi regular.
Da análise apresentada podem ser tiradas algumas observações relevantes:
- Em função dos dados armazenados nos modelos de comportamento, o sistema
cumpriu corretamente o seu papel classificando a nota como anômala;
- A posterior verificação manual por um analista, das NEs classificadas como
anômalas, é fundamental para concluir-se pela presença ou não de irregularidades. O
sistema não pode ser o responsável único por tal classificação. O modelo proposto é
um auxiliar ao trabalho do auditor, realizando uma filtragem inicial dos documentos
que serão posteriormente analisados, reduzindo assim a carga de trabalho do analista
e focando sua atenção em eventos com maior probabilidade de apresentarem
irregularidades;
- 288 -
- A escolha do período de treinamento bem como a atualização dos modelos de
comportamento é fundamental para a qualidade dos resultados obtidos. As
mudanças de regras, como a ocorrida em relação à natureza da despesa usada na
nota analisada, devem ser constantemente monitoradas, principalmente após a
implementação do módulo baseado em sistema especialista.
- 289 -
APÊNDICE E – TREINAMENTO DAS REDESNEURAIS
O treinamento de todas as redes utilizadas ao longo do trabalho seguiu procedimento
semelhante ao descrito a seguir. A apresentação será acompanhada de um exemplo prático
para permitir sua melhor compreensão. O exemplo escolhido foi o treinamento de uma rede
para modelar o comportamento de uma UG na emissão de empenhos. Os mesmos passos
utilizados se aplicam ao treinamento do comportamento das demais entidades (Capítulo 8) e
das redes utilizadas para a detecção de anomalias (Capítulo 9).
As notas usadas no treinamento das entidades foram todas as emitidas durante um ano.
No exemplo foram selecionadas as 723 notas emitidas pela UG-Sede do TCU em 2005. Cria-
se uma matriz contendo as informações dos três atributos de interesse referentes a cada NE
(nes_reais_treinamento). A Figura E-1 apresenta o conjunto de NEs reais para treinamento.
0
50
100
150
200
250
2
4
6
8
10
121
2
3
4
5
6
7
8
Natureza da Despesa
NEs por ND, ML e CV - TCU-UG-Sede Ano 2005
Modalidade Licitação
Cla
sse
Val
or
Figura E-1: Notas de empenho usadas para treinamento. A figura indica o modelo de comportamento aser aprendido pela rede
- 290 -
Para garantir que nenhum atributo esteja sendo desnecessariamente utilizado, é feita
uma análise PCA do vetor de treinamento. Para maiores detalhes sobre a técnica consultar
Dillon e Goldstein (1984). A análise produz três vetores ortogonais entre si, formando uma
base ortonormal para os dados originais. Projetando-se os dados no primeiro vetor (primeiro
componente principal), obtém-se uma nova variável cuja variância é máxima entre todas as
escolhas possíveis para esse primeiro eixo. Da mesma forma ocorre em relação às projeções
sobre os demais eixos, com variâncias sucessivamente menores. Criando um gráfico de pareto
com as variâncias para o exemplo em análise, obtém-se a Figura E-2.
1 2 30
10
20
30
40
50
60
70
80
90
Componentes principais
Per
cent
ual d
e va
rianc
ia
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Figura E-2: Variâncias correspondentes aos três PCAs
Caso uma parcela dos componentes fosse responsável pela maior parte da variância,
mais de 80% segundo Beale, Demuth e Hagan (2007), indicaria que o conjunto de variáveis
originais poderia ser reduzido, pois algumas delas seriam meras combinações das restantes.
No caso da Figura E-2, apesar dos dois primeiros componentes serem responsáveis por 78%
da variância, a contribuição do terceiro não pode ser desprezada, principalmente considerando
o pequeno número de componentes, concluindo-se que as três variáveis originais são
significativas para a análise.
- 291 -
O segundo passo do treinamento é a geração de NEs simuladas. É criada uma matriz
com três colunas (nes_sim_treinamento), representando os três atributos em análise (ND, ML
e CV). Cada linha tem seus valores aleatoriamente gerados dentro dos limites de variação dos
respectivos atributos. O número de linhas representa o número de NEs anômalas a serem
usadas durante o treinamento. Esse valor é uma das variáveis alteradas durante o treinamento,
até que seja obtido o melhor resultado. A Figura E-3 apresenta o conjunto de NEs simuladas
para treinamento, distribuídas de maneira uniforme, considerando uma cobertura de 10% do
espaço de entrada (3.413 notas simuladas).
050
100150
200250
300350
0
2
4
6
8
10
121
2
3
4
5
6
7
8
9
Natureza da Despesa
NEs simuladas por ND, ML e CV
Modalidade Licitação
Cla
sse
Val
or
Figura E-3: NEs simuladas para treinamento. No exemplo há 10% de cobertura do espaço de entrada
O conjunto completo de treinamento é formado pela junção da matriz de notas reais
(nes_reais_treinamento) com a de notas simuladas (nes_sim_treinamento).
A rede criada é do tipo Backpropagation, como descrita na Seção 4.4. O treinamento é
feito em lote, ou seja, todo o conjunto de treino é apresentado à rede, os gradientes de cada
- 292 -
exemplo são somados e ao final os pesos são ajustados. O erro é calculado pela média da
soma dos quadrados dos erros.
O algoritmo de treinamento usado foi Levenberg-Marquardt, descrito em Hagan e
Menhaj (1994). As variáveis de entrada foram normalizadas para terem média "zero" e desvio
padrão "um". A variável de saída não foi normalizada, assumindo valor "zero" para NEs
anômalas e "um" para NEs normais.
O ajuste dos pesos (dw) leva em conta o ajuste do ciclo anterior (dwp), um termo de
momentum (mc), a taxa de aprendizado (lr) e o gradiente do erro atual (gw) calculado pelo
algorítmo Backpropagation:
dw = mc x dwp + (1 - mc) x lr x gw (E-1)
Após o treinamento, a rede é avaliada em dois conjuntos de teste, o primeiro formado
por NEs verdadeiras emitidas pela mesma entidade num período diferente do de treinamento,
o segundo conjunto de teste composto por NEs simuladas, conforme o procedimento descrito
anteriormente.
No exemplo selecionou-se as 960 notas emitidas pela UG-Sede do TCU em 2006 como
primeiro conjunto, apresentadas na Figura E-4. A imagem do segundo conjunto de teste,
composto por NEs simuladas, é semelhante ao da Figura E-3, não sendo portanto necessário
apresentá-la.
A Figura E-5 apresenta simultaneamente as NEs verdadeiras do conjunto de
treinamento e de teste, possibilitando avaliar o quanto os dois conjuntos diferem.
- 293 -
0
50
100
150
200
250
2
4
6
8
10
121
2
3
4
5
6
7
8
Natureza da Despesa
NEs por ND, ML e CV - TCU-UG-Sede Ano 2006
Modalidade Licitação
Cla
sse
Val
or
Figura E-4: NEs para teste
0
50
100
150
200
250
2
4
6
8
10
121
2
3
4
5
6
7
8
Natureza da Despesa
NEs por ND, ML e CV - Treinamento(*) e Teste(o)
Modalidade Licitação
Cla
sse
Val
or
Figura E-5: NEs para treinamento ("*") e NEs para teste ("0"). Na figura é possível perceber o quanto omodelo de comportamento usado para treinamento aproxima-se do modelo para teste. Os pontos nãocoincidentes dos dois modelos representam combinações para as quais a rede terá que generalizar oaprendizado do conjunto de treinamento
- 294 -
A avaliação feita no teste da rede mediu o percentual de NEs verdadeiras classificadas
pela rede como anômalas (falsos positivos) e o percentual de NEs simuladas classificadas
como anômalas (verdadeiros positivos). A diferenciação entre NEs anômalas e normais é feita
quando a saída da rede excede o valor 0,5. Vale destacar que esse critério é variável.
Foram testadas diversas combinações de arquitetura e cobertura. A arquitetura da rede
variou da seguinte forma: o número de camadas (2 e 3 camadas ocultas), a função de
transferência nas camadas (logsig e tansig) e o número de neurônios por camada, de 5 a 10
para a primeira camada oculta, de 3 a 5 para a segunda (quando usada), tendo a camada de
saída sempre 1 neurônio.
A cobertura pelas NEs simuladas variou entre 3% e 10% do espaço de entrada. Para
cada combinação de arquitetura e cobertura foram treinadas dez redes idênticas, totalizando
960 redes treinadas. As de melhor desempenho em cada categoria são apresentados na Tabela
E-1.
Tabela E-1: Número de redes selecionadas dentro do critério de menos de 10% de falsos positivos e maisde 90% de verdadeiros positivos
Percentual decobertura
Número decamadas ocultas
Função detransferência
Número deredes treinadas
Número de redesselecionadas
3% 2 logsig 60 403% 2 tansig 60 113% 3 logsig 180 1303% 3 tansig 180 116
10% 2 logsig 60 1610% 2 tansig 60 210% 3 logsig 180 5110% 3 tansig 180 69
A Figura E-5 e Figura E-6 dão uma idéia do desempenho de cada arquitetura e
cobertura.
- 295 -
0 1 2 3 4 5 6 7 8 9 1090
91
92
93
94
95
96
97
98
99
100
falsos positivos
verd
adei
ros
posi
tivos
3% - 2 cam. logsig(.) - 2 cam. tansig(o) - 3 cam. logsig(*) - 3 cam. tansig(x)
Figura E-5: Desempenho das redes melhor classificadas para o treinamento com cobertura de 3%. Osignificado dos pontos é: 2 camadas com função logsig (.), 2 camadas com função tansig (o), 3 camadascom função logsig (*) e 3 camadas com função tansig (x)
0 1 2 3 4 5 6 7 8 9 1090
91
92
93
94
95
96
97
98
99
100
falsos positivos
verd
adei
ros
posi
tivos
10% - 2 cam. logsig(.) - 2 cam. tansig(o) - 3 cam. logsig(*) - 3 cam. tansig(x)
Figura E-6: Desempenho das redes melhor classificadas para o treinamento com cobertura de 10%. Osignificado dos pontos é: 2 camadas com função logsig (.), 2 camadas com função tansig (o), 3 camadascom função logsig (*) e 3 camadas com função tansig (x)
- 296 -
A cobertura de 3% com 3 camadas e função logsig foi a combinação que apresentou
melhores resultados, considerando como critério de julgamento o número de redes que
alcançaram percentual de falsos positivos inferior a 10% e de verdadeiros positivos superior a
90%. A cobertura de 3% possibilita obter menos falsos positivos, já a cobertura de 10%
permite obter mais verdadeiros positivos. O desempenho de algumas arquiteturas é muito
semelhante, não se podendo concluir decisivamente por uma arquitetura ideal.
As melhores redes, considerando percentual de falsos positivos inferior a 5% e de
verdadeiros positivos superior a 96%, são apresentadas na Tabela E-2, detalhando o número
de neurônios nas camadas ocultas.
Tabela E-2: As colunas dois e três detalham o número de neurônios nas camadas um e dois. FP indicafalsos positivos e VP verdadeiros positivos. A linha destacada marca a rede considerada de melhordesempenho
Função Cobertura Camada 1 Camada 2 FP Treino VP Treino FP Teste VP Testelogsig 3% 6 4 0,14 97,56 2,71 96,19logsig 3% 6 4 3,32 97,36 3,75 96,48logsig 3% 7 5 0,97 97,46 3,85 96,48logsig 3% 8 4 0,83 97,75 3,54 96,19logsig 3% 9 5 0,83 97,36 4,17 96,09logsig 3% 10 5 0 98,34 3,23 96,09logsig 10% 6 4 3,87 98,18 4,38 97,42logsig 10% 7 5 2,07 98,48 4,79 97,39logsig 10% 8 4 4,29 98,56 4,48 97,39logsig 10% 8 5 1,80 98,65 4,90 97,86logsig 10% 9 3 2,63 98,15 4,90 96,75tansig 10% 10 3 2,90 98,18 4,79 97,22tansig 10% 10 5 4,01 98,12 4,38 97,13
A rede com arquitetura [10/logsig, 5/logsig, 1/logsig] foi escolhida como a de melhor
resultado. Foram feitas ainda 50 tentativas de treinamento com essa arquitetura. A rede de
melhor resultado foi então testada variando o limite de detecção (saída da rede) entre 0,1 e
0,99. Parte dos resultados estão na Figura E-7. Para o limite de 0,67 a rede apresenta 3,02%
de falsos positivos e 96,88% de verdadeiros positivos.
- 297 -
0 1 2 3 4 5 6 7 8 9 1092
93
94
95
96
97
98
99
100
falsos positivos
verd
adei
ros
posi
tivos
Figura E-7: Desempenho da rede variando o limiar de detecção
O percentual de 3,02% de falsos positivos corresponde a 29 NEs entre as 960 testadas,
que seriam analisadas manualmente, teoricamente sem necessidade. Esse resultado merece no
entanto uma análise mais detalhada, nas 29 NEs aparentemente classificadas de forma
equivocada, encontram-se 27 NEs cuja combinação de atributos não existiu no treinamento,
para as quais a rede não generalizou a classificação "normal". Essas NEs, apesar de terem sido
emitidas pela entidade, apresentam combinação de atributos pouco comuns. Apesar de serem
NEs regulares, mereceriam uma análise detalhada. Dessa forma, não se pode considerar os
3,02% de falsos positivos um erro real da rede. Na verdade, não é possível medir
precisamente o que seria considerado como erro uma vez que a detecção objetiva selecionar
notas com comportamento pouco comum, cabendo ao analista variar o limite de detecção em
função da quantidade de notas selecionadas passíveis de análise manual.
Livros Grátis( http://www.livrosgratis.com.br )
Milhares de Livros para Download: Baixar livros de AdministraçãoBaixar livros de AgronomiaBaixar livros de ArquiteturaBaixar livros de ArtesBaixar livros de AstronomiaBaixar livros de Biologia GeralBaixar livros de Ciência da ComputaçãoBaixar livros de Ciência da InformaçãoBaixar livros de Ciência PolíticaBaixar livros de Ciências da SaúdeBaixar livros de ComunicaçãoBaixar livros do Conselho Nacional de Educação - CNEBaixar livros de Defesa civilBaixar livros de DireitoBaixar livros de Direitos humanosBaixar livros de EconomiaBaixar livros de Economia DomésticaBaixar livros de EducaçãoBaixar livros de Educação - TrânsitoBaixar livros de Educação FísicaBaixar livros de Engenharia AeroespacialBaixar livros de FarmáciaBaixar livros de FilosofiaBaixar livros de FísicaBaixar livros de GeociênciasBaixar livros de GeografiaBaixar livros de HistóriaBaixar livros de Línguas
Baixar livros de LiteraturaBaixar livros de Literatura de CordelBaixar livros de Literatura InfantilBaixar livros de MatemáticaBaixar livros de MedicinaBaixar livros de Medicina VeterináriaBaixar livros de Meio AmbienteBaixar livros de MeteorologiaBaixar Monografias e TCCBaixar livros MultidisciplinarBaixar livros de MúsicaBaixar livros de PsicologiaBaixar livros de QuímicaBaixar livros de Saúde ColetivaBaixar livros de Serviço SocialBaixar livros de SociologiaBaixar livros de TeologiaBaixar livros de TrabalhoBaixar livros de Turismo