Classificação de documentos
Transcript of Classificação de documentos
Classificação de Documentos
Classificação baseada em Inteligência Artificial
Agenda
1. Introdução
2. Ferramentas
3. Exercício prático
4. Case
Por que classificar documentos?
Como fazer isso?
Classificação de documentos
1. Exemplos de documentos (arquivos) de cada classe;
2. Criar dicionários de dados e extrair características;
3. Separar amostras para treino e teste;
4. Treinar classificador;
5. Testar classificador treinado.
Isso é fácil?
Ferramentas
Ferramentas
● O processamento distribuído do Hadoop permite escalar;
● O Mahout encapsula a complexidade matemática dos algoritmos de ML;
● Embora o Mahout seja uma API Java, é possível utilizá-la com outras
tecnologias.
Ambiente
Ambiente
● Virtualização Docker;
● Apache Hadoop;
● Apache Mahout;
● Exemplos de textos divididos em 4 categorias (esporte, medicina, politica e
religião);
Referência: https://github.com/evertongago/text-mining
Prática :)
Case
Case - Contexto
Uma acessoria jurídica separa, classifica e encaminha convocações judiciais aos advogados associados.
Seu processo de trabalho inclui:
● 200+ diários oficiais publicados entre 06h e 11h da manhã
● Converter arquivos PDF para recortes em arquivos texto
● Classificar manualmente cada convocação (80% = ~ 14M / mês)
Case - Dificuldades
● O volume de trabalho dificulta a evolução do processo
● “Afoga” o departamento de TI e os analistas
● Sobra pouco tempo e recurso para evoluções
Case - Objetivo
Os principais objetivos deste trabalho são:
● Melhorar a classificação automática (hoje ~ 20%)
● Minimizar a classificação crítica e spam
● Diferencial de mercado em relação aos outros players
Case - Solução
Case - Resultados
APROVADOS DESCARTADOS ACERTOS %
APROVADOS 64.934 667 98.98%
DESCARTADOS 40.300 192.388 82.68%
DESCARTES ERRADOS 1.02%
APROVAÇÕES ERRADAS 17.3%
Case - Resultados
Foram criados dois cenários de análise:
● Analisar manualmente as aprovações (-64% de trabalho)
○ Benefício: Minimizar o número de spam
○ Risco: Assume 1.02% de notificações não recebidas
● Analisar manualmente os descartes (-35% de trabalho)
○ Benefício: Minimizar o número de notificações não recebidas
○ Risco: Assume 17.3% de spam
Próximos passos
DecisãoAlgoritmo de Classificação
Naive Bayes
Decisão● Simples de manter● Agilidade de replicação● Integração multiplataforma
Solução baseada em infraestrutura
Perguntas?