Classificação e extração com occ

36
Copyright © OpenText Corporation. All rights reser Open Text Capture Center Classificação e Extração Automática de Dados de Documento Marcelo Carrera Sales Executive 6/18/22 Copyright © Open Text Corporation. All rights reserved. Slide 1

Transcript of Classificação e extração com occ

Page 1: Classificação e extração com occ

Copyright © OpenText Corporation. All rights reserved.

Open Text Capture Center

Classificação e Extração Automática de Dados de Documento

Marcelo CarreraSales Executive

April 12, 2023

Copyright © Open Text Corporation. All rights reserved.

Slide 1

Page 2: Classificação e extração com occ

Tecnologias de Documento da Open Text

Page 3: Classificação e extração com occ

3

Tecnologias de Documento da Open Text

Antigo CGK, Computer Gesellschaft Konstanz

Processando Documentos desde 1972

Incomparável: Pacote completo de tecnologia

Líder mundial em tecnologia de reconhecimento

Atendimento Global

Desde 2009 como parte da Open Text CDT: Captaris Document Technologies e ODT: OCÉ Document Technologies

Page 5: Classificação e extração com occ

Beneficios, Escopo e Casos de Uso

Page 6: Classificação e extração com occ

OCC – Beneficio

Copyright © Open Text Corporation. All rights reserved.

QMelhorar a Qualidade da Informação Melhorar o compartilhamento de informação Aproveitar um conjunto comum de regras de negócio Reduzir erros

$Reduzir Custos Operacionais Automatizar tarefas manuais Implantar uma plataforma única de entrada de documentos Reduzir preenchimento/armazenamento de papel

Acelerar os Processos de NegócioDiminuir o tempo de um cicloReduzir o processamento de exceçãoMelhorar o relacionamento com clientesAumentar produtividade da equipe

Conformidade (“Compliance”) Garantir conformidade / auditabilidade Melhorar visibilidade dos processos de negócio Ter evidências para o caso de um litigio

§§

Page 7: Classificação e extração com occ

Produtos

Slide 7

Nota Fiscal

Requerimento

Verificação

Solicitação

OpenTextEnterprise Scan

Invoice Capture Center OpenText Capture Center

Aplicações Alvo

Content Server

TCP, IDM, VRD, C360, P360, …

SharePoint

Copyright © Open Text Corporation. All rights reserved.

Page 8: Classificação e extração com occ

Casos de Uso

Slide 8

Gera Dinheiro

Economiza Dinheiro

Documento Eletrônico

Qualificado

Permite Workflow

Digital

Captura de Dados /

Documento

Reduzir EntradaManual Permite

automação de

Processos

Digitalização de Correspondência

Digitalizar Documentos em Arquivos Eletrônicos

Conversão de Documentos de Processos Antigo

Gerenciamento de Transações e Processos

Centro de Serviços

Captura Ad-Hoc

Copyright © Open Text Corporation. All rights reserved.

Page 9: Classificação e extração com occ

Caso de Uso: Digitalização de Correspondência

LA D I G I T

P A P E L

Tempo Decorrido

Distribuição Interna

Trabalho Produtivo

Análise de Documento

Digitalização

Preparação

Entrega de Correspondência

Distribuição Interna

Copia

Trabalho Produtivo

EntregaTransporte Interno

Seleção

Entrega de Correspondência

Copyright © Open Text Corporation. All rights reserved.

Page 10: Classificação e extração com occ

Funcionalidades e Características

Page 11: Classificação e extração com occ

Visão Geral dos Componentes do OCC

IM EX

Fax, Email,FTP site,

Pasta de RedeSharePoint

Cliente do Enterprise Scan

Aplicações de Negócio

Arquivo

ConfiguraçãoMonitoramento

Expedição

ValidaçãoReconhecimento

Open Text Capture Center

Copyright © Open Text Corporation. All rights reserved.

Page 12: Classificação e extração com occ

Reconhecimento: Diferente Tipos de Documentos

Documentos Estruturados> Formulários

Documentos Semi-Estruturados

> Correspondência B2B

DocumentosDesestruturados

> Correspondência C2B

Os dados estão em grupos lógicos mas as suas posições são desconhecidas

Os dados podem estar em qualquer lugar do documento

Dados em posições fixas

Copyright © Open Text Corporation. All rights reserved.

Page 13: Classificação e extração com occ

Passos no Reconhecimento de Documentos

Slide 13

Interpretação: Reforçar os dados extraídos dentro do contexto da informação

21012010332.29 USDX-44277K441258-3

Data: Jan 21. 2010Valor: 332,29 $Nr do Pedido: X-44277Fornecedor: Mueller & Friends

Classificação: Identificação do tipo de documento„Nota Fiscal”

„Notas de Entrega“

„Pedidos“

„Outros“

Extração: Buscar informação básica no documentoData: Jan 21. 2010Valor: 332,29 $Nr do Pedido: X-44277Fornecedor: Mueller & FriendsInvoice

Separação: Dividir um lote de imagens em documentos individuais (várias páginas)

Copyright © Open Text Corporation. All rights reserved.

Page 14: Classificação e extração com occ

Importação

Importação Direta a partir do Enterprise Scan Estrutura de documento e pasta mantidos ES de meta dados mapeados para o index de dados do OCC

Entrada de Documento (hot spot) por File system E-Mail FTP site SharePoint

Tipos de Documentos Documentos Bitmap: TIFF, GIF, JPG, … Petro e Branco, escala de cinza, colorido Documentos PDF

Copyright © Open Text Corporation. All rights reserved.

Page 15: Classificação e extração com occ

Reconhecimento: Separação de Documento

Documento 1 Documento 2 Documento 3

Coleta de páginas individuais em documentos Fronteiras do documento podem ser definidas por bordas

Código de Barra

Patch Code

Número Fixo de Páginas

Conteúdo e regras

Copyright © Open Text Corporation. All rights reserved.

Page 16: Classificação e extração com occ

16

Reconhecimento: Classificação de Documento

Pedido

Requerimento

Verificação

Solicitação

Classifique cada documento de acordo com a sua categoria

Métodos

Baseado em Regras, ex. certas frases ou objetos em alguma posição

Adaptativa: aprendizado baseado em amostras

Pontos de identificação: por números, códigos de barras

Uma combinação dos tipos acima

Page 17: Classificação e extração com occ

Reconhecimento: Motores de Extração

Copyright © Open Text Corporation. All rights reserved.

Baseado em Regras

Classificação & Extração

Adaptativa

Auto-rotação

Desentortar /Limpar Imagem

Remoção de Linhas

Filtro de Cor

Adaptive Binarization

Processamento de Imagens

Código de Barras 1D

Código de Barras 2D

Patch Code

Check Box

Mark Sense

Padrão de Reconhecimento

Impressora

Escrita a mão

OCR Fonte.g. MICR

Core OCR

Reconhecimento de Formulários

Reconhecimento de formas livres

Classificação(ACT)

Extração(ART)

Bando de dados base (SnapMatch)

Motor de Reconhecimento (RecoStar) Leitor de Documento(DOKuStar)

Page 18: Classificação e extração com occ

Extração de Formas Livres

Normalizar

“10/24/10”

Format (US)Day = 24Month = OctYear = 2010

24.10.2010

Decompõe a “string” em subunidades e reformata conforme exigido

Vericar

Compara com regras de negócio e verifica se faz sentido

Período valido

?

24.10.2010

yes no

ExportaEntrada Manual

Analisar

Date

Word

Number

Busca identicações que fazem sentido com as regras

Transforma pixels em caracteres por meio do reconhecimento ótico de caracteres

OCR

CLERK: 12DATE SHIPPEDORDER DATE10/30/0210/24/02COVER CODEPA

3

Extrair

Order_Date = “10/24/10”

Encontra a data correta entre todas as alternaticas possiveis

Copyright © Open Text Corporation. All rights reserved.

Page 19: Classificação e extração com occ

Efeito de Longo Prazo das Técnicas de Forma Livre

Abordagem de OCC

Reconhecimento de forma livre

Tecnologia Adaptativa

(=aprendizado)

Combinando forma livre e adaptativa

Reconhecimento baseado

(template) na forma

Aumento da taxa de reconhecimento durante tempo de produção

Copyright © Open Text Corporation. All rights reserved.

Page 20: Classificação e extração com occ

Opção de Nota Fiscal

O Capture Center utiliza uma base de conhecimento interna de notas fiscais

As regras de extração forma desenvolvidas e testadas com base em amostras de notas fiscais de mais de 4000 fornecedores diferentes.

Exemplos de idiomas de mais de 25 paises incluindo o Brasil

Taxa de reconhecimento de mais de 95% no nível de campos, com valores médios entre 70% a 90%

Refinamento continuo baseado na experiência de campos

Copyright © Open Text Corporation. All rights reserved.

Page 21: Classificação e extração com occ

Extração de Dados de Nota Fiscal

Fornecedor

Número da Nota

Linha de Itens

Valor Liquido

Valor Total

Data da Nota

Número do Pedido

Moeda

Nota da Entrega

Copyright © Open Text Corporation. All rights reserved.

Page 22: Classificação e extração com occ

Amostra de Dados de Nota Fiscal

DadosID do fornecedor como no dado mestre

Nome do vendedor

Como o dado é extraído?

Pesquisa de base de dados SnapMatch

Utiliza o dado mestre de fornecedor incluindo informações auxiliares (nome da empresa, número de FAX e telefone, endereço, …)

Uso

Necessário para a postagem

Campos mandatórios para formulários de nota fiscal

Configuração

Script para download para base de fornecedores

Número Tel / Fax

Nome

Endereço

Conta do banco

Dados mestre (extraido do ERP)

Outro…

ID do fornecedorNome do fornecedor

Fornecedor

Copyright © Open Text Corporation. All rights reserved.

Page 23: Classificação e extração com occ

Amostra de Dados de Nota Fiscal (continuação)

DadosLiquido, bruto, valor e moeda (padrão)

Percentagem de imposto(s), valor(s), frete, … (opcional)

Como os dados são extraídos?

Uso de base de conhecimento de nota fiscal

Pesquisa por itens (uma nota fiscal é cheia de valores)

Relacionamento lógicos e geométricos entre valores são utilizados para remover as ambiguidades

Uso

Necessário para a postagem

Campos mandatórios para formulários de nota fiscal

Configuração

Configuração de idioma

Valor(es)

Copyright © Open Text Corporation. All rights reserved.

Page 24: Classificação e extração com occ

Amostra de Dados de Nota Fiscal (continuação)

DataData de emissão

Número de referência do fornecedor

Como os dados são extraídos?

Uso de base de conhecimento de nota fiscal

Pesquisa por itens (uma nota fiscal é cheia de valores)

Normalmente a data e o número da nota fiscal estão próximos

Uso

Necessário para a postagem

Campos mandatórios para formulários de nota fiscal

Configuração

Configuração de idioma

Intervalo de datas aceitas por script

Data é numero da nota fiscal

Copyright © Open Text Corporation. All rights reserved.

Page 25: Classificação e extração com occ

Amostra de Dados de Nota Fiscal (continuação)

DadoNúmero do pedido de compras

Como os dados são extraídos?

Uso de base de conhecimento de nota fiscal

Pesquisa por itens chave

Uso de sintaxe pre-definida (450…) ou fazendo download dos pedidos de compras em aberto

Uso

Necessário para a postagem e para conferência de itens por linha

Campos mandatórios para formulários de nota fiscal

Configuração

Sintaxe utilizada pela empresa para números de pedidos

Configuração de idioma

Número do Pedido de Compras

Copyright © Open Text Corporation. All rights reserved.

Page 26: Classificação e extração com occ

Amostra de Dados de Nota Fiscal (continuação)

DataNúmero do pedido, número de ordem da

linha, quantidade, unidade, preço unitário, preço total, percentagem de imposto e valor, descrição, número da nota de entrega.

Como os dados são extraídos?

Análise de layout e conteúdo

Uso opcional de cabeçalhos de coluna

Variando a ordem de linhas

Uso

Os dados precisam estar de acordo com o pedido e os bens entregues

Uso: Opcionalmente

Configuração

Configuração de idioma

Itens de Linha

Copyright © Open Text Corporation. All rights reserved.

Page 27: Classificação e extração com occ

OCR – Estado da Arte

Impresso

Texto OCR

Escrita Manual

Escrita Cursiva

Praticamente perfeito

Perfeito ou aceitável

Para produção

Apenas em ambientes restritos

Copyright © Open Text Corporation. All rights reserved.

Page 28: Classificação e extração com occ

Reconhecimento: Balanceamento de Carga

Fácil de Escalar Maior rendimento com clusters de servidores de reconhecimento Suporta todos os cenários de fail-over

Copyright © Open Text Corporation. All rights reserved.

Servidor de Reconhecimento 2

Nós Runtime

Servidor OCC

Servidor de Reconhecimento 1

Nós Runtime

Nós Runtime

Page 29: Classificação e extração com occ

Validação

Copyright © Open Text Corporation. All rights reserved.

Correção de

Separação de documento

Classificação de documento

Dados Extraidos

Desenho ergonômico

Destaque (Highlight) de dados extraidos

Pula campos corretos

Controle total por teclado

Entrada com clique único: Extração de dados semi-automatica com apontamento do dado

Page 30: Classificação e extração com occ

Entrada com um só clique

Copyright © Open Text Corporation. All rights reserved.

Page 31: Classificação e extração com occ

Validação de Desenho de Máscara

Slide 31Copyright © Open Text Corporation. All rights reserved.

Page 32: Classificação e extração com occ

Exportação

Content Server (LiveLink) Pasta dependente da classe do

documento Configuração de nome de arquivo Meta dados por categoria Disparo de Workflow

SharePoint Biblioteca depentende da classe do

documento Configuração do nome do arquivo Atributos da biblioteca Atributos do caminho da informação

File System Pasta e nome do arquivos

selecionáveis Dado em XML ou CSV

Exportação customizada

Indexação e

renderização

de PDF

Copyright © Open Text Corporation. All rights reserved.

Page 33: Classificação e extração com occ

Configuração

Importação de esquema de dados das categorias do Content Server ou das bibliotecas do SharePoint

Fácil definição de tipos de campos

Comece com KFI (key from image) e depois automatize passo a passo Entrada de dados semiautomática Aprendizado adaptativo Operadores de extração pré-definidos Operadores de extração definidos pelo

usuário

Design Studio para definição de

campos para formulários e para

sem formulários

Processos simplificados para desenvolvimento,

teste e implementação Teste com grandes volume de dados Teste de regração Copyright © Open Text Corporation. All rights reserved.

Page 34: Classificação e extração com occ

Monitoramento e Relatórios

Ferramenta de monitoramento para controlar fase de produção Saúde das fontes de entrada e dos respectivos destinos Saúde de todos os servidores de reconhecimento Lista de todos os clientes de validação ativos Sumário de todos os “batches” ativos Drill down em perfis individuias e “batches”.

Mudança de estado de “batches” e recursos de processamento

Relatório de histórico de “batches” Passos de processamento Quando, o que e o tempo que levou Monitoramento da performance

Slide 34Copyright © Open Text Corporation. All rights reserved.

Page 35: Classificação e extração com occ

Interface para criação de Scripts e Programação

Escreva scripts em C#

Programe com .net (DLLs)

Pontos de entrada durante o reconhecimento Antes do reconhecimento, ex. Predefinição de metadados Depois da classificação, ex. Para substituir decisão de classificação

automática Depois do reconhecimento, e.g. Para validar dados ou combinar diversos

campos de dados

Durante a validação Baseados em eventos disparados pelo usuário como entrada de dados e

mudança de valor

Exportação customizada

Conector de entradaSlide 35Copyright © Open Text Corporation. All rights reserved.

Page 36: Classificação e extração com occ

Slide 36

Obrigado

Marcelo CarreraSales Executive

Av. Ibirapuera, 2332, Torre II, Cj. 132Tel: +55 11 5054-8373Mobile: +55 11 98536-7739Email: [email protected]