4533_CapExtras

27

description

4533_CapExtras

Transcript of 4533_CapExtras

Page 1: 4533_CapExtras
Page 2: 4533_CapExtras

Jorge DuarteAntonio Barros

Organizadores

Métodos e Técnicas de Pesquisa em Comunicação

Material do Portal Atlas

SÃO PAULOEDITORA ATLAS S.A - 2012

Page 3: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 2

Sumário

26 - ANÁLISE E MINERAÇÃO DE TEXTOS E DADOS, 3

O desenvolvimento de bases e análises de dados e textos nas organizações, 4

Coleta e armazenagem: os supermercados de dados, 5

Tratamento e preparação de dados e textos: condição de qualidade, 5

Mineração de dados, 6

Exemplos de aplicações inteligentes de mineração de dados, 7

Relacionamento com clientes, 7

Fraldas e cerveja, 7

Mineração de textos, 7

Exemplos práticos de mineração de textos, 9

Coorte 2 (25 a 34 anos), 11

Coorte 5 (mais de 55 anos), 11

Desenvolvimento de produtos (transferência, tecnologia, negócios), 11

O nível dos especialistas, 13

Competências em risco, 14

Uma aplicação na comunicação, a midiametria, 14

A base clipping, 15

Resultados, 16

Características das coberturas, 16

O esforço dos centros de pesquisa, 19

Análise das palavras chaves e temas, 21

Conclusão, 23

Referências bibliográficas, 24

Anexo 1, 26

Page 4: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 3

26 - Análise e mineração de textos e dados

Roberto Penteado1

Há uma tendência universal para uma “superoferta de informação”. Naisbitt (Apud Faria e Quoniam, 2002) foi quem melhor resumiu esta situação: “estamos afogados em informação mas sedentos de conhecimento”. Faria e Quoniam (2002) assinalam que a cada ano o conhecimento humano dobra de volume. Por ano se editam, no mundo, mais de 700 mil livros - quase 2 mil por dia - e de 100 a 300 mil revistas científicas trazendo perto de 10 milhões de novos artigos científicos. São geradas mais de 1 milhão de patentes por ano. Já na Internet existiam mais de 2,5 bilhões de páginas com 550 bilhões de documentos linkados, acima de 8 mil bases de dados disponíveis para acesso e se contava em centenas as diferentes ferramentas de busca.

Esta realidade cria um dilema e uma necessidade que contribuem para o inevitável desenvolvimento da análise e mineração de textos e dados nas organizações.

O dilema diz respeito às diferenças entre a informação disponível e a informação necessária: “a informação disponível é abundante, incompleta, duvidosa, pública e confusa. Já a informação necessária é sintética, completa, confiável, confidencial e precisa” (Faria e Quoniam, 2002). O uso da informação disponível é limitado. Quanto mais bruta estiver a informação, mais lentamente o Decisor pode se apropriar dela. Enquanto para tirar sentido da informação bruta pode-se levar mais de um dia, a informação estratégica processada e validada pode ser entendida e apropriada pelo Decisor em apenas um minuto. Quoniam (2001) afirma que esta deve ser “a informação certa, na hora certa, entregue na forma certa, à pessoa certa e deve resultar na decisão certa”. O uso é que determina seu real valor. Se a informação não for usada, seu valor é zero.

A necessidade refere-se ao fato de que, para permanecerem viáveis e saudáveis, as organizações devem dominar metodologias e técnicas e ter recursos humanos e materiais capazes de realizar as operações exigidas para criar a informação necessária. Por isso, Levet (2001, p. 38) afirma que “não é mais o acesso à informação que é a mola do crescimento e do emprego mas a aptidão dos atores em transformar, compreender, interpretar e utilizar a informação”. E isto foi reconhecido pela comunidade internacional nas normas de qualidade ISO. A norma ISO 14000, de 1996, cria um sistema de gestão ambiental que requer registro e análise de informações sobre legislação ambiental, processos e produtos, subcontratantes e fornecedores, situações de crise e capacidade de reação, além de aspectos ambientais significativos.

Dou (1999) identifica que as organizações precisam se antecipar em relação aos concorrentes. Carecem, portanto, de uma informação do presente ou do futuro próximo e devem usá-la o mais rápido possível. O que está em jogo é sua capacidade de analisar, em tempo real, o máximo de informações possíveis e estabelecer, a partir desta massa, um número significativo de inteligências econômicas, financeiras, jurídicas, diplomáticas, culturais, sociais, científicas e políticas. Perceber, antes dos concorrentes, sinais fracos, indicando uma oportunidade de negócio ou uma tecnologia e agir neste sentido pode resultar em grandes vantagens competitivas.

Estas metodologias e técnicas para “construir, associar, tratar e utilizar informações para fins

1 Roberto Penteado é jornalista profissional há 33 anos e trabalha na Embrapa. Cursou Relações Internacionais, no Instituto de Estudos Políti-cos de Paris, Mestrado em Comunicação de Massa, na Universidade da Flórida e o Diploma de Estudos Aprofundados em Inteligência Com-petitiva, na Universidade du Sud, Toulon-Var. É Doutor em Ciência da Informação e da Comunicação pela Universidade du Sud Toulon-Var.

Page 5: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 4

operacionais, de pesquisa, de agregar valor ou de conquista comercial” (Dou, 1999) são o principal objeto deste artigo. Referem-se a um processo bem definido que tem sua produtividade ampliada com as novas tecnologias de armazenagem de dados, surgidas nas últimas décadas, e não dispensa a preparação e reformatação dos dados e textos antes das análises, realizadas em duas vertentes, a mineração de dados e a mineração de textos.

O desenvolvimento de bases e análises de dados e textos nas organizações

Uma das melhores descrições gráficas do processo de mineração de dados e de textos para gerar a informação necessária foi feita por Faria e Quoniam (2002, p. 10). No caso, eles se referem ao Ciclo de Inteligência. Veja na Figura 1.

Como chegar à informação necessária ?Como chegar à informação necessária ?

Diagnóstico

Planejamento

Coleta eArmazenagem

Tratamento,Análise eSíntese

Disseminação

Aplicação,Avaliação eAtualização

FIGURA 1: O processo de geração da informação necessária: o Ciclo da Inteligência (Faria e Quoniam, 2002)

Trata-se de um processo de seis etapas: Diagnóstico; Planejamento; Coleta e Armazenagem; Tratamento, Análise e Síntese; Disseminação; Aplicação, Avaliação e Atualização. Não cabe neste artigo dar uma explicação detalhada sobre todas estas etapas até mesmo porque as denominações são autoexplicativas. O leitor deve saber, no entanto, que este é um processo geral, a ser utilizado para cada operação de mineração e análise de dados e textos. Duas observações são necessárias: a primeira, sobre a etapa de Coleta e Armazenagem, e a segunda, sobre o Tratamento.

Page 6: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 5

Coleta e Armazenagem: os supermercados de dadosQuoniam (1999) alerta que, na conquista da informação necessária, uma das primeiras providências

seria a integração de todas as informações em um sistema único para “informação à inteligência”. Esta necessidade de integrar informações foi um dos fatores que contribuíram para o desenvolvimento de um novo conceito de organização de dados, os supermercados de dados (Datawarehouse-DW). Sua origem foi nas grandes cadeias de lojas de departamentos dos Estados Unidos (EUA). Para ficarem um degrau acima da concorrência, elas montaram supermercados de dados, as datawarehouses, agregando bases de dados financeiros, jurídicos, políticos, administrativos, recursos humanos, comerciais, técnicos e científicos, entre outros. Em termos técnicos, o supermercado de dados representa um espaço computacional onde as informações reunidas nos sistemas operacionais se tornam disponíveis para acesso online. São criados dois ambientes separando, em computadores diferentes, os sistemas online operacionais e os sistemas online analíticos.

A orientação do supermercado de dados (DW) é para a decisão, por meio de uma interface amigável e amplamente disponível. A palavra-chave é democratização do acesso aos dados. Para Nóbrega (2001, p. 286), o DW significa “conceder autonomia ao usuário para que ele próprio obtenha seus relatórios, sem precisar encomendá-los ao pessoal de informática”.

Tratamento e preparação de dados e textos: condição de qualidade

A etapa de tratamento e preparação dos dados e textos influi diretamente na qualidade e na confiabilidade das análises. Jambu (2000, p. 68) assinala que a taxa mais ou menos elevada de dados faltantes (que deveriam ter sido informados mas não foram) ou incoerentes determina a maior ou menor qualidade do resultado. Qualquer análise que incorpore uma grande quantidade de dados faltantes produz resultados “errôneos em cadeia e, no final desta cadeia, o Decisor não saberá mais em que confiar”.

A regra de ouro da mineração de dados e textos é que minerar lixo dá lixo. Em consequência, esta etapa intermediária de tratamento, preparação, limpeza e, alguns ainda acrescentam, enriquecimento dos dados, é essencial.

Em geral, as bases de dados não são desenvolvidas para permitir análises. A ênfase, na maioria delas, é permitir uma rápida recuperação da informação. São raros os casos em que dados recuperados de uma base podem ser diretamente utilizados pelos softwares de análise (Quoniam et al., 1993; Mogee, 1997). Muitas vezes, a estrutura da informação recuperada não é compatível com o padrão necessário para o uso dos softwares e também é preciso incorporar dados externos. Então, antes de analisar, é preciso preparar e integrar dados de diferentes origens e bases, padronizar nomes, agrupar conceitos e reorganizar campos, entre outras opções. Existem ferramentas de software específicas para isto. Veja mais detalhes no exemplo adiante e no Anexo 1.

A preparação, tratamento e limpeza dos dados demanda, via de regra, a maior parte do tempo gasto num processo de tratamento automatizado da informação. Leeds (2000) estima que na preparação dos dados são gastos até 60% de todo o esforço empreendido no tratamento automatizado de dados. Antes da preparação, cerca de 20% do tempo total seria dedicado à identificação das necessidades de informação. Após a preparação, 10% do tempo vai para o tratamento dos dados e outros 10% para a análise dos resultados e assimilação do conhecimento.

Page 7: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 6

Mineração de dadosPara Jambu (2000, p. 8) mineração de dados (Datamining-DM) é um processo que combina vários

métodos matemáticos, estatísticos ou com origem em algoritmos, para determinar uma solução para um problema, em um universo decisional. Porter (2003, p. 3) descreve outra característica do processo: no geral, ao minerar dados, tratamos de extrair informações úteis de quaisquer tipo de dados. No entanto, o mais comum é utilizarmos dados numéricos e, portanto, quantitativos. Exige, assim, bom conhecimento de Estatística. Esta característica geral influi na escolha das ferramentas para minerar dados, que são também orientadas para o tratamento quantitativo. Mais detalhes no Anexo 1.

Sulaiman e Souza (2001, p. 267) citam cinco formas de gerar resultados via mineração de dados: regras associativas; hierarquias de classificação; padrões sequenciais; padrões de séries temporais; categorização e segmentação.

1) Regras associativas; elas visam “encontrar itens em uma transação que podem determinar a presença de outros itens na mesma transação”. Exemplo: quem compra leite e pão também costuma comprar manteiga.

2) Hierarquias de classificação; criam “um modelo baseado em dados conhecidos” e ajudam a explicar o porquê de uma dada classificação e também permitem “classificar novos dados a partir de uma classificação existente”. Exemplo: criar limites para concessão de crédito baseados no histórico de transações de crédito anteriores (Sulaiman e Souza, 2001, p. 267).

3) Padrões sequenciais; indicam comportamentos ou sequência de comportamentos. Exemplo: “sempre que uma mulher jovem compra sapatos de couro, comprará cintos e bolsas nos próximos trinta dias” (Sulaiman e Souza, 2001, p. 268).

4) Padrões em séries temporais; mostram ocorrências similares num espaço de tempo. Aos dados acima, acrescenta-se a estação do ano: no inverno, mulheres jovens compram sapatos de couro, bolsas e cintos. No verão este padrão se inverte para sandálias, bolsas e chapéus.

5) Categorização e segmentação; reúnem registros com características semelhantes. Exemplo: um grupo de consumidores pode ser classificado como “pouco comprador”, “medianamente comprador” ou “muito comprador” para um produto determinado.

Em geral trabalha-se em mineração de dados buscando identificar perfis dos diferentes usuários ou clientes e seus diversos padrões de consumo ou de comportamento. Em seguida, trabalhando por segmentos, pode-se identificar o perfil dos melhores clientes; os produtos e serviços consumidos por ou características de cada segmento de clientes; os padrões de consumo de produtos, como e quando dois ou mais produtos ou características se associam ou se agrupam numa única compra ou evento e também o padrão de consumo/comportamento de uma região, bairro, idade ou sexo.

Jambu (2000, p. 93) lista os campos de aplicação típicos da mineração de dados:

estudos de caso, melhoria da qualidade e da eficiência do negócio, satisfação do cliente, satisfação dos empregados, relacionamento com o cliente, marketing dirigido, marketing local, indicadores de negócios, previsão, tendências, monitorar concorrência, compras, tecnologia da informação, controle de gastos, faturamento e processos de gestão.

Page 8: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 7

Exemplos de aplicações inteligentes de mineração de dados

No Brasil existem casos clássicos como os sistemas de mineração de dados criados para administrar as carteiras de clientes de instituições financeiras e de operadoras de telefonia fixa e celular que resultaram em importantes melhorias do serviço e aumentos de receita.

Relacionamento com clientes

A Telemar uma das maiores empresas de telecomunicações da América Latina, com uma cobertura de 64% do território brasileiro em 16 dos 27 estados, oferecendo serviços de telefonia fixa, celular, Internet, banda larga, dados corporativos, centros de contato e telefonia interurbana, implantou uma datawarehouse para integrar sua base de cerca de 25 milhões de clientes (Balaj, 2005a). Segundo Balaj (2005b, p.24-27), o sistema permitiu aumentar vendas, diminuir os desligamentos e reduzir custos. Entre 2003 e 2005, a participação da empresa no mercado de banda larga passou de 7% para 25%. A empresa também foi capaz de “antecipar o potencial de crescimento do mercado de telefonia móvel, mantendo a expansão da base de clientes” (p.26). A participação dos novos serviços (móvel, dados, banda larga e longa distância), em oposição aos serviços tradicionais (fixo, redes e telefones públicos), no total das receitas aumentou de 30% em 2003 para 39% em 2005, mesmo com um crescimento real das receitas no último ano da ordem de 9% (p.27).

Fraldas e cerveja

Este é outro caso clássico. Foi descoberto que o perfil do consumidor de cerveja era semelhante ao do consumidor de fraldas: homens casados com 25 a 30 anos que compravam os dois produtos nas sextas-feiras, período da tarde/noite. A Wal-Mart - loja de departamentos que já existe no Brasil - decidiu então colocar as gôndolas de fraldas ao lado das de cervejas. Resultado; as vendas de fraldas e cervejas cresceram 30% nas sextas-feiras.

Procter & Gamble - P&G (Reynolds, 1992, p. 344)

Esta multinacional de produtos de consumo utiliza um serviço da empresa de pesquisa de mercado Nielsen que recolhe dados de todos os produtos que passam pelos scanners das caixas registradoras dos supermercados associados. Esses dados permitem estimar o consumo e verificar preço em cada região geográfica dos EUA. Com eles, a P&G monitora a concorrência e cruza com seus relatórios de venda. Extrai indicadores como a sua participação no mercado, por produto, por região. Os resultados são monitorados com lupas já que uma mudança de 1% em um grande mercado significa dezenas de milhões de dólares a mais ou a menos, em volume de vendas.

Mineração de textos

A mineração de textos surgiu e desenvolveu-se a partir de trabalhos de alguns precursores como Derek de Solla Price, Henry Small, Antony van Raan, Donald Swanson, Henry Dou e Alan Porter, em textos estruturados, em oposição a textos não estruturados ou livres. Ou seja, usar bases de dados internas

Page 9: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 8

ou externas, como a Dialog2, Pascal3 ou Francis, com uma estrutura de registros indicando, por exemplo, “autor”, “título”, “data de publicação”, “palavras-chave”, e delas extrair informações sobre evolução e desenvolvimento de atividades científicas, gestão, avaliação e produtividade de atividades de C&T, construir indicadores (citação), redes (comunidades) e monitorar inovações, tecnologias e concorrentes.

Uma ressalva é fundamental: todas estas informações são de domínio público ou podem ser compradas em bases de dados públicas. Dou (1999) e Quoniam (1999) explicam que mais de 85% das informações necessárias estão disponíveis e são acessíveis de uma forma legal e ética. Aqueles que são capazes de recolhê-las, analisá-las e administrá-las adquirem uma vantagem competitiva em relação a seus concorrentes. Daí a denominação de “inteligência competitiva”. Trata-se de uma atividade inovadora que nada tem a ver com “espionagem”. A legalidade é justamente o divisor de águas entre “inteligência competitiva” e “espionagem”. Quando se trata de informações obtidas de forma ilegal e antiética este é o domínio dos espiões. Quando se trabalha, de uma forma ética, com informações legais e públicas e se consegue delas extrair informações relevantes e estratégicas o domínio é o da “inteligência competitiva”. Espionagem não compensa. Não vale a pena ir atrás de informações não públicas de forma ilegal quando se pode utilizar o estoque de informações públicas.

Os trabalhos de mineração de textos se inscrevem em campos como bibliometria, cientometria, infometria, midiametria, museometria e webometria. Tratam de diferentes aspectos da informação e de sua qualidade. Sua principal matéria-prima é a palavra. Esta pode representar, entre outras coisas, um conceito ou tema, um indivíduo, uma organização, ou ainda um conjunto de temas, indivíduos ou organizações. Os métodos de análise envolvem estatísticas unidimensionais (quantos são e o que significam os valores/palavras), estatísticas bidimensionais (como é e quanto mede a relação entre dois valores/palavras), estatísticas multidimensionais (como são e quanto medem as relações entre várias variáveis/palavras) e estatísticas probabilísticas (detectar comportamentos emergentes ou atípicos, ou ainda como se comportarão estas variáveis/palavras). A maior diferença para a mineração de dados é que, como a matéria-prima são as palavras, os programas tradicionais de estatística (que tratam basicamente de números) não são confortavelmente aplicados. Por isso, vários softwares surgiram para cumprir funções específicas da análise como a exploração, posicionamento, estruturação e prospecção de textos estruturados. A maioria destes programas surgiram na década passada e têm origem no sistema operacional DOS. Em versão Windows existem, pelo menos, três softwares, VantagePoint4, Matheo Analyser5 e WinIDAMS6. Os dois primeiros permitem a integração das funções de tratamento bibliométrico, tratamento estatístico e representação gráfica num único ambiente. O terceiro faz parte de uma família de softwares desenvolvida pela Unesco e disponibilizada gratuitamente - IsisAscII/WinISIS/GenIsisWeb/WinIDAMS - que permite, respectivamente, a importação, geração, disponibilização na Internet e análise de bases de dados e de textos.

2 A Dialog, do grupo Thomson, do Canadá, é o maior servidor de dados do mundo (http://www.dialog.com/). Sediado na Carolina do Norte (EUA) ela foi criada ainda antes da Internet, em 1966, por Roger Summit. Foi o primeiro sistema de recuperação de informações online do mundo. A Dialog reúne 900 bases com mais de 1,4 bilhão de registros, cerca de12 Terabytes de informação. Uma boa parcela do conhecimento mundial está disponível lá para 20 milhões de clientes em uma centena de países

3 A Pascal é uma base de dados multidisciplinar e multilíngue. Cobre as Ciências, as Tecnologias e a Medicina. A Francis cobre as áreas de Ciências Humanas e Sociais. Ambas são produzidas pelo Institut de l’Information Scientifique et Technique da França (INIST-CNRS). Por serem multilíngues, suas coberturas são mais “variadas” do que a Dialog, que é uma base em Inglês.

4 O VantagePoint foi lançado em 2000 pela Search Technology Inc.

5 A família do Matheo Analyser, lançado em 2003, inclui também o Matheo Patent para análises específicas em bases de patentes (no caso, a base de patentes EPO - European Patent Office, acessível gratuitamente pela Internet). As patentes reúnem informações únicas, não encon-tradas em nenhum outro lugar. Por exemplo: (a) que empresas estão realizando trabalhos de ponta; quem são os líderes; (b) que indivíduos estão realizando trabalhos de ponta; (c) que países estão à frente de uma tecnologia; (d) quanto tempo as empresas levam para utilizar uma patente; quanto tempo de P&D necessitam para se transformar em lucro; (e) que tecnologias estão crescendo ou decaindo; onde o dinheiro de P&D está sendo aplicado entre os líderes da indústria; e (f) relacionamento entre empresas ligadas a P&D similares ou produzindo os mesmos produtos; relacionamento de pesquisa entre empresas subsidiárias. Veja exemplo na Figura 4.

6 O WinIDAMS da Unesco foi lançado em 1998 e vem sendo aperfeiçoado dentro do conceito software livre. Está na versão 1.2 (2004). Está disponível em Inglês, Francês e Espanhol.

Page 10: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 9

Exemplos práticos de mineração de textosOs exemplos a seguir envolvem diversas etapas da mineração de textos: preparação e limpeza,

construção de indicadores unidimensionais, bidimensionais e construção de redes (multidimensionais) com o objetivo de extrair a informação necessária. Os softwares utilizados são Infotrans (IuK), Dataview7

e Matrisme (U.Marseille/CRRM/LePont) e Excel (Microsoft).

O primeiro exemplo foi extraído do artigo - Da criação de bases de dados ao desenvolvimento de sistemas de inteligência para a organização (Penteado, Dou, Boutin e Quoniam, 2003) - apresentado no 4º Workshop Brasileiro de Inteligência Competitiva e Gestão do Conhecimento. A análise combina uma base de dados interna, com informações do setor de pessoal da Embrapa8 e uma base pública, um repositório de competências de pesquisadores da Embrapa, o Guia de Fontes9. Ela tem a seguinte estrutura:

NOME : JOSE IVO BALDANI

DATN. : 12/2/1953

FORM : AGRONOMIA, 1976; MESTRADO: CIÊNCIA DO SOLO, UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO, 1984; DOUTORADO: CIENCIA DO SOLO, UNIVERSIDADE DO TEXAS A&M - ESTADOS UNIDOS, 1990.

APSQ : BIOLOGIA MOLECULAR; BACTÉRIAS FIXADORAS DE NITROGÊNIO; CONTROLE BIOLÓGICO; GRAMÍNEAS

PROD. : BIOINSETICIDAS, BIOFERTILIZANTES, BIOTECNOLOGIA

UNID. : EMBRAPA AGROBIOLOGIA

Os campos documentais são os seguintes:NOME = Nome

DATN = Data de nascimento

FORM = Formação

APSQ = Área de pesquisa

PROD = Produtos e temas em que trabalha

UNID = Unidade (Centro de Pesquisa) da Embrapa

Um primeiro tratamento foi a criação do campo COOR - Coorte, a partir da data de nascimento. Penteado, et al. (2003) dividiram este campo em 5 Coortes: Nº 1 menos de 25 anos - Nº 2 entre 25 e 34 anos - Nº 3 entre 35 e 44 anos - Nº 4 entre 45 e 54 anos - Nº 5 mais de 55 anos. Separaram ainda o ano de nascimento de cada pesquisador no campo ANON.

Uma segunda reformatação foi realizada no campo FORM - Formação. Ele indica, a partir do nome do pesquisador, sua formação mas não, por exemplo, quais se formaram nas mesmas Universidades. Desta forma, Penteado et al. (2003) partiram o campo FORM em Tipo de Diploma; Ano de Obtenção; Lugar de Obtenção; País de Obtenção. A base reformatada ficou assim:

7 O Dataview e o Infotrans são softwares que funcionam em DOS8 Empresa Brasileira de Pesquisa Agropecuária.9 Disponível em <“http://www.embrapa.br/embrapa/pesquisadores/”>.

Page 11: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 10

NOME : JOSE IVO BALDANI

DATN : 12/2/1953

COOR : 4

ANON : 1953

FORM. : AGRONOMIA formação inicial

QDFORM :1976 data da formação inicial

MESTRADO : CIÊNCIA DO SOLO tipo de diploma e especialidade

QDMEST :1984 data de obtenção do diploma

UNIVMEST : UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO Universidade de obtenção

DOUTORADO : CIÊNCIA DO SOLO

DOUEST : 1990

UNIVDOU : UNIVERSIDADE DO TEXAS A&M

PAIS DOU : ESTADOS UNIDOS país de obtenção do diploma

APSQ : BIOLOGIA MOLECULAR; BACTERIAS FIXADORAS DE NITROGENIO; CONTROLE BIOLÓGICO; GRAMÍNEASPROD : BIOINSETICIDAS, BIOFERTILIZANTES, BIOTECNOLOGIA

UNID : EMBRAPA AGROBIOLOGIA

A partir desta preparação, diversas análises foram efetivadas num único campo, por exemplo, ANON - Ano de Nascimento, que gerou a pirâmide de idade da Embrapa ou cruzando-se dois ou mais campos, Coorte e Unidade, para analisar as diferenças do perfil de idade dos pesquisadores nos diferentes Centros de Pesquisa.

Veja, na Figura 2, a pirâmide de idade dos pesquisadores da Embrapa. O maior número de pesquisadores (o ponto culminante da pirâmide) tem idade entre 51 e 55 anos.

0102030405060708090

100

1927

1930

1933

1936

1939

1942

1945

1948

1951

1954

1957

1960

1963

1966

1969

1973

Page 12: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 11

FIGURA 2: A pirâmide de idade dos pesquisadores da Embrapa.

Coorte 2 (25 a 34 anos)

Em quatro Centros de Pesquisa o número de pesquisadores mais jovens é significativamente superior à média:EMBRAPA UVA E VINHO

EMBRAPA INFORMÁTICA AGROPECUÁRIA

EMBRAPA RORAIMA

EMBRAPA ACRE

Coorte 5 (mais de 55 anos)

Em três Unidades, o número de pesquisadores seniores é significativamente superior à média. EMBRAPA AMAZONIA ORIENTAL

EMBRAPA CLIMA TEMPERADO

EMBRAPA SEDE

À exceção da Sede, onde Penteado et al. (2003) indicam que “é natural encontrar pessoas com mais idade”, a análise indica locais onde pode-se prever a necessidade de contratar pesquisadores a médio prazo.

Desenvolvimento de produtos (Transferência de tecnologia, negócios)

O campo PROD revela quais produtos ou atividades podem ser transferidas pelos pesquisadores, quais são suas competências, ou seja, a capacidade geral de transferência de tecnologia da Embrapa. Este campo é diferente do campo APSQ (áreas de pesquisa) que indica o conhecimento fundamental.

Penteado et al. (2003) criaram uma matriz quadrada reunindo todos os pares de termos contidos no campo PROD. Tal matriz foi trabalhada em um software bibliométrico especializado, o Matrisme, que a transformou num mapa (Figura 3).

Page 13: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 12

FIGURA 3: Representação geral da rede de competências econômicas por produtos trabalhados pela Embrapa Amazônia Oriental.

Este mapa pode ser interpretado nos níveis macro, médio (um ou mais grupos) e micro (nós em cada grupo). Pode-se analisar a configuração de um grupo, sua densidade, a conectividade de um indivíduo/produto, a centralidade de um nó da rede, a intensidade das ligações de um grupo e os istmos de ligação entre dois ou mais grupos (ex. pimenta-do-reino). O fato de dois domínios estarem ligados significa que existe pelo menos um pesquisador que domina aquelas competências. Tais mapas são bastante úteis, não só para um trabalho de transferência, ou para responder a uma demanda. Indicam também, quando associados a séries temporais, a evolução de um campo científico durante décadas, e ainda, quando cruzadas as competências com os locais de trabalho, a distribuição de um campo científico - quais organizações trabalham com quais áreas e assim por diante (Polity e Rostaing, 1997).

A mesma técnica pode ser utilizada na análise de patentes. Eric Boutin (2001) descreve, por exemplo, como de um universo de 400 patentes selecionadas num banco de dados público se extraiu os inventores (IN) e estes foram relacionados, em seguida, numa matriz quadrada de colaborações que resultou, ao final, numa rede de inventores. Veja na Figura 4.

Page 14: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 13

FIGURA 4: Representação geral do processo de criação da informação necessária, no caso, a rede de inventores de turbinas à gás da Rolls Royce (Boutin, 2001).

O nível dos especialistas

A Figura 3 põe em evidência a capacidade de resposta da Embrapa mas não determina com quais especialistas. Assim, Penteado et al. (2003) executaram um tratamento bibliométrico por pares, associando o campo NOME ao campo PROD, conforme o quadro abaixo:

NOME COMPETÊNCIA

ADRIANO VENTURIERI ZONEAMENTO

ADRIANO VENTURIERI SENSORIAMENTO REMOTO

ADRIANO VENTURIERI LEVANTAMENTOS FLORESTAIS

ADRIANO VENTURIERI ANÁLISE AMBIENTAL

ALFREDO KINGO OYAMA HOMMA SISTEMAS AGROFLORESTAIS

ALFREDO KINGO OYAMA HOMMA SILVICULTURA

ALFREDO KINGO OYAMA HOMMA PIMENTA-DO-REINO

ALFREDO KINGO OYAMA HOMMA ECOLOGIA

ALFREDO KINGO OYAMA HOMMA AGROFLORESTA

ALTEVIR DE MATOS LOPES ARROZ RECURSOS GENÉTICOS

ALTEVIR DE MATOS LOPES ARROZ MELHORAMENTO

ANGELA MARIA LEITE NUNES PIMENTA-DO-REINO

ANGELA MARIA LEITE NUNES FRUTICULTURA PRAGAS

ANGELA MARIA LEITE NUNES CUPUAÇU

ANGELA MARIA LEITE NUNES CONTROLE DE PRAGAS

Page 15: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 14

Uma lista como esta pode ser classificada por ordem alfabética tanto na coluna COMPETÊNCIA como na coluna NOME e permite o acesso rápido às multicompetências de uma organização. Ela pode ajudar a definir quem participa de uma negociação ou lidera uma operação de transferência.

Competências em risco

Um cruzamento da Coorte 5 (Pesquisadores mais experientes) com o campo PROD (Figura 5) indica quais competências estão em risco de se perderem, em função da futura aposentadoria de seus detentores. No caso, as três primeiras foram: pastos e forrageiras, economia agrícola e fruticultura. Tal análise permite uma gestão mais fina das equipes de pesquisa (Penteado e Quoniam, 2001).

Competências dos com mais de 55 anos (em risco)

0

10

20

30

40

25 a 34 1 0 3 0 0 0 0 0 0 0 2 1 0 0 0 0

35 a 44 23 6 20 9 10 7 2 3 7 4 8 3 12 4 5 1

45 a 54 38 21 32 18 25 16 17 11 19 8 14 5 27 11 10 6

55 acima 30 18 17 14 12 12 11 10 9 9 8 8 8 8 8 8

pastose

forrageir

economia

agricola

fruticultura

sistemas de

produca

bovinos\leite

sementes

bovinos\pastage

ns

controlede

pragas

bovinos\nutricao

soja\manejo etratos

cajudesenvolvimento rural

irrigacao e

drenage

milho\manejo etratos

difusaode

tecnolo

planejamento

estrateg

FIGURA 5: Competências em risco na Embrapa (Penteado e Quoniam, 2001).

Uma aplicação na comunicação, a midiametria

A aplicação desta metodologia de análise de textos na análise dos meios de comunicação de massa permite gerar tendências e determinar as preferências dos diversos veículos, assim como fazer estudos prospectivos sobre a evolução histórica de um tema, um produto, um político ou uma empresa na mídia e retirar desta análise conclusões para orientar e aperfeiçoar um relacionamento, em suma criar laços mais profundos e relações melhores e mais produtivas do sujeito de pesquisa com a mídia.

A função de Clipping, de acompanhar o que sai na imprensa, está presente em organizações nos cinco continentes. O objetivo específico das análises midiamétricas aqui demonstradas é de verificar o desempenho de uma organização, no caso, a Embrapa, na mídia impressa e eletrônica e identificar a política editorial destes jornais de maneira a qualificar, ampliar e melhorar esta cobertura.

Uma lista como esta pode ser classificada por ordem alfabética tanto na coluna COMPETÊNCIA como na coluna NOME e permite o acesso rápido às multicompetências de uma organização. Ela pode ajudar a definir quem participa de uma negociação ou lidera uma operação de transferência.

Page 16: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 15

A base Clipping

A criação e a alimentação da Base de Dados de Clipping é o diferencial apresentado por este trabalho. São as seguintes as variáveis analisadas no Banco de Dados de Clipping:

1. Título da matéria (TIT)

2. Data da matéria (DTP)

3. Nome do Veículo (VEI)

4. Estado do Veículo (UF)

5. Assunto ou Tema (classificado segundo lista de palavras-chaves controladas pela Embrapa) (TEM)

6. Gênero jornalístico de cada matéria (notícia, editorial, reportagem, entrevista, artigo, nota de opinião, nota informativa, carta do leitor, crônica) (GEN)

7. Tipo e qualidade da presença da Organização na matéria (Capa/1ª Página, Manchete de página, Título, Destaque no texto (Lead), Citação, Rodapé/Legenda) (PRE)

8. Fonte mencionada na matéria (dirigente, chefe de centro, pesquisador, outros empregados, não citada) (FON)

9. Página de publicação (par, ímpar, 2 páginas, 3 páginas, 4 ou + páginas) (PAG)

10. Tratamento gráfico, número de elementos presentes (1 elemento - texto, 2 elementos - texto e foto ou ilustração, 3 elementos - texto, foto/ilustração e box, 4 elementos - texto, foto, ilustração e box, 5 ou mais elementos) (CGR)

11. Unidade(s) da Embrapa(s) mencionada(s) (UD)

12. Palavras-chave da matéria (PCH)

Page 17: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 16

Veja na Figura 6, um exemplo de uma página do clipping antes da digitalização.

FIGURA 6: Página digitalizada do Clipping Eletrônico

Resultados

Para este artigo, os registros do clipping dos anos de 2003 e 2004, num total de 16.999 foram reformatados no software Infotrans10 e analisados no software VantagePoint11. A base pode se categorizada em diversas dimensões. Por exemplo, a matriz Veículos/Unidades indica a política de publicação dos jornais ou das unidades. A matriz Veículos/Ano de Publicação indica a evolução da cobertura da organização, por jornal no tempo, a Veículos/Palavras Chave indica qual jornal prefere ou prioriza qual tema, a Veículos/Gênero indica qual jornal dá mais editorial, artigo, reportagem ou noticias por exemplo e a matriz Veículos/Presença indica qual jornal dá mais espaço nobre. Estas são algumas amostras da riqueza das análises permitidas pelo cruzamento das diversas variáveis desta base de clippings.

Características das coberturas

Dos 20 veículos que mais publicaram sobre a Embrapa e suas unidades, 13 reduziram e 7 aumentaram a quantidade de matérias de 2003 para 2004, entre estes o Estado de S. Paulo (de 366 para 374), o Jornal de Brasília (de 244 para 311), o Popular (de 216 para 301), a Gazeta-MT (de 152 para 192), Zero Hora (de 119 para 173) e a Tarde (de 116 para 128). Eles estão marcados por um asterisco. As características de cada veículo estão assinaladas em cinza. Por exemplo, “O Estado de S. Paulo” é um jornal nacional e pertence à região Sudeste. A notar ainda que o primeiro veículo especializado

10 Da IUK GmbH - <http://www.ever-germany.de/start.aspx>.11 Da Search Technologies - <http://thevantagepoint.com>.

Page 18: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 17

em agronegócio aparece em décimo nono lugar. No início dos anos 1990 a Embrapa publicava a maioria de suas notícias em veículos especializados em agronegócio. Veja os detalhes na Figura 7:

2003 2004 Total Veículo Jornaisnacionais

Principaisjornais

Journaisestaduais

Agrone-gócio Norte Nordeste Centro--

Oeste Sudeste Sul

1 366 374 740 O Estado de S. Paulo* 1 1

2 304 293 597 Correio do Povo 1 1

3 244 311 555 Jornal de Brasilia* 1 1

4 310 225 535 Diario da Amazonia 1 1

5 216 301 517 O Popular* 1 1

6 308 197 505 Gazeta Mercantil 1 1

7 152 192 344 A Gazeta-MT* 1 1

8 183 154 337 Folha do Estado 1 1

9 64 240 304 Diario da Manha* 1 1

10 159 144 303 Diario do Nordeste 1 1

11 152 141 293 Meio Norte 1 1

12 119 173 292 Zero Hora* 1 1

13 153 133 286 Estado de Minas 1 1

14 162 124 286 O Estadao 1 1

15 158 97 255 Folha de Rondonia 1 1

16 140 112 252 Correio Braziliense 1 1

17 117 128 245 A Tarde* 1 1

18 124 114 238 Folha de S. Paulo 1 1

19 125 104 229 Globo Rural 1 1

20 120 108 228 O Progresso 1 1

FIGURA 7: Evolução de 2003 para 2004 dos veículos que mais publicaram.

Quando o volume de matérias publicadas em 2003 e 2004 pela Embrapa é analisado sob a ótica do Tipo de Presença Editorial, houve um crescimento em todos os itens em especial de 89,1% das citações em manchetes e de 34,3% em primeiras páginas. Veja os detalhes na Figura 8:

# Registros Tipo de presença 2003 2004 %

9744 Citação 4414 5330 20,7

2053 Título 904 1149 27,1

1820 Destaque no texto (Lead) 783 1037 32,4

808 Rodapé/Legenda 378 430 13,7

232 Capa/1a Página 99 133 34,3

133 Manchete de página 46 87 89,1

14790 Total 7967 9028 13,3

2209 Campo Vazio 1343 862 -55,8

FIGURA 8: Tipo de Presença Editorial por Ano.

Evolução semelhante foi registrada para o tipo do tratamento gráfico. Observa-se que 57% das matérias têm mais de um elemento gráfico o que é bastante desejável em termos de tratamento editorial dado à organização. Indica que a Embrapa recebe um tratamento distinto. A notar ainda que as matérias

Page 19: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 18

com quatro elementos ou mais tiveram um aumento significativo. Estes valores estão marcados em negrito na Figura 9.

# Registros Tipo de tratamento gráfico 2003 2004 %

6374 1 elemento (texto) 3062 3312 8,1

5132 2 elementos (texto + foto/ilustracao) 2385 2747 15,1

1335 3 elementos (texto + foto/ilustracao + box) 519 816 57,2

593 4 elementos (texto + foto + ilustracao + box) 208 385 85

1354 5 ou mais elementos 451 903 100,2

14788 Total 7967 9028 13,3

2211 Campo Vazio 1342 865 -55,1

FIGURA 9: Tipo de tratamento gráfico por Ano.

Continuando a analisar tratamento gráfico agora por veículo verificamos que os quatro veículos que dão melhor tratamento gráfico às matérias publicadas sobre a Embrapa são “Jornal de Brasília” e “O Estado de S. Paulo”, dois jornais, e “Panorama Rural” e “Globo Rural”, duas revistas. Também merecem menção como “grandes veículos da Embrapa” as revistas “Cultivar”, “Balde Branco”, “DBO Rural”, “Suinocultura Industrial”, “Rural”, “Agroanalysis”, “A Granja”, “Bahia Agrícola” e “Veja” (24ª). E os jornais “O Popular”, “Estado de Minas”, “A Tarde”, “Folha de S. Paulo”, “Correio Braziliense” e “O Globo”, entre outros. Os veículos especializados em agronegócio, como esperado, estão bem representados entre aqueles que dão o melhor tratamento editorial às informações da Embrapa.

# Registros Veículo 1elemento

2elementos

3elementos

4elementos

5 ou maiselementos

1 555 Jornal de Brasilia 185 167 102 30 71

2 740 O Estado de S. Paulo 298 282 62 28 64

3 150 Panorama Rural 15 51 20 10 54

4 229 Globo Rural 55 109 19 8 36

5 225 DBO 69 78 22 12 36

6 161 Cultivar 22 54 19 13 36

7 517 O Popular 270 162 32 17 31

8 110 Balde Branco 21 39 8 6 31

9 286 Estado de Minas 93 136 20 9 28

10 245 A Tarde 81 98 25 14 25

11 238 Folha de S. Paulo 132 49 22 9 23

12 73 Suinocultura Industrial 13 16 11 2 22

13 344 A Gazeta-MT 161 118 30 8 21

14 252 Correio Braziliense 127 68 23 13 21

15 61 Agroanalysis 11 16 10 4 20

16 60 Revista Rural - SP 12 15 7 6 20

17 141 O Globo 51 52 16 2 19

18 92 A Granja 7 37 17 7 18

19 38 Cultivar Grandes Culturas 2 13 4 1 18

20 27 Bahia Agricola 4 2 2 2 17

FIGURA 10: Veículos que dão melhor tratamento gráfico às matérias da Embrapa.

Page 20: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 19

O esforço dos centros de pesquisa

Quantificando o esforço editorial dos centros de pesquisa e da Sede nos dois anos estudados constatamos que 12 centros apresentaram queda na quantidade de matérias publicadas e 28 centros ampliaram o número de matérias publicadas. A Embrapa Soja (901), Embrapa Trigo (624) e Embrapa Pecuária Sudeste (604) são as unidades que mais publicaram matérias na imprensa no período estudado.

A tabela veículos por unidade de pesquisa permite duas visões: Com a primeira, ordenada na forma decrescente do número de matérias por Unidades, identificamos os jornais que publicam mais matérias de uma unidade específica. As matérias da Sede da Embrapa, por exemplo, são publicadas no Estado de S. Paulo (355), Gazeta Mercantil (342), Correio do Povo (290), Diário da Amazônia (232) e O Popular (203). A lista de jornais preferidos da Embrapa Soja é diferente; Folha de Londrina (82), Jornal de Londrina (58), Cultivar (36), Estado de S. Paulo (30) e Correio do Povo (24). Veja os detalhes na Figura 11:

# Registros Veículo SedeEmbrapa # Registros Veículo Soja

1 740 O Estado de S. Paulo 355 1 123 Folha de Londrina 82

2 505 Gazeta Mercantil 342 2 69 Jornal de Londrina 58

3 597 Correio do Povo 290 3 161 Cultivar 40

4 535 Diario da Amazonia 232 4 740 O Estado de S. Paulo 30

5 517 O Popular 203 5 597 Correio do Povo 25

6 252 Correio Braziliense 197 6 150 Panorama Rural 25

7 303 Diario do Nordeste 194 7 128 Gazeta do Povo 24

8 344 A Gazeta-MT 182 8 337 Folha do Estado 23

9 555 Jornal de Brasilia 180 9 39 Anuario Brasileiro da Soja - RS 22

10 337 Folha do Estado 176 10 36 Informativo Meridional 22

11 292 Zero Hora 170 11 517 O Popular 21

12 238 Folha de S. Paulo 166 12 344 A Gazeta-MT 21

13 286 Estado de Minas 155 13 42 Mercosul 19

14 222 O Liberal 155 14 32 Jornal Coamo 19

15 190 Folha de Boa Vista 146 15 238 Folha de S. Paulo 17

16 178 Valor Economico 144 16 555 Jornal de Brasilia 16

17 293 Meio Norte 137 17 92 A Granja 16

18 193 Tribuna do Brasil 130 18 60 Revista Rural - SP 16

19 202 Diario do Comercio e Industria 128 19 38 Cultivar Grandes Culturas 16

20 255 Folha de Rondonia 126 20 505 Gazeta Mercantil 14

FIGURA 11: Unidades da Embrapa por Veículos - visão 1.

Estas matrizes podem ser utilizadas por um centro de pesquisa para criar uma lista de veículos mais importantes, para definir prioridades para pautas ou para escolher a quem mandar um press-release. Com uma visão exclusiva do centro, o gerente de comunicação pode acompanhar a evolução da cobertura em cada veículo e proceder a correções ou a mudanças de ênfase. No caso, ele deve se esforçar para eliminar os

Page 21: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 20

espaços vazios. Veja o exemplo da lista de veículos da Embrapa Soja durante o segundo semestre de 2004 na Figura 12.

# Registros Veículo dez/04 nov/04 out/04 set/04 ago/04 jul/04

1 82 Folha de Londrina 6 5 6 3 2 8

2 58 Jornal de Londrina 3 3 7 2 2 5

3 25 Correio do Povo 2 2 3 1

4 24 Gazeta do Povo 4 1 2 1

5 23 Folha do Estado 3 1 1

6 21 A Gazeta-MT 1 1 1 2

7 21 O Popular 2 2

8 19 Mercosul

9 14 Diario da Amazonia 1 2 1

10 12 Diario do Comercio e Industria 3 1 1 2

FIGURA 12: Evolução da cobertura por veículo por centro. Exemplo, Embrapa Soja.

Uma outra visão dos dados é pelo número de matérias publicadas por jornal. Assim, identificamos os centros de pesquisa preferidos de cada jornal. O Estado de S. Paulo, por exemplo, publica praticamente a metade da produção da Embrapa Monitoramento por Satélite (CNPM) e mais Embrapa Pecuária Sudeste (CPPSE), Embrapa Soja (CNPSO), Embrapa Recursos Genéticos e Biotecnologia (Cenargen) e Embrapa Gado de Corte (CNPGC). Veja os detalhes na Figura 13:

#Registros Veículo por Centro de pesquisa O Estado de

S. Paulo

7990 Embrapa Sede 355

197 Monitoramento por Satelite 104

604 Pecuaria Sudeste 35

901 Soja 30

443 Recursos Geneticos e Biotecnologia 29

325 Gado de Corte 19

389 Suinos e Aves 16

199 Milho e Sorgo 16

455 Gado de Leite 15

462 Cerrados 14

FIGURA 13: Unidades da Embrapa por Veículos - visão 2.

Page 22: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 21

Análise das palavras-chave e temas

A análise das palavras chave pode indicar, entre outras coisas, os assuntos preferidos dos diversos veículos e orientar, por este meio, a proposição de pautas e sugestões de reportagens pelos centros de pesquisa. Um tema polêmico como os transgênicos (488) é a sétima palavra-chave mais citada dentre todos os jornais. Quando examinamos cada jornal em particular há uma variação que pode nos trazer informações preciosas. Nós isolamos os quinze primeiros veículos que publicaram mais matérias sobre transgênicos. “O Estado de S. Paulo” e “Folha de S. Paulo”, dois jornais nacionais se posicionaram nos primeiros lugares. Nós também calculamos a porcentagem que as notícias sobre transgênicos representam em relação ao número total de matérias publicadas por cada um destes 15 veículos. Encontramos uma grande variância, de 14% para a “Gazeta do Povo” jornal de um estado fortemente agrícola como o Paraná, a 2% para o “Jornal de Brasília”, do Distrito Federal. Eles estão marcados em cinza na Figura 14.

#Registros

Veículos /Palavras

chave

O Estadode S.Paulo

Folhade S.Paulo

GazetaMercantil

Correiodo Povo

Gazetado Povo

ValorEconomico O Globo O

LiberalZeroHora O Povo

Jornaldo

Brasil

CorreioBraziliense

A Gazeta-MT

OPopular

Jornalde

Brasilia

492 transgenicos 35 20 19 19 18 18 16 16 16 13 12 12 12 11 11

Total 740 238 505 597 128 178 141 222 292 165 141 252 344 517 555

% 4,6 8,4 3,7 3,1 14 10,1 11,3 7,2 5,4 7,8 8,5 4,7 3,5 2,1 2

FIGURA 14: Veículos por Palavras-chave (transgênicos) por número de notícias.

O próximo passo foi ordenar a lista dos 15 veículos pela importância que eles concedem a este tema representada pelas maiores percentagens relativas ao número total de notícias publicadas. Uma pequena surpresa surgiu. Ao lado da “Gazeta do Povo” apareceram “O Globo”, “Valor Econômico”, “Jornal do Brasil” e “Folha de S. Paulo”, três jornais nacionais e um especializado em economia. Seu interesse pelos transgênicos é de duas a quatro vezes maior do que o dos jornais do final da lista. Eles foram marcados em cinza na Figura 15.

#Registros

Veículos /Palavras

chave

Gazetado Povo

OGlobo

ValorEconomico

Jornaldo

Brasil

Folhade S.Paulo

OPovo

OLiberal

ZeroHora

CorreioBraziliense

O Estadode S.Paulo

GazetaMercantil

AGazeta--

MT

Correiodo

Povo

OPopular

Jornalde

Brasilia

492 transgenicos 18 16 18 12 20 13 16 16 12 35 19 12 19 11 11

Total 128 141 178 141 238 165 222 292 252 740 505 344 597 517 555

% 14 11,3 10,1 8,5 8,4 7,8 7,2 5,4 4,7 4,6 3,7 3,5 3,1 2,1 2

Nós observamos que os veículos do final da lista são de estados com uma forte agricultura. A questão colocada então foi. Será que há uma valorização do tema transgênicos por veículos de um estado em particular?

Decidimos então comparar as coberturas dos três principais estados da região Sudeste (RJ, SP e MG), dos dois principais da região Sul (RS e PR) e dois estados da região Centro-Oeste (MT e GO). Nos seus territórios são plantados mais de 75% da produção agrícola nacional. Veja os detalhes na Figura 16.

FIGURA 15: Veículos por Palavras-chave (transgênicos), importância relativa das notícias.

Page 23: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 22

# Registros 1 2 3 4 5 6 7 8 9 10 11 12

439 RJproducao transgenicos biotecnologia tecnologia soja pesquisa projeto clone sementes cultivo gestao biosseguranca

35 34 22 21 19 19 17 11 11 11 9 9

5109 SPproducao soja tecnologia projeto pesquisa leite evento transgenicos agronegocio safra produtividade mercado

477 340 272 263 234 212 203 171 134 108 108 107

709 MGproducao leite soja milho cafe transgenicos mercado projeto pesquisa sementes frutas tecnologia

75 50 39 28 27 25 24 24 21 19 17 17

585 PRsoja producao ferrugem pesquisa tecnologia transgenicos agronegocio safra trigo evento biotecnologia projeto

145 44 28 28 27 25 24 22 22 20 17 16

2491 RSproducao soja evento trigo pesquisa safra seminario projeto tecnologia mercado transgenicos sementes

229 201 146 121 119 91 87 85 78 63 62 60

731 MTproducao soja pesquisa evento tecnologia algodao ferrugem cultura mercado projeto plantio transgenicos

71 60 36 35 31 31 26 22 22 22 21 19

613 GOsoja producao pesquisa tecnologia algodao leite cerrado cultura frutas contatos safra transgenicos

46 42 28 26 21 20 20 19 18 17 16 16

FIGURA 16: Veículos por Estado e Palavras-chave.

A resposta da Figura 16 é cristalina. Na cobertura das notícias de pesquisa agropecuária da Embrapa, os veículos do estado do Rio de Janeiro concedem aos transgênicos uma relevância especial, bastante diferente daquela dos outros estados analisados. Uma observação geral sobre a publicação total de notícias por estados. São Paulo abriga cinco centros de pesquisa da Embrapa, Rio Grande do Sul quatro, Rio de Janeiro três, Paraná dois, Minas Gerais dois e Goiás um. O estado do Mato Grosso não tem nenhum centro mas se coloca num merecido terceiro lugar quanto à quantidade de notícias publicadas sobre a Embrapa. Este é um forte indicador de uma grande valorização da ciência e da tecnologia e das inovações agropecuárias em Mato Grosso que está se tornando também o principal estado agrícola do Brasil.

Page 24: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 23

Conclusão

Estas metodologias, técnicas e ferramentas de análise e mineração de textos e de dados são utilizadas para processar a enorme massa de informações disponível no dia a dia em uma organização e criar inteligência, identificar as informações mais estratégicas que permitirão e capacitarão uma organização a melhor cumprir sua missão. Um ponto importante é que estas informações estão presentes nas organizações. Com as metodologias e ferramentas apropriadas podem se tornar “inteligência” organizacional e competitiva.

Uma parcela significativa e não medida das bases de dados das organizações foram criadas para recolher e guardar informações com a geração de relatórios predefinidos durante o processo de criação e montagem da base. Tais fases têm uma função operacional importante nas organizações. A esta função operacional deve adicionar-se, no entanto, uma função de análise que permite a criação de sistemas de inteligência mais eficientes com a opção de reunir em um único ambiente computadores, dados internos e externos, metodologias e ferramentas específicas para a finalidade de análise.

Os resultados da base Clipping demonstram com convicção a eficiência do sistema de trabalho de comunicação da Embrapa para a divulgação de seus trabalhos científicos. Eles estabelecem também metodologias e ferramentas de análise para gerar inteligência sobre os meios de comunicação de massa e o comportamento de seus editores, fazer o monitoramento de coberturas da imprensa e auditorias sobre o trabalho de comunicação. Estas metodologias e ferramentas permitem também traçar a evolução de um tema, de um produto, de uma pessoa ou de todo um setor da economia na mídia, por um período determinado.

Uma ressalva deve ser feita. É possível que o número total de notícias sobre os transgênicos em todos os veículos seja muito maior do que aquele registrado neste artigo porque ele inclui apenas as notícias deste universo que mencionam a Embrapa. Estes resultados não representam o comportamento geral dos veículos quanto a temas específicos. Eles refletem o comportamento dos veículos com referência a um tema específico na cobertura da Embrapa.

No entanto, acreditamos que a generalização destas metodologias e a criação de bases Clipping diversificadas poderão dar ao estudo do jornalismo e de sua prática diária em todo o mundo, às relações públicas, à comunicação empresarial, ao marketing e também ao segmento de consultorias de mídia, metodologias e ferramentas que permitem dar um salto de qualidade e de produtividade em muitas das análises de mídia realizadas. Instrumentos para criar laços mais profundos e proveitosos, relações mais profundas e melhores entre as organizações e sujeitos de todas as afiliações com a mídia e seus editores.

Page 25: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 24

Referências Bibliográficas

BALAJ, Sérgio T. (2005a). Telemar Boots Sales and Satisfaction with Powerful Performance if Informatica PowerCenter. DMReview. September 2005. Disponível em <http://www.dmreview.com/article_sub.cfm?articleID=1035576>. Acesso em 25 out. 2005.

BALAJ, Sérgio T. (2005b). Telemar “Projeto Business Intelligence em DW”. In: Inteligência organizacional 2005 Rio de Janeiro. Brasil, Rio de Janeiro: IDETI, 24-25 Out. 2005.

BOUTIN, E., A cadeia de tratamento da informação do CRRM. In: SEMINÁRIO “TECNOLOGIAS PARA TRATAMENTO DA INFORMAÇÃO NA EMBRAPA”. Embrapa/Cendotec/CRRM/LePont/Universidade de Toulon et du Var, Brasília - DF, 10 a 14 de dezembro de 2001.

DOU, H., Sistemas de Inteligência Competitiva. In: Curso de Especialização em Inteligência Competitiva. Brasília: MCT/INT, CNPq/IBICT, UFRJ/ECO, 1999.

FARIA, L. I. L. ; QUONIAM, L., Ferramentas para Estudos Prospectivos - Tutorial. In 3º WORKSHOP BRASILEIRO DE INTELIGÊNCIA COMPETITIVA E GESTÃO DO CONHECIMENTO, São Paulo - SP, 16 a 18 de setembro de 2002.

JAMBU, M., Introduction au Dataminig: Analyse intelligente des donnees. França. Paris: Editions Eyrolles, 2000, 120p.

LEEDS, S., Data Mining: Beware of the shaft. Direct Marketing. Jan. 2000. Disponível em: <http://www.tmiassoc.com/articles/shaft.htm>. Acesso em 10 jul. 2002.

LEVET, J. L., L’Intelligence Economique: mode de pensée, mode d’action. França, Paris: Economica, 2001, 155p.

MOGEE, M. E., Patents and technology intelligence. In: ASHTON, W.B.; KLAVANS, R.A., Keeping abreast of science and technology: technical intelligence for business, Battelle Press, p.560, 1997.

NOBREGA, R. G., Data Warehousing. In: TARAPANOFF, K., Inteligência Organizacional e Competitiva. Brasília: Editora Universidade de Brasília, p.285-302, 2001.

PENTEADO, R.; DOU, H.; BOUTIN, E.; QUONIAM, L., Da criação de bases de dados ao desenvolvimento de sistemas de inteligência para a organização. In: 4º WORKSHOP BRASILEIRO DE INTELIGÊNCIA COMPETITIVA E GESTÃO DO CONHECIMENTO, Salvador - BA, 20 a 22 de outubro de 2003.

PENTEADO, R.; FARIA, L. I. L.; VIEIRA, J. L.; KURIHARA, M. H.; AVILA. A. F. D.; QUONIAM, L., Aplicação da bibliometria na construção de indicadores sobre a produção científica da Embrapa. In: 3º WORKSHOP BRASILEIRO DE INTELIGÊNCIA COMPETITIVA E GESTÃO DO CONHECIMENTO, São Paulo - SP, 16 a 18 de setembro de 2002.

PENTEADO, R.; QUONIAM, L., Aplicação da bibliometria na análise estratégica das competências da Embrapa. In: 2º WORKSHOP BRASILEIRO DE INTELIGÊNCIA COMPETITIVA E GESTÃO DO CONHECIMENTO, Florianópolis - SC, 03 a 05 de outubro de 2001.

POLITY, Y.; ROSTAING, H., Cartographie d’un champ de recherche à partir du corpus des thèses de doctorat soutenues pendant 20 ans: Les sciences de l’information et de la communication en France: 1974-94. In: Actes du Colloque: Les systèmes d’informations élaborées (SFBA), Ile Rousse, França, 14 a 16 junho de 1997.

Page 26: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 25

PORTER, A. L., Text Mining for Technology Foresight. In: Futures Research Methodology-V2.0, The Millennium Project. American Council for the United Nations University, CD-ROM, 2003.

QUONIAM, L. et al. Bibliometric analysis of patent documents for R&D management. Research Evaluation, v. 3, nº 1, p. 13-18, avr. 1993.

QUONIAM, L., Datamining. In: Curso de Especialização em Inteligência Competitiva. Brasília: MCT/INT, CNPq/IBICT, UFRJ/ECO, 1999.

QUONIAM, L. Datamining, teoria e prática. In: SEMINÁRIO TECNOLOGIAS PARA TRATAMENTO DA INFORMAÇÃO NA EMBRAPA. Brasília: EMBRAPA, CRRM/LePont, Cendotec, dec. 2001.

REYNOLDS, G. W., Information systems for managers. Estados Unidos, St. Paul: West Publishing Co, 1992.

SULAIMAN, A. e SOUZA, J. M., Data Mining Mineração de dados. In: TARAPANOFF, K., Inteligência Organizacional e Competitiva, Brasília: Editora Universidade de Brasília, p.265-278, 2001.

SWANSON, D. R., ASIST Award of Merit acceptance speech: on fragmentation of knowledge, the connection explosion, and assembling other people’s ideas, Bulletin of the American Society for Information Science and Technology, v. 27, nº 3, 2001.

Page 27: 4533_CapExtras

Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros 26

Anexo 1Algumas ferramentas de mineração de dados e textos

Preparação de dados

Infotrans - http://www.ever-germany.de/start.aspx

Folio Search and Replace- http://www.nextpage.com/publishing/folio/

Mineração de textos

Dataview - <http://crrm.u-3mrs.fr/commercial/software/dataview/dataview.html>

Matrisme - <http://lepont.univ-tln.fr/page_perso/boutin.htm>

Temis - <http://www.temis-group.com/>

Matheo Anayzer, Matheo Patent - <http://www.matheo-software.com>

VantagePoint - <http://thevantagepoint.com>

WinIDAMS - <http://www.unesco.org/webworld/idams/>

Mineração de dados

Data Mining, Technology Watch - <http://www.alphaworks.ibm.com/tech>

SAS Enterprise Miner - <http://www.sas.com/>

SPSS Clementine - <http://www.spss.com/>

Oracle Mining Suite - <http://www.oracle.com/>

Gomining - <http://www.godigital.com.br>

Weka - <http://www.cs.waikato.ac.nz/~ml/weka/>