Manual Psicometria 2013-2014
-
Upload
margaridapocinho -
Category
Documents
-
view
165 -
download
1
Transcript of Manual Psicometria 2013-2014
Margarida Pocinho Página i
Psicometria e clinimetria
Margarida Pocinho
2014
LIÇÕES DE PSICOMETRIA:
Margarida Pocinho Página ii
Psicometria e clinimetria
Índice
Psicometria ............................................................................................................... 4
Directrizes Internacionais para a Utilização de Testes ........................................................6
Conceber o instrumento de observação .......................................................................... 10
Planificação e construção de um questionário/ teste ....................................................... 10
Construção e padronização de instrumentos de medida .................................................. 11
A administração ................................................................................................................................. 15
Testar o instrumento de observação ................................................................................................. 17
Estudo Piloto ...................................................................................................................................... 45
Estratégias estatisticas de análise de dados ...................................................................................... 45
ANEXOS: ..........................................................................................................................6
INTERNATIONAL TEST COMMISSION ................................................................................................... 7
GUIÃO DE ARTIGO DE REVISÃO DAS CARATERISTICAS PSICOMÉTRICAS DE UMA ESCALA
GUIÃO DE APRESENTAÇÃO DAS DAS CARATERISTICAS PSICOMÉTRICAS DE UMA ESCALA
Margarida Pocinho Página iii
Psicometria e clinimetria
Quadro 1: grelha de decisão dos testes ............................................................................ 48
Quadro 2: grelha de decisão dos testes psicométricos ..................................................... 50
Figura 1: Opções de Medida ............................................................................................ 11
Figura 2: construção de um questionário de raiz ............................................................. 12
Figura 3: etapas da construção de uma escala ................................................................. 13
Figura 4: adaptação de um questionário ao contexto cultural ......................................... 14
Figura 5: o processo de adaptação cultural ...................................................................... 14
Figura 6: identificar os testes estatisticos ........................................................................ 46
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 4
Psicometria Lições
PSICOMETRIA
Em termos etimológicos, Psicometria provém do grego psyké, que significa alma, e
metron, que significa medida ou medição, e é uma área da Psicologia que faz a ponte
entre a Estatística e a Psicologia. Sua definição consite no conjunto de técnicas
utilizadas para mensurar, de forma adequada e comprovada experimentalmente, um
conjunto ou uma gama de comportamentos que se deseja conhecer melhor.
O Psicólogo psicometrista possui, no seu ambito de actuação e formação, características
que lhe permitem manusear os testes psicológicos de acordo com alguns critérios
básicos. Estes são: Validade, Fidedignidade e Padronização. Qualquer teste que se
preste à validação e, posteriormente ao uso, deve ser fruto de pesquisas nessa área.
A evolução da pesquisa científica baseada no cálculo em Psicologia é pouco incerto em
sentido estrito, porém sabe-se que (sir) Francis Galton foi o fundador do primeiro
laboratório voltado às medições antropométricas1, em Londres, no ano de 1884. "Ele
entendia que a discriminação sensorial era a base do desempenho intelectual, e que
medidas adequadas, neste sentido, seriam capazes de indicar diferenças entre os mais e
os menos capazes (Anastasi, Psychological testing, 1988).
Hermann Ebbinghaus, no ano de 1885, começa os primeiros estudos experimentais
sobre a memória. Com base nas suas experiencias, Ebbinghaus formulou coeficientes
sobre como se dá a aquisição de memória a partir de um conjunto de letras ordenadas de
forma não-lógica.
Se a realização de experimentos deu à psicologia o seu status de ciência, a inserção
profissional ocorreu através da avaliação psicológica. O exemplo mais emblemático,
neste sentido, é a contribuição de Ebbinghaus que serviu de modelo para construção de
itens em avaliação psicológica. Contudo, a teoria que iria fundamentar a prática de
avaliação psicológica estava já sendo delineada na Inglaterra sob influência da teoria da
evolução de Charles Darwin, atravéz de Galton, primo de Darwin.
1 A antropometria trata das medidas físicas do corpo humano
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 5
Psicometria Lições
No Reino Unido, Galton conheceu James McKeen Cattell (1860-1944) e, juntos,
formularam, pela primeira vez, provas que consistiam em medidas de discriminação
sensorial, de tempo e de reacção.
Em sentido diferente e por diversas críticas que estes possuiam dos testes anteriores de
inteligência, o francês "Alfred Binet (1857-1911) e seu parceiro Théodore Simon
desenvolveram, a pedido da comissão francesa para a investigação dos interesses da
educação, o primeiro teste de inteligência para diferenciar crianças retardadas e crianças
normais em seus mais variados graus" (Passarelli, 1995). Esta escala de classificação
tem sua data de origem em 1905 e, desde então, sofreu diversas modificações na sua
origem e no seu nome. Actualmente, apesar das variações e versões (Long ou short), ele
é conhecido como Teste Stanford-Binet de Inteligência.
A psicometria é uma metodologia Quantitativa que por sua vez é conjunto de métodos
que apela para procedimentos matemáticos, mesmo no estudo dos fenómenos sociais e
humanos, cujo objectivo primordial é a medição de tais fenómenos. É um processo de
inquirição para a compreensão de um problema, enquadrado por uma teoria composta
de variáveis medidas com números e analisada através de procedimentos estatísticos,
tendo em vista determinar se para um dado nível de probabilidade, podem os dados
serem generalizados.
Estes métodos pressupõem a quantificação de dados através de estatísticas padronizadas
e a interpretação de dados, segundo a técnica estatística, que, por sua vez, pressupõe a
colheita de dados (amostragem), a verificação dos dados (validade) e a interpretação dos
dados (correlação, associação, diferenças, aderências, etc.).
“A PSICOMETRIA (Medidas em Psicologia) é um ramo da Psicologia que se utiliza
dos conhecimentos da Estatística para a mensuração dos fenómenos psicológicos
(construtos) de um indivíduo ou grupos, suas habilidades, aptidões, atitudes,
conhecimentos, inteligência ou traços de personalidade. É uma disciplina
iminentemente técnica, com seus próprios fundamentos teóricos. Sua principal
aplicabilidade é na testagem e na avaliação psicológica” (LAP- Laboratório de
Avaliação Psicológica, 2007, p. 1).
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 6
Psicometria Lições
DIRECTRIZES INTERNACIONAIS PARA A UTILIZAÇÃO DE TESTES
Em 1992, a International Test Comission (ITC) iniciou um projecto para preparar
orientações para a tradução e adaptação de testes e instrumentos psicológicos. Várias
organizações ajudaram o ITC na preparação daquelas directrizes: European Association
of Psychological Assessment, European Test Publishers Group, International
Association for Cross-Cultural Psychology, International Association of Applied
Psychology, International Association for the Evaluation of Educational Achievement,
International Language Testing Association and International Union of Psychological
Science. . Uma comissão de 12 representantes destas organizações trabalharam durante
vários anos para preparar 22 orientações e, posteriormente, essas directrizes foram
testadas em campo (ITC-International Test Commission, 2008).
Em 1999 o Conselho da International Test Commission (ITC) dos Estados Unidos e a
Task Force on Tests and Testing da European Federation of Professional Psychologists
Associations (EFPPA) adoptaram um conjunto de Directrizes, oficialmente publicadas
por ocasião da Assembleia Geral da ITC, em 24 de Julho de 2000, em Estocolmo (ver
anexo).
As directrizes, foram organizadas em quatro categorias:
1. Contexto
a. Os efeitos das diferenças culturais que não são relevantes para os
objectivos do estudo devem ser minimizados
b. A duplicação de construtos a medir nas populações de interesse deve ser
avaliada.
2. Construção, desenvolvimento e Adaptação
a. Os autores do Teste/ editores devem garantir que o processo de
Construção, Desenvolvimento e Adaptação tem em conta as diferenças
linguísticas e culturais entre as populações para as quais os instrumentos
adaptados ou as versões se destinam
b. Os autores do Teste/ editores deverão fornecer provas de que a
linguagem de todas as instruções, as rubricas e itens, bem como o manual
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 7
Psicometria Lições
são adequadas para todas as culturas e populações para os quais o teste
ou instrumento se destina.
c. Os autores do Teste/ editores devem apresentar provas de que a escolha
das técnicas de testagem, formatos dos itens, protocolos e procedimentos
são familiares a todas as populações se destina.
d. Os autores do Teste/ editores deverão fornecer provas de que o conteúdo
dos itens e materiais orientadores são familiares a todas as populações se
destina.
e. Os autores do Teste/ editores devem implementar uma avaliação
sistemática, tanto linguística como psicológica, para melhorar a precisão
do processo de adaptação e compilar evidências acerca da equivalência
linguistica.
f. Os autores do Teste/ editores devem garantir que o projecto de recolha de
dados permite o uso de técnicas estatísticas adequadas para estabelecer
equivalência entre os itens das diferentes versões linguísticas do teste ou
instrumento.
g. Os autores do Teste/ editores devem aplicar técnicas estatísticas
adequadas (1) estabelecer a equivalência entre as diferentes versões do
teste ou instrumento, e (2) identificar as componentes ou aspectos
problemáticos do instrumento que podem ser inadequados para uma ou
mais das populações a que se destinam
h. Os autores do Teste/ editores devem fornecer informações sobre a
avaliação da validade em todas as populações-alvo para quem a versões
adaptadas são destinados.
i. Os autores do Teste/ editores devem fornecer dados estatísticos da
equivalência das questões para todas as populações a que se destina.
j. Questões não equivalentes entre as versões destinadas a diferentes
populações, não devem ser usadas na preparação de uma escala comum
ou para comparar essas populações. No entanto, elas podem ser úteis no
aumento da validade de conteúdo reportado a cada população.
3. Administração
a. Os autores do Teste e administradores devem tentar antecipar os tipos de
problemas que podem ser esperados, e tomar as medidas apropriadas
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 8
Psicometria Lições
para corrigir esses problemas através da preparação de materiais e
instruções adequadas.
b. Os administradores dos testes devem ser sensíveis a uma série de
factores relacionados à compreensão dos materiais, procedimentos
administrativos, e os modos de resposta que podem influenciar a
validade das inferências que se podem retirar dos scores
c. Os factores ambientais que podem influenciar os resultados de um teste
ou instrumento dvem ser semelhantes entre as populações para que as
diferenças não sejam atribuídas a esses factores
d. Instruções para administração do teste devem estar nos idiomas de
origem e de destino para minimizar a influência de fontes indesejáveis de
variação entre as populações.
e. O manual do teste deve especificar todos os aspectos da administração
que exigem uma análise do novo contexto cultural.
f. O administrador deve ser discreto e a sua interação com o examinado
deve ser minimizada. As regras explícitas que são descritas no manual de
administração devem ser seguidas
4. Documentação / Intrepretação dos Scores
a. Quando um teste ou instrumento é adaptado para uso noutra população, a
documentação das mudanças devem ser fornecidos, junto com a prova da
equivalência.
b. As diferenças de pontuação entre as amostras a quem foi administrado o
teste ou instrumento não devem ser tomada pelo valor absoluto dos
scores. O pesquisador tem a responsabilidade de justificar as diferenças
com outras evidências empíricas.
c. As comparações entre as populações só podem ser feitas ao nível da
invariância que foi estabelecida para as pontuações da escala.
d. O autor do teste deve fornecer informações específicas sobre a forma em
que os contextos socioculturais e ecológicos das populações podem
afectar o desempenho, e deve sugerir procedimentos para explicar esses
efeitos na interpretação dos resultados.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 9
Psicometria Lições
Estas diretrizes tornaram-se um quadro de referência para muitos psicólogos que
trabalham na área da tradução e adaptação dos testes.
A Comissão para a Adaptação Portuguesa das Directrizes Internacionais para a
Utilização de Testes agrupou colaboradores da Faculdade de Psicologia e de Ciências da
Educação/Universidade do Porto, do CEGOC-TEA, Departamento de Educação e
Psicologia/Universidade do Minho, da Faculdade de Psicologia e de Ciências da
Educação/Universidade de Lisboa, da Faculdade de Psicologia e de Ciências da
Educação/Universidade de Coimbra e do Instituto Superior de Psicologia
Aplicada/Lisboa e produziram um manual que foi editado pela CEGOC-TEA, com
autorização da Comissão para a Adaptação Portuguesa das Directrizes Internacionais
para a Utilização de Testes, mas como a sua venda é proibida.
Se tiver necessidade de consultar o documento contacte António Menezes Rocha,
Director Associado do CEGOC-TEA através do e-mail: [email protected]. O original
das directizes pode ser consultado no anexo 3.
É hoje comum que estudantes académicos, profissionais de saúde, profissionais da área
social e outros adultos, crianças ou idosos consultem um psicólogo para que este o
avalie, sobretudo se existem dificuldades, ou se de algum modo as
atitudes/comportamentos se afastam um pouco da normalidade. Em regra, o psicólogo
começa por ouvir quem o procura ou aqueles que sabem ou podem fornecer dados
necessários à construção de uma história clínica. Assim, no inicio são recolhidas
informações (desenvolvimento físico e emocional) que dão sentido a todos os resultados
que se obtêm posteriormente na avaliação psicométrica.
Não se pode avaliar ninguém, sem enquadrar devidamente essa avaliação na história
pessoal do sujeito avaliado. Além disso, quaisquer interpretações de testes requerem
uma longa preparação teórica, que só um psicólogo tem acesso. Em Portugal, para além
das directrizes supra citadas, ainda não existem regras que regulem a utilização dos
testes psicométricos.
Existem, de facto, testes psicométricos que todos conhecem e que por vezes efectuam,
até por brincadeira. São testes que permitem avaliar, factores quer da personalidade,
quer da inteligência, mas que não devem ser analisados fora do contexto da sua
utilização: académico, clínico, social, organizacional, etc..
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 10
Psicometria Lições
CHEGOU A VEZ DE APLICAR AS NOÇÕES ESTUDADAS, NESTA
ETAPA, AO SEU PRÓPRIO TRABALHO. COMECE POR
PESQUISAR ESCALAS DE MEDIDA PARA PODER APLICAR E
DAR INICIO A UM TRABALHO DE PSICOMETRIA QUE
ORIGINARÁ UM ARTIGO CIENTIFICO SOBRE ESSA TEMÁTICA.
CONCEBER O INSTRUMENTO DE OBSERVAÇÃO
A primeira operação da fase de observação consiste em conceber um instrumento capaz
de produzir todas as informações adequadas e necessárias para testar as hipóteses. Este
instrumento será frequentemente, mas não obrigatoriamente, um Exame de diagnóstico,
uma escala, um questionário ou um guião de entrevista. Alguns deles requerem, por
vezes, um pré-inquérito como complemento da fase exploratória.
PLANIFICAÇÃO E CONSTRUÇÃO DE UM QUESTIONÁRIO/ TESTE
Para se compreender qualquer actividade humana complexa é necessário dominar a
linguagem e o tipo de abordagem que lhe é feita pelos tipos que a realizam. O mesmo
acontece quando se trata de compreender a investigação científica. É necessário que se
compreenda, pelo menos em parte, a linguagem científica e os métodos a que a ciência
recorre para resolver os problemas.
A planificação e construção de um teste é de interesse neste ponto porque, possibilita-
nos um modo de obter informações, as pessoas reagem a uma quantidade de estímulos
estruturados, isto acontece essencialmente na pesquisa comportamental.
Um teste é um procedimento sistemático em que se apresenta, aos indivíduos, um
conjunto de itens que medem um atributo. Estas pesquisas possibilitam ao investigador
atribuir scores individuais, que presumivelmente indicam o grau em que os indivíduos
possuem o atributo que está a ser medido.
A construção de um teste vai da validação, fidedignidade, aferição até à padronização.
Quando construímos um questionário temos de ter atenção às normas a ter em conta na
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 11
Psicometria Lições
sua construção, à selecção dos itens, à administração padronizada, aos obstáculos que se
nos colocam bem como a forma mais eficiente de construção e administração.
Por isso, o primeiro passo é decidir o que queremos e como queremos medir, não
perdendo de vista a qualidade da medida (fig.1)
FIGURA 1: OPÇÕES DE MEDIDA
CONSTRUÇÃO E PADRONIZAÇÃO DE INSTRUMENTOS DE MEDIDA
Questionário é uma ferramenta desenhada para obter e documentar exposições, ou para
guiar a obtenção e a documentação de exposições, a serem lembradas pelos sujeitos de
um estudo epidemiológico (Pocinho, 2007; White, Armstrong, & Saracci, 1992).
Há duas técnicas predominantes para o desenvolvimento de escalas multi-itens de
medidas de saúde: a clinimétrica e a psicométrica. A primeira, usada na prática clínica,
assenta no julgamento de pacientes, médicos e outros profissionais a respeito de
fenómenos clínicos, que abrangem várias características ou atributos dos pacientes, não
relacionados entre si. A estratégia psicométrica, usada em psicologia e em testes de
inteligência, sustenta-se em técnicas estatísticas e tem como objectivo (não exclusivo)
desenvolver uma escala (ou escalas múltiplas) que meça características ou atributos
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 12
Psicometria Lições
únicos do indivíduo (Pocinho, 2007; Marx, Bombardier, Hogg-Johnson, & Wright,
1999; Wright & Feinstein, 1992)
O desenvolvimento da escala, para ambas as estratégias, é feito em dois estágios: a
construção e a redução de itens, sendo que a diferença se opera no último estágio. A
construção de itens, semelhante para as duas, define o conteúdo do instrumento e
assegura que todas as variáveis importantes sejam consideradas para inclusão na escala.
A partir da base conceptual do que se deseja medir, chega-se aos diferentes domínios ou
dimensões que explicam o fenómeno; define-se o conteúdo da escala e garante-se que
todos os tópicos importantes sejam incluídos. Os itens são provenientes de múltiplas
fontes: julgamento clínico/individual do profissional, pesquisas anteriores, opiniões de
pacientes, consenso de especialistas ou modelos estatísticos. O conteúdo da escala é a
primeira etapa, e os itens individuais são seleccionados tendo em vista medir os
atributos que podem explicar o fenómeno. No final, o conjunto dos itens deve ser
ajuizado para se verificar se existe uma representação adequada de todos os aspectos
pertinentes do fenómeno em estudo (fig. 2)
FIGURA 2: CONSTRUÇÃO DE UM QUESTIONÁRIO DE RAIZ
A redução de itens elimina itens redundantes ou inapropriados, diminuindo o número a
um total que seja praticável de administrar, assegurando, ao mesmo tempo, que a escala
meça o constructo ou o fenómeno clínico de interesse. A forma de se proceder à redução
é diferente em cada estratégia (fig. 3).
Construção
PSICOMETRIA CLINIMETRIA
JULGAMENTO DE PACIENTES, MÉDICOS E OUTROS
PROFISSIONAIS A RESPEITO DOS FENÓMENOS CLINICOS TÉCNICAS ESTATISTICAS
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 13
Psicometria Lições
FIGURA 3: ETAPAS DA CONSTRUÇÃO DE UMA ESCALA
Na clinimétrica, as avaliações dos pacientes determinam quais os itens que deverão ser
incluídos na escala final; após hierarquização dos itens segundo o seu impacto, serão
incluídos na escala final os itens mais importantes e de maior frequência ou severidade,
conforme avaliado pelos pacientes, respeitando-se a multidimensionalidade do
constructo. Todas as dimensões que ajudam a explicar o constructo (ou o fenómeno
clínico que se quer medir) devem estar representadas na escala final. Na psicométrica,
são usadas várias técnicas estatísticas para reduzir o número de itens e distribuí-los em
dimensões: matriz de correlações, Alpha de Cronbach, Análise Factorial e outras
(Pocinho, 2007).
O desenvolvimento da mensuração é fruto de uma transformação e evolução global ao
longo de vários séculos. Concorrem nesse desenvolvimento as transformações que
foram ocorrendo nas próprias sociedades, o desenvolvimento das ciências, as sucessivas
mudanças sociais, culturais e económicas e por último na própria forma de ver o
Homem ao longo deste últimos vinte séculos.
Se optarmos por adaptarmos um instrumento em vez de construirmos de raiz, então o
processo de validação tem outros trâmites (fig. 4).
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 14
Psicometria Lições
FIGURA 4: ADAPTAÇÃO DE UM QUESTIONÁRIO AO CONTEXTO CULTURAL
Em vez da construção dos itens e respectiva preocupação com o conteúdo e as fontes
que os produzirão, precede-se à tradução e adaptação quer à língua, quer a todo o
contexto cultural que envolve a medida e que podemos sintetizar o processo de
adaptação cultural da seguinte forma (fig 5).
FIGURA 5: O PROCESSO DE ADAPTAÇÃO CULTURAL
Como já referimos, a construção de um teste pressupõe regras claras, sem
ambiguidades, condição essencial para se obter um bom instrumento de medida. Isto
exige-nos uma atenção redobrada, medir torna-se pois num aspecto essencial dos testes
mas é necessário que não se confundam, nem se misturem atributos. Torna-se
Adaptação transcultural
TRADUÇÃO E ADAPTAÇÃO AO NOVO IDIOMA ADAPTAÇÃO AO NOVO CONTEXTO CULTURAL
JULGAMENTO MULTIDISCIPLINAR JURI BILINGUE
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 15
Psicometria Lições
imprescindível que cada medida meça apenas um atributo. A definição dessas regras é o
que se chama de padronização
Uma das componentes das escalas é o facto de serem constituídas por um grande
número de itens. Com efeito inicialmente há necessidade de uma grande pool de itens
para depois se proceder à sua redução, que é por vezes três a quatro vezes menor na
versão final.
A forma inicial de escolha de itens pode ser, por um lado pela validade facial, ou seja,
por aquilo que aparentemente parecem ter a ver com o que pretendemos testar, por
outro, podem ser requeridos a um júri que pode ser constituído por cientistas ou
profissionais do âmbito do nosso estudo, que com autoridade podem indicar ou rever os
itens que estarão ligados ao nosso estudo.
Quanto ao tipo de itens, estes podem ser abertos/fechados ou restritos.
Os primeiros utilizam-se quando pretendemos respostas do tipo projectivo. As suas
vantagens situam-se no facto de desejarmos por exemplo conhecer as habilidades e
processos que um indivíduo ao ser testado usa para chegar à resposta.
Os itens restritos, são aqueles de escolha forçada (verdadeiro-falso/escolha múltipla), as
vantagens situam-se ao nível da relativa rapidez e objectividade na correcção que
efectuamos.
As principais desvantagens dos itens restritos, é o facto de estes poderem ser facilmente
avaliados, mas estão sujeitos à aleatoriedade das respostas. No caso dos itens
abertos/fechados, a principal desvantagem ou dificuldade situa-se ao nível da pontuação
pois esta torna-se mais demorada.
Para que este instrumento seja capaz de produzir a informação adequada deverá conter
perguntas sobre cada um dos indicadores previamente definidos e formulá-las com um
máximo de precisão. Mas esta precisão não é obtida imediatamente, é necessário testar
o instrumento de observação.
A ADMINISTRAÇÃO
A administração é conjuntamente com a selecção dos itens, uma das fases mais
importantes para que este se torne num excelente meio de medição, ou seja, que tenha
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 16
Psicometria Lições
óptimas qualidades psicométricas. A objectividade requerida num teste é-lhe conferida
pela padronização, criando-lhe condições, do mais uniforme possível, para os
indivíduos examinados com o mesmo teste (Freeman, 1980).
O teste ao ser administrado, deve ser feito de forma definida, sob condições uniformes,
a uma amostra de examinados, representativa do grupo a que se destina (Aiken, 1982).
É deste grupo que se estabelece as normas, ou seja a amostra de padronização.
Nunnally refere que amostra de padronização deve conter no mínimo 300 indivíduos,
sendo aconselhável uma amostra de 1000 sujeitos, ou ainda mais se possível (Nunnally,
1978). Bryman e Cramer não referem um numero fixo, mas uma relação de 3 a 5
indivíduos por variável (Bryman & Cramer, 2003), o que nos parece mais lógico, uma
vez que diferencia escalas de 10 itens das escalas com 100.
Autores como Golden, Freeman Aiken e Anastasi, alertam-nos para a necessidade de
padronizar as condições circundantes de administração, assim questões como
legibilidade, cor, forma tamanho, etc., tornam-se essenciais no pré-teste, pois podem
provocar diferentes interpretações e variações na resposta que se pretende. O pré-teste
não é mais do que “um processo de selecção, rejeição, adição e refinamento dos itens, e
sua localização na escala em função do nível de dificuldade. Torna-se importante
observar se os sujeitos compreendem as questões, se a administração é difícil, bem
como o tempo que demora a responder ao teste, isto porque nem sempre é possível fazer
o tipo de administração planeado (Anastasi, Testes psicológicos, 1977; Freeman, 1980;
Aiken, 1982; Golden, Sawicki, & Franzen, 1984).
Um dos aspectos essenciais na questão da padronização de um teste, é o facto de esperar
que diferentes pessoas a quem o teste possa ser administrado, medindo o mesmo
atributo, em termos de resultados, possam ser semelhantes.
É essencial compreendermos a necessidade de existirem normas para a compreensão
dos resultados de um teste, a amostra da padronização deve ser representativa da
população, o que nos vai dar os valores de realização média dessa população. A
distribuição dos resultados situa na curva de distribuição normal.
A exigência de objectividade de um teste deste tipo, obriga, por facilidade de
interpretação a que sejam fornecidas tabelas com os valores médios obtidos na
população a quem passamos o pré-teste, ou mesmo de uma população específica onde o
teste foi empregue. É essencial realizar-se estudos preliminares para ver se determinado
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 17
Psicometria Lições
tipo de teste é adequado a uma população que desejamos estudar, e essa adequação pode
ser dada pelas medidas padronizadas. As normas e distribuição dos resultados são
afectadas pela representatividade da amostra, bem como o podem ser pela proporção de
cada sexo, distribuição geográfica, nível socioeconómico e idade.
A padronização da administração é pois um aspecto essencial na planificação e
construção de um teste, antes mesmo de ver a garantia que esse teste nos oferece, bem
como a sua validade e adequabilidade.
TESTAR O INSTRUMENTO DE OBSERVAÇÃO
A exigência de precisão varia consoante se trate de um questionário ou de um guião de
entrevista. O guião de entrevista é o suporte da mesma. Mesmo quando está muito
estruturado, fica nas mãos do entrevistador. Pelo contrário, o questionário destina-se
frequentemente à pessoa interrogada; é lido e preenchido por ela. É, pois, importante
que as perguntas sejam claras e precisas, isto é, formuladas de tal forma que todas as
pessoas interrogadas as interpretem da mesma maneira.
Num questionário dirigido a jovens e tendo por objecto a prática do desporto
encontrava-se a seguinte pergunta: «Os seus pais praticam desporto?» Esta pergunta
parece simples e clara e, no entanto, está mal formulada e conduz a respostas não
utilizáveis. Em primeiro lugar, a palavra pais é imprecisa. Trata-se do pai e da mãe ou
de um conjunto familiar mais alargado? Depois, que responder se apenas um deles
pratica desporto? Uns responderão «sim», pensando que basta que um deles seja
desportista; outros dirão «não», achando que a pergunta abrange ambos. Assim, para
designar o mesmo estado de coisas obter-se-ão «sins» nuns e «nãos» noutros. Estas
respostas não eram utilizáveis e toda a parte da investigação que andava à volta desta
pergunta deve de ser abandonada. Além da exigência de precisão, é ainda necessário
que a pessoa interrogada esteja em condições de dar a resposta, que a conheça e não
esteja constrangida ou inclinada a escondê-la.
Para nos assegurarmos de que as perguntas serão bem compreendidas e as respostas
corresponderão, de facto, às informações procuradas é imperioso testar as perguntas.
Esta operação consiste em apresentá-las a um pequeno número de pessoas pertencentes
às diferentes categorias de indivíduos que compõem a amostra. Neste processo pode
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 18
Psicometria Lições
descobrir-se que um termo como «eutanásia» não é compreendido por toda a gente.
Pode também chegar-se à conclusão que existem perguntas que provocam reacções
afectivas ou ideológicas e cujas respostas deixam de ser utilizáveis. Por este meio
identificam-se ainda outros tipos de perguntas, como aquelas às quais as pessoas não
gostam de responder e, por conseguinte, se forem absolutamente necessárias é preferível
não as colocar no início do questionário, pois pode influenciar a resposta às seguintes
(Quivy & Campenhoudt, 1992).
No que diz respeito ao guião de entrevista, as exigências são diferentes. É a forma de
conduzir a entrevista que deve ser experimentada, tanto ou mais do que as próprias
perguntas contidas no guião. Não falamos aqui do guião de entrevista muito estruturado,
cujas exigências são semelhantes às do questionário. É sobretudo quando se trata de
uma entrevista semidirectiva que as coisas se tornam muito diferentes. No entanto,
cuidado: um guião de entrevista pouco estruturado não significa que o investigador
tenha cometido omissões ou sido negligente durante a fase de construção, significa, que,
por diversas razões ligadas aos seus objectivos de investigação, não julgou desejável
que o tipo de construção da sua entrevista transparecesse através das perguntas (Quivy
& Campenhoudt, 1992). Neste caso, trata-se de levar a pessoa interrogada a exprimir-se
de forma muito livre acerca dos temas sugeridos por um número restrito de perguntas
relativamente amplas para deixar o campo aberto a respostas diferentes daquelas que o
investigador teria podido explicitamente prever no seu trabalho de construção. Aqui as
perguntas ficam, portanto, abertas e não induzem as respostas nem as relações que
podem existir entre elas.
A estrutura das hipóteses e dos conceitos não está rigorosamente reproduzida no guião
de entrevista, mas não está por isso menos presente no espírito de quem a conduz. O
entrevistado deve continuamente levar o seu interlocutor a exprimir-se sobre os
elementos desta estrutura sem lha revelar. O sucesso de uma entrevista deste tipo
depende, é claro, da composição das perguntas, mas também, e sobretudo, da
capacidade de concentração e da habilidade de quem conduz a entrevista. Assim, é
importante testar-se. Isto pode fazer-se gravando algumas entrevistas e ouvindo como
foram conduzidas (Quivy & Campenhoudt, 1992).
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 19
Psicometria Lições
FIDEDIGNIDADE
Termos como: garantia, precisão e fidelidade significam o mesmo, ou seja, apesar de
não existir consenso, ambos significam fidedignidade, termo corrente nos meios
académicos e pelo qual optamos neste manual.
As duas características essenciais de um teste robusto são a garantia e a validade.
Significa pois, até ponto é que as qualidades psicométricas de um teste são precisas e
verdadeiras.
A fidedignidade de um teste consiste na possibilidade de ele fornecer resultados
consistentes em várias medições (Freeman, 1980; Aiken, 1982).
Para Freeman fidedignidade de um teste não tem a ver com a construção do teste, mas
sim com a administração deste. Questões como a predisposição dos indivíduos para
realizar um teste, diferenças entre indivíduos, habilidades, efeito da prática, condições
físicas do examinado na administração do teste, competência dos examinadores, são no
entender de Freeman factores importantes a ter em conta na administração de um teste.
A garantia é em parte uma consequência das condições em que a prova é aplicada. A
fidedignidade é exprimida em termos estatísticos por um índice estatístico, o coeficiente
de fidedignidade que indica até que ponto os indivíduos de um grupo obtém resultados
relativamente consistentes quando se procede a duas medições utilizando o mesmo teste
ou duas formas equivalentes de um teste e se calcula a correlação (Freeman, 1980).
A fidedignidade é traduzida neste termos pelas diferentes pontuações dos observadores,
bem como pela estabilidade temporal do atributo ou atributos medidos, obtendo-se
assim a correlação entre dois testes paralelos ou duas aplicações do mesmo teste (teste-
reteste). É traduzida, também pela consistência interna, ou seja, a homogeneidade dos
itens do teste, mostrando-nos se estes (nas sub-partes) medem o mesmo atributo.
Ao falarmos assim de fidedignidade, falamos concretamente de dois aspectos essenciais
que esta mede: fidedignidade externa - consistência de um teste ao longo do tempo
(estabilidade temporal); fidedignidade interna - se o atributo que a escala se propõe
medir é consistente e se mantém apenas a medição de um único atributo (Kline, 1987).
A garantia de um teste traduz-se num valor decimal (positivo) que assume valores entre
o 0,00 e 1,00. Significa que 0,00 é a ausência de garantia e 1,00 garantia perfeita.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 20
Psicometria Lições
Anastasi refere que a fidedignidade pode ser definida como o grau de consistência entre
duas medidas da mesma coisa (Anastasi, Testes psicológicos, 1977). Nunnally diz que o
coeficiente de garantia é a correlação entre dois testes (Nunnally, 1978). Prieto e Muñiz
definem Fidedignidade como capacidade de um instrumento fornecer resultados
consistentes em aplicações repetidas. Esta noção, em geral, é utilizada para abarcar os
dois aspectos diferentes da fidedignidade: a externa e a interna.
Fidedignidade (interna) é o termo que se usa mais vulgarmente quando se pretende
referir o grau de consistência entre todos os itens de uma medida. Quando se mede a
consistência interna obtém-se um coeficiente de confiabilidade que, segundo Bryman
e Cramer, é bom se for superior a 0,8 (Bryman & Cramer, 2003). Prieto e Muñiz
apresentam critérios mais alargados e consideram inadequado um coeficiente abaixo de
0,60, adequado com algumas carências os coeficientes entre 0,60 e 0,70, adequado
entre 0,70 e 0,80, bom entre 0,80 e 0,85 e excelente os que se encontram acima de
0,85 (Prieto & Muñiz, 2000).
Como refere Golden não existe um tipo ideal de teste, estes incluem sempre algum erro
(Golden, Sawicki, & Franzen, 1984). Aiken refere erros do tipo sistemático e erros do
tipo não sistemático. Os primeiros influenciam as pontuações dos testes, mas não
afectam a garantia. Os segundos podem baixar a garantia, uma vez que são
imprevisíveis (Aiken, 1982).
A existência de vários modos de estimação de garantia ou fidedignidade, como a
consistência interna, as formas paralelas e o teste reteste, têm em conta a necessidades
de quem administra o teste, o tipo de itens, bem como aquilo que o teste pretende medir,
fornecendo dados que nos ajudam a diminuir a variância do erro.
CONSISTÊNCIA INTERNA
A consistência interna significa a consistência dos resultados ao longo do teste quando
este é aplicado uma vez, ou seja, a precisão da medição efectuada num determinado
momento (Freeman, 1980). Só podemos dizer que um instrumento tem consistência
interna se todas as suas sub partes medirem a mesma característica. A consistência
interna diz respeito às estimativas de garantia, baseando-se na correlação média entre os
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 21
Psicometria Lições
itens (Freeman, 1980). Ao requerer uma só aplicação, trata-se da melhor forma de
avaliar os erros de medição, bem como mais económico.
De entre as formas que existem para determinar a consistência interna temos: o método
metade-metade, a correlação item-restante, o coeficiente alfa de Cronbach e a
correlação média entre itens. Para determinar a consistência externa temos o teste-
reteste e as formas equivalentes.
METADE-METADE DE SPEARMAN-BROWN
Postula que se pode chegar a uma medida de fidedignidade só com uma aplicação de
uma de forma de um teste. Correlacionam-se as duas metades de um teste, aleatorizando
os itens, ou com base nos itens pares e impares. Este método tem muita afinidade com o
método das formas equivalentes.
Na fidedignidade pelo método Metade-Metade, produz-se uma espécie de forma
alternativa, dividindo uma escala em duas partes. Este método avalia o grau de
consistência entre itens, determinando a consistência interna da escala, embora não
possa medir a estabilidade temporal, oferece a vantagem de uma única aplicação. Este
método assume que todos os itens contribuem de igual forma para a mensuração de um
constructo mental.
O coeficiente de correlação obtido através desta técnica Metade-Metade tende a gerar
uma estimação inferior à da escala na sua totalidade já que a correlação aqui obtida é
relativa a metade do teste. As escalas com elevado número de itens geram
fidedignidades maiores. Com o objectivo de superar esta dificuldade foi criada uma
fórmula para ajustar o coeficiente de correlação para toda a escala.
A equação que define este tipo de correlação é a fórmula de previsão Spearman-Brown:
onde é o número de "testes" combinadoρxx'é a fiabilidade do actual "teste". A
fórmula prevê a confiabilidade de um novo teste composto se replicar o actual critério N
vezes (ou, de forma equivalente, a criação de um teste com N formas paralelas do actual
exame). Assim, N = 2 implica a duplicação do tamanho do teste, adicionando os itens
com as mesmas propriedades que as do actual exame (em função do aumento do
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 22
Psicometria Lições
número de itens de uma medida). Valores de N inferior a um pode ser usado para prever
o efeito de reduzir um teste.
A fórmula também pode ser reorganizado para prever o número de repetições
necessárias para atingir um grau de fiabilidade:
Esta fórmula é comumente utilizada por psicometristas para prever a confiabilidade de
um teste após mudar o tamanho do teste. Esta relação é particularmente util para a
divisão de metade-metade ( e respectivos métodos de estimativa de confiabilidade.
A fórmula também é útil para a compreensão da relação entre o teste não-linear e
confiabilidade sobre o tamanho do teste
Se o teste longo / curto não é paralelo ao actual teste a previsão não será rigorosamente
exactos. Por exemplo, se um teste altamente confiável foi alongado, acrescentando
muitos itens pobres, estes influenciam negativamente a confiabilidade que
provavelmente será muito inferior ao previsto por esta fórmula.
A análise através da teoria do item resposta fornece uma informação muito mais precisa
permitindo prever mudanças na qualidade da medição, adicionando ou removendo itens
individuais.
CORRELAÇÃO ITEM – RESTANTE
A crescente quantidade e implemento da estatística na área da informática possibilitam
ganhos em termos de tempo. O que há alguns anos era um processo moroso tornou-se
agora numa operação simples e rápida.
A correlação item-restante é uma outra fórmula de conhecer a fidedignidade de um
teste, consegue-se através da correlação entre o respectivo item e a soma dos itens sem o
item que se escolheu.
A correlação item-restante permite eliminar os itens que apresentam correlações em
relação a outros itens. Pode ocorrer a diminuição de muitos itens, mas isso não invalida
este tipo de método uma vez que a sua aplicação permite mais garantia.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 23
Psicometria Lições
ALFA DE CRONBACH
O coeficiente alfa de Cronbach () foi desenvolvido para calcular a confiabilidade de
um teste. O valor de aumenta com o número de questões da escala; assim, escalas
com vinte questões freqüentemente apresentam valores de próximo de 0,90 (Streiner,
1993). O coeficiente alfa de Cronbach é o resultado da aplicação de uma fórmula que
serve para determinar a fidedignidade através da consistência interna, que varia entre 0
(zero) e 1 (um). Uma regra consensual entre a comunidade científica é que um α de
0,6-0,7 indica uma fidedignidade aceitável, 0,8-0,95 indica que é boa e 0,95 ou
superior não é desejável pois indica que os items podem ser totalmente
redundantes.
Para o caso das escalas somativas de respostas dicotómicas é utilizada a fórmula KR-20
e KR-21 de Kuder-Richardson utilizados como medidas da consistência interna [as
respostas a todos os itens que integram a escala devem estar codificados em 0 e 1
(incorrecto vs. correcto; discordo vs. concordo; falso vs. verdadeiro, etc.)]. O
coeficiente KR-21 é uma simplificação do coeficiente KR-20, na qual se pressupõe que
todos os itens têm variância igual. A sua importância é meramente histórica, uma vez
que a respectiva determinação visava exclusivamente simplificar os procedimentos de
cálculo manual, numa época anterior à existência generalizada de software estatístico
(Alferes, 2008)
METADE-METADE DE GUTTMAN
Trata-se agora de considerar uma outra fórmula de estimar a garantia e que pode ser
interpretado como o alfa de Cronbach. Trata-se de conceber os itens em dois grandes
grupos e tratar estes como itens únicos, mas assume variâncias diferentes das duas
metades, em relação ao coeficiente metade-metade de Spearman-Brown.
TESTE-RETESTE:
FORMA ÚNICA
Esta é outra das formas de estimação da garantia/fidedignidade. Trata-se da
administração de um mesmo teste em duas ocasiões diferentes ao mesmo grupo de
indivíduos. O coeficiente de garantia obtém-se pela correlação entre as pontuações
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 24
Psicometria Lições
obtidas em cada uma das aplicações obtidas do teste (Freeman, 1980).Es te tipo de
estimação parte do princípio de que as características de um teste têm alguma
estabilidade temporal.
Ao interpretar os resultados do coeficiente de Teste-Reteste devem ter-se em conta
algumas das limitações deste método. Ex: fadiga, diferentes condições ambientais, erros
de administração cometidos pelo examinador, bem como o efeito de memória que pode
ocorrer durante a segunda administração.
Torna-se então numa obrigação a necessidade de limitar o número de vezes que o
indivíduo é examinado com a mesma prova. Em vez de retestes frequentes, os
elementos são obtidos examinando maior número de indivíduos em vez de os examinar
várias vezes.
Apresenta-nos algumas vantagens como o facto de o conteúdo ser completamente
equivalente nas duas ocasiões, o facto de ser mais fácil elaborar uma forma única de um
teste do que duas (Freeman, 1980).
Em termos de desvantagens, trata-se de um método demorado. As modificações
ocasionais pelo facto de se ter apreendido e desenvolvido “aptidões”. Os indivíduos já
não são os mesmos (Freeman, 1980). Ainda dentro da opinião deste autor, embora o
coeficiente de garantia seja relativamente elevado quando se usa a mesma forma de
teste, a influência da evocação não é tão grande como possa parecer.
FORMAS EQUIVALENTES
As formas paralelas, que na sua forma ideal serão formas alternativas, consistem na
administração de dois testes, equivalentes, aos mesmos indivíduos (Freeman, 1980).
Esta forma considera que o número de itens têm de ser o mesmo, bem como os tipos de
itens devem ser uniformes quanto ao conteúdo, operações ou dimensões implicáveis,
níveis e amplitude da dificuldade e correcta solução. A distribuição da dificuldade deve
ser idêntica, assim como devem ter o mesmo grau de homogeneidade no que respeita às
operações ou dimensões medidas. As médias ou desvios padrões das duas formas
devem ser idênticos. A mecânica de aplicação e apuramento deve ser semelhante nas
duas formas (Freeman, 1980).
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 25
Psicometria Lições
Este método de estimação da garantia por formas equivalentes apresenta vantagens
como os possíveis efeitos de uma prática específica ou de uma evolução, pois os itens
das duas versões não são os mesmos.
Apresenta também algumas desvantagens, nomeadamente ao nível da construção e
padronização. Isto é, assegurar a verdadeira equivalência das duas formas.
De um modo geral os valores do coeficiente alfa são muito próximos dos valores
obtidos pela correlação entre as formas alternativas. No entanto, se a correlação das
duas formas alternativas for significativamente mais baixa, significa que algum erro de
medida está presente. Um baixo coeficiente de fidedignidade obtido através da
correlação de duas formas paralelas, significa que os dois testes não medem a mesma
coisa, ou seja, não são duas formas alternativas (Freeman, 1980)
VALIDADE DE UM TESTE
A validade avalia até que ponto o procedimento de medição produz a resposta correcta,
qual o poder de resposta e o poder de interpretação bem como o significado dos
resultados. Procura responder a dois pontos ou questões essenciais que se levantam na
construção e aplicação de um teste, primeiro se o teste está mesmo a medir o que
desejávamos, em segundo se as informações têm algum relevo para o estudo que
desejamos. Um teste é válido quando mede o que se supõe medir. Validade é portanto o
grau com que os resultados obtidos são correctamente interpretados.
Aquilo que à partida pode parecer ser uma boa abordagem para a mensuração numa
base intuitiva (validade facial), pode não ser válido pelos métodos e padrões de
investigação (Nunnally, 1978).
Poderá um teste ser valido e não ser fidedigno e vice-versa?. Aiken refere que “um teste
pode ser fidedigno sem ser válido, mas não pode ser válido sem ser fidedigno”. É que
enquanto a garantia ou fidedignidade é normalmente afectada por erros não sistemáticos
que têm a ver com a administração e com a apresentação (critérios externos) a validade
pode ser afectada por erros sistemáticos. A existência de fiabilidade adequada é
necessária, mas não suficiente, para garantir a validade adequada.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 26
Psicometria Lições
Relativamente à validade dos testes, não raras vezes se refere que um dado teste
psicológico que pode ser válido numa situação não o é noutra, ou, ainda, que existem
níveis diferentes de magnitude de validade de um teste. Este modo de falar sobre a
validade dos testes psicológicos é, no mínimo, confuso. Para confundir ainda mais, o
grande psicometrista Samuel Messick refere que a validade é um julgamento avaliativo
que conjuga a evidência empírica e as racionalizações teóricas com a adequação e
propriedade de inferências e acções baseadas em saturações de testes ou outros modos
de avaliação (Messick, 1989). Este modo de entender e definir a validade dos testes, que
é assumido pela própria American Psychological Association (American Psychological
Association, 1985), tornou o tema um verdadeiro labirinto.
Com efeito se fizermos uma revisão literatura da literatura tradicional e actual sobre o
tema, encontramos um elenco sem fim de expressões ou tipos de validade que um teste
pode ter. Vejamos alguns deles:
1. Validade de construto (também chamado de validade de conceito, validade
conceptual, validade de construção, validade hipotético-dedutiva) (Cronbach &
Meehl, 1955);
2. Validade de conteúdo (Cronbach & Meehl, 1955; Haynes, Richard, & Kubany,
1995);
3. Validade de critério, também chamada Validade preditiva (Cronbach & Meehl,
1955);
4. Validade concorrente (Cronbach & Meehl, 1955);
5. Validade aparente ou facial (Mosier, Problems and designs of cross-validation,
1951; Mosier, Problems and designs of cross-validation, 1951);
6. Validade generalizável ou inferncial (Mosier, A critical examination of the
concepts of face validity, 1947; Mosier, Problems and designs of cross-
validation, 1951; Messick, 1989);
7. Validade discriminante (Campbell & Fiske, 1959);
8. Validade convergente (Campbell & Fiske, 1959);
9. Validade incremental (Bryant, 2000);
10. Validade factorial (Guilford, 1946);
11. Validade lógica (Cronbach L. J., 1949);
12. Validade empírica (empirical validity) (Cronbach L. J., 1949);
13. Validade consequencial (Messick, 1989);
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 27
Psicometria Lições
14. Validade intrínseca (Gulliksen, 1950);
15. Validade substantiva (Messick, 1989);
16. Validade estrutural (Messick, 1989);
17. Validade externa (Messick, 1989; Emory, 1985);
18. Validade interna também denominadas por validades de critério, de conteúdo e
de construto (Emory, 1985);
19. Validade de hipótese também chamada de Validade indireta (Weber, 1990;
Janis, 1965);
20. Validade posditiva que é o oposto de validade preditiva (Haynes, Richard, &
Kubany, 1995).
Encontramos, ainda referencia a mais tipos de validade em vários programas
informáticos de tratamento de dados, contudo não identificámos a sua origem. São elas:
21. Validade curricular (curricular validity): constitui uma extensão da validade de
conteúdo e consiste em verificar o aumento da aprendizagem (se se descobre que
há aumento de aprendizagem em dois testes com validade de conteúdo, então se
verifica validade curricular);
22. Validade diferencial (differential validity): validade de uma bateria de testes
avaliada pela capacidade de predizer diferenças no desempenho em dois ou mais
critérios;
23. Validade cruzada (cross validity): confirmar a validade dos resultados a partir de
um novo exame com estudo empírico feito com uma segunda amostra
independente;
24. Validade de grupos mistos (mixed-group validity): duas amostras com formatos
diferentes no traço ou diferentes probabilidades em expressar dado
comportamento são comparadas;
25. Validade múltipla (multiple validity): um teste tem validade múltipla quando
estiver associado a uma amostra vasta de critérios;
26. Validade ecológica (ecologial validity): o quanto um instrumento psicológico
mede factores espaciais, temporais e situacionais do campo de aplicação;
27. Validade sintética (synthetic validity): validade de teste complexo ou de uma
bateria de testes baseada no facto de que vários factores foram representados
num único escore composto;
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 28
Psicometria Lições
28. Validade condicional (conditional validity): a validade do teste depende do uso
que dele se faz;
29. Validade incondicional (unconditional validity): a validade do teste depende do
construto sendo medido e não do uso que dele se faz.
Parece, então, que a intenção de Messick de "integrar" os diferentes aspectos de
validade dos testes psicológicos, de facto introduziu enorme confusão.
Borsboom, Mellenbergh e Van-Heerden colocam muito bem esse problema ao
afirmarem: O conceito de validade com o qual os teóricos estão interessados parece
estranhamente divorciado do conceito que pesquisadores têm em mente quando
colocam a questão da validade. Isso deve-se a que, no século passado, a questão da
validade evoluiu da questão de se a gente mede o que se pretende medir para a questão
de se as relações empíricas entre scores de um teste se emparelham com relações
teóricas numa rede nomológica2 e, finalmente, para a questão de se interpretações e
acções baseadas em scores de testes são justificadas – não somente à luz de evidência
científica, mas com respeito a consequências sociais e éticas do seu uso (Borsboom,
Van-Heerden, & Mellenbergh, 2003).
Pasquali refere que desde o trabalho de Cronbach e Meehl dos meados do século
passado, o conceito de validade dos testes vem perdendo o seu sentido original. Embora
os autores quisessem precisamente salvar esse conceito, a introdução do modelo da rede
nomológica, concebida dentro da visão do positivismo lógico veio, na verdade, destruir
o conceito de validade, originalmente concebido por Kelly na década de 1920 e, depois,
por Cattell. O conceito de validade, foi totalmente descaracterizado com a definição do
mesmo dada pelo grande psicometrista Samuel Messick, em 1989. Pasquali reforça a
necessidade da redescoberta do conceito para salvar as bases da Psicometria (Pasquali,
2007).
Quanto a nós um teste psicológico é um conjunto constituído de comportamentos que o
sujeito deve exibir. Ele é um teste se todos os comportamentos envolvidos no conjunto
se referem à "mesma coisa" (construto), é a questão da unidimensionalidade. Ademais,
alguns sujeitos podem ser capazes de executar todos os comportamentos envolvidos,
2 nomological network
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 29
Psicometria Lições
outros sujeitos, apenas alguns dos comportamentos e outros, ainda, nenhum dos
comportamentos.
A base da argumentação consiste em se entender que validade constitui uma
propriedade do instrumento de medida e que não tem nada a ver com a ideia de que ela
consistiria num julgamento sobre o significado dos scores de um teste, retomando,
assim, o sentido original que Kelly (1927) quis dar a esse conceito, ao afirmar que um
teste é válido quando mede aquilo que supostamente deve medir.
Recorrendo a um exemplo de Pasquali, imagine que construímos um metro, feito de
ferro, para medir o comprimento das coisas. Medimos um pedaço de pau e conseguimos
uma medida do mesmo. Em seguida, aquecemos o metro e medimos novamente o
pedaço de pau e a medida alterou-se (Pasquali, 2007). Coloca-se aqui uma questão; será
que na segunda vez que o utilizámos ele já não mede o comprimento? O mesmo se pode
passar com um arma que fica com a mira descalibrada.
Claro que sim, no entanto está medindo errado. É óbvio que o metro continua
medindo aquilo para o qual ele foi feito para fazer, isto é, medir comprimento. Isto
é validade. Continua medindo o comprimento, é um facto, no entanto está a faze-lo
sem precisão, erradamente, porque o metro, com o calor (factores perturbadores no
uso do instrumento) ficou descalibrado. Mas a presença de factores perturbadores é
corriqueira em qualquer empreitada científica (as chamadas variáveis estranhas ou
confounding variables). De qualquer forma, o instrumento estar calibrado ou não, é
questão de precisão, não de validade, porque ele continua medindo aquilo para o qual
ele foi construído. Assim, continua sendo verdadeiro que o metro mede comprimento
(validade), embora na prática ele o faça erradamente (precisão). Dessa forma, validade
responde a se algo é verdadeiro ou falso, enquanto precisão responde a se algo está
correcto ou errado. A primeira questão diz respeito a um problema ontológico e a
segunda a um problema psicométrico (de mensuração) ou metodológico. No caso dos
testes psicológicos, os dois problemas são relevantes e importantes, mas um não é o
outro. Assim, conclui-se que os parâmetros de validade e precisão são características
do instrumento de medida, do teste, e não da medida feita de um objecto. Esta última
é confiável e legítima se o instrumento que a produziu for válido (pertinente, relevante)
e preciso (calibrado). Quem garante a qualidade da medida é a qualidade do
instrumento. E a validade do instrumento diz respeito exclusivamente à pertinência do
instrumento com respeito ao objecto que se quer medir; é a questão da referência.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 30
Psicometria Lições
Existem algumas linhas matemáticas que referem que a Análise Factorial, pelo método
das Componentes Principais, pode não ser a técnica mais adequada quando temos uma
escala de medida dicotómica.
Para que não restem dúvidas que os dados provêm de uma população normal
multivariada, devemos fazer o Teste de esfericidade de Bartlett que testa a hipótese da
matriz das correlações ser a matriz da identidade com determinante igual a 1.
Resultados como os que podem ser observados no quadro que se segue demonstram que
o teste Bartlett tem associado um nível de significância inferior a 0,05, o que leva à
rejeição da hipótese da matriz das correlações na população ser a identidade, mostrando
que a correlação que existe é entre as variáveis.
Quadro 1: Teste KMO e Bartlett - GDS
Kaiser-Meyer-Olkin (KMO) 0,932
Teste da esfericidade de Bartlett Qui-quadrado (aproximação) 5994,603
gl 378
p 0,000
Se o nível de significância fosse superior a 0,05, dever-se-ia reconsiderar a utilização
deste modelo factorial.
Um outro indicador da força da relação, entre as variáveis, é o Coeficiente de
Correlação Parcial. O Kaiser-Meyer-Olkin (KMO), que varia entre zero e um, compara
as correlações simples com as correlações parciais observadas entre as variáveis. Sendo
que a decisão de uma Análise Factorial com um KMO <0,5 é inaceitável; entre [0,5 –
0,6[ é má; entre [0,6 – 0,7[ pouco razoável, mas aceitável; entre [0,7 – 0,8 [ aceitável;
entre [0,8 – 0,9[ boa decisão e de [0,9 a 1] muito boa decisão.
No nosso caso, acima apresentado pode observar-se um KMO de 0,932, o que revela
que a Análise Factorial tem uma adequação muito boa para usar na medida psicometrica
em análise.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 31
Psicometria Lições
A RECOLHA DOS DADOS
A terceira operação da fase de observação é a recolha dos dados. Esta constitui a
execução do instrumento de observação. Esta operação consiste em recolher ou reunir
concretamente as informações determinadas junto das pessoas ou das unidades de
observação incluídas na amostra.
Proceder-se-á por observação directa quando a informação procurada estiver
directamente disponível. O guião de observação destina-se então ao próprio observador,
e não a um eventual entrevistado. Por conseguinte, a sua redacção não está sujeita a
restrições tão precisas como, por exemplo, as do questionário. Não sendo uma
observação directa, a recolha de dados estatísticos existentes, de documentos escritos
(textos, opúsculos...) ou pictóricos (cartazes, fotografias...), levanta igualmente
problemas específicos que serão evocados no último ponto desta etapa.
Pelo contrário, a observação indirecta, por meio de questionário ou de guião de
entrevista, deve vencer a resistência natural ou a inércia dos indivíduos. Não basta
conceber um bom instrumento, é preciso ainda pô-lo em prática de forma a obter-se
uma proporção de respostas suficiente para que a análise seja válida. As pessoas não
estão forçosamente dispostas a responder, excepto se virem nisso alguma vantagem
(falar um pouco, por exemplo) ou se acharem que a sua opinião pode ajudar a fazer
avançar as coisas num domínio que consideram importante. O investigador deve,
portanto, convencer o seu interlocutor da importância da sua participação. É por isso
que geralmente se evita enviar um questionário pelo correio, confiando-o, de
preferência, se o custo não for excessivo, a inquiridores. O papel do inquiridor é, neste
caso, o de criar nas pessoas interrogadas uma atitude favorável, a disposição para
responderem francamente às perguntas e, por fim, entregarem o questionário
correctamente preenchido. Caso se trate de um questionário enviado por via postal, é
importante que a apresentação do documento não seja dissuasiva e que este seja
acompanhado por uma carta de introdução, curta, clara, concisa e motivante.
Antes de abordar, nas páginas seguintes, o panorama das principais categorias de
métodos de recolha de dados, é bom insistir na antecipação. Esta não é uma operação da
observação propriamente dita, mas deve ser uma preocupação constante do
investigador, ao elaborar o seu instrumento de observação. Na fase seguinte, a análise
das informações, os dados observados serão submetidos a diversas operações
estatísticas que visam dar--lhes a forma exigida pelas hipóteses de investigação. É por
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 32
Psicometria Lições
isso que é necessário sublinhar que a escolha do instrumento de observação e a recolha
dos dados devem inscrever-se no conjunto dos objectivos e do dispositivo metodológico
da investigação.
A escolha de um método de inquérito por questionário junto de uma amostra de várias
centenas de pessoas impede que as respostas individuais possam ser interpretadas
isoladamente, fora do contexto previsto pelos investigadores. É, pois, preferível saber à
partida que os dados recolhidos nestas condições só fazem sentido quando tratados de
modo estritamente quantitativo, que consiste em comparar as categorias de respostas e
em estudar as suas correlações. Pelo contrário, outros processos de recolha de dados
porão de lado qualquer possibilidade de tratamento quantitativo e exigirão outras
técnicas de análise das informações reunidas.
A escolha dos métodos de recolha dos dados influencia, portanto, os resultados do
trabalho de modo ainda mais directo: os métodos de recolha e os métodos de análise dos
dados são normalmente complementares e devem, portanto, ser escolhidos em conjunto,
em função dos objectivos e das hipóteses de trabalho. Se os inquéritos por questionário
são acompanhados por métodos de análise quantitativa, os métodos de entrevista
requerem habitualmente métodos de análise de conteúdo, que são muitas vezes, embora
não obrigatoriamente, qualitativos. Resumindo, é importante que o investigador tenha
uma visão global do seu trabalho e não preveja as modalidades de nenhuma destas
etapas sem se interrogar constantemente acerca das suas implicações posteriores.
Precisemos, além disso, que as perguntas que constituem o instrumento de observação
determinam o tipo de informação que obteremos e o uso que dela poderemos fazer na
análise dos dados. Se nos interessamos, por exemplo, pelo sucesso escolar de alunos,
podem ser considerados três níveis de precisão na informação: insucesso ou sucesso, o
lugar (primeiro, segundo, terceiro..., último) e a percentagem de pontos obtidos em
relação ao total. A informação recolhida dependerá da pergunta que figura no
instrumento de observação. Ao fazer a análise, os dados qualitativos (o insucesso-
sucesso) não são tratados da mesma forma que os dados originais (o lugar) ou os
quantitativos (a percentagem).
Neste exemplo observamos uma vez mais a interdependência entre a observação e a
análise dos dados. Temos então de antecipar e de nos interrogar regularmente para cada
resposta prevista: «Será que a pergunta que coloco vai dar-me a informação e o grau de
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 33
Psicometria Lições
precisão de que necessito na fase posterior?» Ou ainda: «Para que deve servir esta
informação e como vou poder medi-la e relacioná-la com as outras?»
Existem, de facto, regras muito precisas para a construção dos testes. É disso que
dissertaremos de seguida.
Apenas conhecemos correctamente um método de investigação depois de o termos
experimentado. Antes de escolhermos um é, portanto, indispensável asseguramo-nos,
junto de investigadores que dominem bem, da sua pertinência em relação aos objectivos
específicos de cada trabalho, às suas hipóteses e aos recursos de que dispomos. Os
panoramas que apresentamos não substitui, de forma alguma, esta maneira de proceder,
mas pensamos que pode ser útil para a preparar.
O termo «método» já não é aqui entendido no sentido lato de dispositivo global de
elucidação do real, mas num sentido mais restrito, o de dispositivo específico de recolha
ou de análise das informações (assunto desta sexta etapa), destinado a testar hipóteses
de investigação. Neste sentido restrito, a entrevista de grupo, o inquérito por
questionário ou a análise de conteúdo são exemplos de métodos de investigação.
No âmbito da aplicação prática de um método podem ser utilizadas técnicas específicas,
como, por exemplo, as técnicas de amostragem. Trata-se então de procedimentos
especializados que não têm uma finalidade em si mesmo. Da mesma forma, como já
referimos, os dispositivos metodológicos fazem necessariamente apelo a disciplinas
auxiliares, como, a matemática, a estatística, medicina, psicologia social…
Só serão aqui consideradas as grandes categorias de métodos que permitem recolher
informações para posterior análise, de forma a não nos perdermos em pormenores, que,
por serem tratados superficialmente, seriam de qualquer forma inúteis..
O INQUÉRITO POR QUESTIONÁRIO
Consiste em colocar a um conjunto de inquiridos, geralmente representativo de uma
população, uma série de perguntas relativas à sua situação social, profissional ou
familiar, às suas opiniões, à sua atitude em relação a opções ou a questões humanas e
sociais, às suas expectativas, ao seu nível de conhecimentos ou de consciência de um
acontecimento ou de um problema, ou ainda sobre qualquer outro ponto que interesse os
investigadores. O inquérito por questionário de perspectiva sociológica distingue-se da
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 34
Psicometria Lições
simples sondagem de opinião pelo facto de visar a verificação de hipóteses teóricas e a
análise das correlações que essas hipóteses sugerem. Por isso, estes inquéritos são
geralmente muito mais elaborados e consistentes do que as sondagens. Dado o grande
número de pessoas geralmente interrogadas e o tratamento quantitativo das informações
que deverá seguir-se, as respostas à maior parte das perguntas são normalmente pré-
codificadas, de forma que os entrevistados devem obrigatoriamente escolher as suas
respostas entre as que lhes são formalmente propostas (Quivy & Campenhoudt, 1992).
O questionário chama-se «de administração indirecta» ou «heteroadministração»
quando o próprio inquiridor o completa a partir das respostas que lhe são fornecidas
pelo inquirido. Chama-se «de administração directa» ou «autoadministração» quando é
o próprio inquirido que o preenche. O questionário é então entregue em mão por um
inquiridor encarregado de dar todas as explicações úteis, ou endereçado indirectamente
pelo correio, online ou por qualquer outro meio equivalente. Os processos que não
implicam a presença do entrevistador merecem pouca confiança e só excepcionalmente
devem ser utilizados na investigação, dado que as perguntas são muitas vezes mal
interpretadas e o número de respostas é geralmente demasiado fraco. Em contra partida,
utiliza-se cada vez mais frequentemente o telefone neste tipo de questionários.
O inquérito é especialmente adequado no conhecimento de uma população enquanto tal:
as suas condições e modos de vida, os seus comportamentos, os seus valores ou as suas
opiniões. A análise de um fenómeno social que se julga poder apreender melhor a partir
de informações relativas aos indivíduos da população em questão, como o impacto de
uma política familiar ou a introdução da microinformática no ensino.
De uma maneira geral, os casos em que é necessário interrogar um grande número de
pessoas e em que se levanta um problema de representatividade. A vantagem deste
método é a possibilidade de quantificar uma multiplicidade de dados e de proceder, por
conseguinte, a numerosas análises de correlação. A grande limitação é a
superficialidade das respostas, que não permite a análises de certos processos, como por
exemplo a evolução do trabalho clandestino ou a das concepções ideológicas profundas.
Por conseguinte, os resultados apresentam-se muitas vezes como simples descrições,
desprovidas de elementos de compreensão penetrantes. A individualização dos
entrevistados, que são considerados independentemente das suas redes e relações
sociais. Para que o método seja digno de confiança devem ser preenchidas várias
condições: rigor na escolha da amostra, formulação clara e unívoca das perguntas,
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 35
Psicometria Lições
correspondência entre o universo de referência das perguntas e o universo de referência
do entrevistado, atmosfera de confiança no momento da administração do questionário,
honestidade e consciência profissional dos entrevistadores. Na prática, as principais
dificuldades provêm, geralmente, da parte dos entrevistadores, que nem sempre estão
suficientemente formados e motivados para efectuarem este trabalho exigente e muitas
vezes desencorajador (Quivy & Campenhoudt, 1992).
COMPETENCIAS NECESSÁRIAS
1. Técnicas de amostragem.
2. Técnicas de redacção, de codificação e de exploração das perguntas, incluindo
as escalas de atitude.
3. Gestão de redes de entrevistadores.
4. Iniciação aos programas informáticos de gestão e análise de dados de inquéritos
(SPSS, SPAD, SAS...).
5. Estatística descritiva e análise estatística dos dados.
6. No caso mais frequente, em que o trabalho é efectuado em equipa e recorrendo a
serviços especializados, não é indispensável que todos os investigadores sejam
pessoalmente formados nos domínios mais técnicos.
A ENTREVISTA
Nas suas diferentes formas, os métodos de entrevista distinguem-se pela aplicação dos
processos fundamentais de comunicação e de interacção humana. Correctamente
valorizados, estes processos permitem ao investigador retirar das entrevistas
informações e elementos de reflexão muito ricos e variados. Ao contrário do inquérito
por questionário, os métodos de entrevista caracterizam-se por um contacto directo entre
o investigador e os seus interlocutores e por uma fraca directividade por parte daquele.
Instaura-se, assim, em princípio, uma verdadeira troca, durante a qual o entrevistado
exprime as suas percepções de um acontecimento ou de uma situação, as suas
interpretações ou as suas experiências, ao passo que, através das suas perguntas abertas
e das suas reacções, o investigador facilita essa expressão, evita que ela se afaste dos
objectivos da investigação e permite que o interlocutor aceda a um grau máximo de
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 36
Psicometria Lições
autenticidade e de profundidade cujo conteúdo será objecto de uma análise de conteúdo
sistemática, destinada a testar as hipóteses de trabalho (Quivy & Campenhoudt, 1992).
A entrevista semidirectiva, ou semidirigida, é certamente a mais utilizada em
investigação social. É semidirectiva no sentido em que não é inteiramente aberta nem
encaminhada por um grande número de perguntas precisas. Geralmente, o investigador
dispõe de uma série de perguntas-guias, relativamente abertas, a propósito das quais é
imperativo receber uma informação da parte do entrevistado. Mas não colocará
necessariamente todas as perguntas pela ordem em que as anotou e sob a formulação
prevista. Tanto quanto possível, «deixará andar» o entrevistado para que este possa falar
abertamente, com as palavras que desejar e pela ordem que lhe convier. O investigador
esforçar-se-á simplesmente por reencaminhar a entrevista para os objectivos cada vez
que o entrevistado deles se afastar e por colocar as perguntas às quais o entrevistado não
chega por si próprio no momento mais apropriado e de forma tão natural quanto
possível.
A entrevista centrada, mais conhecida pela sua denominação inglesa, focused interview,
tem por objectivo analisar o impacto de um acontecimento ou de uma experiência
precisa sobre aqueles que a eles assistiram ou que neles participaram; daí o seu nome. O
entrevistador não dispõe de perguntas preestabelecidas, como no inquérito por
questionário, mas sim de uma lista de tópicos precisos relativos ao tema estudado. Ao
longo da entrevista abordará necessariamente esses tópicos, mas de modo livremente
escolhido no momento de acordo com o desenrolar da conversa. Neste quadro
relativamente flexível não deixará de colocar numerosas perguntas ao seu interlocutor.
Em certos casos, como no âmbito da análise de histórias de vidas, os investigadores
aplicam um método de entrevista extremamente aprofundado e pormenorizado, com
muito poucos interlocutores. Neste caso, as entrevistas, são muito mais longas, por isso
divididas em várias sessões (Quivy & Campenhoudt, 1992).
O método de entrevista é especialmente adequado na análise do sentido que os actores
dão às suas práticas e aos acontecimentos com os quais se vêem confrontados: os seus
sistemas de valores, as suas referências normativas, as suas interpretações de situações
conflituosas ou não, as leituras que fazem das próprias experiências, etc.; na análise de
um problema específico: os dados do problema, os pontos de vista presentes, o que está
em jogo, os sistemas de relações, o funcionamento de uma organização, etc.; na
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 37
Psicometria Lições
reconstituição de um processo de acção, de experiências ou de acontecimentos do
passado.
Uma das vantagens deste método é o grau de profundidade dos elementos de análise
recolhidos uma vez que a flexibilidade e a fraca directividade da entrevista permite
recolher os testemunhos e as interpretações dos interlocutores, respeitando os próprios
quadros de referência (linguagem e as suas categorias mentais).
Mas se a flexibilidade pode trazer vantagens, também pode colocar limites e problemas,
pois o método pode por um lado intimidar aqueles que não consigam trabalhar com
serenidade sem técnicas directivas precisas, por outro pode levar a pensar que esta
relativa flexibilidade os autoriza a conversarem de qualquer maneira com os
interlocutores. Um outro problema é que a flexibilidade do método poder levar a
acreditar numa completa espontaneidade do entrevistado e numa total neutralidade do
investigador. As formulações do entrevistado estão sempre ligadas à relação específica
que o liga ao entrevistador e este último só pode, portanto, interpretá-las validamente se
as considerar como tais. A análise de uma entrevista deve, portanto, incluir uma
elucidação daquilo que as perguntas do investigador, a relação de troca e o âmbito da
entrevista induzem nas formulações do interlocutor. Considerar estes últimos
independentemente de um contexto tão marcante seria revelar uma grande ingenuidade
epistemológica (Quivy & Campenhoudt, 1992).
COMPETENCIAS NECESSÁRIAS
Conhecimento teórico e prático elementar dos processos de comunicação e de
interacção interindividual, formação prática nas técnicas de entrevista
A OBSERVAÇÃO DIRECTA
Métodos de investigação que capta os comportamentos no momento em que eles se
produzem e em si mesmos, sem a mediação de um documento ou de um testemunho.
O campo de observação do investigador é, em princípio, infinitamente, amplo e só
depende, em definitivo, dos objectivos do seu trabalho e das suas hipóteses de partida.
A partir delas, o acto de observar será estruturado, na maior parte dos casos, por uma
grelha de observação previamente constituída.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 38
Psicometria Lições
As modalidades concretas da observação em investigação social são muito diferentes,
consoante o investigador adopte, por exemplo, um método de observação participante
de tipo etnológico ou, pelo contrário, um método de observação não participante, cujos
processos técnicos são muito formalizados.
A observação participante de tipo etnológico é, logicamente, a que melhor responde, de
modo global, às preocupações habituais dos investigadores em ciências sociais. Consiste
em estudar uma comunidade durante um longo período, participando na vida colectiva.
O investigador estuda então os seus modos de vida, de dentro e pormenorizadamente,
esforçando-se por perturbá-los o menos possível. A validade do seu trabalho assenta,
nomeadamente, na precisão e no rigor das observações, bem como no contínuo
confronto entre as observações e as hipóteses interpretativas. O investigador estará
particularmente atento à reprodução ou não dos fenómenos observados, bem como à
convergência entre as diferentes informações obtidas, que devem ser sistematicamente
delimitadas. É a partir de procedimentos deste tipo que as lógicas sociais e culturais dos
grupos estudados poderão ser reveladas o mais claramente possível e que as hipóteses
poderão ser testadas e afinadas (Quivy & Campenhoudt, 1992).
Os métodos de observação não participante apresentam, por seu lado, perfis muito
diferentes, sendo o seu único ponto comum o facto de o investigador não participar na
vida do grupo, que, portanto, observa «do exterior». A observação tanto pode ser de
longa como de curta duração, feita à revelia ou com o acordo das pessoas em questão,
ou é ainda realizada com ou sem a ajuda de grelhas de observação pormenorizadas.
Estas grelhas definem de modo muito selectivo as diferentes categorias de
comportamentos a observar. As frequências e as distribuições das diferentes classes de
comportamento podem então eventualmente ser calculadas para estudar as correlações
entre estes comportamentos e outras variáveis destacadas pelas hipóteses.
O método é particularmente adequado à análise do não verbal e daquilo que a revela: as
condutas de instituídas e os códigos de comportamento, à relação com o corpo, os
modos de vida e os traços culturais, a organização espacial dos grupos e da sociedade,
etc. A autenticidade relativa dos acontecimentos em comparação com as palavras e com
os escritos, já que é mais fácil mentir com a boca do que com o corpo (Quivy &
Campenhoudt, 1992).
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 39
Psicometria Lições
As dificuldades deste método estão relacionadas quer com a aceitação do observador
pelos grupos em questão, quer com o problema do registo. O investigador não pode
confiar unicamente na sua recordação dos acontecimentos apreendidos «ao vivo», dado
que a memória é selectiva e eliminaria uma grande variedade de comportamentos cuja
importância não fosse imediatamente aparente. Como nem sempre é possível, nem
desejável, tomar notas no próprio momento, a única solução consiste em transcrever os
comportamentos observados imediatamente após a observação. Na prática, trata-se
muitas vezes de uma tarefa muito pesada, devido à fadiga e as condições de trabalho por
vezes esgotantes.
O problema da interpretação das observações a utilização de grelhas de observação
muito formalizadas facilita a interpretação, mas, em contra partida, esta arrisca-se a ser
relativamente superficial e mecânica perante a riqueza e a cumplicidade dos processos
estudados.
A solução passa por usar este método como complemento de outros métodos, com
procedimentos técnicos mais precisos, ou ainda, quando é possível, na colaboração de
vários investigadores, o que confere uma certa intersubjectividade às observações e à
sua interpretação.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 40
Psicometria Lições
COMPETENCIAS NECESSÁRIAS
A única verdadeira formação em observação é a prática. Não bastam algumas semanas
de trabalho para tornar mais perspicaz o olhar do perito. É necessário um confronto
longo e sistemático entre a reflexão teórica inspirada na leitura dos bons autores, e os
comportamentos observáveis na vida colectiva para produzir os observadores mais
penetrantes.
RECOLHA DE DADOS PREEXISTENTES: DADOS SECUNDÁRIOS E DADOS DOCUMENTAIS
O investigador recolhe documentos por duas razões completamente diferentes. Ou
tenciona estudá-los por si próprios, como quando examina a forma como um pedido de
um exame de diagnóstico complementar influencia o auto-diagnóstico, ou espera
encontrar neles informações úteis para estudar outro objecto, como, por exemplo, na
investigação de dados estatísticos sobre o desemprego ou na busca de casos com
tuberculose nos arquivos de um hospital. No primeiro caso, os problemas encontrados
derivam da escolha do objecto de estudo ou da delimitação do campo de análise, e não
dos métodos de recolha de informações propriamente ditos. Assim, apenas
consideramos o segundo caso.
É frequente, o trabalho de um investigador necessitar de dados macrossociais, que
apenas organismos oficiais poderosos, como os institutos nacionais de estatística, têm
condições para recolher. Aliás, se estes organismos existem, é principalmente para
oferecerem aos responsáveis e aos investigadores dados abundantes e dignos de
confiança que aqueles não poderiam recolher por si próprios. Por outro lado, as
bibliotecas, os arquivos e os bancos de dados, sobre todas as suas formas, são ricos em
dados que apenas esperam pela atenção dos investigadores. É, portanto, inútil consagrar
grandes recursos para recolher aquilo que já existe, ainda que a apresentação dos dados
possa não ser totalmente adequada e deva sofrer algumas adaptações (Quivy &
Campenhoudt, 1992).
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 41
Psicometria Lições
O MÉTODO CLÍNICO
Pressupõe a colheita, análise e síntese dos dados ou observações, assim como formular e
testar hipóteses, com o intuito de obter informação útil que será, depois, usada no
processo de decisão aplicado a cada indivíduo. A todo esse processo, desde a colheita da
informação até à decisão e discussão desta com o doente e o estabelecimento de um
plano terapêutico, dá-se o nome de Método Clínico. Este, tal como o Método Científico
na sua globalidade, tem evoluido ao longo do tempo e tem sido alvo de algumas
controvérsias (Faculdade de Medicina da Universidade do Porto, 2000).
O raciocínio clínico é um processo, ainda hoje, não totalmente compreendido. Sabe-se,
porém, que ele tem por base múltiplos factores, como a experiência e a aprendizagem, o
raciocínio dedutivo e indutivo, a interpretação de evidência científica, que é variável em
reprodutibilidade e validade, e a intuição que é um aspecto difícil de definir.
Com o objectivo de melhorar o raciocínio clínico, várias tentativas de análise
quantitativa dos vários factores nele envolvidos têm sido feitas (ex: estudo dos
processos cognitivos envolvidos no raciocínio clínico, criação de sistemas de apoio à
decisão, etc). Embora estas tentativas tenham sido úteis no avanço da compreensão do
raciocínio clínico, todas elas têm problemas teóricos ou práticos que limitam a sua
aplicabilidade à prática clínica diária. Estas tentativas de aplicação do rigor e lógica
inerentes ao método quantitativo têm, no entanto, proporcionado grandes avanços na
compreensão do raciocínio clínico, e permitiram identificar modos de melhorar este
processo, tornando-o mais eficaz e eficiente.
Usando um modelo simplificado, pode descrever-se o Método Clínico como um
processo dividido em pelo menos 3 fases.
HISTÓRIA CLÍNICA E EXAME FÍSICO
A primeira fase consiste na colheita da História Clínica, através de entrevista ou da
consulta de processo clínico. A História Clínica deve incluir a seguinte informação:
identificação do doente, motivo da consulta, história da doença actual, antecedentes
pessoais, história social e ocupacional, antecedentes familiares e a revisão de sintomas
por aparelhos e sistemas. Esta colheita de informação avança em função de um processo
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 42
Psicometria Lições
iterativo de formulação e refutação de hipóteses diagnósticas, que levam, na maior parte
dos casos, a um diagnóstico correcto, já nesta fase.
Ainda nesta primeira fase tem lugar a realização do Exame Físico ou análise do registo
deste, com especial ênfase nos órgãos provavelmente envolvidos na doença actual. Este
exame deve ser completo e sistematizado e é guiado pelas hipóteses formuladas na
colheita da História Clínica.
Esta primeira fase é muito importante pois é nesta fase que se devem obter, de forma
rigorosa, completa, válida e precisa, os dados ou observações que estarão na base do
raciocínio que levará à formulação do diagnóstico. Esta colheita de dados ou
observações deve ser feita com "o rigor científico".
EXAMES AUXILIARES DE DIAGNÓSTICO
Numa segunda fase, analisa-se, se necessário, o conjunto de exames auxiliares do
diagnóstico que julguem pertinentes para a verificação das possibilidades diagnósticas
levantadas na fase anterior. O profissional deve conhecer, pormenorizadamente, as
características operacionais de cada exame (sensibilidade, especificidade, valores
preditivos e exactidão), as suas indicações específicas e os potenciais riscos e benefícios
que a sua utilização tem (Faculdade de Medicina da Universidade do Porto, 2000).
TRIANGULAÇÃO DOS DADOS CLÍNICOS E DOS EXAMES AUXILIARES DE DIAGNÓSTICO
Numa terceira fase faz-se a integração da informação proveniente das várias fontes
disponíveis (história clínica, exame físico e exames auxiliares de diagnóstico). Uma das
formas de fazer esta integração da informação é usando um método quantitativo
designado Análise Bayesiana. Este método permite, a partir do conhecimento da
probabilidade de um indivíduo ter uma doença antes de um qualquer exame ser
realizado (probabilidade pré-teste ou probabilidade antecedente), e tendo conhecimento
sobre as características do exame (sensibilidade e especificidade), calcular a
probabilidade de existência de doença após o conhecimento do resultado desse exame
(probabilidade pós-teste ou probabilidade posterior). O modelo matemático que,
provavelmente, mais se lhe adequa é o epidemiológico, mas chama-se a atenção para a
importância do raciocínio clínico na sua compreensão.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 43
Psicometria Lições
PROCESSO DE ELABORAÇÃO DOS DADOS
Na ciência factual, os dados são passíveis de serem submetidos a testes (são testáveis ou
contrastáveis) e corrigíveis, pelo que os dados científicos não são mais permanentes que
as ideias, hipóteses e teorias com as quais são produzidos.
Dados são evidências? A resposta é que toda evidência é um dado, mas nem todo dado é
evidência. São evidências os dados que são relevantes para uma ideia, ou seja, os dados
passam a ser evidência quando postos em relação com a hipótese formulada durante o
planeamento da investigação. Daqui se entende a expressão “investigação cientifica
baseada em evidencias” (Teixeira, 2001).
O conjunto de dados obtidos a partir do experimento constitui o grupo de dados brutos.
Os dados brutos podem conter qualquer informação. Há que refinar esses dados, com a
finalidade de se dispor de informação relevante e de uso geral. O refinamento faz parte
do processo de elaboração. Os seus estadios são:
Standartização, normalização ou normatização: os dados precisam ser apresentados de
acordo com critérios de aceitação geral (por exemplo, as unidades do Système
internacional d'Unités para registro dos dados de exames de laboratório clínico);
Exame crítico, na busca de erros de observação: de um lado, este exame obedece aos
critérios estabelecidos pela própria disciplina a que se filia o experimento; por outro
lado, os dados devem também ser examinados, criticamente, segundo considerações
teóricas referentes aos erros de observação;
Redução dos dados brutos às médias e à dispersão em torno das médias, com o que, ao
invés de lidarmos com inúmeros valores, passamos a lidar com um enunciado único,
que representa o conjunto todo;
Análise de tabelas; projecção dos dados em gráficos para análise de tendências,
descoberta de associações e de correlações, etc.
“As questões deverão ser formuladas de tal maneira que a pesquisa em bases de dados
se torne fácil e deverão ser divididas em grupos: questões sobre o doente, sobre a
intervenção, sobre a comparação entre estratégias e sobre os resultados com interesse. A
maioria das questões clínicas relacionam-se com perguntas sobre o tratamento,
prognóstico, diagnóstico, riscos, economia, qualidade. No que respeita à procura da
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 44
Psicometria Lições
evidência, não é prático (ou sempre necessário) que os clínicos identifiquem e
assimilem criticamente toda a evidência relacionada a uma questão particular. O que é
mais prático é procurar revisões bem-feitas, sistemáticas e correctamente conduzidas da
literatura científica as quais se constituem, normalmente, como base de dados de
revisões clínicas e são apresentadas de uma forma elegante e de fácil consulta. A
pesquisa de bases de dados, tais como a Medline ou a Embase, pode ser completamente
frustrante, devido à maneira como os artigos são posicionados. Se não se usarem
estratégias selectivas de pesquisa para encontrar os artigos relacionados com as questões
formuladas, mais vale não perder esse tempo. No que respeita a avaliação da evidência,
após a identificação da evidência científica, torna-se necessário avaliar a sua validade e
relevância. Existem vários guias que auxiliam a revisão da literatura médica, quer de
uma forma genérica quer de uma forma especializada. Após se ter verificado a validade
desta informação, será então necessário decidir se essa evidência é relevante para um
doente particular. Ter, simplesmente, a evidência disponível não significa,
necessariamente, que ela está em uso (…)
PRATICA BASEADA EM EVIDENCIA
Implementar uma Prática Baseada em Evidencias (PBE) na prática clínica nem sempre é
fácil mas, quando funciona, é muito recompensador. A experiência sugere que o
processo se torna automático quando uma massa crítica dos médicos, enfermeiras e
fisioterapeutas, audiologistas, radiologistas, cardiopneumologistas e outros técnicos de
saúde são treinados e motivados para a sua aplicação. Uma maneira simples de começar
este processo é através da implementação, junto dos alunos ou estagiários, das rotinas
de revisão de artigos científicos a partir de um problema clínico concreto. Desde que
correctamente facilitado será possível, numa hora, apresentar criticamente um artigo
científico em pequenos grupos e discutir as suas implicações para a prática clínica. À
medida que o grupo vá tendo algum treino neste tipo de reuniões será possível discutir
mais do que um artigo por hora. As reuniões de discussão de casos clínicos funcionam
como uma boa fonte, boa para a elaboração de questões. A implementação das
indicações, protocolos de diagnóstico e tratamento, terá tanto mais êxito quanto maior
for o envolvimento de todo a equipa de saúde neste formato de formação. A utilização
deste modelo não só na formação pós-graduada, mas também na formação prégraduada
constituirá um elemento decisivo para uma futura prática baseada na evidência. (…)
Para os técnicos, esta prática permite-lhes estabelecer rotinas de desenvolvimento das
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 45
Psicometria Lições
suas bases de conhecimento, aumentar a compreensão dos métodos de pesquisa e
promover a crítica sobre o uso desses dados, aumentar a confiança nos processos de
tomada de decisão, aumentar a literacia informática e as técnicas de pesquisa de dados,
melhorar os hábitos de leitura. Para as equipas terapêuticas propicia uma estrutura para
a resolução de problemas e para a formação, permitindo aos mais novos uma
contribuição útil para a equipa. Para os doentes assegura um uso mais eficaz dos
recursos e uma melhor comunicação com eles sobre o racional subjacente às tomadas de
decisão” (Teixeira, 2001, p. 7).
ESTUDO PILOTO
Antes da execução da experiência definitiva, um experimento praticamente idêntico a
esta, preliminar e exploratório, é usualmente realizado; ele é denominado estudo piloto.
O estudo piloto é útil em vários aspectos da investigação, orientando o pesquisador
quanto à constituição dos grupos de estudo, às características da solução desejada, à
adequação das técnicas utilizadas e à exequibilidade da pesquisa.
ESTRATÉGIAS ESTATISTICAS DE ANÁLISE DE DADOS
A maioria dos investigadores principiantes enfrenta sérias dificuldades quando tem de
usar a análise estatística. É apontado como prováveis causas o ensino de Estatística que,
frequentemente, tem um enfoque matemático ou de receita que não conduzem ao
aproveitamento desta ferramenta e o consequente despoletar de uma “ansiedade
matemática”, que pode levar os estudantes a evitar o seu uso. Essa situação conduz, não
raras vezes, à dependência de outros para seleccionar a estatística adequada ao seu
projecto. O objetivo desta lição é ajudar a ter uma idéia da potencialidade da estatística
apropriada a sua pesquisa.
Primeiro examine seu estudo, identifique o que quer com sua análise estatística,
devendo, para isso, especificar claramente as várias questões a que quer que sua análise
estatística responda (conhecer a associação ou verificar as diferenças). Comece por
escrever as suas questões de pesquisa e hipóteses. Depois identifique a variável
dependente e independente bem como os seus níveis de mensuração. Apos estar na
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 46
Psicometria Lições
posse dessa informação consulte a figura que se segue e vai ver que tudo começa a ficar
mais fácil.
FIGURA 6: IDENTIFICAR OS TESTES ESTATISTICOS
Como segundo passo na escolha da estatística apropriada, verifique se sua variável
dependente é adequada para a estatística paramétrica. A estatística paramétrica
envolve pelo menos dois pressupostos iniciais: o primeiro é se a variável dependente
segue uma distribuição normal e, o segundo, é se os dados entre diferentes sujeitos são
independentes ou emparelhados/relacionados. Portanto, uma variável dependente
qualitativa ou categórica não se enquadra neste tipo de estatística, devendo usar o
enfoque da estatística não paramétrica.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 47
Psicometria Lições
Assim recorremos a estatística paramétrica quando analisamos variáveis
dependentes contínuas. Se essas variáveis violam os pressupostos e não tem como
corrigir essa violação, então deve utilizar a estatística não paramétrica. Só tem duas
opções: ou aprende a lidar com a Estatística não paramétrica ou então aumenta o
tamanho da amostra.
Examine cada variável dependente uma por uma nesse processo. Nem todas terão as
mesmas características. Um erro comum, por exemplo, é assumir que pode usar sempre
o mesmo teste estatístico se os grupos experimentais são equivalente em idade, género,
anos de estudos e outras variáveis demográficas. Idade e anos de estudo são duas
variáveis geralmente analisadas com estatística paramétrica. O género e a etnia são
variáveis nominais e por isto devem ser analisadas com Estatística não paramétrica.
Definir quais as estratégias estatísticas a utilizar exige o conhecimento das lições
anteriores. As mais robustas estratégias estatísticas exigem que as variáveis apresentem
propriedades intervalares para que sejam obtidos resultados fidedignos. Contudo na
investigação com seres humanos nem sempre é possível termos variáveis quantitativas,
por isso para cada teste estatístico paramétrico existe um equivalente não paramétrico
mas destes últimos existem vários que não tem equivalente paramétrico.
Por exemplo se tanto a nossa variável dependente (VD) quanto a independente (VI)
forem nominais e quisermos conhecer a associação entre elas podemos recorrer ao qui-
quadrado (x2) da independência; se ambas forem ordinais podemos recorrer ao rho de
spearman mas se forem quantitativas e cumprirem com os restantes pré-requisitos da
estatistica paramétrica (simétricas, mesocurticas e distribuição normal) podemos utilizar
o teste r de Pearson.
Se em vez de querermos ver umas associação ou correlação pretendermos verificar se
existem diferenças na distribuição de uma variável (VD) em função de outra com nivel
de mensuração nominal e dicotómica (VI) então podemos utilizar o teste t de Student
para amostras independentes (caso estejam cumpridos os prerequisitos impostos à VD
ié, quantitativa, simétrica e apresente distribuição aproximadamente normal) ou o seu
equivalente não paramétrico u de Mann-Whitney (caso não estejam cumpridos os pré-
requisitos da estatistica paramétrica mas a VD tenha um nivel de mensuração no
minimo ordinal).
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 48
Psicometria Lições
Se a figura anterior não o deixou muito esclarecido experimente consultar o quadro que se segue. Otestes estatísticos paramétricos estão
assinados com um asterisco (*)
QUADRO 1: GRELHA DE DECISÃO DOS TESTES
Testes para uma amostra
NIVEIS DE MENSURAÇÃO
Nominal Ordinal Quantitativa
TESTE DE QUI-QUADRADO DA ADERÊNCIA TESTE DE KOLMOROGOV-SMIRNOV -TESTE DE KOLMOROGOV-SMIRNOV
-TESTE T PARA UMA AMOSTRA *
Variáveis Independentes
Qualitativas Quantitativa
Var
iáve
is D
ep
en
de
nte
s
Nominal
Nominal/ dicotomica Ordinal/ Grupo
TESTE DE QUI-QUADRADO DA INDEPENDENCIA
TESTE DE QUI-QUADRADO DA INDEPENDENCIA
KAPPA DE COHEN
MACNEMAR
Q DE COCHRAN
Ordinal
TESTE DE QUI-QUADRADO DA INDEPENDENCIA RHO DE SPEARMAN
RHO DE SPEARMAN
TESTE DE U DE MANN-WHITNEY W DE WILCOXON; FRIEDMAN
TESTE DE H DE KRUSKAL-WALLIS KAPPA DE COHEN
MACNEMAR
TESTE DE QUI-QUADRADO DA INDEPENDENCIA
Quantitativa
TESTE T DE STUDENT PARA DADOS INDEPENDENTES *
RHO DE SPEARMAN
TESTE T DE STUDENT PARA N EMPARELHADOS *
TESTE DE U DE MANN-WHITNEY W DE WILCOXON
TESTE ANOVA DE UM CRITÉRIO E RESPECTIVO POST-HOC * R DE PEARSON *
TESTE DE H DE KRUSKAL-WALLIS e U POR GRUPO
RHO DE SPEARMAN
TESTE ANOVA PARA MEDIDAS REPETIDAS *
TESTE FRIEDMAN
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 49
Psicometria Lições
Supondo que suas variáveis dependentes tivessem uma distribuição normal ou que sua
amostra fosse suficientemente grande, deve verificar todas as possibilidades de análise:
univariada , bivariada, múltipla e multivariada, se for o caso. A análise univariada é
quando a variável é analisada per se, análise bivariada quando uma variável dependente
é relacionada com uma única variável independente, análise múltipla quando se analisa
uma variável dependente em função de várias variáveis independentes, e análise
multivariada, quando se analisa várias variáveis dependentes contínuas em função de
variáveis independentes categóricas ou quando se analisa a estrutura das variáveis,
visando a redução do número de variáveis.
O quadro anterior não esgota as analises estatísticas, aliás existem outras tantas quantas
as que apresentamos aqui, contudo mostra as mais utilizadas nas análises univariadas e
bivariadas.
“As técnicas utilizadas na avaliação psicológica têm provocado questionamentos nas
comunidades científicas e profissionais brasileiras, tanto no que se refere à qualidade
dos instrumentos, de maneira geral, ao uso que os psicólogos fazem dos instrumentos,
bem como em relação à validade geral dos resultados da avaliação psicológica. O
presente trabalho teve como objetivo identificar as principais informações psicométricas
a respeito dos instrumentos psicológicos presentes em seus manuais, tais como editora,
data de publicação, variável medida, padronização, validade e precisão” (Noronha,
Primi, & Alchieri, 2004, p. 1).
Existe, também, um conjunto de técnicas estatísticas comummente utilizadas na
avaliação das qualidades psicometricas das escalas. No quadro 2, nas colunas da direita
(tipo de estatísticas) podem observar-se as estatísticas mais utilizadas para verificar os
fenómenos descritos na primeira coluna.
Margarida Pocinho; Jorge Conde; Telmo Pereira
Margarida Pocinho Página 50
Psicometria Lições
QUADRO 2: GRELHA DE DECISÃO DOS TESTES PSICOMÉTRICOS
Tipo de estatisticas
Descritivas Análises Bivariadas Outras análises mais robustas
Para verificar a consistência temporal entre dois itens
Número de casos válidos, média e desvios padrão no caso
das variáveis quantitativas e frequências e percentagens
no caso das qualitativas
Pearson, Kappa de Cohen ou
Spearman dependendo do nível
de mensuração
Fornecer modelos matemáticos para a explicação de
teorias cognitivas e comportamentais Número de casos válidos, média e desvios padrão Não se aplica
Matriz de correlação e respectivos niveis de significancia;
Matriz determinante e inversa;
Matriz anti imagem;
Solução factorial inicial com as respectivas comunalidades, valores próprios e variancia explicada;
Medidas de adequação da amostra de Kaiser-Meyer-Olkin e de esfericidade de Bartlett's test;
Matriz factorial não rodada incluindo pesos factoriais, comunalidades e valores próprios; solução
factorial rodada incluindo padrão de rotação e matriz de transformação. No caso das rotações oblíquas
para além do padrão de rotação é necessária a matriz da estrutura, a matriz dos coeficientes factoriais e a
matriz da coovariancia.
Para além das estatísticas referidas, são úteis os gráficos: scree plot dos valores próprios e loading plot
dos primeiros factores.
Estudo da dimensionalidade e redução de variáveis Número de casos válidos, média e desvios padrão Não se aplica
Estudo da relação entre itens;
Identificar itens problemáticos (consistência interna;
reprodutibiliade, etc)
Número de casos válidos, média e desvios padrão
Coeficiente de correlação inter-
item e intraclass
Hotelling's T-square para a igualdade das médias e Teste de aditividade;
Tukey's;
Estimativas de fidedignidade
[Alpha de Cronbach (baseado na correlação média inter-item):
metade-metade de spearman-brown (split-half);
Guttman (limite inferior de fidedignidade);
modelo paralelo para variâncias iguais e para a igualdade das medias;
ANOVA (no caso de dados ordinais Friedman’s chi-square e coeficiente de concordância
de Kendall e no caso de dados dicotómicos a estatística Q de Cochran)]
Copyright International Test Commission © 1999. 1 10-10-2013
Copyright International Test Commission © 1999. 2 10-10-2013
Bibliografia
Aiken, L. R. (1982). Psychological testing and assessment (4.ª edição ed.). Boston:
Allier & Bacon, Inc.
Alferes, V. R. (2008, 08 21). Psicometria: Análise da consistência interna de Escalas
Somativas Dicotómicas. Retrieved 02 06, 2009, from SPSS: Programas e
rotinas complementares (syntax files):
http://www.fpce.uc.pt/niips/spss_prc/psicom/kr_20_21/kr_20_21.htm
American Psychological Association. (1985). Standards for educational and
psychological testing. Washington: American Psychological Association, Inc.
Anastasi, A. (1977). Testes psicológicos ( 2ª edição ed.). São Paulo: Editora
Pedagógica e Universitária Lda.
Anastasi, A. (1988). Psychological testing. New York: Macmillan Publishing
Company.
Borsboom, D., Van-Heerden, J., & Mellenbergh, G. J. (2003). Validity and truth.
Internal Report.
Bryant, F. B. (2000). Assessing the validity of measurement. In L. G. (Orgs.),
Reading and understanding more multivariate statistics (pp. 99-146).
Washington: American Psychological Association.
Bryman, A., & Cramer, D. (2003). Análise de dados em ciências sociais. Introdução
às técnicas utilizando o SPSS para windows (3ª Edição ed.). Oeiras: Celta.
Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by
the multitrait-multimethod matrix. Psychological Bulletin, pp. 81-105.
Cronbach, L. .., & Meehl, P. (1955). Construct validity in psychological tests.
Psychological Bulletin, 4, pp. 281-302.
Cronbach, L. J. (1949). Essentials of psychological testing.
Eco, U. (2002). Como se faz uma tese em ciências humanas (9 ed.). Lisboa: Editorial
Presença.
Emory, C. (1985). Business research methods The Irwin Series in Information and
Decision Sciences ( 3ª edição ed.). Illinois: Homewood.
Copyright International Test Commission © 1999. 3 10-10-2013
Faculdade de Medicina da Universidade do Porto. (2000). Medicina e Ciência - Do
Método Científico ao Método Clínico. (Serviço de Bioestatística e Informática
Médica) Retrieved Fevereiro 9, 2009, from MedStatWeb: um curso de
estatistica médica na Web:
http://stat2.med.up.pt/cursop/print_script.php3?capitulo=medicina_ciencia&nu
mero=6&titulo=Medicina%20e%20Ci%C3%83%C2%AAncia
Freeman, F. (1980). Teoria e Prática dos Testes Psicológicos (2ª Edição ed.). Lisboa:
Fundação Calouste Gulbenkian.
Golden, C. J., Sawicki, R. F., & Franzen, M. D. (1984). Test construction. In M. H. G.
Goldstein, Handbook of psychological Assessment. New York: Pergaman
Press.
Guilford, J. P. (1946). New standards for test evaluation. Educational and
Psychological Measurement,, pp. 427-439.
Gulliksen, H. (1950). Intrinsic validity. American Psychologist, pp. 511-517.
Haynes, S. N., Richard, D. C., & Kubany, E. S. (1995). Content validity in
psychological assessment: A functional approach to concepts and methods.
Psychological Assessment, 3, pp. 238-247.
ITC-International Test Commission. (2008). International Test Commission
Guidelines Index. Retrieved Fevereiro 09, 2010, from International Test
Commission: http://www.intestcom.org/guidelines/index.php
Janis, I. L. (1965). The problem of validating content analysis. In N. L. H. D.
Lasswell, Language of politics. Cambridge: MIT Press.
Kline, P. (1987). A handbook of test construction: Introduction to psychometric
design. London: Routledge Kegan & Paul.
LAP- Laboratório de Avaliação Psicológica. (2007). Introdução à Psicometria (curso
on-line). Retrieved Janeiro 5, 2010, from LAP- Laboratório de Avaliação
Psicológica: http://www.lap-am.org/ativ_concluida1.html
Marx, R., Bombardier, C., Hogg-Johnson, S., & Wright, J. (1999, Fevereiro).
Clinimetric and Psychometric Strategies for Development of a Health
Measurement Scale. Jourrnal of Clinical Epidemiology, 52 (2), pp. 105-111.
Copyright International Test Commission © 1999. 4 10-10-2013
Matos, M. (1994, Janeiro). Normas para apresentação de dissertações: Bases
Essenciais. Retrieved Janeiro 2009, from paginas.fe.up.pt/~mam/normas.pdf
Messick, S. (1989). Validity. Em R. Linn (Org.), Educational measurement (3ª Edição
ed.). New York: American Council on Education and Macmillan Publishing
Company.
Mosier, C. (1947). A critical examination of the concepts of face validity. Educational
and Psychological Measurement, 7, pp. 191-205.
Mosier, C. (1951). Problems and designs of cross-validation. Educational and
Psychological Measurement, 11, pp. 5-12.
Noronha, A. P., Primi, R., & Alchieri, J. C. (2004, Dezembro). Psychometrics
parameters: an analysis of the psychological tests commercialized in Brazil.
Psicologia: ciência e profissão, 24(4), pp. 88-89.
Nunnally, J. C. (1978). Tests and measurements. New York: McGraw-Hill.
Pasquali, L. (2007). Validade dos Testes Psicológicos: Será Possível Reencontrar o
Caminho? Psicologia Teoria e Pesquisa, 23, pp. 099-107.
Passarelli, B. (1995). Teoria das Múltiplas Inteligências aliada à Multimídia na
Educação: Novos Rumos Para o Conhecimento. Retrieved 02 17, 2009, from
http://www.futuro.usp.br/producao_cientifica/artigos/multiplasintelig.pdf
Pocinho, M. T. (2007). Factores socioculturais, depressão e suicidio no idoso
alentejano. Tese de Doutoramento, ICBAS, Ciências Biomédicas, Porto.
Prieto, G., & Muñiz, J. (2000, Novembro). Un modelo para evaluar la calidad de los
tests utilizados en España. Retrieved Fevereiro 02, 2009, from Papeles del
Psicólogo: http://www.cop.es/tests/modelo.htm.
Quivy, R., & Campenhoudt, L. V. ( 1992). Manual de Investigação em Ciências
Sociais. Lisboa: Gradiva.
Teixeira, J. M. (2001). Medicina baseada na evidência. Saúde Mental, III(Editorial),
pp. 5-8.
Weber, R. P. (1990). Basic content analysis (2.ª Edição ed.). Newbury Park: Sage
Publications.
Copyright International Test Commission © 1999. 5 10-10-2013
White, E., Armstrong, B., & Saracci, R. (1992). Principles of Exposure Measurement
in Epidemiology. New York: Oxford University Press.
Wright, J. G., & Feinstein, A. (1992). A comparative contrast of clinimetric and
psychometric methods for constructing indexes and rating scales. Journal
Clinical Epidemiology, 45, 1201-1218.
Copyright International Test Commission © 1999. 6 10-10-2013
ANEXOS:
Copyright International Test Commission © 1999. 7 10-10-2013
INTERNATIONAL TEST COMMISSION
INTERNATIONAL TEST COMMISSION
INTERNATIONAL GUIDELINES
FOR TEST USE
Version 2000
Copyright International Test Commission © 1999. 8 10-10-2013
The Council of the International Test Commission (ITC) formally adopted the
Guidelines at its June 1999 meeting in Graz, Austria.
The European Federation of Professional Psychologists Associations’ Task Force on
Tests and Testing also endorsed the Guidelines at its July 1999 meeting in Rome.
The Guidelines were officially published at the General Meeting of the ITC on 24
July, 2000 in Stockholm. The Guidelines are copyright of the ITC, 1999. The ITC is a
non-stock corporation incorporated in the USA.
For further information on the ITC or for permission to quote from or reproduce the
contents of this document, please contact the Secretary of the ITC:
Prof Jacques Grégoire, ITC Secretary,
Université catholique de Louvain,
Faculté de Psychologie,
Place du Cardinal Mercier, 10,
1348 Louvain-la-Neuve,
Belgium.
Email: [email protected]
For further information regarding the Guidelines, contact:
Prof Dave Bartram, ITC President,
SHL Group plc, The Pavilion, 1 Atwell Place,
Thames Ditton, KT7 0NE, Surrey, England.
Email: [email protected]
Copyright International Test Commission © 1999. 9 10-10-2013
See also the ITC website (from which copies of the Guidelines can be obtained):
http://www.intestcom.org
Contents
Acknowledgements 11
Introduction and background 13
The need for international Guidelines 13
Development of the Guidelines 15
The Guidelines 19
Key purpose 19
Scope of the Guidelines 19
Who the Guidelines are for 21
Contextual factors 22
Knowledge, Understanding, and Skill 23
1 Take responsibility for ethical test use 27
1.1 Act in a professional and ethical manner 27
1.2 Ensure they have the competence to use tests 27
1.3 Take responsibility for their use of tests 28
1.4 Ensure that test materials are kept securely 28
1.5 Ensure that test results are treated confidentially. 29
2 Follow good practice in the use of tests 30
2.1 Evaluate the potential utility of testing in an assessment situation 30
2.2 Choose technically sound tests appropriate for the situation 30
2.3 Give due consideration to issues of fairness in testing 31
2.4 Make necessary preparations for the testing session 33
2.5 Administer the tests properly 34
Copyright International Test Commission © 1999. 10 10-10-2013
2.6 Score and analyse test results accurately 35
2.7 Interpret results appropriately 36
2.8 Communicate the results clearly and accurately to relevant others 37
2.9 Review the appropriateness of the test and its use 38
References 39
Appendix A: Guidelines for an outline policy on testing. 41
Appendix B: Guidelines for developing contracts between parties involved in the
testing process. 43
Appendix C: Points to consider when making arrangements for testing people with
disabilities or impairments 46
Appendix D. Conditions governing the translation of the ITC Guidelines on Test Use.
49
Copyright International Test Commission © 1999. 11 10-10-2013
Acknowledgements
The Guidelines were prepared for the ITC Council by Professor Dave Bartram. The
author is grateful for the assistance provided by Iain Coyne in the execution of this
project and is grateful to the following individuals who took part in the 1997 Dublin
workshop and who provided such valuable input to the development of the present
Guidelines.
Ms Dusica Boben, Produktivnost, SLOVENIA;
Mr Eugene Burke, British Psychological Society, England;
Dr Wayne Camara, The College Board, USA;
Mr Jean-Louis Chabot, ANOP, FRANCE;
Mr Iain Coyne, University of Hull, England;
Dr Riet Dekker, Swets and Zeitlinger, Netherlands;
Dr Lorraine Eyde, US Office of Personnel Management, USA;
Prof Rocio Fernandez-Ballesteros, EAPA, SpAIN;
Mr Ian Florance, NFER-NELSON, England;
Prof Cheryl Foxcroft, Test Commission of South Africa, South Africa;
Dr John Fremer, The College Board, USA;
Ms Kathia Glabeke, Commissie Psychodiagnostiek, BELGIUM;
Prof Ron Hambleton, University of Massachusetts at Amherst, USA;
Dr Karin Havenga, Test Commission of South Africa, South Africa;
Dr Jurgen Hogrefe, Hogrefe & Huber Verlagsgruppe, Germany;
Mr Ralf Horn, Swets and Zeitlinger, Germany;
Mr Leif Ter Laak, Saville and Holdsworth Ltd, England;
Dr Pat Lindley, British Psychological Society, England;
Mr Reginald Lombard, Test Commission of South Africa, South Africa;
Prof Jose Muniz, Spanish Psychological Association, Spain;
Copyright International Test Commission © 1999. 12 10-10-2013
Ms Gill Nyfield, Saville & Holdsworth Ltd, England;
Dr Torleiv Odland, Norsk Psykologforening, Norway;
Ms Berit Sander, Danish Psychologists’ Association,DENMARK;
Prof Francois Stoll, Federation Suisse des Psychologues, Switzerland.
The author is also grateful to the many other individuals and organisations who
provided feedback during the various stages of consultation and in conference
presentations.
Copyright International Test Commission © 1999. 13 10-10-2013
Introduction and background
The need for international Guidelines
The focus of the International Test Commission (ITC) project is on guidelines for
good test use and for encouraging best practice in assessment. The work so far carried
out by the ITC to promote good practice in test adaptations (Hambleton, 1994; Van de
Vijver, F. & Hambleton, R., 1996) is an important step towards assuring uniformity in
the quality of tests adapted for use across different cultures and languages. At its
meeting in Athens in 1995, the ITC Council accepted a proposal to broaden this
concern to include guidelines on the fair and ethical use of tests, from which standards
for training and specifying the competence of test users could be derived.
There are a number of reasons why guidelines on test use are needed at an
international level.
Countries differ greatly in the degree, if any, of statutory control they can exercise
over the use of testing and its consequences for those tested. Some national
professional societies have statutory registration of psychologists, others do not; some
have mechanisms for the control of standards of test use by non-psychologists, others
do not. The existence of a set of internationally-accepted guidelines would provide
national psychological associations and other relevant professional bodies and
organisations with a degree of support in the endeavours of such organisations to
develop standards in countries where such standards are currently either lacking in
some respect or non-existent.
Patterns of access, in terms of the rights to purchase or use test materials, vary greatly
from country to country. In some countries, access is restricted to psychologists, in
others to users registered with formally approved national test distributors, in yet
others, test users may be free to obtain materials without restriction from suppliers in
their country or directly from suppliers abroad.
Copyright International Test Commission © 1999. 14 10-10-2013
A number of well-known instruments have appeared on the Internet in violation of
copyright, without acknowledgement of the test authors or publishers, and without
regard to issues of test security.
Within the occupational testing arena, the greater international mobility of labour has
increased the demand for tests to be used on job applicants from a number of different
countries - often with the tests being administered in one country on behalf of a
potential employer in another country.
Development work is being carried out in the USA and in the UK on the use of
Internet for distance- or remote-assessment in both occupational and educational
settings. This raises a whole host of issues relating to standards of administration and
control over the testing process, including test security.
Aim and objectives
The long-term aim of this project includes the production of a set of guidelines that
relate to the competencies (knowledge, skills, abilities and other personal
characteristics) needed by test users. These competencies are specified in terms of
assessable performance criteria. These criteria provide the basis for developing
specifications of the evidence of competence that would be expected from someone
seeking qualification as a test user. Such competencies need to cover such issues as:
professional and ethical standards in testing,
rights of the test taker and other parties involved in the testing process,
choice and evaluation of alternative tests,
test administration, scoring and interpretation,
report writing and feedback.
Insofar as they directly relate to test use, the Guidelines also have implications for:
standards for test construction,
standards for user-documentation - e.g., technical and user manuals,
Copyright International Test Commission © 1999. 15 10-10-2013
standards for regulating the supply and availability of tests and information about
tests.
The present Guidelines represent the work of specialists in psychological and
educational testing (i.e. psychologists, psychometricians, test publishers and test
developers) drawn from a number of countries. The intention of this document is not
to ‘invent’ new guidelines, but to draw together the common threads that run through
existing guidelines, codes of practice, standards and other relevant documents, and to
create a coherent structure within which they can be understood and used.
Development of the Guidelines
The Guidelines should be considered as benchmarks against which existing local
standards can be compared for coverage and international consistency. By using the
Guidelines as benchmarks or the basis from which to develop locally applicable
documents (e.g. standards, codes of practice, statements on test taker rights), a high
level of consistency across national boundaries will be promoted.
Work on the Guidelines began by drawing together materials concerned with test
standards, codes of practice, test use, etc., from a number of countries3. While
drawing on all of these sources, the present Guidelines have been particularly
influenced by:
The Australian Psychological Society (APS) Supplement to guidelines on the use of
Psychological Tests (Kendall et al., 1997).
The British Psychological Society (BPS) Level A and Level B standards for
occupational test use (Bartram, 1995, 1996).
The American Educational Research Association (AERA) , American Psychological
Association (APA), & National Council on Measurement in Education (NCME)
(1985) Standards for educational and psychological testing.
3 A list of all the materials that informed this process is available on request from the authors.
Copyright International Test Commission © 1999. 16 10-10-2013
American Association for Counseling and Development (AACD) Responsibilities of
Users of Standardized Tests (Schafer, W.D, 1992).
The CPA (Canadian Psychological Association, 1987) Guidelines for Educational and
Psychological Testing.
The APS document has been particularly valuable as it pulls together much of what is
contained in the BPS and American publications as well as drawing on South African
National Institute for Psychological Research (NIPR) publications and various
publishers’ guidance for test users. It also embodies much of what has come out of
Joint Committee on Testing Practices (JCTP) Test User Qualifications Working
Group’s (TUQWG) seminal work on a data-based approach to promoting good test
use (e.g., Eyde et al, 1988, 1993; Moreland et al., 1995), and the work of the JCTP on
the Code of Fair Testing Practices in Education (JCTP, 1988; Fremer, Diamond, &
Camara, 1989). Appendix B drew from the more recent work of the JCTP (JCTP,
2000) on test taker rights and responsibilities.
The content of the primary sources was analysed and statements categorised under 14
main headings. Where appropriate single statements were written to capture the
common meaning of a number of statements from different sources. Statements were
also modified in format such that they provided completion of a common stem (e.g.:
“Competent test users will endeavour to....”, or “Competent test users can....”).
This initial structure of 14 main sections and their content was embodied in the first
draft Framework Document. This formed the material for an international workshop
held in Dublin in July 1997. The purpose of the ITC Workshop was to consider and
critically evaluate all aspects of a framework document, with a view to producing a
draft set of guidelines that would have international currency and acceptance. During
the workshop, the Framework Document was examined in detail, with refinements
being proposed in terms of form, structure and content. Following the workshop, the
document was extensively revised (Version 2.0) and circulated to all those who
attended for comment. A draft consultation document (Version 3.1) was prepared that
incorporated all the comments and suggestions submitted regarding Version 2.0.
Copyright International Test Commission © 1999. 17 10-10-2013
Copies of the Version 3.1 consultation document and a structured response form were
widely circulated to key individuals and organisations for comment. A total of 200
were distributed. A total of 28 detailed responses were received including ‘corporate’
responses from the APA, the BPS and some other European professional associations.
In the summer of 1998 the Guidelines were revised in the light of these comments,
and 200 copies (Version 4.1) were sent out for further consultation. A total of 18
formal responses were received to this second round of consultation. In addition,
supportive informal comments were provided by many recipients of the consultation
documents by email or in meetings.
In producing the current version of the Guidelines (Version 2000), every effort has
been made to take account of all these responses. Without exception, the responses
were helpful and constructive.4
These Guidelines are to be seen as supportive rather than constraining. We need to
ensure that the Guidelines embody universal key principles of good test use, without
attempting to impose uniformity on legitimate differences in function and practice
between countries or between areas of application.
The proposed structure differentiates three main aspects of competence:
Professional and ethical standards of good practice that affect the way in which the
process of testing is carried out and the way in which test users interact with others
involved in the process.
The knowledge, understanding and skills relating to the process of testing: what test
users need to be able to do.
4 A detailed report on the results of the first consultation was submitted to the ITC Council meeting in
August, 1998. A report on the second consultation together with Version 5.0 of the Guidelines was
submitted to the ITC Council when it met in June 1999. Version 2000 contains some minor editorial
amendments to Version 5.0.
Copyright International Test Commission © 1999. 18 10-10-2013
The knowledge and understanding that are necessary to inform and underpin the
process of testing.
These three components differ, yet are inextricably inter-twined in practice.
The Guidelines start from a key purpose. This can be characterised as the ‘mission
statement’ for test users. It provides the focus from which the guidelines are
developed. Each guideline defines an aspect of test user competence that contributes
to the key purpose.
Together with the key purpose, the scope statement describes to whom the Guidelines
apply, the forms of assessment to which they relate, and the assessment contexts.
This document contains:
Key purpose and scope statements.
Specifications of test user competencies in relation to ethical test use.
Specifications of test user competencies in relation to good practice in the use of tests.
Copyright International Test Commission © 1999. 19 10-10-2013
The Guidelines
Key purpose
A competent test user will use tests appropriately, professionally, and in an ethical
manner, paying due regard to the needs and rights of those involved in the testing
process, the reasons for testing, and the broader context in which the testing takes
place.
This outcome will be achieved by ensuring that the test user has the necessary
competencies to carry out the testing process, and the knowledge and understanding
of tests and test use that inform and underpin this process.
Scope of the Guidelines
Any attempt to provide a precise definition of a ‘test’ or of ‘testing’ as a process, is
likely to fail as it will tend to exclude some procedures that should be included and
include others that should be excluded. For the purpose of these Guidelines, the terms
‘test’ and ‘testing’ should be interpreted broadly. Whether an assessment procedure is
labelled a ‘test’ or not is immaterial. These Guidelines will be relevant for many
assessment procedures that are not called ‘tests’ or that seek to avoid the designation
‘test’. Rather than provide a single definition, the following statements attempt to
map out the domain covered by the Guidelines.
Testing includes a wide range of procedures for use in psychological, occupational
and educational assessment.
Testing may include procedures for the measurement of both normal and abnormal or
dysfunctional behaviours.
Testing procedures are normally designed to be administered under carefully
controlled or standardised conditions that embody systematic scoring protocols.
Copyright International Test Commission © 1999. 20 10-10-2013
These procedures provide measures of performance and involve the drawing of
inferences from samples of behaviour.
They also include procedures that may result in the qualitative classification or
ordering of people (e.g., in terms of type).
Any procedure used for ‘testing’, in the above sense, should be regarded as a ‘test’,
regardless of its mode of administration; regardless of whether it was developed by a
professional test developer; and regardless of whether it involves sets of questions, or
requires the performance of tasks or operations (e.g., work samples, psycho-motor
tracking tests).
Tests should be supported by evidence of reliability and validity for their intended
purpose. Evidence should be provided to support the inferences that may be drawn
from the scores on the test. This evidence should be accessible to the test user and
available for independent scrutiny and evaluation. Where important evidence is
contained in technical reports that are difficult to access, fully referenced synopses
should be provided by the test distributor.
The test use Guidelines presented here should be considered as applying to all such
procedures, whether or not they are labelled as ‘psychological tests’ or ‘educational
tests’ and whether or not they are adequately supported by accessible technical
evidence.
Many of these Guidelines will apply also to other assessment procedures that lie
outside the domain of ‘tests’. They may be relevant for any assessment procedure that
is used in situations where the assessment of people has a serious and meaningful
intent and which, if misused, may result in personal loss or psychological distress (for
example, job selection interviews, job performance appraisals, diagnostic assessment
of learning support needs).
The Guidelines do not apply to the use of materials that may have a superficial
resemblance to tests, but which all participants recognise are intended to be used only
Copyright International Test Commission © 1999. 21 10-10-2013
for purposes of amusement or entertainment (e.g., life-style inventories in magazines
or newspapers).
Who the Guidelines are for
The Guidelines apply to the use of tests in professional practice. As such they are
directed primarily towards:
The purchasers and holders of test materials;
Those responsible for selecting tests and determining the use to which tests will be
put;
Those who administer, score or interpret tests;
Those who provide advice to others on the basis of test results (e.g., recruitment
consultants, educational and career counsellors, trainers, succession planners);
Those concerned with the process of reporting test results and providing feedback to
people who have been tested.
The Guidelines will be of relevance to others involved in the use of tests as defined
above. These include:
the developers of tests,
the suppliers of tests,
those involved in the training of test users,
those who take tests and their relevant others (e.g., parents, spouses, partners),
professional bodies and other associations with an interest in the use of psychological
and educational testing, and
policy makers and legislators.
Copyright International Test Commission © 1999. 22 10-10-2013
While aimed primarily at professional practice, most aspects of the good practice
embodied in the Guidelines will also be of relevance to those who use tests solely for
research purposes.
The Guidelines are not intended to cover every type of assessment technique (e.g.,
unstructured or semi-structured interviews, assessed group activities) or every
situation in which assessment occurs (e.g., employment assessment centres). Yet
many of the Guidelines are likely to be applicable in assessment situations and for
purposes more general than those concerned primarily with psychological and
educational testing (for example, the use of assessment centres for employmee
placement or selection, semi-structured and structured interviews, or assessment for
selection, career guidance and counselling).
Contextual factors
The Guidelines are applicable internationally. They may be used to develop specific
local standards through a process of contextualisation. It is recognised that there are
many factors which affect how standards may be managed and realised in practice.
These contextual factors have to be considered at the local level when interpreting the
Guidelines and defining what they would mean in practice within any particular
setting.
The factors that need to be considered in turning Guidelines into specific standards
include:
social, political, institutional, linguistic, and cultural differences between assessment
settings;
the laws of the country in which testing is taking place;
existing national guidelines and performance standards set by professional
psychological societies and associations;
differences relating to individual versus group assessment;
Copyright International Test Commission © 1999. 23 10-10-2013
differences related to the test setting (educational, clinical, work-related and other
assessment);
who the primary recipients of the test results are (e.g., the test-takers, their parents or
guardian, the test-developer, an employer or other third party);
differences relating to the use of test results (e.g., for decision-making, as in selection
screening, or for providing information to support guidance or counselling); and
variations in the degree to which the situation provides opportunity for the accuracy
of interpretations to be checked in the light of subsequent information and amended if
needed.
Knowledge, Understanding, and Skill
Knowledge, understanding and skill underpin all the test user competencies. The
nature of their content and level of detail are likely to vary between countries, areas of
application and as a function of the level of competence required to use a test.
The Guidelines do not contain detailed descriptions of these. However, when applying
the Guidelines for use in specific situations the relevant knowledge, skills, abilities
and other personal characteristics will need to be specified. This specification is part
of the process of contextualisation, through which generic guidelines are developed
into specific standards. The main areas descriptions of knowledge, understanding and
skills need to cover include the following.
Relevant declarative knowledge.
This includes:
knowledge of basic psychometric principles and procedures, and the technical
requirements of tests (e.g., reliability, validity, standardisation);
Copyright International Test Commission © 1999. 24 10-10-2013
knowledge of tests and measurement sufficient to enable the proper understanding of
test results;
knowledge and understanding of relevant theories and models of ability, of
personality or other psychological constructs, or of psychopathology, as necessary to
properly inform the choice of tests and the interpretation of test results; and
knowledge of the tests and the test suppliers relevant to one’s area of practice.
Instrumental knowledge and skills
These include:
knowledge and skills relating to specific assessment procedures or instruments,
including the use of computer-based assessment procedures;
specialised knowledge of and practitioner skills associated with using those tests that
are within one’s repertoire of assessment tools; and
knowledge and understanding of the construct or constructs underlying test scores,
where this is important if valid inferences are to be drawn from the test results.
The Guidelines cover:
General personal task-related skills
This includes:
the performance of relevant activities such as test administration, reporting, and the
provision of feedback to test takers and other clients;
oral and written communication skills sufficient for the proper preparation of test
takers, test administration, the reporting of test results, and for interaction with
relevant others (e.g., parents, or organisational policy makers); and
Copyright International Test Commission © 1999. 25 10-10-2013
interpersonal skills sufficient for the proper preparation of test takers, the
administration of tests, and the provision of feedback of test results.
Contextual knowledge and skills
This includes:
knowing when and when not to use tests;
knowing how to integrate testing with other less formal components of the assessment
situation (e.g., biographical data, unstructured interview and references etc.); and
knowledge of current professional, legal, and ethical issues relating to the use of tests,
and of their practical implications for test use.
Task management skills
This includes:
knowledge of codes of conduct and good practice relating to the use of tests, test data,
the provision of feedback, the production and storage of reports, the storage of and
responsibility for test materials and test data; and
knowledge of the social, cultural, and political context in which the test is being used,
and the ways in which such factors might affect the results, their interpretation and the
use to which they are put.
Contingency management skills
This includes:
knowing how to deal with problems, difficulties, and breakdowns in routine;
knowing how to deal with a test taker's questions during test administration etc.; and
Copyright International Test Commission © 1999. 26 10-10-2013
knowing how to deal with situations in which there is the potential for test misuse or
for misunderstanding the interpretation of test scores.
Copyright International Test Commission © 1999. 27 10-10-2013
1 Take responsibility for ethical test use
Competent test users should:
1.1 Act in a professional and ethical manner
1.1.1 Promote and maintain professional and ethical standards.
1.1.2 Have a working understanding of current professional and ethical issues and
debates relating to the use of tests in their field of application.
1.1.3 Implement an explicit policy on testing and test use.5
1.1.4 Ensure that people who work for or with them adhere to appropriate
professional and ethical standards of behaviour.
Conduct communications with due concern for the sensitivities of the test taker and
other relevant parties.
Represent tests and testing in a positive and balanced manner in communications with
and through the media.
1.1.7 Avoid situations in which they may have or be seen to have a vested interest in
the outcome of the assessment, or where the assessment might damage the
relationship with their client.
1.2 Ensure they have the competence to use tests
1.2.1 Work within the limits of scientific principle and substantiated experience.
1.2.2 Set and maintain high personal standards of competence.
1.2.3 Know the limits of their own competence and operate within those limits.
5 An example policy outline is attached as Appendix A.
Copyright International Test Commission © 1999. 28 10-10-2013
1.2.4 Keep up with relevant changes and advances relating to the tests they use, and
to test development, including changes in legislation and policy, which may impact on
tests and test use.
1.3 Take responsibility for their use of tests
1.3.1 Only offer testing services and only use tests for which they are qualified.
1.3.2 Accept responsibility for the choice of tests used, and for the recommendations
made.
1.3.3 Provide clear and adequate information to participants in the testing process
about the ethical principles and legal regulations governing psychological testing.
1.3.4 Ensure that the nature of the contract between test-taker and tester is clear and
understood.6
1.3.5 Be alert to any unintended consequences of test use.
1.3.6 Endeavour to avoid doing harm or causing distress to those involved in the
testing process.
1.4 Ensure that test materials are kept securely
1.4.1 Ensure secure storage of and control access to test materials
1.4.2 Respect copyright law and agreements that exist with respect to a test
including any prohibitions on the copying or transmission of materials in electronic or
other forms to other people, whether qualified or otherwise.
1.4.3 Protect the integrity of the test by not coaching individuals on actual test
materials or other practice materials that might unfairly influence their test
performance.
1.4.4 Ensure that test techniques are not described publicly in such a way that their
usefulness is impaired
6 An example ‘contract’ between test user and test taker is attached as Appendix B.
Copyright International Test Commission © 1999. 29 10-10-2013
1.5 Ensure that test results are treated confidentially.
1.5.1 Specify who will have access to results and define levels of confidentiality.
1.5.2 Explain levels of confidentiality to individuals before tests are administered.
1.5.3 Limit access to results to those with a right to know.
1.5.4 Obtain the relevant consents before releasing results to others.
1.5.5 Protect data kept on file so that only those who have a right of access can
obtain them.
1.5.6 Establish clear guidelines as to how long test data are to be kept on file.
1.5.7 Remove names and other personal identifiers from databases of results that are
archived, for research use, development of norms or other statistical purposes.
Copyright International Test Commission © 1999. 30 10-10-2013
2 Follow good practice in the use of tests
2.1 Evaluate the potential utility of testing in an assessment situation
Competent test users will:
2.1.1 Produce a reasoned justification for the use of tests.
2.1.2 Ensure there has been a thorough analysis of the client’s needs, reasons for
referral, or of the diagnostic category, condition, or job for which assessment is being
used.
Establish that the knowledge, skills, abilities, aptitudes or other characteristics, which
the tests are intended to measure, are correlates of relevant behaviours in the context
about which inferences are to be drawn.
Seek other relevant collateral sources of information.
2.1.5 Assess the advantages and disadvantages of using tests compared with other
sources of information.
2.1.6 Ensure that full use is made of all available collateral sources of information.
2.2 Choose technically sound tests appropriate for the situation
Competent test users will:
2.2.1 Examine current information covering the range of potentially relevant tests
(e.g., from specimen sets, independent reviews, expert advice), before selecting a test
to use.
2.2.2 Determine that the test’s technical and user documentation provides sufficient
information to enable evaluation of the following:
a) scope or coverage and representativeness of test content, appropriateness of
norm groups, difficulty level of content etc.;
Copyright International Test Commission © 1999. 31 10-10-2013
b) accuracy of measurement and reliability demonstrated with respect to relevant
populations;
c) validity (demonstrated with respect to relevant populations) and relevance for
the required use;
d) freedom from systematic bias in relation to the intended test taker groups;
e) acceptability to those who will be involved in their use, including perceived
fairness and relevance;
f) practicality, including time required, costs, and resource needs.
2.2.3 Avoid the use of tests that have inadequate or unclear supporting technical
documentation;
2.2.4 Use tests only for those purposes where relevant and appropriate validity
evidence is available.
2.2.5 Avoid judging a test solely on the basis of face value, test-user testimonials, or
advice from those with a vested commercial interest.
2.2.6 Respond to requests from relevant interested parties (e.g. test takers, parents,
managers) by providing sufficient information to allow them to understand why the
test was chosen.
2.3 Give due consideration to issues of fairness in testing
When tests are to be used with individuals from different groups (e.g., groups
differing in terms of gender, cultural background, education, ethnic origin, or age),
competent test users will make all reasonable efforts to ensure that:
2.3.1 The tests are unbiased and appropriate for the various groups that will be
tested.
2.3.2 The constructs being assessed are meaningful in each of the groups
represented.
Evidence is available on possible group differences in performance on the test.
Evidence relating to differential item functioning (DIF) is available, where relevant.
Copyright International Test Commission © 1999. 32 10-10-2013
2.3.5 There is validity evidence to support the intended use of the test in the various
groups.
2.3.6 Effects of group differences not relevant to the main purpose (e.g., differences
in motivation to answer, or reading ability) are minimised.
In all cases, Guidelines relating to the fair use of tests are interpreted in the context of
local policy and legislation.7
When testing in more than one language (within or across countries8), competent test
users will make all reasonable efforts to ensure that:
2.3.8 Each language or dialect version has been developed using a rigorous
methodology meeting the requirements of best practice.
2.3.9 The developers have been sensitive to issues of content, culture and language.
2.3.10 The test administrators can communicate clearly in the language in which the
test is to be administered.
2.3.11 The test taker’s level of proficiency in the language in which the test will be
administered is determined systematically and the appropriate language version is
administered or bilingual assessment is performed, if appropriate.
When tests are to be used with people with disabilities, competent test users will make
all reasonable efforts to ensure that:
2.3.12 Advice is sought from relevant experts on the potential effects of the various
disabilities on test performance.
2.3.13 Potential test takers are consulted and their needs and wishes are given proper
consideration.
7 The Guidelines in this section focus on what is ‘best practice’. However, in many countries, issues
relating to the fair use of tests must also take account of national laws (e.g., the Americans with
Disabilities Act, 1990, in the USA, or the Race Relations Act, 1976, in the UK).
8 These Guidelines relate not only to different national languages and dialects, but also to special forms
of communication, such as sign language, used to overcome the effects of forms of disability.
Copyright International Test Commission © 1999. 33 10-10-2013
2.3.14 Adequate arrangements are made when test takers include people with
hearing, visual or motor impairments, or other disabilities (e.g., learning impairments,
dyslexia .).
2.3.15 Use of alternative assessment procedures, rather than modifications to tests, is
considered (e.g., other more suitable tests, or alternative structured forms of
assessment).
2.3.16 Relevant professional advice is sought if the degree of modification required
for use by those with disabilities is beyond the experience of the test user.
2.3.17 Modifications, when necessary, are tailored to the nature of the disability and
are designed to minimize impact on score validity.
2.3.18 Information regarding the nature of any modifications made to a test or testing
procedure is provided to those who interpret or act upon the test scores whenever the
withholding of such information might otherwise result in biased interpretation or an
unfair decision.
2.4 Make necessary preparations for the testing session
The competent test user will make all reasonable efforts to:
2.4.1 Provide relevant parties in a timely manner with clear information concerning
the purpose of testing, ways in which they might best prepare for the test session, and
the procedures to be followedr.
2.4.2 Advise test takers of the linguistic or dialectic groups for which the test is
considered appropriate.
2.4.3 Send test takers approved practice, sample, or preparation materials where
these are available and where this is consistent with recommended practice for the
tests concerned.
2.4.4 Explain clearly to test takers their rights and responsibilities9.
9 See Appendix B.
Copyright International Test Commission © 1999. 34 10-10-2013
2.4.5 Gain the explicit consent of test takers or their legal guardians or
representatives before any testing is done.
2.4.6 Explain, when testing is optional, the consequences of taking or not taking the
test to relevant parties so that they can make an informed choice.
2.4.7 Make the necessary practical arrangements by ensuring that:
a) preparations conform to those stipulated in the publisher’s manual;
b) locations and facilities for testing have been arranged well in advance, and the
physical environment is accessible, safe, quiet, free from distractions and appropriate
for the purpose;
c) sufficient materials are available and have been checked to ensure there are no
marks left by previous users on question booklets or answer sheets;
d) staff who will be involved in the administration are competent;
e) appropriate arrangements have been made for the testing of people with
disabilities10.
2.4.8 Anticipate likely problems and counteract them through thorough preparation
of materials and instructions.
2.5 Administer the tests properly
The competent test user will:
2.5.1 Establish rapport by welcoming test-takers and briefing them in a positive
fashion.
2.5.2 Act to reduce test-taker anxiety and avoid creating or reinforcing unnecessary
anxiety.
2.5.3 Ensure potential sources of distraction (e.g., wristwatch alarms, mobile
phones, pagers) are removed.
2.5.4 Ensure test-takers have the materials they require for taking the test before it
begins.
10 See Appendix C.
Copyright International Test Commission © 1999. 35 10-10-2013
2.5.5 Administer tests under appropriate supervised conditions.
2.5.6 Wherever possible, administer test instructions in the primary language of the
test takers, even where the test content is designed to provide evidence of knowledge
or skills in a non-primary language.
2.5.7 Adhere strictly to the directions and instructions as specified in the test manual
while making reasonable accommodations for persons with disabilities.
2.5.8 Read instructions clearly and calmly.
2.5.9 Provide adequate time for examples to be completed.
2.5.10 Observe and record deviations from test procedures.
2.5.11 Monitor and record response times accurately where appropriate.
2.5.12 Ensure all materials are accounted for at the end of each testing session.
2.5.13 Administer tests by modes that permit adequate and appropriate levels of
supervision and authentication of the identity of the test takers.
2.5.14 Ensure those assisting the administration have had proper training.
2.5.15 Ensure test takers are not left unattended or subjected to distracting activities
during a supervised test session.
2.5.16 Provide appropriate assistance to test takers who show signs of undue distress
or anxiety.
2.6 Score and analyse test results accurately
Competent test users will:
2.6.1 Follow carefully the standardised procedures for scoring.
2.6.2 Carry out appropriate raw score conversions to other relevant types of scale.
2.6.3 Choose scale types relevant to the intended use of the test scores.
2.6.4 Check score scale-conversions and other clerical procedures for accuracy.
2.6.5 Ensure that invalid conclusions are not drawn from comparisons of scores with
norms that are not relevant to the people being tested or are outdated.
Copyright International Test Commission © 1999. 36 10-10-2013
2.6.6 Compute, where appropriate, composite scores using standard formulae and
equations.
2.6.7 Employ procedures to screen test results to recognise improbable or
unreasonable scores.
2.6.8 Clearly and accurately label scales in reports, and provide clear identification
of norms, scales types, and equations used.
2.7 Interpret results appropriately
Competent test users will:
2.7.1 Have a good professional understanding of the test’s theoretical or conceptual
basis, technical documentation and guidance on the use and interpretation of the scale
scores.
2.7.2 Have a good understanding of the scales used, the characteristics of the norm
or comparison groups, and the limitations of the scores.
2.7.3 Take steps to minimise the effects on test interpretation of any biases the test
interpreter may have towards members of the test taker’s cultural group.
2.7.4 Use appropriate norm or comparison groups where available.
2.7.5 Interpret results in the light of available information about the person being
tested (including age, gender, schooling, culture and other factors) with due regard for
the technical limitations of the test, the assessment context, and the needs of those
with a legitimate interest in the outcome of the process.
2.7.6 Avoid over-generalising the results of one test to traits or human
characteristics which are not measured by the test.
2.7.7 Consider each scale’s reliability, error of measurement and other qualities
which may have artificially lowered or raised results when interpreting scores.
2.7.8 Give due consideration to the available evidence of validity, with respect to
the construct being measured for members of the test takers’ relevant demographic
groups (e.g., cultural, age, social class, and gender groups).
Copyright International Test Commission © 1999. 37 10-10-2013
2.7.9 Use passing scores (cut-scores) in test interpretation only when evidence of the
validity for the pass scores is available and supports its use.
2.7.10 Be aware of negative social stereotyping that may pertain to members of the
test taker’s group (e.g., cultural group, age, social class, and gender) and avoid
interpreting tests in a manner that perpetuates such stereotyping.
2.7.11 Take into account any individual or group variations from standard procedures
in test administration.
2.7.12 Take into account any evidence of prior experience with the test where there
are data available relating to the effect of such experience on test performance.
2.8 Communicate the results clearly and accurately to relevant others
Competent test users will:
2.8.1 Identify appropriate parties who may legitimately receive test results.
With the informed consent of the test takers, or their legal representatives, produce
written or oral reports for relevant interested parties.
Ensure that the technical and linguistic levels of any reports are appropriate for the
level of understanding of the recipients.
2.8.4 Make clear that the test data represent just one source of information and
should always be considered in conjunction with other information.
2.8.5 Explain how the importance of the test results should be weighted in relation
to other information about the people being assessed.
2.8.6 Use a form and structure for a report that is appropriate to the context of the
assessment.
2.8.7 When appropriate, provide decision-makers with information on how results
may be used to inform their decisions.
2.8.8 Explain and support the use of test results used to classify people into
categories (e.g., for diagnostic purposes or for job selection).
Copyright International Test Commission © 1999. 38 10-10-2013
2.8.9 Include within written reports a clear summary, and when relevant, specific
recommendations.
2.8.10 Present oral feedback to test takers in a constructive and supportive manner.
2.9 Review the appropriateness of the test and its use
Competent test users will:
2.9.1 Monitor and periodically review changes over time in the populations of
individuals being tested and any criterion measures being used.
2.9.2 Monitor tests for evidence of adverse impact.
2.9.3 Be aware of the need to re-evaluate the use of a test if changes are made to its
form, content, or mode of administration.
2.9.4 Be aware of the need to re-evaluate the evidence of validity if the purpose for
which a test is being used is changed.
2.9.5 Where possible, seek to validate tests for the use to which they are being put,
or participate in formal validation studies.
2.9.6 Where possible, assist in updating information regarding the norms, reliability
and validity of the test by providing relevant test data to the test developers,
publishers or researchers.
Copyright International Test Commission © 1999. 39 10-10-2013
References
American Educational Research Association, American Psychological Association, &
National Council on Measurement in Education. (1985). Standards for Educational
and Psychological Testing. Washington DC: American Psychological Association.
Bartram, D. (1995). The Development of Standards for the Use of Psychological
Tests in Occupational Settings: The Competence Approach. The Psychologist, May,
219-223.
Bartram, D. (1996). Test Qualifications and Test Use in the UK: The Competence
Approach. European Journal of Psychological Assessment, 12, 62-71.
Canadian Psychological Association. (1987). Guidelines for Educational and
Psychological Testing. Ottawa: Canadian Psychological Association.
Eyde, L. D., Moreland, K. L. & Robertson, G. J. (1988). Test User Qualifications: A
Data-based Approach to Promoting Good Test Use. Report for the Test User
Qualifications Working Group. Washington DC: American Psychological
Association.
Eyde, L. D., Robertson, G. J., Krug, S. E. et al (1993). Responsible Test Use: Case
Studies For Assessing Human Behaviour. Washington DC: American Psychological
Association.
Fremer, J., Diamond, E. E. & Camara, W. J. (1989). Developing a Code of Fair
Testing Practices in Education. American Psychologist, 44, 1062-1067.
Hambleton, R. (1994). Guidelines for adapting educational and psychological tests: A
progress report. European Journal of Psychological Assessment, 10, 229-244.
Joint Committee on Testing Practices. (1988). Code of Fair Testing Practices in
Education. Washington DC: Joint Committee on Testing Practices.
Joint Committee on Testing Practices. (2000). Rights and Responsibilities of Test
Takers: Guidelines and Expectations. Washington DC: Joint Committee on Testing
Practices.
Copyright International Test Commission © 1999. 40 10-10-2013
Kendall, I., Jenkinson, J., De Lemos, M. & Clancy, D. (1997). Supplement to
Guidelines for the use of Psychological Tests. Australian Psychological Society.
Moreland, K. L., Eyde, L. D., Robertson, G. J., Primoff, E. S. & Most, R. B. (1995).
Assessment of Test User Qualifications: A Research-Based Measurement Procedure.
American Psychologist, 50, 14-23.
Schafer, W. D. (1992). Responsibilities of Users of Standardized Tests: RUST
Statement Revised. Alexandria, VA: American Association for Counseling and
Development.
Van de Vijver, F. & Hambleton, R. (1996). Translating tests: some practical
guidelines. European Psychologist , 1, 89-99.
Margarida Pocinho Página 41
Appendix A: Guidelines for an outline policy on testing.
The following guidelines relate to the need for organizations to consider their policy on
testing in a systematic manner and to ensure that everyone involved is clear as to what
the policy is. The need for an explicit policy on testing is not confined to large
organisations. Small and medium-sized enterprises that use testing, as well as large
ones, should pay regard to testing policy in the same way as they do to health and
safety, equal opportunities, disability and other areas relating to good practice in the
management, treatment and care of personnel.
While the following considerations or requirements may need to be adapted for use by
individual test users operating as sole professional practitioners, it remains important
that they have a clear understanding of their own policy and can communicate it to
others.
A policy on testing is produced in order to:
- ensure personal and organisational aims are met;
- ensure that potential misuse is avoided;
- demonstrate commitment to good practice;
- ensure test use is appropriate for its purpose;
- ensure tests do not discriminate unfairly;
- ensure evaluations are based on comprehensive, relevant information;
- ensure tests are only used by qualified staff.
A policy on testing will need to cover most if not all the following issues:
- proper test use;
- security of materials and scores;
- who can administer tests, score and interpret tests;
Margarida Pocinho Página 42
- qualification requirements for those who will use the tests;
- test user training;
- test taker preparation;
- access to materials and security;
- access to test results and test score confidentiality issues;
- feedback of results to test takers;
- responsibility to test takers before, during and after test session;
- responsibilities & accountability of each individual user.
Any policy needs to be regularly reviewed and updated as advances in testing, or
changes in practice occur.
Relevant parties need to have access to and be informed about the policy on testing.
Responsibility for any organisation’s testing policy should reside with a qualified test
user who has the authority to ensure implementation of and adherence to the policy.
Margarida Pocinho Página 43
Appendix B: Guidelines for developing contracts between parties involved in the testing
process.
Contracts between the test user and test takers should be consistent with good practice,
legislation and the test user’s policy on testing. The following is provided as an example
of the sort of matters such a contract might cover. The details will vary as a function of
the assessment context (e.g., occupational, educational, clinical, forensic) and local or
national regulations and laws.
Contracts between test user, test takers and other parties are often implicit and unspoken
(at least in part). Making clear the expectations, roles and responsibilities of all parties
can help to avoid misunderstanding, harm, and litigation.
For their part, the test user will endeavour to:
b.1 inform test takers of their rights regarding how their test scores will be used and
their rights of access to them11;
b.2 give adequate prior warning of any financial charges that may be entailed by the
testing process, who will be responsible for their payment, and when payment will be
due;
b.3 treat test takers with courtesy, respect and impartiality regardless of race, gender,
age, disability, etc.;
b.4 use tests of proven quality, appropriate for the test takers, and appropriate for the
assessment purpose;
b.5 inform test takers prior to testing about the purpose of the assessment, the nature
of the test, to whom test results will be reported and the planned use of the results;
11 Legislation varies between countries on this issue. For example, the current UK Data Protection Act
provides rights of access to data stored on computer different from those for data written on paper.
Margarida Pocinho Página 44
b.6 give advance notice of when the test will be administered, and when results will
be available, and whether or not test takers or others may obtain copies of the test, their
completed answer sheets, or their scores12;
b.7 have a trained person administer the test and have the results interpreted by a
qualified person;
b.8 ensure test takers know if a test is optional and, when it is, the consequences of
taking or not taking the test;
b.9 ensure test takers understand the conditions, if any, under which they may re-
take tests, have tests re-scored, or have their scores cancelled;
b.10 ensure test takers know that they will have their results explained to them as
soon as possible after taking the test in easily understood terms;
b.11 ensure test takers understand that their results are confidential to the extent
allowed by law and best practice;
b.12 inform test takers who will have access to their results, and the conditions which
scores will be released;
b.13 ensure that test takers are aware of the procedures for making complaints or
notifying problems;
The test user will inform test-takers that they are expected to:
b.14 treat others with courtesy and respect during the testing process;
b.15 ask questions prior to testing if uncertain about why the test is to be
administered, how it will be administered, what they will be required to do and what
will be done with the results;
b.16 inform an appropriate person about any condition that they believe might
invalidate the test results or which they would wish to have taken into consideration;
12 While tests and answer sheets are not normally passed on to others, there is some variation between
countries in practice relating to what test takers or others are permitted to have. However, there is much
greater variation in the expectations of test takers concerning what information they will be given. It is
important that contracts make clear what they will not be given as well as what they will.
Margarida Pocinho Página 45
b.17 follow the instructions of the test administrator;
b.18 be aware of the consequences of not taking a test if they choose not to take it,
and be prepared to accept those consequences;
b.19 ensure that, if required to pay for any the testing service(s), payment is made by
the agreed date.
Margarida Pocinho Página 46
Appendix C: Points to consider when making arrangements for testing people with
disabilities or impairments
Considerable care and expertise is needed when the mode of administration of a test has
to be changed to accommodate the needs of people with disabilities. As always, local
and national law and practice13 need to be considered, and the individual’s rights to
privacy must be respected. In seeking information regarding types and levels of
disability, inquiries should only seek information relating to each person’s ability to
undertake the activities required to complete the test. Particular care needs to be
exercised in relation to employment testing14.
There is no simple rule of thumb that can be used to ensure that a test is administered
fairly for people with all types of disability. It is a matter of professional judgement as
to whether it is better to use some alternative form of assessment, or to modify the test
or its mode of administration. In practice, it is rarely possible to norm modified tests on
sufficient samples of people with equivalent disability in order to ensure comparability
of the test with the standardised version. However, where data exist on, for example, the
effects of changing time limits, use of Braille or audiotape spoken versions of tests, such
data should guide the user in making the necessary accommodations. While full
standardization of a modified version may not be possible, pilot testing on small
samples of individuals should be carried out whenever practical.
Given the dearth of information about the performance of people with disabilities on
tests (whether modified or not), it is often more appropriate for test result to be used in a
more qualitative manner. They can be used to give an indication of the characteristic
13 In the United States, for example, attention must be paid to the provisions of the Americans with
Disabilities Act (1990). In the UK, the Disability Discrimination Act (1995), Employment Code of
Practice states that “employers are required to revise tests – or the way the results of such tests are
assessed – to take account of specific disabled candidates.”
14 For detailed guidance on this in the United States, see Eyde, Nestor, Heaton and Nelson (1994).
Margarida Pocinho Página 47
being assessed (ability, motivation, personality, etc.), which can be supplemented and
supported by information gathered using other methods.
For individual assessment, the assessor can usually tailor the assessment procedures to
the capabilities of the person who is being assessed. However, particular issues arise in
group testing (e.g., for selection into employment). Here there may be practical
difficulties involved in varying the mode of administration for particular individuals
within a group administration setting. Furthermore, all parties may see differences in
treatment as being unfair. For example if more time is given for test completion, those
with the disability may be conscious that they are being treated ‘differently’, and those
without the disability may feel that the extra time provides an unfair advantage.
Advice on special needs can usually be obtained from relevant disability organisations
as well as the individual test takers. It is generally helpful (where the law permits) to ask
the individual directly in a non-threatening and supportive way if there are any
considerations that need to be taken into account15. In many cases such consultation
will enable suitable modifications to be made to the test taking environment without
requiring changes to the test itself.
The following outline protocol provides a general guide to the process of deciding
whether to modify testing and how to carry out the modification. Essentially, disability
may contribute no variance to test scores, contribute construct relevant variance or
construct irrelevant variance. In the first case, no modifications are necessary. In the
final case, modifications should be aimed at removing the irrelevant source of variance
(by suitable modification of the test conditions or substitution of a more suitable test).
For the second case (construct relevant variance), however, modification to the test will
affect the relevance of the test scores.
15 In the UK, the Disability Discrimination Act (1995) also places some obligation on the individual to
raise awareness of their needs.
Margarida Pocinho Página 48
Is the disability likely to have an effect upon test performance? Many people have
disabilities that would not affect test performance. In such cases, it would be
inappropriate to make accommodations for them.
If the disability is likely to affect test performance, then is the effect on performance
incidental to the construct being measured? For example, a person with an arthritic hand
may have trouble with a speeded test which involves writing. If the ability to perform
manual tasks rapidly is part of the construct being measured, then the test should not be
changed. However, if the purpose is to assess visual checking speed, then an alternative
mode of response would be appropriate.
When the particular disability is incidental to the construct being measured but is likely
to affect the individual’s performance on the test, then modification of the procedure
may be considered.
Users should always consult the test manual and the publisher for guidance on
modification and for information regarded alternative formats and procedures.
Users should also consult relevant disability organisations for advice and guidance on
the possible implications of a specific disability, relevant literature or documentation,
and the sort of adaptations or accommodations that may prove helpful.
Any modifications made to the test or test administration procedures should be carefully
documented along with the rationale behind the modification.
Margarida Pocinho Página 49
Appendix D. Conditions governing the translation of the ITC Guidelines on Test Use.
The following conditions apply to official versions of the International Test
Commission (ITC) Guidelines. The conditions delegate authority for checking the
quality and accuracy of translation to the local national Psychological Association.
There is only to be one official translation in each country.
Copyright of the original version remains vested in the ITC. The ITC will give
permission for an official version to be produced under the auspices of the local national
Psychological Association, subject to a copy being lodged with the ITC and the
Psychological Association taking responsibility for the accuracy of the translation.
A letter formally approving the accuracy of the translation, from the relevant officer of
the local national Psychological Association, must be lodged with the ITC.
The ITC will reserve the right to distribute copies of that translation itself without
payment to the Psychological Association, and will want to have the guidelines
available through the ITC website.
The official version should be referred to as:
"International Test Commission (ITC) Guidelines on Test Use: [Language] Version.
Translation authorised by the [full name of the Psychological Association]"
The official version should have both the logo of the Psychological Association and that
of the ITC clearly displayed.
The Guidelines themselves should be made available either free of charge or on a not-
for-profit basis. Locally developed supporting documents, applications, qualification
procedures, etc that build on the Guidelines may be charged for on a commercial basis.
Normal copyright rules apply, and permission will need to be sought by people wishing
to publish extracts. In relation to the locally translated version, the ITC delegates the
giving of permission for this to the local Psychological Association responsible for the
translation. A notice to this effect should appear on the Guidelines document.
TITULO
NOME COMPLETO
Trabalho realizado no âmbito da disciplina de Psicometria do curso de Psicologia
para servir de elemento de avaliação prática
Docente: Professora Doutora ____________________________________
Coimbra, mês de ano
Índice
Resumo (titulo/cabeçalho 1) .............................................................................. 1
Introdução (titulo/cabeçalho 1) ........................................................................... 1
Material e métodos (titulo/cabeçalho 1) ............................................................. 3
Resultados (titulo/cabeçalho 1) ........................................................................... 3
Discussão e conclusão (titulo/cabeçalho 1) ......................................................... 5
Bibliografia (titulo/cabeçalho 1) ......................................................................... 8
Nota prévia
Chamo-me Margarida Pocinho, sou autora do guião que aqui lhe apresento. Utilizei
como exemplos do que fui dizendo o artigo propriedades psicométricas da Motor
Activity Log Saliba et al., de 2008 disponível a partir do endereço electrónico
http://www2.pucpr.br/reol/index.php/RFM?dd1=2066&dd99=view e aconselho que:
Antes de começar a escrever o artigo projete-o isto é, esboce-o. O propósito do
esboço é dividir a escrita do artigo inteiro num número de tarefas menores, por isso
comece por organizar os vários tópicos e argumentos de forma lógica, o que permitirá
identificar lacunas no trabalho antes da escrita do artigo.
O guião que se segue ajudá-lo-á.
Escreva o artigo em partes. Não tente escrever o artigo inteiro de uma só vez. Ao
contrário, trate cada seção como um mini texto. Não se preocupe com as gralhas e
edições. Faz isso o fim.
Apos terminar a primeira versão do texto, esqueça-o por uns dias. É preciso
distanciação para fazer uma revisão do que se escreveu, caso contrário vai ler o que
devia lá estar e não o que lá está.
Quando estiver na maxima energia, reveja o texto várias vezes até sentir que não é
possível melhorar mais. Olhe para o trabalho como um critico severo, embora
respeitador, e não como um autor.
Para melhor legibilidade, a maior parte.
Os artigos científicos com frases constituídas com 15 a 20 palavras e parágrafos
com aproximadamente 150 palavras são considerados óptimos em termos de leitura. Por
isso corte as palavras desnecessárias e escreva de forma consistente do começo ao fim
do artigo. Isto é muito importante, em especial no caso de artigos escritos por mais de
um autor.
Artigo de Revisão
1
Autor (e-mail:xxxxxxx) Ano
Título e subtítulo
Nome do (s) autor (es);
O título é o menor resumo de uma obra e quando é eficaz “vende” o artigo ao leitor
imediatamente determinando se ele irá ou não lê-lo. É a primeira coisa que se lê e serve
como cartão de apresentação. Não pode ser ambiguo e o tamanho recomendado é de 10
a 12 palavras. Os nomes científicos devem estar por extenso evitando-se usar
abreviaturas e siglas; já que podem ter diferentes significados para diferentes pessoas
Resumo (titulo/cabeçalho 1)
Resumo na língua do texto e palavras chave;
Abstrat (em Inglês) e Key-words.
É uma versão condensada do artigo pelo que não deve acrescentar dados novos.. Ele
destaca os pontos principais, descreve concisamente o conteúdo. Deve ser conciso e
fácil de ler. É a segunda seção lida (a primeira é o titulo)
O resumo deve comunicar apenas a informação essencial. Retire palavras ou frases
que sejam apenas informação de suporte, revisão da literatura e evite a descrição
detalhada dos métodos.
Peça a um colega para ler o resumo (de preferência alguém que não esteja
familiarizado com o seu trabalho) e pergunte-lhe se faz sentido.
Um bom resumo contem as palavras chave.
Introdução (titulo/cabeçalho 1)
Breve apresentação do tema em estudo (de 300 a 500 palavras) e dos aspectos mais
relevantes da investigação. O objetivo deve fornecer informações necessárias para o
entendimento do resto do artigo; resumir o problema em estudo, discutir as pesquisas
anteriores sobre o tema e explicar o que é feito no artigo, o porquê e o como.
Progrida do geral para o específico: do problema no mundo real para a literatura
pertinente e, depois, para a pesquisa feita. Escreva no tempo presente, com exceção da
descrição daquilo que foi feito ou descoberto no estudo relatado no artigo, que deve ser
escrito no passado. Deve aqui definir o objectivo do estudo
Guião para Artigo de Revisão
2
Autor (e-mail:xxxxxxx) Ano
Exemplo de uma Introdução
No Brasil, o Acidente Vascular Encefálico (AVE) apresenta um importante impacto na saúde pública, pois além
de ser altamente prevalente, está associado a elevados índices de morbidade e incapacidade (1, 2), gerando custo
considerável para o sistema de saúde e para o indivíduo e seus familiares (3). Comumente, o AVE compromete os
diferentes níveis da Classificação Internacional de Funcionalidade, Incapacidade e Saúde (3) e a percepção de
qualidade de vida dos indivíduos (4), sendo considerado a maior causa de incapacidade crônica em países
desenvolvidos e em desenvolvimento (1, 2). Dentre as incapacidades geradas pelo AVE, a alteração da função dos
membros superiores (MMSS) é uma das maiores queixas dos indivíduos, devido ao comprometimento da destreza
durante a execução de importantes atividades manuais de vida diária (5). Usualmente, a dificuldade em usar o
membro superior (MS) mais afetado pode levar ao “aprendizado do não uso”, caracterizado pela adoção
compensatória de maior uso do MS não afetado e diminuição do uso do MS afetado durante a realização das
atividades de vida diária (AVD’s) (6, 7, 8, 9), aumentando ainda mais as incapacidades associadas ao MS mais
afetado, e, consequentemente, aos MMSS (9). Apesar do elevado número de intervenções destinadas ao aumento da
habilidade motora do MS mais afetado (5, 10), os estudos tipicamente avaliam o impacto da recuperação dos MMSS
destes indivíduos por medidas específicas à estrutura e função do corpo e/ou globais de atividade e/ ou participação,
sem enfatizar, especificamente, os efeitos do uso do MS mais afetado nas AVD’s (7, 11). Com o objetivo de avaliar a
habilidade motora do MS afetado no dia a dia do indivíduo e, assim, fornecer informações sobre a função e a
utilização espontânea do MS acometido após o AVE (9), foi desenvolvido, em 1986, o instrumento padronizado
Motor Activity Log(MAL) (11), considerando o “aprendizado do não uso”(6, 8, 9, 11) e a requisição funcional do
MS mais afetado nas AVD’s (11). Desde que foi proposta (9), a MAL tem sido frequentemente utilizada em estudos
relacionados à reabilitação dos MMSS após o AVE (6, 7, 8, 9) e reconhecida como um importante instrumento para
fornecer informações sobre a função do MS acometido (6, 7, 8, 9, 11). A versão original consta de 14 itens (MAL-14)
que abordam o uso do MS afetado em AVD’s (6). Entretanto, para possibilitar a avaliação de indivíduos com grande
comprometimento do MS mais afetado, uma versão com 30 itens (MAL-30) foi desenvolvida substituindo 4 itens da
MAL-14 e acrescentando 16 itens que também estão relacionados às AVD’s (6, 12). Ambas as versões da MAL
devem ser aplicadas sob a forma de entrevista, que podem ser realizadas com o indivíduo ou com o seu cuidador (12),
e englobam duas subescalas ordinais para a graduação das atividades, com seis pontos em cada: uma relacionada à
quantidade de uso (QT) e outra à qualidade do uso (QL) (12). Considerando a escala QT, a pontuação varia de “não
usa o MS mais afetado” (pontuação 0) a “usa o MS mais afetado da mesma forma que usava antes da história de
AVE” (pontuação 5). Para a QL, a pontuação varia de “o MS mais afetado não é usado de forma alguma para a
atividade” (pontuação 0) a “sua habilidade de usar o MS mais afetado é tão boa quanto era antes do AVE” (pontuação
5). A pontuação total é obtida com o cálculo da média para cada uma das subescalas. Quanto maior a média obtida
nas subescalas, melhor a qualidade e quantidade de uso do MS mais afetado na realização das AVD’s. Uma grande
vantagem da MAL é que na situação em que alguma atividade não se aplica ao indivíduo, como pentear o cabelo para
indivíduos calvos, o item pode ser descartado e o cálculo da média é feito com os itens restantes (12). Considerando
que não foi encontrado nenhum instrumento desenvolvido e/ou adaptado para a Língua Portuguesa (Brasil) que avalie
a habilidade motora do MS afetado no dia a dia do indivíduo, fornecendo informações sobre a função e a utilização
espontânea do MS acometido após o AVE, somado a elevada prevalência dos comprometimentos funcionais
associados às alterações dos MMSS em indivíduos acometidos pelo AVE (5)e a importância de uma avaliação
sistematizada para a tomada de decisão clínica, que inclua o uso de testes e medidas com propriedades psicométricas
adequadas e que informem sobre a funcionalidade e a incapacidade humana (13), o objetivo deste estudo foi: realizar
Guião para Artigo de Revisão
3
Autor (e-mail:xxxxxxx) Ano
uma revisão bibliográfica sistemática sobre as propriedades psicométricas já estabelecidas sobre o uso da MAL em
indivíduos com história de AVE, bem como avaliar suas potencialidades para utilização na população brasileira.
Material e métodos (titulo/cabeçalho 1)
Descrição da amostra/ participantes, materiais/instrumentos e procedimentos de
investigação adoptados.
Exemplo da metodologia
Inicialmente, foram realizadas buscas nas bases de dados eletrônicas MEDLINE, LILACS, SciELO e PEDro,
com a expressão “Motor Activity Log”. O resumo de todos os estudos encontrados com as buscas foram lidos por
dois examinadores independentes para que fossem selecionados aqueles que atendessem aos seguintes critérios de
inclusão: ter avaliado alguma propriedade psicométrica da MAL (independente da versão) em uma população de
adultos (idade igual ou superior a 20 anos) com história de AVE e ter sido publicado até dezembro de 2006. Não
houve restrição quanto ao idioma de publicação. Além disso, em todos os artigos selecionados, foi realizada uma
busca manual ativa na lista de referências apresentada, pelos dois examinadores, também de forma independente,
considerando os mesmos critérios de inclusão
Resultados (titulo/cabeçalho 1)
Apresentação da informação obtida a partir da análise dos dados. As tabelas devem
ser numeradas sequencialmente e antes de aparecerem, devem ser apresentadas.
Exemplo de resultados
Foram encontrados 55 estudos na base de dados MEDLINE e 16 na PEDro, dos quais apenas 1 foi diferente
daqueles encontrados na MEDLINE. Nenhum estudo foi encontrado nas outras duas bases de dados eletrônicas
pesquisadas, totalizando, assim, 56 analisados. Desses, apenas três atenderam aos critérios de inclusão pré-
estabelecidos. Na busca manual realizada nesses estudos selecionados, não foram encontrados outros que fossem
diferentes e que atendessem aos critérios de inclusão, permanecendo, assim, a análise dos três estudos. Dentre esses
três estudos analisados, dois avaliaram as propriedades psicométricas da MAL-14 (7, 8) e um avaliou as propriedades
psicométricas da MAL-30 (6). Todos avaliaram a consistência interna e a confiabilidade teste-reteste (6, 7, 8), dois
avaliaram a responsividade (7, 8) e a estabilidade (6, 7) e todos avaliaram a validade (6, 7, 8). Desta forma, para as
duas versões da MAL, foi investigada a consistência interna, a confiabilidade teste-reteste e a validade (6, 7, 8). A
responsividade só foi investigada para a MAL-14 (7, 8). Nos três estudos, as subescalas da MAL-14 e da MAL-30
foram administradas sob forma de entrevista feita diretamente com os indivíduos com história de AVE (6, 7, 8) e, em
dois estudos, também foram aplicadas aos cuidadores desses indivíduos (6, 7) (Tabela 1).
Guião para Artigo de Revisão
4
Autor (e-mail:xxxxxxx) Ano
Todos os estudos que investigaram a consistência interna da MAL utilizaram o teste estatístico á Cronbach.
Quando aplicada aos indivíduos, o áCronbach da subescala QL da MAL-14 variou de 0,87 a 0,91 e da QT variou de
0,82 a 0,88. Quando aplicada aos cuidadores, foram de 0,82 e 0,95 para QL e QT, respectivamente (7, 8). Para a
MAL-30, a consistência interna foi de 0,94 para ambas as subescalas quando aplicada aos indivíduos e de 0,95
quando aplicada aos cuidadores. Para avaliar a confiabilidade teste-reteste da MAL-14 aplicada aos indivíduos, Van
Der Lee et al. (8) realizaram duas avaliações pré-intervenção, com intervalo de uma semana, e utilizaram o teste
estatístico Bland and Altman. Foram reportados os valores de -0,61 a 0,71 para QL e de -0,70 a 0,85 para QT.
Uswatte et al. (7) também avaliaram a confiabilidade teste-reteste da MAL-14 aplicada aos indivíduos e, além disso,
a confiabilidade quando aplicada aos seus cuidadores, correlacionando os resultados da avaliação pré-intervenção
com os da pós-intervenção pela Correlação de Pearson. Os valores encontrados foram de r=0,91 para a QL e de
r=0,44 para QT, quando aplicada aos indivíduos, e de r=0,50 para QL e r=0,61 para QT, quando aplicada aos
cuidadores. Em um outro estudo (6) que avaliou a confiabilidade teste-reteste das subescalas da MAL-30 aplicadas
aos indivíduos e cuidadores, pelo Coeficiente de Correlação Intraclasse (CCI), considerando avaliações pré e pós-
intervenção em um grupo controle (tratamento convencional), foram relatados valores de CCI=0,82 para QL e
CCI=0,79 para a QT, quando aplicada aos indivíduos, e de CCI=0,72 para QL e CCI=0,66 para QT quando aplicada
aos cuidadores. Os dois estudos que avaliaram a MAL-14 (7, 8) também investigaram a sua responsividade, sendo
que no estudo de Van Der Lee et al. (8) foi determinada a responsividade da QT e QL pela razão entre a média da
diferença de duas avaliações pós-intervenção (uma semana de intervalo) com o desvio padrão da média da diferença
das duas avaliações pré-intervenção. O resultado para a QT foi de 1,9 e para a QL de 2,0, o que foi considerado
adequado. Uswatte et al. (7) determinaram a responsividade por meio de dois estudos. No primeiro, aplicaram a
MAL-14 em indivíduos que participaram da Terapia de Contenção do Membro Superior (TCMS) e nos seus
cuidadores. A responsividade foi calculada pela razão da média da diferença da TCMS com desvio padrão da média
da diferença no grupo controle (exercícios globais) e os valores foram de 4,5 para QL e de 3,2 para QT, considerando
a avaliação dos indivíduos, e 3,0 para QL e 4,3 para QT, considerando a avaliação dos cuidadores. No segundo
estudo, avaliaram a responsividade da QL e QT aplicados aos indivíduos que realizaram Terapia de Contenção
Guião para Artigo de Revisão
5
Autor (e-mail:xxxxxxx) Ano
Automatizada (TCA) por meio da razão da média da diferença do grupo de TCA com desvio padrão da média da
diferença no grupo controle do estudo 1. Os resultados encontrados foram de 5,0 para a QL e 3,8 para a QT. A
estabilidade da escala foi determinada em dois estudos pelo teste t de studentpareado (6, 7). Para QL e QT da MAL-
14 e da MAL-30 aplicada aos indivíduos e seus cuidadores, foram utilizados os dados da avaliação pré e pós-
intervenção do grupo controle. Os valores encontrados para a MAL-14 aplicada aos indivíduos foram de 0,1±0,4 para
QL e de 0,1±0,5 para QT. Quando aplicada aos cuidadores foram de 0,2±0,5 para QL e de 0,1±0,4 para QT. Todos
estes valores encontrados tanto para os indivíduos quanto para os cuidadores não foram estatisticamente
significativos, confirmando a estabilidade do instrumento. Para as subescalas da MAL-30 aplicadas aos indivíduos, os
valores foram de 0,30,5 (p=0,02) para QL e de 0,3±0,6 (p=0,04) para QT, e aplicada aos cuidadores foram de 0,4±0,7
(p=0,02) para QL e 0,4±0,7 (p=0,05) para QT (Tabela 1). Esse valores de pnão foram considerados significativos,
pois, neste estudo, foi realizada correção de Bonferroni devido às múltiplas comparações feitas. Desta forma, foi
confirmada a estabilidade do instrumento, apesar de ter sido relatado que houve uma tendência de mudança. Para a
análise da validade da MAL-14, Van Der Lee et al. (8) realizaram uma avaliação pré-intervenção determinando a
validade de construto transversal entre a QT e a QL e entre a MAL-14 e o teste Action Research Arm (ARA), pela
Correlação de Spearman. Foram relatados resultados de r=0,95 (p=0,001) e r=0,63, (p<0,001), respectivamente. Além
disso, foi investigada a validade de construto longitudinal, também pela Correlação de Spearman,entre a diferença
das avaliações pré e pós-intervenção da MAL-14 com o teste ARA e a Global Change Rating(GCR). Não foi
reportada correlação significativa com a ARA (p=0,16 para QT e QL) nem com a GCR (p=0,20 para QT e p=0,22
para QL)
A validade convergente da MAL-14 foi investigada pelo CCI dos resultados das avaliações pré e pós-
intervenção entre a QL aplicada aos indivíduos e aos cuidadores. A subescala QL apresentou CCI=0,52 (p<0,01) nas
avaliações realizadas na pré-intervenção e CCI=0,70 (p<0,001) na comparação dos dados da última avaliação pré-
intervenção com os dados da avaliação pós-intervenção. Já a validade concorrente da subescala QL com o
acelerômetro foi avaliada pela Correlação de Pearson, tendo resultados de r=0,70 (p<0,05) para as avaliações pré-
intervenção e de r=0,91 (p<0,01) para as avaliações pós-intervenção (7). Na análise da validade convergente das
subescalas da MAL-30 aplicadas aos indivíduos e cuidadores, foi realizada Correlação de Pearsonentre as avaliações
pré-intervenção de QT e QL com o domínio da escala Stroke Impact Scale(SIS) relacionada à função da mão, e entre
QT e QL com a razão da medida do acelerômetro do MS mais afetado com o MS menos afetado (6). A validade
discriminativa entre as subescalas da MAL-30 foi avaliada pelo domínio que mede a mobilidade da escala SIS e a
medida do MS menos afetado do acelerômetro. Os resultados encontrados para a validade convergente com a SIS,
considerando a aplicação da escala nos indivíduos, foram de r=0,72 (p<0,01) para QL e de r=0,68 (p<0,01) para QT;
com o acelerômetro foi de r=0,52 (p<0,01) para QL e de r=0,47 (p<0,01) para QT. A validade discriminativa da QL e
QT com a SIS e acelerômetro foram igualmente de r=0,14 (p<0,01). Para os cuidadores, a validade convergente da
QL com a SIS foi de r=0,40 (p<0,01) e da QT de r=0,35 (p<0,01). Com o acelerômetro foi de r=0,61 (p<0,01) para
QL e de r=0,57 (p<0,01) para QT. A validade discriminativa da QL e QT com a SIS foi de r=0,07 e r=0,10,
respectivamente, valores não significativos, e com o acelerômetro de r=0,23 (p<0,001) e r=0,25 (p<0,001),
respectivamente (Tabela 1).
Discussão e conclusão (titulo/cabeçalho 1)
A discussão é a reflexão sobre os resultados e articulação com o(s) modelo(s)
teóricos e a investigação contemplados na revisão da literatura. A conclusão é a síntese
Guião para Artigo de Revisão
6
Autor (e-mail:xxxxxxx) Ano
das principais conclusões e reflexão global sobre o significado da investigação no que
diz respeito às implicações teóricas e práticas. Resposta à pergunta de partida.
Exemplo de discussão e considerações finais
Apesar do pequeno número de estudos encontrados que investigaram as propriedades psicométricas das versões
da MAL, todas aquelas consideradas fundamentais para qualquer instrumento de avaliação (14,15) foram reportadas e
com um grau positivo de consenso entre os diferentes estudos que investigaram propriedades semelhantes (6, 7, 8).
De acordo com a literatura pesquisada, as versões da MAL apresentaram propriedades psicométricas adequadas para
a avaliação da quantidade e qualidade de uso do MS afetado em indivíduos acometidos pelo AVE. Especificamente, a
MAL-14 e a MAL-30 apresentaram-se internamente consistentes, com adequadas confiabilidade teste-reteste (6, 7,
8), estáveis (6, 7) e válidas (6, 7, 8). Além disso, a MAL-14 também apresentou-se responsiva (7, 8). A consistência
interna refere-se à dimensão com que os itens de um instrumento apresentam homogeneidade ao medir vários
aspectos de um mesmo fenômeno (14, 15). O teste estatístico comumente utilizado e mais indicado para a avaliação
da consistência interna é o á Cronbach (14,15), o qual foi utilizado em todos os dois estudos que investigaram a
consistência interna da MAL-14 e no estudo que investigou a consistência interna da MAL-30. Os valores reportados
para ambas as versões da MAL foram adequados e considerados excelentes quando a escala foi aplicada tanto aos
indivíduos quanto aos cuidadores (6, 7, 8). As versões da MAL também obtiveram adequada confiabilidade teste-
reteste para as subescalas aplicadas aos indivíduos (6, 7, 8) e aos cuidadores (6, 7). No estudo de Uswatte et al. (8), os
valores de confiabilidade das subescalas da MAL-14, apesar de significativos, foram considerados baixos pelos
autores. Entretanto, segundo Salter et al. (14), esses valores de confiabilidade podem ser considerados adequados
dependendo do desfecho que é avaliado, como aqueles relacionados à função, como verificado pela MAL. Esses
desfechos são passíveis de variações, e como dependem da respostas dos indivíduos avaliados, estão sujeitos aos
erros ao acaso, constituindo fatores que podem limitar a estabilidade entre as medidas e, assim, contribuir para uma
menor confiabilidade (14, 15). Outra questão importante de ser considerada ao analisar os resultados deste estudo está
relacionada a suas limitações metodológicas. Os dados empregados nos testes estatísticos foram referentes às
avaliações pré e pós-intervenção, o que não é indicado para avaliar a confiabilidade, pois o grande intervalo de tempo
entre as medidas e a presença de um fator que pode levar à mudança comprometem a estabilidade e,
consequentemente, a confiabilidade. Além disso, o teste estatístico utilizado foi a Correlação de Pearson, que reporta
somente o grau de correlação e não avalia a concordância (15). Se por um lado essas questões limitam conclusões
sobre a confiabilidade da MAL-14, o resultado de outro estudo que também investigou a confiabilidade teste-reteste
deste instrumento permitem que essas conclusões sejam obtidas. A confiabilidade da MAL-14 foi avaliada por
métodos considerados mais adequados, como o teste estatístico Bland and Altman, e as diferenças entre as duas
medidas pré-intervenção apontaram adequada concordância e sem tendências a erros sistemáticos. No estudo de
Uswatte et al. (6), a confiabilidade teste-reteste da MAL-30 foi adequada e com resultados excelentes quando a
mesma foi aplicada aos indivíduos. Neste estudo, o teste estatístico utilizado, o CCI, é frequententemente apontado
como mais adequado, pois avalia a concordância entre as medidas (15). Outro fator que deve ser considerado ao
analisar esses resultados é o maior número de itens da MAL-30 (15), que possivelmente pode estar relacionado com o
aumento da confiabilidade desta versão (6, 15). Outra característica importante que um instrumento deve apresentar
está relacionada à medida da mudança, quando há alteração na condição inicial do indivíduo, relacionada ao desfecho
que o instrumento avalia (14, 15). Na ausência de alteração na condição inicial do indivíduo, espera-se um
comportamento estável do instrumento, e com a variação da sua condição inicial, espera-se uma mudança paralela no
desfecho avaliado (15). Esses dois comportamentos foram observados na MAL (6, 7, 8). A estabilidade na situação
Guião para Artigo de Revisão
7
Autor (e-mail:xxxxxxx) Ano
de ausência de mudança na condição inicial do indivíduo foi observada na MAL-14 (7) e na MAL-30 (6) pela
comparação da diferença entre as médias da pontuação inicial e final em um grupo de indivíduos que não recebeu
nenhum programa de intervenção voltado para recuperação específica da função do MS afetado (6, 7). É importante
destacar que a tendência de aumento na pontuação da MAL-30 observada no estudo de Uswatte et al. (6), a qual não
foi significativa, pode ter ocorrido pela mudança espontânea que geralmente ocorre nos indivíduos após o
acometimento pelo AVE (1), principalmente se considerarmos que havia a possibilidade de aumento do uso do MS
mais afetado após a reabilitação tradicional. Já a responsividade à mudança também foi investigada em dois estudos
que realizaram diferentes programas de intervenções voltados para a recuperação da função do MS afetado (7, 8),
porém ambos utilizaram a MAL-14. Os resultados encontrados foram satisfatórios (7, 8). A validade, propriedade que
está relacionada ao grau no qual as medidas de um instrumento refletem o que ele se intenciona a medir (14, 15),
também foi investigada. Para a avaliação da validade relacionada a critério, que é considerada a mais prática e mais
objetiva dentre os diferentes tipos de validade, espera-se que o teste, ao qual o teste alvo será comparado, seja
considerado padrão ouro (15). Além disso, para a avaliação da validade relacionada a critério do tipo concorrente, as
medidas dos dois testes devem ser tomadas relativamente no mesmo tempo (15). No caso da MAL-14, o instrumento
utilizado como critério para avaliação da sua validade concorrente foi o acelerômetro (7), que permite avaliar de
forma objetiva o uso do MS afetado no dia a dia do indivíduo e apresenta adequadas propriedades psicométricas,
porém, fornece medidas numéricas relacionadas à aceleração (16), as quais são bem diferentes das medidas
fornecidas pela MAL. Apesar disso, a correlação da QL da MAL-14 com o acelerômetro apresentou valores
adequados, pois foi utilizado o teste de Correlação de Pearson, que permite estabelecer apenas a associação entre as
medidas e não uma concordância, uma vez que as mesmas são bastante distintas (15). O outro tipo de validade
investigado para a MAL-14 e a MAL-30 foi a validade de construto, que reflete a capacidade de um instrumento em
medir um fenômeno abstrato ou um construto (15). É um processo de avaliação indicado para instrumentos como a
MAL devido as dificuldades existentes para se correlacionar testes que medem desfechos de função com testes
padrão-ouro, devido a ausência dos mesmos (15). Uma maneira de avaliar a validade de construto de um instrumento
é correlacionando as suas medidas com a de outros testes de construtos semelhantes e, também, de construtos
diferentes, determinando, assim, o que o instrumento mede bem como o que ele não mede. Isso é verificado pela
validade de construto convergente, na qual medidas relacionadas ao mesmo construto irão produzir resultados
altamente correlacionados, e pela discriminativa, na qual são observadas baixas correlações em medidas que avaliam
construtos diferentes (15). No estudo de Van Der Lee et al. (8) houve uma razoável correlação para a validade de
construto transversal da MAL-14 com a ARA e uma correlação sem significância estatística entre as mudanças da
pontuação da MAL pré e pós-intervenção com as mudanças na ARA e no GCR. Uswatte et al. (7)discutem os
resultados encontrados, visto que a MAL e a ARA avaliam construtos diferentes, sendo a ARA uma medida de
habilidade motora e a MAL de uso espontâneo do MS mais afetado nas AVD’s em domicílio. Em relação à MAL e à
GCR, ambas são escalas de percepção do indivíduo, mas a MAL avalia como e quanto os indivíduos usam seu MS
em AVD’s e a GCR avalia a percepção de melhora do seu MS, dificultando a comparação dos resultados (7). Além
disso, o uso de avaliações globais retrospectivas, como a GCR, não têm sido consideradas como válidas (17). Em um
estudo realizado por Dromerick et al. (18) para avaliar a relação entre a limitação motora e uso dos MMSS nas
AVD’s reportada pelos indivíduos com história de AVE, também foi enfatizada a diferença nos desfechos avaliados
pela MAL e a ARA. No estudo de Uswatte et al. (7) a validade convergente da subescala QL da MAL-14 aplicada
aos indivíduos foi estabelecida. A pontuação da mudança dessa escala demonstrou forte correlação e concordância
com as medidas da QL aplicada aos cuidadores. Da mesma forma foi demonstrado que as subescalas da MAL-30
aplicadas, tanto nos indivíduos com história de AVE quanto nos seus cuidadores, apresentam validade convergente e
discriminativa quando comparada com a SIS e o acelerômetro (6). Assim como o acelerômetro, a escala SIS
Guião para Artigo de Revisão
8
Autor (e-mail:xxxxxxx) Ano
apresenta adequadas propriedades psicométricas (19), e a MAL-30 demonstrou adequada correlação com o domínio
que avalia a função da mão, ao contrário quando comparada com o domínio de mobilidade (6). Além dos resultados
positivos sobre as propriedades psicométricas da MAL e consenso observado nos três estudos incluídos nesta revisão
é importante destacar que esses resultados também foram avaliados quando o instrumento foi aplicado aos cuidadores
dos indivíduos com história de AVE (6, 7). O instrumento desenvolvido apenas para ser aplicado sob a forma de
entrevista com o indivíduo pode ter a sua aplicabilidade limitada, uma vez que indivíduos com história de AVE
podem apresentar sérios problemas cognitivos ou de comunicação (7, 13, 14). As evidências existentes sobre
adequadas propriedades psicométricas, quando as subescalas foram aplicadas aos cuidadores (6, 7), apontam para a
possibilidade do seu uso nesses casos específicos, ampliando, assim, a aplicabilidade da MAL. Além disso, Uswatte
et al. (11) reiteram a aplicabilidade da MAL para avaliar especificamente o uso espontâneo do MS afetado nas
AVD’s, o que não pode ser analisado por medidas específicas de estrutura e função do corpo e/ou medidas globais de
atividade e/ou participação. E, como apontado por vários estudos (6, 7, 8), o comprometimento motor do MS mais
afetado não implica necessariamente em alteração do seu uso nas AVD’s. Muitas vezes, a limitação do uso do MS
afetado pode estar associado a outros fatores como o “aprendizado do não uso”(11). Com base nos resultados do
presente estudo, a MAL-14 e a MAL-30 demonstraram ser instrumentos internamente consistentes, confiáveis e com
adequada validade concorrente, de construto transversal, convergente e discriminativa para avaliação do uso do MS
mais afetado nas AVD’s em indivíduos com história de AVE. Além disso, a responsividade, investigada apenas para
a MAL-14, também foi observada. Considerando o desfecho que o instrumento avalia, a importância do mesmo para
a população a qual se destina e, principalmente, para os profissionais da reabilitação, as adequadas propriedades
psicométricas já estabelecidas para a MAL e as vantagens associadas à adaptação transcultural de instrumentos, é
necessário o desenvolvimento de estudos para a adaptação transcultural para a Língua Portuguesa (Brasil), assim
como para a validação da MAL nessa população, para que a mesma possa ser utilizada nos indivíduos brasileiros.
Bibliografia (titulo/cabeçalho 1)
Lista de referências bibliográficas segundo uma ordem específica e que contem
elementos descritivos de documentos, que permitem a sua identificação. Seguir as
normas mais recentes da APA (www.apa.org). Aconselho a utilização do Mendeley
desktop
Livro:
Saliba, V. A., Penaforte, I., Júnior, C., Danielli, C., Morais, C. De, & Teixeira-salmela,
L. F. (2008). propriedades psicométricas da Motor Activity Log : uma revisão
sistemática da literatura. Fisioterapia em Movimento, 21(3), 59–67. Retrieved from
http://www2.pucpr.br/reol/index.php/RFM?dd1=2066&dd99=view
Artigo em revista/ jornal científico sem doi
Guião para Artigo de Revisão
9
Autor (e-mail:xxxxxxx) Ano
Pocinho, M., Farate, C., & Dias, C. A. (2010). Validação Psicométrica da Escala UCLA-
Loneliness para Idosos Portugueses. Interações: sociedade e novas modernidades, (18), 65–77.
Artigo em revista/ jornal científico com doi
Pocinho, M. T. S., Farate, C., Dias, C. a., Lee, T. T., & Yesavage, J. a. (2009). Clinical and
Psychometric Validation of the Geriatric Depression Scale (GDS) for Portuguese Elders.
Clinical Gerontologist, 32(2), 223–236. doi:10.1080/07317110802678680
Poster em proceedings book
Ponciano, E., Pocinho, M., Moita, E., Monteiro, H., & Indmarch, I. (2006). Effects of
Fluvoxamine, Fluoxetine and Placebo on Psychomotor Performance in Healthy
Volunteers. ICPE (p. 45).
Teses em biblioteca de universidade não disponível online
Pocinho, M. T. S. (2000). Peso, insatisfação corporal, dietas e patologia alimentar: um
contributo para a sua compreensão. Dissertação de Mestrado apresentada ao Instituto
Superior Miguel Torga .
Teses em repositório
Saliba, V. A., Penaforte, I., Júnior, C., Danielli, C., Morais, C. De, & Teixeira-salmela, L. F.
(2008). propriedades psicométricas da Motor Activity Log : uma revisão sistemática da
literatura. Fisioterapia em Movimento, 21(3), 59–67. Retrieved from
http://www2.pucpr.br/reol/index.php/RFM?dd1=2066&dd99=view
Documentos em páginas web
Pocinho, Margarida. (2009). Estatistica: teoria e exercicios passo a passo. Volume I. ISMT.
Retrieved January 1, 2010, from http://docentes.ismt.pt/~m_pocinho/Sebenta_estatistica
I.pdf
Guião para apresentação das características psicométricas de uma escala
10
TRABALHO PRÁTICO 1. RECOLHA DE DADOS PARA VALIDAÇÃO DA ESCALA QUE ESCOLHEU E ELABORAÇÃO DE
UMA BASE DE DADOS COM OS INQUÉRITOS QUE ADMINISTROU.
2. ANÁLISE PSICOMÉTRICA
FOLHA INICIAL: IDENTIFICAÇÃO DO/A ALUNO/A
CONTEÚDO – ESTRUTURAR DE ACORDO COM OS PONTOS SEGUINTES:
1) Nível/escala de medida das variáveis:
Apresente a classificação de todas as variáveis que introduziu na base de dados, justificando o nível de
medida de cada uma delas.
2) Preparação das variáveis para as análises definitivas
Calcule com recurso ao menu transform os scores da escala
Se aplicável, recodificar as variável de acordo com os pontos de corte
3) Estatísticas descritivas
Determine as medidas de tendência central e de dispersão que considerar indicadas e interprete os
resultados
Determine correlações entre os itens e interprete os resultados
4) Análise psicométrica
Calcule a consistência interna
Calcule a consistência temporal.
Calcule a consistência inter juízes
Estude a dimensionalidade
Apresente os resultados psicométricos e interprete-os de forma adequada
Guião para apresentação das características psicométricas de uma escala
11
5) Elaboração da apresentação
Titulo
Equipa de investigação
Enquadramento
Apresentar da Escala
A escala …..
Referencial teórico e mapa do construto
Trajetória de desenvolvimento
DOMINIOS
Desenvolvimento e revisão de itens
Estrutura do e conteúdo da escala
Pré-testes, estudo-piloto e aplicação da escala …..
Propriedades psicométricas avaliadas
Validade dimensional – análise fatorial exploratória
Validade de construto – comparações de grupos extremos
e teste de associação com construtos correlacionados
Consistência interna e confiabilidade teste-reteste
Coeficiente alfa de Cronbach, r, rho ou Kappa ponderado
Resultados preliminares
Limitações
Referências
Exercícios praticos
12
Módulo prático
Utilize sua base de dados e no SPSS faça as análises que considerar necessárias à para dar resposta as perguntas que se seguem e passe a informação para esta folha:
Qual o valor de KMO da escala? ______________________________
O que significa _________________________________________________________
_____________________________________________________________________
Qual o resultado do Bartlett test e o que significa _____________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
O que mostra a análise das componentes principais com rotação varimax?
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
Exercícios praticos
13
E os eigenvalues?
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
_____________________________________________________________________
Exercícios teoricos
14
1. O Psicólogo psicometrista possui, no seu âmbito de actuação e formação, características que lhe permitem manusear os testes psicológicos de acordo com alguns critérios básicos. Quais são
V F a) Um curso superior b) Fidedignidade c) Validade d) Padronização e) Médias f) Avaliação psicológica
2. A psicometria é uma metodologia Quantitativa que por sua vez é conjunto de métodos que apela para procedimentos matemáticos, mesmo no estudo dos fenómenos sociais e humanos, cujo objectivo primordial é
V F a) Estudo dos fenómenos sociais b) Estudo dos fenómenos psicológicos c) Estudo dos fenómenos humanos d) Matemática
e) Cálculo
f) Análise factorial
3. Como se chama a técnica para se reduzir o número de variáveis de uma base de dados, identificando o padrão de correlações ou de covariância entre elas e gerando um número menor de novas variáveis latentes, não observadas, calculadas a partir dos dados brutos
V F a) R de pearson b) Análise das componentes principais c) Análise factorial d) Análise de clusters
Exercícios teoricos
15
e) Alfa de cronbach f) Matriz anti-imagem
4. Para que serve um KMO
V F a) Para simbolizar Kaiser-Meyer-Olkin b) Medida de covariância c) Medida de fidedignidade d) Medida de adequação da análise fatorial e) Medida de adequação da amostra f) Para simbolizar Kruskal-Macnemar-Order
5. Para que serve o Bartlett test
V F a) Para saber em quantas dimensões se divide um
teste
b) É uma matriz de correlação c) Avaliar se a matriz de correlação da população
é uma matriz de identidade
d) Examinar a hipótese de que as variáveis não
estão correlacionadas na população.
e) Para avaliar a consistência temporal f) Para avaliar o tamanho da matriz
6. Numa consistência interna obteve um alfa foi 0,083. O que pode suscitar este resultado?
V F a) Consistência interna muito boa b) Consistência interna boa c) Consistência interna razoável d) Consistência interna fraca
Exercícios teoricos
16
e) Consistência interna inadmissível f) Consistência interna muito boa
7. Quais as fases que envolvem a construção de um teste psicológico em psicometria
V F a) Construção dos itens b) Estudo da consistência interna c) Redução dos itens d) Padronização e) Aferição f) Validação
8. Dos métodos que se seguem, quais são os psicométricos
V F a) Teste reteste b) Alfa de Cronbach c) Consistência interna d) Correlação e) Metade-metade guttman f) Kuder-Richardson
9. No estudo da dimensionalidade, que método de rotação devo utilizar quando desejo encontrar factores independentes
V F a) Promax b) rotação oblíqua c) Rotação ortogonal varimax promax
Exercícios teoricos
17
d) direct oblimin e) guttman f) split-half
10. Quais os passos, no SPSS, que deve utilizar para proceder a uma análise factorial
V F a) Analyse/data redution/ factor b) Pedir KMO c) Pedir o teste Barttlet d) Pedir a matriz anti-imagem e) Pedir o alfa de Cronbach f) Pedir matriz de correlações
11. Quais os passos que deve utilizar para verificar se o instrumento tem consistência interna
V F a) Analyse/ scale/ reliability b) Inversão dos itens se houver itens invertidos c) Analyse/data redution/ factor d) Pedir o teste Barttlet e) Pedir a matriz anti-imagem f) Pedir o alfa de Cronbach
12. Quais os passos que deve utilizar para verificar se o instrumento tem consistência temporal
V F
Exercícios teoricos
18
a) Analyse/ scale/ reliability/split-half b) Pedir a matriz anti-imagem c) Pedir o alfa de cronbach d) Analyse/ Compare means/pair sample t test e) Analyse/data redution/ factor f) Passar o teste duas vezes ao mesmo sujeito
13. Quais os passos que deve utilizar para verificar se o instrumento tem consistência interjuizes
V F a) Analyse/ scale/ reliability/split-half b) Pedir a matriz anti-imagem c) Pedir o alfa de cronbach d) Analyse/ Compare means/pair sample t test e) Analyse/data redution/ factor f) Passar o teste duas vezes ao mesmo sujeito
Exercícios teoricos
19