Estatistica I

29
Programa Introdução; Linguagem Básica da Estatistica e Metodos Quantitativos de Analise dos Dados (Statistics Applied to Psychology); Estatistica e Investigacao Cientifica; Historia da Estatistica e Analise Quantitiva em Psicologia; Estatistica Descritiva e Analise Exploratoria; Tecnicas de Apresentacao de Dados; Tabelas de Frequencia e Dados Associados; Medidas de Tendencia Central; Medidades de Variabilidade ou de Dipersão; Medidades de Assimetria e de Curtose/Achatamento; Medidades de Posicao Relativa: Quartis, Decis, Centis, e Resultados z e T; Estatistica Inferencial; Conceitos Básicos de Porabilididade; Distribuições de Amostragem e Testes de Hipóteses Estatisticos; Testes de Hipóteses Aplicados à medias, uma amostra, 2 relacionadas, 2 independentes; Testes de Hipóteses Estatisticos Não-Paramétricos ou de Destribuição Livre (ordinais); Qui- Quadrado e Proporções. Introduzindo SPSS; Iniciar sessão de trabalho com SPSS; Usar ficheiro de dados no SPSS; Introduzir variáveis e dados no SPSS; Produzir e Interpretar Tabelas de Frequências; Produzir Representações Gráficas; Calcular e Interpretar Estatísticas Descritivas; Produir Relatório de Métodos Quantitativos; Trabalhar com os procedimentos do Meno Analyse do SPSS; Procedimentos Usando o Teste t de Student: uma amostra, 2 amostras relacionadas, e 2 independetnes; Procedimentos Usando Testes não-paramétricos: Teste de Wilcoxon, e teste U de Mann- Whitney; Procedimentos usando testes não paramétricos: O Teste Qui-Quadrado. Aula Teórica I: Eis o processo de investigação, segundo Bryman e Cramer: Primeiro, forma-se a teoria, que é a fundamentação teórica; o início do processo de investigação, a formulação dos conceitos explicativos para os fenómenos empiricamente observados (ou seja, a conceptualização teórica da

description

My take on my Statistics subject taught at University of Coimbra, Portugal

Transcript of Estatistica I

Page 1: Estatistica I

Programa

Introdução; Linguagem Básica da Estatistica e Metodos Quantitativos de Analise dos Dados (Statistics Applied to Psychology); Estatistica e Investigacao Cientifica; Historia da Estatistica e Analise Quantitiva em Psicologia; Estatistica Descritiva e Analise Exploratoria; Tecnicas de Apresentacao de Dados; Tabelas de Frequencia e Dados Associados; Medidas de Tendencia Central; Medidades de Variabilidade ou de Dipersão; Medidades de Assimetria e de Curtose/Achatamento; Medidades de Posicao Relativa: Quartis, Decis, Centis, e Resultados z e T; Estatistica Inferencial; Conceitos Básicos de Porabilididade; Distribuições de Amostragem e Testes de Hipóteses Estatisticos; Testes de Hipóteses Aplicados à medias, uma amostra, 2 relacionadas, 2 independentes; Testes de Hipóteses Estatisticos Não-Paramétricos ou de Destribuição Livre (ordinais); Qui-Quadrado e Proporções.

Introduzindo SPSS; Iniciar sessão de trabalho com SPSS; Usar ficheiro de dados no SPSS; Introduzir variáveis e dados no SPSS; Produzir e Interpretar Tabelas de Frequências; Produzir Representações Gráficas; Calcular e Interpretar Estatísticas Descritivas; Produir Relatório de Métodos Quantitativos; Trabalhar com os procedimentos do Meno Analyse do SPSS; Procedimentos Usando o Teste t de Student: uma amostra, 2 amostras relacionadas, e 2 independetnes; Procedimentos Usando Testes não-paramétricos: Teste de Wilcoxon, e teste U de Mann-Whitney; Procedimentos usando testes não paramétricos: O Teste Qui-Quadrado.

Aula Teórica I:

Eis o processo de investigação, segundo Bryman e Cramer: Primeiro, forma-se a teoria, que é a fundamentação teórica; o início do processo de investigação, a formulação dos conceitos explicativos para os fenómenos empiricamente observados (ou seja, a conceptualização teórica da evidência empírica – uma experiência que se apoia somente em experiências vividas). É aquilo que queremos comprovar.

De seguida, formulam-se as hipóteses, que são a formulação das profecias relativas a facetas limitadas da teoria, que, sendo confirmadas, a suportam. São os ensaios de resposta às questões da investigação; tentativas de explicação das relações existentes entre as variáveis em estudo. A formulação de hipóteses tem um lado positivo, pois forçam o pensamento sistemático e organizado acerca do que se quer estudar e a estruturação do plano de investigação em conformidade, mas por outro lado podem fazer divergir a atenção do investigador para longe de outras facetas interessantes que possam caraterizar os dados recolhidos.

Page 2: Estatistica I

Um exemplo de uma teoria seria a teoria do controlo da delinquência juvenil, e o exemplo de uma hipótese seria “crianças de sociedades convencionais tendem a envolver-se menos em atos de delinquência que crianças de sociedades não-convencionais”.

Vamos realçar esta diferença: uma hipótese é uma especulação, uma previsão sobre determinado fenómeno empírico e como ele se comporta. Deve ser testada, normalmente através de experiências. Uma teoria, por outro lado, é uma explicação bem fundamentada que descreve eventos empíricos. Envolve factos, leis (a generalização de um conjunto de observações para as quais nenhuma excepção tem sido encontrada) e hipóteses já testadas. Contudo, isso não a impede de poder ser derrubada com o passar dos anos.

Tendo a teoria e a hipótese, segue-se a operacionalização de conceitos, ou seja, o desenvolvimento de medidas dos conceitos para a validação das hipóteses. Os conceitos são traduzidos em variáveis, ou seja, em atributos em que os objectos (sujeitos, firmas, nações, etc.) diferem. Por exemplo, a adesão à sociedade convencional [questionário sobre perceções dos jovens face à escola] e o grau de delinquência [nº de atos delinquentes reportados pelos jovens].

Então, há a seleção de sujeitos relevantes a quem é administrado o instrumento concebido para a investigação (inquérito, questionário, entrevista, etc.). Por exemplo, 5500 jovens em idade escolar de Berkley, Califórnia. Como é impossível estudar a população, estudamos uma amostra suficientemente grande que achamos representá-la. Também há uma aleatorização desta amostra, ou seja, há um compromisso com a produção de conclusões que possam ser generalizadas a outros participantes com caracteristicas semelhantes aos sujeitos do estudo. Portanto, esta amostra deve ser representativa do grupo alargado de sujeitos que a investigação estuda. A estatística inferencial permite demonstrar a probabilidade dos resultados derivados de uma amostra poderem vir a ser verificados na população em que esta se extraiu.

Page 3: Estatistica I

Agora vem a etapa do plano de investigação, que pode ser experimental, caso se procure uma relação de casualidade (VI/VD), e que tem dois grupos de sujeitos, o GE, sujeitos alvo do tratamento experimental, e o GC, participantes que servem como termo de comparação com o grupo de participantes do GE. Também pode ser correlacional, caso não haja manipulação das variáveis de interesse, e haja uma recolha simultânea de dados relativos a todas as variáveis. Esta fase determina e informa várias fases do processo de investigação, tendo implicações nos tipos de tratamento estatístico que pode ser aplicado aos dados.

Segue-se a recolha de dados, seja através de entrevista, observação, questionário, etc. Depois vem a análise dos dados, que pode ser univariada (descrição/caracterização/sumariação; distribuição de frequências; medidas de tendência central; medidas de dispersão), bivariada (relação entre duas variáveis – diferenças/associação; amostras independentes/emparelhadas; técnicas paramétricas/não-paramétricas – ou seja, se formulam diversas hipóteses sobre a natureza da população, ou não, respetivamente), ou multivariadas (relação entre 3 ou + variáveis).

Por fim, tiram-se as conclusões, que podem confirmar as validando a teoria (replicação/ramificação), ou refutá-las, infirmando a teoria, e fazendo com que esta requeira revisão/refinamento.

História

A Estatistica tem uma longa e diversificada história com mais de 6000 anos. Já na antiguidade, como no Egipto, era usada para sumariar a dimensão das colheitas, de modo a fixar taxas sobre o preço dos cereais. Atualmente, a Estatística e as suas produções – as estatísticas – são um aspeto aceite em todas as sociedades (estatística sobre o emprego, acidentes, etc.).

A palavra Estatística no sentido apresentado refere-se à recolha de informação quantitativa e aos métodos de tratamento desses dados.

Page 4: Estatistica I

Vejamos o caso da probabilidade, cuja teoria, durante séculos, esteve ao serviço dos jogos de azar.

Pierre Fermat (1601-1665) era um matemático que trocou correspondência com Pascal (1623 – 1662) acerca de um conjunto de questões formuladas por Gombauld, um jogador compulsivo, em relação a problemas frequentes nos jogos de azar. Desta amizado resultaram alguns dos fundamentos da teoria da probabilidade e álgebra combinatória.

Christian Huygens (1629 – 1695) publicou o tratado “On Reasoning With Games of Dice”.

Jacques Bernoulli (1654 – 1705) publicou o livro “The Art of Conjecture”, no qual desenvolve uma teoria dos jogos de azar.

Abraham Moivre (1667 – 1754) publica, em Londres, “The Doctrine of Chances or a Method of Calculating the Probabilities of Events in Play”, onde demonstra a aproximação binomial à normal.

Pierre Laplace (1749 – 1829) deriva a função associada à curva suavizada, hoje conhecida como normal, e mostra que a Lei do Erro pode ser aplicada a problemas distintos

Carl Gauss (1777 - 1855) desenvolveu uma função matemática, posteriormente conhecida como Distribuição de Laplace-Gauss, que demonstra a sua utilidade a racionalização das observações recolhidas nos inquéritos geodésicos efetuados a pedido do governo Holandês e Dinamarquês.

Quetelet (1796 – 1874) era um astrónomo belga, que mostrou como a Lei do Erro se pode generalizar a muitos campos, inclusive ao das caracteristicas humanas.

Já no ramo da estatística moderna, temos:

Francis Galton (1822 – 1911) foi responsável pelo desenvolvimento e aplicação de métodos estatísticos na área da genética e da psicologia.

Karl Pearson (1857 – 1936) contribuiu monumentalmente para o desenvolvimento da Estatística, publicando 30 trabalhos originais

Page 5: Estatistica I

sobre métodos estatísticos entre 1893 e 1901, sendo responsável pelo desenvolvimento matemático de técnicas estatísticas, de correlação e de regreção, entre outras.

Ronald Fisher (1890 – 1962) foi um estatístico aplicado, com contributos enormes para técnicas como a análise variância (ANOVA), bem como no campo da metodologia da investigação científica, publicando 2 obras de referência internacional: “The Design of Experiments”, em 35, e “Statistical Methods for Research Workers” (1925).

A partir da década de 60 começaram a surgir programas informáticos bastante complexos, capazes de realizar cálculo cientifico. Das variadas propostas de software estatístico, destacou-se o SPSS (Statistical Package for the Social Sciences) que foi comercializado pela 1ª vez em 65, constituindo um dos programas mais conhecidos e usados. Outros programas informáticos de cálculo estatístico frequentemente referidos incluem o BMDP (Biomedical Computer Programs), o SAS (Statistical Analysis System), Minitab, o Systat, e a Statistica.

Vamos agora rever alguma terminologia básica. A Estatística é a ciência que recolhe, organiza, e analisa os dados de uma amostra extraída aleatoriamente de uma população para, a partir da caracterização exaustiva dessa distribuição de dados amostrais, e recorrendo ao cálculo de probabilidades, realizar inferências acerca da população da qual se pressupõe que a amostra representa.

A população é o conjunto de objectos, existentes ou possíveis, que verificam uma função bem especifica. Um objecto é qualquer pessoa, animal, coisa, instituição, etc. Uma amostra é qualquer subconjunto duma população, referenciando-se sempre a uma população da qual é parte integrante.

Um parâmetro é toda a função definida sobre os valores numéricos de uma população. A estatística é toda a função definida sobre os valores numéricos de uma amostra.

Page 6: Estatistica I

Uma constante é uma medida invariante, que assume o mesmo valor para todas as unidades de análise num determinado contexto. Por outro lado, uma variável é uma propriedade de um objeto ou acontecimento que pode assumir valores diferentes; a compreensão da variabilidade subjacente à variável requer a necessidade de medir e/ou registar as alterações ocorridas em cada situação.

Uma variável pode ser qualitativa se a sua amplitude (a diferença máxima observada) consiste em categorias exaustivas e mutuamente exclusivas que representam atributos ou caracteristicas não-quantitativas. Se assim for, a variável pode ser não ordenada se as categorias não sugerirem ordem ou posto, ou ordenada, se sugerirem.

A variável também pode ser quantitativa se a sua amplitude consistir numa contagem ou numa mensuração numérica de uma característica. Se assim for, a variável pode ser discreta, se o número de valores for finito ou infinito mas contável, ou contínua se o número de valores for infinito e não contável.

A Estatística divide-se em 2 ramos: estatística descritiva, que recolhe, organiza, sumariza, e analisa os dados, e estatística inferencial, que procura a verificação de inferências acerca da população (dos seus parâmetros, da sua distribuição, etc.), a partir do conhecimento das correspondentes estatísticas amostrais.

Vamos agora estudar a mensuração, que é a atribuição de números aos objetos seguindo certas regras, resumidas numa só: aceitar apenas como relações validas aquelas que sejam empiricamente verificáveis entre as modalidades correspondentes aos objectos (indicadores/constructos).

Os indicadores são manifestos, podendo ser medidos, e dão acesso aos constructos, que são latentes, não podendo ser medidos de forma direta, e estes, por sua vez, representam os conceitos, teóricos. Estes, como se referem à definição teórica dos constructos, não envolvem uma perspectiva de mensuração.

Por nível/escala de medida nominal, entende-se que os números sejam usados para nomear, identificar, ou classificar. Os símbolos

Page 7: Estatistica I

são apenas rótulos para classes mutuamente exclusivas e exaustivas, tendo apenas a propriedade de diferenciação, ou seja, só é empiricamente verificável a relação de igualdade-desigualdade.

Aqui, as transformações apropriadas são qualquer substituição de um para um. A limitação são os processos aritméticos permitidos; apenas a contagem e técnicas estatísticas baseadas nesta. Exemplos seriam números de telefone, género, raça, e tipos de personalidade.

Por outro lado, no nível/escala de medida ordinal, os números indicam colocação ou ordem. Os símbolos ordenados, geralmente números, indicam a posição de classes equivalentes, possuindo a propriedade de diferenciação e de ordem, mas as diferenças entre eles não informam acerca das diferenças de magnitude entre as classes.

Aqui, as transformações apropriadas incluem qualquer trasofrmação do tipo monotómico, e as limitações, processos aritméticos permitidos, como a contagem e classificação, e técnicas estatísticas, não só baeadas na contagem, como em métodos de classificação e outras baseadas em interpretações de “maior/menor do que”. Exemplos incluem postos militares, classe social, classificação de atraso mental.

No nível/escala de medida intervalar os intervalos ou distâncias entre cada número e o seguinte são iguais, desconhecendo-se a que distância cada um está do zero. Esta igualdade de diferenças reflete igual magnitude entre as classes, mas a origem da classe é determinada arbitrariamente; os números têm a propriedade de diferenciação, ordem, e equivalência de intervalos.

Aqui, as transformações apropriadas são aquelas de tipo linear, ou sea, Y = a + bX. A limitação inclui os processos aritméticos permitidos, ou seja, a multiplicação e a divisão, não permitindo contagem, classificação, +/-, e também permite as técnicas estatísticas baseadas na contagem. Exemplos incluem as escalas de temperatura, e a altitude.

Page 8: Estatistica I

Por fim, no nível/escala de medida Proporcional ou de razão, cada número pode ser concebido como uma distância medida a partir do zero, e são aplicáveis todas as propriedades das escalas de intervalo (a diferenciação, a ordem, a equivalência de intervalos) e a origem da escala reflete a ausência da carateristica medida.

As transformações apropriadas são a multiplicação por uma constante positiva. Todos os processos aritméticos, todas as operações aritméticas, e todas as técnicas estatísticas são permitidos. Como exemplos, temos a altura e o peso.

Aula 2Vamos estudar as medidas de tendência central. Acontece que a descrição de uma distribuição de dados inclui, quase sempre, uma medida ao centro.

A média aritmética, ou simplesmente média, é a mais comum das medidas do centro de uma distribuição. Denotando-se n observações por x1, x2… xn, a respetiva média é: (x1+x2+…+xn) / n. É muito útil para comparar populações ou descrever a evolução duma variável ao longo do tempo, mas é pouco fiável como medida do centro caso a população não seja homogénea (ou seja, haja extremos).

A média aritmética ponderada, ou pesada, ou combinada, calcula-se quando, ao descrever uma distribuição, é necessário atribuir um peso distinto às diferentes observações. Denotando-se os respetivos pesos por p1, p2, …, pn, esta é dada por: (p1x1 + p2x2 + … pnxn) / (p1 + p2 + … pn).

Frequentemente, sobretudo quando são usados dados secundários (que não foram obtidos pelo investigador), este depara-se com observações agrupadas (ou seja, em séries e em classes). Aqui, a fórmula habitual da média não pode ser usada para calcular o centro da distribuição. Contudo, tendo acesso aos valores xi da variável e às respetivas frequências, pode-se fazer (Efixi) / n, onde fi = frequência absoluta, e n = somatório de fi.

Page 9: Estatistica I

A média aritmética truncada, ou aparada, controla o problema que a média aritmética tem face distribuições heterogéneas, eliminando os valores mais extremos da distribuição, e calculando a média usando os restantes, indicando sempre a percentagem dos valores aparados/usados. No SPSS o procedimento Explore, na opção Descriptive Statistics relativas ao menu Analize, produz a média aparada a 5%, ou seja, a computação ignora os 5% de dados mais afastados do centro da distribuição, calculando a média para os restantes registos.

A mediana também se trata duma medida de tendência central, dita de posição, e a determinação do seu valor requer, em primeiro lugar, uma ordenação de todas observações (n). Então, sendo n par, a mediana coincide com o valor da observação no centro da lista ordenada; a sua posição é calculada contando (n+1) / 2 a partir de qualquer extremo da lista. Sendo n impar, o valor da Mdn obtém-se através do cálculo da média aritmética dos valores relativos às 2 observações centrais da lista ordenada, respetivamente Pmdn1 = n /2 e Pmdn2 = (n / 2) + 1-

A moda é outra medida de tendência central, que caracteriza a modalidade ou modalidades, em caso de igualdade, cujo efectivo é maior; ou seja, é a modalidade ou registo da variável estudada com maior frequência.

Vamos agora ver as medidas de dispersão ou de variabilidade e começamos com a amplitude total. Obtém-se calculando a diferença entre o valor x máximo e o valor x mínimo observado na distribuição cuja caracterização se procura: A = xmax – xmin. Em alguns casos, pode-se recorrer a xmax – xmin +1.

A amplitude decílica obtem-se calculando a diferença entre os valores que corresponde ao 9º decil, D9, e ao primeiro, D1, incluindo 80% dos registos centrais da distribuição, 40% à direita e à esquerda da mediana. Esta medida de variabilidade não é afetada pela presença de um número moderado de valores extremos, e por isso usa-se com distribuições assimétricas.

A amplitude interquartílica também é conhecida por amplitude interquartis (Q) através do cálculo da diferença entre os valores

Page 10: Estatistica I

correspondentes a Q3 e Q1, ou seja: Q = Q3 – Q1. Q3 é o valor que tem abaixo de si 75% das observações, e 25% acima; Q1 separa 25% das 75% restantes. Há quem prefira usar uma mediana próxima de Q, a chamada Amplitude Semi-Interquartílcia, ou ASI: (Q3-Q1) / 2.

Então temos a variância e o desvio padrão que medem a dispersão tomando em consideração o grau de afastamento das observações em relação à respetiva média.

A variância (s2 ) para um conjunto de observações, é a média dos quadrados dos desvios dos registos dana viariável relativamente à media dos valores observados. Ou seja, a variância de n observações xn é dada por s2 = [(x1 – média)2 + (x2 – média)2 + … + (xn – média)2] / (n – 1).

O desvio padrão (s) é, portanto, a raiz quadrada da variância.

O coeficiente de variação é a estratégia mais simples para comparar a dispersão/variabilidade, em termos de desvio padrão, de medidas cujas médias são diferentes, escalando o desvio padrão em razão à magnitude da média: CV = sx / x. Na sua utilização, importa ter em consideração a natureza da variável a ser medida.

Vamos agora ver as medidas da forma, que descrevem a forma geral da distribuição, tendo em consideração 2 caracteristicas adicionais:

1. A simetria: Uma distribuição de dados é simétrica se a sua média divide o histrograma em 2 metades, onde uma é o espelha da outra, o que ocorre numa distribuição normal. Caso não ocorra, a distribuição é assimétrica, ou seja, um dos lados do gráfico é mais alongado que o outro; é assimétrica positiva se o alongamento tendo a ocorrer no lado direito, e negativa caso ocorra predominantemente no esquerdo. Uma curva normal tem assimetria de 0. Se a simetria superar +- 1.0, a forma da distribuição afasta-se substancialmente de uma curva normal.Há diferentes indicadores que podem ser calculados como medidades de assimetria. Temos o primeiro coeficiente de

Page 11: Estatistica I

assimetria de Pearson, onde As1 = (média – M0) / Sx. E

também há o coeficiente de assimetria de Kelley, centílico: Asq

= (Q3+Q1 – 2Mdn) / Q3 – Q1. Também há o coeficiente de assimetria baseado nos momentos, que o SPSS calcula assim: g1 = {n / [(n – 1)(n – 2)]} * E[(x – média) / (Sx)]3, onde Sx é o desvio padrão calculado com n-1 no denominador (parte de cima).

2. A curtose é uma medida do grau de achatamento e afunilamento da curva que descreve a distribuição, e o seu valor informa se a curva tende a ser afunilada (ou seja, com uma elevada proporção de dados aglomerados junto ao centro) ou achatada (com os dados a espalharem-se ao longo duma grande amplitude). Numa curva normal, a curtose = 0. Um valor positivo indica que os dados se concentram no centro da distribuição, e devido a isso esta apresenta uma forte elevação nesse local (distribuição leptocúrtica). Um valor negativo indica que os dados se dispersam ao longo da distribuição, e esta, por essa razão, se revela mais achatada que a curva normal (distribuição platicúrtica). Por não ser afunilada nem plana, a curva normal diz-se mesocúrtica. Valores superiores a +-1 indicam que a curva não é mesocúrtica, não seguindo de perto uma distribuição adequadamente normal.Eis o coeficiente de curtose cientílico: C = (Q3 – Q1) / [2(C90 – C10)].

As representa as medidas de assimetria, e g2 a curtose. As > 0 = assimetria positiva ou à direita; =0 = simetria perfeita, <0 = assimetria negativa ou à esquerda. G2 > 0 = leptocúrtica, C < 0.263; g2 = 0 = mesocúrtica, G = .263; g2 < 0 = platicúrtica, C > .263

Agora vamos ver as medidas de posição, geralmente designadas em quartis, e que preferencialmente são usadas para variáveis quantitativas, medidas no nível intervalar/razão, embora também possam ser usadas no nível ordinal. São um modo de determinar como é que um registo individual se compara com os restantes.

Page 12: Estatistica I

Um quartil é a medida mais simples; ordenados os dados de forma ascendente de acordo com a sua magnitude, os quartis dividem a população em 4 grupos iguais: 52% tem um resultado menor ou igual ao primeiro quartil, Q1, 50% menor ou igual a Q2, e 75% inferior a Q3. A mediana, por definição, é o 2º quartil. Um decil é definido de modo semelhante, mas divide a população em 10 grupos iguais. Já o percentil divide os dados ordenados em função do seu tamanho em 100 grupos iguais.

Tudo o que acabámos de ver referia-se a variáveis quantitativas. O que acontece com as qualitativas? Nestas, a moda carateriza o mesmo que caracterizava anteriormente. Contudo, agora, não existem muitas medidas de dispersão. Existe, contudo, a razão de variação, que permite averiguar se uma grande proporção dos dados está concentrada na categoria modal ou dispersa por todas as outras categorias. Eis a definição: nº de entradas fora da classe modal / nº total de entradas.

As medidas apropriadas para variáveis num nível de medida inferior (ex. nominal) podem ser usadas para variáveis de um nível mais elevado (ex. Ordinal ou intervalar).

Vamos brevemente discutir a representação gráfica de dados. O gráfico circular (pie) representa dados qualitativos, sendo constituido por um circulo dividido em tantas fatias quantas as caracteristicas da variável. O tamanho das fatias é determinado pelo número (frequência absoluta [ni]) ou percentagem/proporção (frequência relativa [fi]) de observações nas categorias.

O gráfico de barras, tal como o pie, é univariado, e representa dados qualitativas ou quantitativos discretos. É um diagrama de barras, usualmente verticais, onde cada uma está associada a cada uma das categorias da variável. A altura das barras é determinada pelas frequências absolutas, ni, ou pelas relativas, fi. O gráfico de frequências acumuladas também é univariado, e representa dados qualitativos na escala ordinal, ou quantitativos discretos. É um gráfico de linhas onde estão representadas as

Page 13: Estatistica I

frequências absolutas acumuladas [Ni] ou relativas acumuladas [Fi]. Até à primeira categoria, as frequências acumuladas são nulas para as categorias superior à última, e toma o valor n se forem representadas as Ni, ou 1, se forem representadas as Fi.

Um histograma é mais uma representação univariada de dados quantitativos contínuos. É um gráfico de barras verticais adjacentes, com uma barra associada a cada uma das classes da variável. A base de cada barra é proporcional à amplitude da respetiva classe a área é proporcional às frequências absolutas, ni, ou às relativas, fi.

Um polígono de frequências é mãos uma representação univariada de dados quantitativos; é um gráfico de linhas onde são representadas as frequências absolutas ou relativas nos pontos médios das classes. Para o fechar tem de se criar uma classe adicional em cada um dos extremos, de amplitude igual à adjacente, e frequência nula.

A última representação univariada é a caixa de bigodes, que representa dados não agrupados quantitativos, sendo um gráfico que contém um rectângulo, dividido em 2 partes, situando os 3 quartis. Os bigodes da caixa situam os pontos adjacentes inferior e superior, ou seja, o menor e maior valores observados qua ainda não são observações anómas ou atípicas (aka outliers). Os asteriscos ou círculos identificam valores anómalos, ou seja, aqueles valores observados muito pequenos (chamados moderados e simbolizados como O) e muito grandes (chamados severos e simbolizados com *), tendo valores de grandeza que implica que sejam classificados como valores anómalos.

O menor valor não atípico é o AI, e está na linha vertical mais à esquerda da caixa. Na linha paralela do lado direito está o AS, o maior valor atípico. Mais à esquerda que o AI estão os valores atípicos severos, e mais à direita que o AS, os valores atípicos moderados.

Os valores atípicos severos inferiores < [Q1 – 3 * (Q3 – Q1)]

Page 14: Estatistica I

Os severos superiores são < [Q3 + 3 * (Q3 – Q1)]Os moderados inferiores são > [Q1 – 3 * (Q3 – Q1)] ^ < [Q1 – 1.5 * (Q3 – Q1]

Por fim, temos o gráfico de dispersão (scatter) que representa dados qualitativos ou quantitativos, e é bivariado. Pode ser classificado segundo dois critérios (tabelas de contingência: linhas x colunas). São uma representação gráfica num sistema de eixos cartesianos dum conjunto de observações, emparelhadas, de 2 variáveis quantitativas, X e Y: (x1, y1), (x2, y2), …, (xn, yn).

Aula 3Vamos discutir a curva normal e resultados Z. A curva normal tem uma importância crucial no processo de descrição de dados, pois muitas das distribuições relativas às ciências sociais conformam as caracteristicas desta distribuição teórica proposta por Carl Gauss. Como são muitas as distribuições de medidas recolhidas em humanos que seguem de perto as propriedades deste ideal teórico, a curva normal pode ser usada para gerar frequências e probabilidades numa grande variedade de situações.

A curva normal, em primeiro lugar, trata-se de uma curva unimodal de distribuição de frequências, com dados representados no eixo das abcissas (X) e as respetivas frequências de ocorrência no eixo das ordenadas (Y). A curva possui caracteristicas que a distinguem de outras curvas de distribuição de frequências, nomeadamente a maioria dos resultados agrupam-se em torno do centro da distribuição, onde a curva atinge o seu máximo, e à medida que a distância ao centro aumenta, os resultados vão sendo cada vez mais raros em ambas as caudas. A curva também é simétrica (as 2 metades são imagens idênticas em espelho uma da outra. E as três medidas de tendência central (média, moda, mediana) coincidem no mesmo valor, o centro ou ponto central da distribuição.

A curva também tem uma relação constante com o desvio padrão. Quando a sua abcissa é marcada em unidades de desvio

Page 15: Estatistica I

padrão, formam-se várias áreas de percentagem constante sob a curva normal, e essa relação mantem-se constante em todas as curvas de Gauss. Devido à simetria da curva, a percentagem correspondente a cada unidade de desvio padrão é a mesma acima e abaixo da média, que é o ponto central da distribuição. A curva traçada em unidades de desvio padrão (eixo das abcissas) é designada curva normal padrão.

O afastamento de uma unidade de desvio padrão em relação à média, a curva atinge o seu ponto de inflexão (onde muda de direção e o seu afastamento do centro se sobrepõe à diminuição). A curva também é assimptótica com a abcissa (as caudas nunca intersectam o eixo XX).

A curva normal padrão possui média 0 (u = .00) e um desvio padrão igual à unidade (o = 1.00). Marcando o eixo das abcissas em unidades de desvio padrão, a área sob a curva acima destas unidades é sempre a mesma. Como numa curva normal a média, a mediana, e a moda coincidem no mesmo ponto de abcissa, a média e a mediana são permutáveis. Dado que a mediana divide sempre qualquer distribuição de frequências exatamente ao meio, então quando a média e a mediana coincidem, a média também divide a distribuição ao meio, com 50% dos resultados acima da média, e os restantes abaixo.

Na curva normal padrão, M+-1DP = 68.26%; M +- 1DP = 95.44%; M +- 3DP = 99.74%.

Vamos falar agora dos resultados normalizados (z). A curva normal padrão traduz uma distribuição normalizada de frequências (distribuição z) de valores (padronizados/normalizados) medidos numa escala em que a média é sempre 0 e o desvio padrão é sempre 1. Ou seja, ao interpretar a medida dos resultados brutos de desempenho, sendo que se toma em consideração a média da distribuição e a quantidade de variabilidade/desvio padrão, a compreensão de um desempenho individual de um sujeito ocorre comparando-o com o desempenho total do grupo em que este foi medido/avaliado. Também se pode comparar o desempenho

Page 16: Estatistica I

individual de um mesmo sujeito em dois conjuntos separados de resultados normalmente distribuídos.

Há uma tabela dos resultados Z, que representa a percentagem sob a curva normal entre a média e Z. Esta serve para determinar a percentagem exata de casos existentes entre um qualquer resultado normalizado/padronizado z e a média. Os valores estão, nela, organizados em 2 direções, em coluna e linha. A primeira coluna dá os resultados de Z arredondados a uma casa decimal, e a segunda casa decimal é lida na primeira linha da tabela. A tabela dá a percentagem de casos existentes entre um determinado resultado Z e a média, e não a percentagem de resultados acima/abaixo dum resultado Z, ou entre 2 resultados Z.

Para o cálculo de resultados normalizados Z, é muito útil desenhar a curva, localizando a parte para qual a questão remete, pois esta imagem clarifica o que está a ser questionado e facilita a compreensão do problema. Assinalar a média e, equidistantemente, os resultados Z positivos, à direita, e negativos, à esquerda, na linha que serve de base à curva pressupondo que, quanto maior o resultado Z, mais para a direita se situará. Uma boa imagem do problema facilita a respetiva solução.

Vamos analisar o caso A, onde calculamos a percentagem de casos existentes entre determinado resultado Z e a média. Aqui, a regra é procurar esse resultado Z na tabela da distribuição normal padrão e ler diretamente o valor de percentagem que lhe corresponde.

No caso B, vamos calcular a percentagem de casos inferiores, ou que existem abaixo, de determinado resultado Z. Aqui a regra é que, caso o resultado Z for positivo, procuramos o correspondente valor de percentagem na tabela e adicionamolo-o a 50% (.5). Ou seja, caso haja 41.15% casos, p = 41.15 + 50.0% = 91.15% de casos abaixo do resultado Z de 1.35. Caso Z seja negativo, procuramos o resultado na tabla, lemos o correspondente valor de percentagem, e subtraímo-lo a 50%.

No caso C, vamos calcular a percentagem de casos superiores, que existem acima, de um determinado resultado Z. Se este for positivo,

Page 17: Estatistica I

lemos o valor de percentagem na tabela e subtraímo-lo a 50% (.5). Se for negativo, adicionamos o valor de percentagem a 50%.

No caso D, queremos calcular a percentagem de casos existentes entre 2 resultados Z. Aqui, a regra é relativa aonde os dois resultados se encontram face à média. Caso se encontrem em lados opostos, procuramos os resultados na tabela, lemos os correspondentes valores de percentagem, e adicionamo-los. Caso se encontrem do mesmo lado e ambos são positivos, procuramos os resultados, lemos as percentagens, e subtraímos ao maior o menor. Caso se encontrem do mesmo lado e ambos são negativos subtraímos ao maior o menor.

Vamos agora ver a transformação de resultados brutos em normalizados. Acontece que é possível calcular as áreas sob a curva normal; não diretamente usando resultados normalizados Z, mas tomando valores de resultados brutos para calcular a % de casos acima ou abaixo de determinado valor, ou entre 2 valores. Para tal é importante que os valores da média e do desvio padrão relativos à distribuição de resultados brutos se conhecem. Quando tal ocorre, obtém-se o resultado normalizado Z com base em: z = (X – M) / DP, o que define o resultado Z como a tradução da diferença entre o resultado bruto, X, e a média, M, em unidades de desvio padrão. Assim sendo, Z indica a distância a que o resultado bruto se encontra da média, acima ou abaixo, em unidades de DP.

A distribuição normal de um qualquer conjunto de resultados brutos, quaisqueres que sejam os valores da sua média e DP, pode ser convertida numa distribuição normal padrão, na qual a média é sempre 0 e o DP a unidade. Os resultados Z são determinantes na interpretação dos resultados brutos relativos aos desempenhos dos sujeitos; ao considerarem a média da distribuição e sua variabilidade (ie DP) permitem que se compreendam os resultados individuais de desempenho relativamente a todos os resultados que constituem a distribuição. Como os resultados Z têm em conta toda a distribuição, é importante conhecer todos os valores da distribuição antes que os resultados brutos individuais possam ser interpretados significativamente.

Page 18: Estatistica I

No Caso A, queremos calcular a percentagem de casos existentes entre um determinado resultado bruto e a média. Aqui, a regra é transformar esse resultado bruto no correspondente resultado Z através da formula acima, e então procurar o valor na tabela de distribuição normal padrão, e ler diretamente o valor de percentagem correspondente.

No Caso B, queremos calcular a percentagem de casos inferiores, ou abaixo, de um determinado resultado bruto. Aqui, a regra é, em primeiro lugar, transformar esse resultado bruto no resultado Z correspondente e, caso este seja positivo, ler o correspondente valor de percentagem e adicioná-lo a 50%. Caso seja negativo, subtraí-lo a 50%.

No Caso C queremos calcular a percentagem de casos superiores, ou acima de um determinado resultado bruto. Aqui, transformamos o resultado bruto no resultado Z correspondente e, se este for positivo, lemos o correspondente valor de percentagem e subtraímo-lo a 50%. Se for negativo, adicionamo-lo a 50%.

No Caso D, queremos calcular a percentagem de casos existentes entre dois resultados brutos, e aqui transformamos esses resultados brutos nos resultados Z que lhes correspondem e, caso ambos se encontrem em lados opostos da média, procuramos os resultados na tabela, lemos as percentagens, e adicionámo-las. Caso se encontrem do mesmo lado da média, sendo ambos positivos, procuramos os valores de percentagem, e subtraímos ao maior o menor. Se estiverem ambos do mesmo lado da média, como negativos, procuramos os resultados na tabela, lemos os correspondentes valores de percentagem e subtraímos ao maior o menor.

Aula 4Vamos analisar a Lógica do Teste de Hipóteses. O paradigma pode ser levado ao verificacionismo ou falsificacionismo; a lógica do V / F; a probabilidade do erro amostral / significância, e as hipóteses nula (H0) ou de Trabalho (H1).

Page 19: Estatistica I

Eis a sequência.

1. Estabelecem-se as hipóteses, H0 e H1.2. Define-se a região de rejeição, a estatística observada/crítica.3. Cálculo da estatística observada, via SPSS: Assymptotic sig.4. Conclusão, via estatística e geral.

Eis a análise de dados: A inferência H0, a priori verdadeira (probabilidade condicional). Visa-se reunir evidência confirmatória da sua falsidade, demonstrando assim a veracidade de H1, resultante da negação de H0. A hipótese H1, localizada no extremo direito da curva normal, é bilateral, e do lado esquerdo é unilateral.

Vamos rever tudo isto de um melhor modo. A estatística inferencial é usada para conhecer uma população, à qual não temos acesso, através de uma amostra. Todas as conclusões têm uma certa margem de erro, sem podermos afirmar com 100% de certeza que certo valor ou efeito encontrado na amostra existe na população. Podemos afirmar que existe, com uma certa probabilidade, um grau de confiança, como 95%. Por outras palavras, podemos afirmar que um resultado ou efeito existe na população com uma certa margem de erro, por exemplo 5%.

Existem dois métodos principais da estatística inferencial, a estimação e o teste de hipóteses, este último visando detectar efeitos na população, e qualificá-los, e é usado quando se quer saber se certos efeitos existem na população. Numa estimação, a amostra é usada para estimar um parâmetro, e um intervalo de confiança dessa estimativa, como em “proporção de eleitores que votam no partido X”. Num teste de hipóteses, há uma hipótese nula (“O efeito não existe na população”), que é avançada, e os resultados da amostra são usados para a tentar rejeitar.

O primeiro passo de um teste de hipóteses é criar hipótese. Cria-se a hipótese experimental, que diz que há um certo efeito na população. Pode ser uma hipótese numa direção específica (teste unilateral) ou sem direção específica (teste bilateral). Forma-se também uma hipótese nula, que afirma não haver esse efeito na população.

Page 20: Estatistica I

De seguida, escolhe-se um nível de significância (alfa), que é a probabilidade que o investigador estabelece como limite para decidir se o valor do teste se deve ao acaso. Se a =.05, o efeito é real se apenas 5% (ou menos) dos resultados se dever ao acaso.

Agora, no 3º passo, calcula-se o teste estatístico, que nos oferece uma quantificação do efeito a ser estudado. O teste estatístico a usar vai depender de vários fatores: o tipo de efeito a testar, o nº de variáveis e o seu nível de medição, a independência das observações, e outras caracteristicas dos dados (distribuição de frequências, igualdade de variâncias, etc.).

Então, calcula-se p, a probabilidade do resultado do teste estatístico acontecer na população devido ao acaso, e não devido a um efeito real. Como se calcula p? O efeito que se pretende estudar é calculado através do teste estatístico, com base nos valores da amostra. Então, é necessário determinar a probabilidade deste resultado do teste estatístico se dever ao acaso, e não a um efeito real existente na população: p.

Por fim, compara-se alfa e p. p < a = Há um efeito na população, com x% de confiança; rejeita-se a hipótese nula, pois o efeito é estatisticamente significativo. P >= a, o efeito encontrado na amostra pode dever-se ao acaso, sem se poder afirmar que existe na população.