Universidade Trás-os-Montes e alto douro

34
UNIVERSIDADE TRÁS-OS-MONTES E ALTO DOURO Mestrado em Finanças e Contabilidade Disciplina: Análise de Dados Alunos: Catarina Pires Nº: 30494 Diana Moreira Nº: 25573 Joana Silva Nº: 30506 Micaela Alonso Nº: 30514 Pedro Moura Nº: 30517 Vila Real, 17 de Janeiro de 2012

description

Disciplina: Análise de Dados Alunos: Catarina Pires Nº: 30494 Diana Moreira Nº: 25573 Joana Silva Nº: 30506 Micaela Alonso Nº: 30514 Pedro Moura Nº: 30517. Universidade Trás-os-Montes e alto douro. Mestrado em Finanças e Contabilidade. Vila Real, 17 de Janeiro de 2012. - PowerPoint PPT Presentation

Transcript of Universidade Trás-os-Montes e alto douro

Page 1: Universidade Trás-os-Montes e alto douro

UNIVERSIDADE TRÁS-OS-MONTES E ALTO DOURO

Mestrado em Finanças e Contabilidade

Disciplina:

Análise de Dados

Alunos: Catarina Pires Nº: 30494Diana Moreira Nº: 25573

Joana Silva Nº: 30506Micaela Alonso Nº: 30514

Pedro Moura Nº: 30517

Vila Real, 17 de Janeiro de 2012

Page 2: Universidade Trás-os-Montes e alto douro

TEMA:

Desenvolvimento Social

Banco Mundial

SPSS

Page 3: Universidade Trás-os-Montes e alto douro

SPSS – DESENVOLVIMENTO SOCIALVariáveis em estudo:População;Superfície;Produção de electricidade a partir de fontes renováveis;Investimento directo do estrangeiro;Importação e Exportação de bens;Despesa Pública; Expectativa de vida ao nascer;Taxa de mortalidade infantil;População com idades entre 0-4 e 65-ou mais;Taxa de fecundidade na adolescência;Prevalência de HIV;Usuários da Internet;Linhas telefónicas;Turismo internacional, gastos e receitas;Despesas militares;Bens e serviços da despesa;Contribuições Sociais;Subsídios;Receita tributária; 214 Países do Mundo…

Page 4: Universidade Trás-os-Montes e alto douro

SPSS – DESENVOLVIMENTO SOCIALPrincipais objectivos: Pretendemos aplicar conhecimentos adquiridos nas aulas; Estudar a base de dados escolhida, analisando os outputs daí

resultantes, obtidos através do SPSS; Estudar a adequabilidade dos outputs ao mundo real; Verificar a adequabilidade da informação obtida do mundo

envolvente, avaliando as diferenças entre países mais desenvolvidos e menos desenvolvidos.

Análises efectuadas:1 - Análise Descritiva

2 - Análise de Clusters3 - Análise de Componentes Principais

4 – Testes de Hipóteses

Page 5: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVA A estatística descritiva consiste em determinar se a

distribuição das variáveis são normais, simétricas ou assimétricas.

Testes da Normalidade Este teste observa a máxima diferença absoluta entre a função de

distribuição acumulada assumida para os dados, no caso a Normal, e a função de distribuição empírica dos dados. Como critério, comparamos esta diferença com um valor crítico, para um dado nível de significância.

Teste Kolmogorov-Smirnov

Formulação de Hipóteses: H0: As variáveis seguem uma distribuição normal; H1: As variáveis não seguem uma distribuição normal.

Identificando o nível de significância do teste: 0,05.

Page 6: Universidade Trás-os-Montes e alto douro

Resultados Obtidos:

ANÁLISE DESCRITIVA

Page 7: Universidade Trás-os-Montes e alto douro

Decisão:Somente as variáveis acima identificadas, possuem o seu nível de significância acima de 0,05, contribuindo para a normalidade da distribuição, uma vez que H0 é aceite. Tendo em conta as restantes variáveis, rejeitamos a hipótese nula, pois apresentam um nível de significância inferior a 0,05 para uma probabilidade de ocorrer um erro de tipo I, ou seja, de rejeição incorrecta da hipótese da normalidade.

ANÁLISE DESCRITIVA

Page 8: Universidade Trás-os-Montes e alto douro

Teste Shapiro-Wilk

Formulação de Hipóteses: H0: A amostra provém de uma população Normal; H1: A amostra não provém de uma população Normal.

Identificando o nível de significância do teste: 0,05.

ANÁLISE DESCRITIVA

Page 9: Universidade Trás-os-Montes e alto douro

Resultados Obtidos:

ANÁLISE DESCRITIVA

Page 10: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVA

Decisão:Somente as variáveis acima identificadas, possuem o seu nível de significância acima de 0,05, contribuindo para a normalidade da distribuição, uma vez que H0 é aceite. Tendo em conta as restantes variáveis, rejeitamos a hipótese nula, pois apresentam um nível de significância inferior a 0,05 para uma probabilidade de ocorrer um erro de tipo I, ou seja, de rejeição incorrecta da hipótese da normalidade.

Page 11: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVA Como podemos verificar, as variáveis identificadas, apresentam distribuições simétricas, pois entre a suas médias e medianas não existem grandes diferenças. E outro dos indicadores é que os valores da skewness e kurtosis são próximos de 0.

As restantes apresentam distribuições assimétricas, pois nota-se diferença entre as médias e medianas, e o valor dos outros indicadores afastam-se de 0.

Page 12: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVA Para uma melhor análise decidimos escolher 4

variáveis: População Urbana; Receita Tributária; Produção de electricidade a partir de fontes renováveis,

excluindo a hidroeléctrica; Prevalência de HIV

Page 13: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVAAs variáveis população urbana e receita tributária apresentam

distribuições simétricas, as variáveis produção eléctrica e a prevalência de HIV apresentam distribuições assimétricas.

SimetriaNão se nota grandes diferenças entre as médias e medianas das variáveis, nas variáveis população urbana e receita tributária, o que indica distribuição simétrica. Ao contrário das restantes que apresentam diferenças nesses indicadores, o que confirma a distribuição simétrica

Enviesamento O valor da skewness aproxima-se de 0 para a primeira e última

variável. (Distribuição Simétrica) Para as restantes, o valor deste indicador afasta-se de 0, e são

positivos, logo apresentam distribuições com enviesamento positivo, ou seja, assimétricas à direita. Podemos verificar, nos histogramas a seguir referidos.

Page 14: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVA Achatamento O valor da skewness aproxima-se de 0 na variável receita

tributária (Distribuição Simétrica). Para as variáveis produção de electricidade e prevalência de

HIV, os valores afastam-se de 0, e como são positivos, apresentam distribuições pontiagudas (Distribuição Assimétrica).

A variável população urbana apresenta um valor afastado de 0, mas como a maioria dos indicadores apontam para uma

distribuição simétrica, podemos considerá-la como tal.

Page 15: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVA

Page 16: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVACaixa de Bigodes

A mediana não se encontra centrada na caixa;Existem outliers moderados e severos.

Page 17: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVA

A mediana em ambas as caixas encontra-se muito próxima do centro.

Page 18: Universidade Trás-os-Montes e alto douro

ANÁLISE DESCRITIVA

Quadro Resumo das

Variáveis!

Page 19: Universidade Trás-os-Montes e alto douro

ANÁLISE DE CLUSTERS A análise de clusters têm como objectivo aglomerar os casos

e testar a sua proximidade em relação as variáveis escolhidas.

Foi utilizada uma amostra de 20%

Com o Agglomeration Schedule, conseguimos identificar os casos que se combinam em cada etapa.

Por exemplo: Na primeira etapa o caso 17 junta-se ao caso 18 (Netherlands e Norway).

Page 20: Universidade Trás-os-Montes e alto douro

ANÁLISE DE CLUSTERS

Neste quadro, podemos ver para cada um dos casos, o grupo ou cluster onde foram incluídos.

Por exemplo: Aqui podemos confirmar que Netherlands e Norway se juntaram no mesmo Cluster.

Page 21: Universidade Trás-os-Montes e alto douro

ANÁLISE DE CLUSTERSO 1º Cluster: Netherlands até Bulgária;

O 2º Cluster:Indonésia até Bahamas;

O 3º Cluster:Malawi até Ghinea;

O 4º Cluster Comoros até Madagáscar;

Extremos:Russian FederationSouth Africa

Esta informação pode ser confirmada nos quadros anteriores.

Page 22: Universidade Trás-os-Montes e alto douro

ANÁLISE DE CLUSTERS No primeiro caso agrupam-se os países mais desenvolvidos do mundo. Todos

têm características muito similares, como uma baixa taxa de mortalidade ou uma baixa taxa de prevalência de HIV, por exemplo.

No segundo cluster, temos países em desenvolvimento. Apresentam características que os diferenciam dos países desenvolvidos, como uma menor esperança média de vida e uma menos baixa taxa de mortalidade.

No terceiro cluster, temos dos países mais pobres do mundo, com as mais baixas esperanças médias de vida da amostra, elevadas percentagens de mortalidade infantil e elevadas taxas de fecundidade na adolescência.

No quarto cluster, temos países menos pobres do que os do terceiro cluster, a começar a desenvolver-se. Vemos taxas uma pirâmide etária com uma base mais alargada, característica de países mais pobres, mas vemos um índice de mortalidade infantil mais baixo, assim como uma menor prevalência de HIV na população.

No caso dos extremos, estes diferem, no caso da Rússia, principalmente pela sua extensa área de superfície e no caso da África do Sul, sendo um país em desenvolvimento, apresenta um valor esperança média de vida abaixo dos outros países do segundo cluster.

Page 23: Universidade Trás-os-Montes e alto douro

ANÁLISE DE COMPONENTES PRINCIPAIS

A análise de componentes principais transforma um conjunto de variáveis correlacionadas num conjunto menor de variáveis independentes, denominadas componentes principais. Alem disso esta analise é utilizada pata estandardizar e erradicar correlações de um vasto numero de variáveis, estudando as suas correlações.

KMO - Consideramos o modelo extraído bom, uma vez que o seu valor esta entre o intervalo (0,8-0,9,) logo é aconselhável proceder á ACP.

Teste de Bartlett : H0: “A matriz dos dados é a matriz identidade”

Analisando o valor de “sig”, que é inferior a 0,05, rejeitamos a hipótese nula em que a matriz dos dados é a matriz identidade.

Existe correlação entre as variáveis.

Page 24: Universidade Trás-os-Montes e alto douro

ANÁLISE DE COMPONENTES PRINCIPAIS

A comunalidade, para cada variável, é a proporção da variância dessa variável que é explicada pelas componentes.

Quanto mais próximo de 1 mais explica a totalidade da variância da variável.

Por exemplo:Da variável importação de bens a proporção da variância explicada pelas componentes extraídas é 0,979, ou seja, quase a totalidade.

Page 25: Universidade Trás-os-Montes e alto douro

ANÁLISE DE COMPONENTES PRINCIPAIS

-

.Através desta tabela verificamos, que foram extraídas 2 componentes.

Critério de Kaiser: retêm-se as componentes com “eigenvalues” superiores a 1, pois estes dão-nos a variância standardizada das variáveis captadas pela componente, logo superior a 1 significa que capta a variância satandardizada de mais do que uma variável.

As duas componentes extraídas, explicam 71,8% da variância total.

Page 26: Universidade Trás-os-Montes e alto douro

ANÁLISE DE COMPONENTES PRINCIPAIS

Esta tabela indica os coeficientes que relacionam as variáveis com as componentes, esses coeficientes são as correlações entre as variáveis e as componentes.

A componente 1 representa:População com idade 0-14;Expectativa de vida ;Linhas telefónicas;Usuários da Internet;Taxa de Fecundidade;População Urbana;Investimento Directo;

A componente 2 representa:Importação de bens;Exportação de bens;

Page 27: Universidade Trás-os-Montes e alto douro

ANÁLISE DE COMPONENTES PRINCIPAIS

Através da análise do quadro anterior, a representação das variáveis nas componentes extraídas, podemos definir :

A componente 1 representa indicadores de desenvolvimento dos países

A componente 2 representa a balança comercial.

Page 28: Universidade Trás-os-Montes e alto douro

TESTES DE HIPÓTESESA. PARAMÉTRICOS

ANOVA Objectivo:

Verificar se o valor da Despesa Pública se relaciona com a taxa de População Urbana.

Formulação de Hipóteses: H0: A igualdade de duas médias em amostras independentes com 3 ou mais grupos;

H1: A desigualdade de duas médias em amostras independentes com 3 ou mais grupos.

Page 29: Universidade Trás-os-Montes e alto douro

Identificando o nível de significância do teste: 0,05. Resultados Obtidos:

TESTES DE HIPÓTESES

Page 30: Universidade Trás-os-Montes e alto douro

Decisão:Com a tabela Descritiva conseguimos obter as médias, desvio padrão, erro padrão, amplitudes e intervalos de confiança para cada uma das médias dos grupos seleccionados. De acordo, com o Teste da Homogeneidade das Variâncias, verificamos que o nível de significância é inferior, embora muito próximo, de 0,05, o que nos leva a rejeitar a hipótese nula, isto é, existem diferenças significativas entre as médias dos quatro grupos.

TESTES DE HIPÓTESES

Page 31: Universidade Trás-os-Montes e alto douro

Resultados Obtidos

TESTES DE HIPÓTESES

Decisão:Através da tabela da ANOVA, comprovamos o resultado obtido na tabela anterior visto que o valor do P- value também é inferior a 0,05.

Visto que, os pressupostos do teste paramétrico não se verificam, teremos que comparar as medianas entre os grupos de acordo com o teste Kruskal-Wallis, teste não-paramétrico.

Page 32: Universidade Trás-os-Montes e alto douro

B. NÃO-PARAMÉTRICOS Teste de Kruskal-Wallis

Objectivo:

Verificar se o valor da Despesa Pública se relaciona com a taxa de População Urbana.

Formulação de Hipóteses: H0: A média da variável Despesa Pública é igual para os quatro grupos; H1: A média da variável Despesa Pública não é igual para os quatro grupos.

TESTES DE HIPÓTESES

Page 33: Universidade Trás-os-Montes e alto douro

Identificando o nível de significância do teste: 0,05. Resultados Obtidos:

TESTES DE HIPÓTESES

Decisão:Ao observar a tabela Ranks, verificamos que que embora as médias da variável Despesa Pública, tendo em conta a população 0-25% e 25-50%, sejam próximas, não tem o mesmo valor. Segundo este teste rejeitamos a hipótese nula, em que a Despesa Pública é igual em pelo menos dois grupos, uma vez que o nível de significância é menor do que a 0,05.

Page 34: Universidade Trás-os-Montes e alto douro

Obrigada pela vossa atenção!