SEMINARI SOBRE GOLDVARB 2001 - uni-freiburg.de · Interpretación de los datos: -Input general de...

NOTAS SOBRE GOLDVARB 2001 y GOLDVARB X Universidad de Friburg. Diciembre 2007

Josefina Carrera-Sabaté 0. PRESENTACIÓN Goldvarb 2001 Goldvarb X

1. FICHEROS DE TOKENS Ficheros de tokens ‘coding strings’ (son ficheros usados tradicionalmente en Goldvarb; contienen únicamente códigos individuales y presentan los factores que pueden influir en la variación de la variable dependiente, es decir, de la variable que se analiza). [También pueden elaborarse los ficheros que se conocen como ‘super tokens’. Son ficheros que contienen las codificaciones de las variables utilizadas en el análisis. La forma de los ‘super tokens’ puede ser la misma que la anterior pero con unas líneas explicativas al principio. El único requisito que tienen que tener estas líneas es ir precedidas por: ;] Goldvarb 2001 Goldvarb X

1

Consideraciones importantes sobre los ficheros de tokens: a) Son necesarios paréntesis al principio de cada línea que contenga grupos de factores. b) La variable dependiente puede ir en cualquier posición dentro del grupo de factores. Antes de empezar cualquier análisis, los factores tienen que comprobarse siempre: Goldvarb 2001

2

Goldvarb X

3

2. FICHEROS DE CONDICIONES 2.1. Elaboración de las primeras condiciones

Goldvarb 2001 Goldvarb X

Goldvarb X

Importante:

-La variable dependiente debe ser siempre la primera -Es necesario que al principio y al final de las condiciones haya un paréntesis -Todas las variables tienen que ir entre paréntesis Observaciones: -Las condiciones también pueden elaborarse a mano. -Reelaboración de condiciones (véase 3.2.) -Reorganización de variables y factores (véase 3.4.)

4

3. FICHEROS DE RESULTADOS

3.1. Descriptivos (para llegar las tendencias de la variación y a 3.3.)

Goldvarb 2001

5

Goldvarb X

[Los descriptivos, junto con otros análisis, sirven para eliminar las variables que veamos poco significativas]

6

3.2. Prueba errónea para ver las dificultades que pueden surgir a la hora de analizar los descriptivos y encontrar soluciones a través de reelaborar el fichero de condiciones

Goldvarb 2001 1)

2) 3)

4) 5)

6) 7)

7

8) 9)

10)

Goldvarb X 1)

2) 3)

8

4) 5)

6) 7)

3.3. Pruebas para detectar variables relevantes y no relevantes CELL CREATION ============= Name of token file: morf Alg.tkn Name of condition file: morf Alg2.cnd ( (15) (1) (2) (3) (4) (5) (8) (9) (10) (11) ) Number of cells: 246 Application value(s): ea Total no. of factors: 31 Group e a Total % --------------------------------- 1 (1) h N 110 64 174 50 % 63 36 d N 114 60 174 50 % 65 34 Total N 224 124 348 % 64 35

9

10

--------------------------------- 2 (2) + N 121 62 183 52 % 66 33 - N 103 62 165 47 % 62 37 Total N 224 124 348 % 64 35 --------------------------------- 3 (3) 9 N 38 2 40 11 % 95 5 8 N 20 18 38 10 % 52 47 7 N 10 34 44 12 % 22 77 6 N 24 20 44 12 % 54 45 5 N 30 16 46 13 % 65 34 4 N 46 1 47 13 % 97 2 3 N 17 27 44 12 % 38 61 2 N 39 6 45 12 % 86 13 Total N 224 124 348 % 64 35 --------------------------------- 4 (4) 1 N 38 2 40 11 % 95 5 2 N 53 19 72 20 % 73 26 3 N 84 63 147 42 % 57 42 4 N 49 40 89 25 % 55 44 Total N 224 124 348 % 64 35 --------------------------------- 5 (5) - N 107 12 119 34 % 89 10 + N 117 112 229 65 % 51 48 Total N 224 124 348 % 64 35 ---------------------------------

11

6 (8) P N 30 11 41 11 % 73 26 I N 138 83 221 63 % 62 37 C N 56 30 86 24 % 65 34 Total N 224 124 348 % 64 35 --------------------------------- 7 (9) 1 N 96 61 157 45 % 61 38 2 N 64 32 96 27 % 66 33 4 N 19 11 30 8 % 63 36 3 N 45 20 65 18 % 69 30 Total N 224 124 348 % 64 35 --------------------------------- 8 (10) 2 N 25 7 32 9 % 78 21 3 N 141 81 222 63 % 63 36 5 N 58 36 94 27 % 61 38 Total N 224 124 348 % 64 35 --------------------------------- 9 (11) t N 25 7 32 9 % 78 21 v N 51 41 92 26 % 55 44 i N 148 76 224 64 % 66 33 Total N 224 124 348 % 64 35 [poc rellevant] --------------------------------- Total N 224 124 348 % 64 35 Name of new cell file: Untitled.cel

3.3.1. Up & Down (para obtener la mejor combinación de factores y, si hace falta, ir a 3.3.2) Resultados a partir de considerar todas las variables que han aparecido en los descriptivos:

Run # 31, 57 cells: No Convergence at Iteration 20 Input 0,871 Group # 2 -- +: 0,892, -: 0,108 Group # 3 -- 9: 0,937, 8: 0,002, 7: 0,041, 6: 0,748, 5: 0,917, 4: 0,997, 3: 0,077, 2: 0,504 Group # 4 -- 1: 0,535, 2: 0,994, 3: 0,164, 4: 0,028 Group # 9 -- t: 0,761, v: 0,237, i: 0,503 Log likelihood = -108,278 Significance = 0,000 Maximum possible likelihood = -74,762 Fit: X-square(44) = 67,031, rejected, p = 0,0003 _____________________________________________________ Run # 65, 114 cells: No Convergence at Iteration 20 Input 0,927 Group # 2 -- +: 0,895, -: 0,105 Group # 3 -- 9: 0,937, 8: 0,002, 7: 0,039, 6: 0,747, 5: 0,920, 4: 0,997, 3: 0,075, 2: 0,503 Group # 4 -- 1: 0,537, 2: 0,994, 3: 0,162, 4: 0,027 Group # 7 -- 1: 0,301, 2: 0,682, 4: 0,291, 3: 0,725 Group # 8 -- 2: 0,801, 3: 0,208, 5: 0,486 Log likelihood = -106,209 Significance = 0,780 Maximum possible likelihood = -51,568 Fit: X-square(98) = 109,283, rejected, p = 0,0000

12

13

Interpretación de los datos: -Para que el análisis sea fiable, las variables escogidas en los dos “runs” tendrían que ser las mismas (no es el caso del análisis anterior y por eso habría que descartarlo). -La probabilidad global de que aparezca la variable dependiente se ve representada por la cifra que sigue a la palabra INPUT. -Las cifras que aparecen al lado de cada factor no son la probabilidad sino el peso (weight) de cada factor lingüístico o extralingüístico para saber en qué dirección se modificará la variable dependiente (vd): si es mayor que 0.5 quiere decir que influirá en el cambio de la vd y si no, no tendrá relación. (Hay quien prefiere no hablar de cifras en términos absolutos–valor cercano a 0 o a 1- y cree que es mejor comparar relativamente unos factores con otros –Véase Tagliamonte, 2006: 145). -La significación del análisis aparece a través de significance, cifra que tendría que ser muy cercana a 0 y no ser nunca superior a 0.05. La cifra indica la significación del análisis escogido como buena en relación con otros razonamientos calculados anteriormente. Es decir, la probabilidad de que los resultados del análisis sean debidos al azar. Por lo tanto, si es muy cercana a 0, el análisis no está relacionado con el azar. Cuando los resultados que se obtienen son menores que 0.05, decimos que las variables analizadas son estadísticamente significativas. -Las pruebas que el programa realiza para saber si las variables que se analizan son independientes son el logaritmo de verosimilitud y la prueba de X2. El logaritmo de verosimilitud (log. likelihood) tienen que ser lo más cercano posible al logaritmo máximo que propone el programa (maximum possible likelihood). Como más cercano a 0, mejor. La prueba de X2 se observa a partir del resultado que da p, el cual ha de ser inferior a 0.05 porque así se rechaza lo que en estadística se conoce como la hipótesis nula, es decir, la hipótesis que considera que la variación no viene dada por los factores independientes escogidos para explicarla. En otras palabras, la hipótesis nula indica la probabilidad existente de que el resultado del análisis no sea el mismo si se repite a partir de unos datos similares. Esta prueba determina la distancia existente entre unos valores observados y unos valores esperados según el modelo teórico, que viene dado por Goldvarb. En el programa, cuando p es inferior a 0.05 aparece rejected (se entiende la hipótesis nula) y si es superior, accepted (indicativo de la escasa validez del análisis). A veces se realizan diferentes análisis Up &Down con diferentes variables. Para saber cuál es el mejor, hay una serie de directrices que pueden ayudar (véase Tagliamonte, 2006: 149). A partir de lo que se acaba de exponer, los análisis que el programa ha considerado buenos tienen que descartarse. Ahora intentaremos analizar los datos sólo a partir de las variables que han parecido relevantes en el análisis de los descriptivos (son los de color azul).

Solución mejorada:

14

A partir de aquí ya podemos ir a binomial 1 level

15

3.3.2. Binomial 1 level (para llegar a un análisis adecuado)

Si tenemos las mismas condiciones que en el análisis anterior, vamos directamente a la instrucción (hace falta tener en cuenta que casi siempre es imprescindible escribir condiciones nuevas)

16

Interpretación de los datos: -Input general de mantenimiento de la variable dependiente (vd) -Weight: peso de cada factor -App/Total: porcentaje de uso de la vd según cada variable independiente -Input&Weight: probabilidad de mantenimiento de la vd en relación con los factores independientes. IMPORTANTE: como más similitud haya entre las columnas 2 (App/Total) y 3 (Input&Weight), más garantías de éxito tendrá el análisis.

Las pruebas que explican si las condiciones teóricas se adecuan a los datos del estudio son: -Logaritmo de verosimilitud (log. likelihood) –explicado anteriormente. -Prueba de X2 (X-square) –explicada anteriormente. [Hay que tener en cuenta que tiene que seleccionarse “show model fit” para poder ver el Maximum possible likelihood y la prueba de X2]. -Diagrama de dispersión (Scattergram): presenta de forma gráfica los resultados obtenidos. Si los puntos de convergencia entre el modelo teórico y los datos reales siguen la línea marcada por el gráfico, el grado de confianza del análisis es muy elevado. [Los resultados de las tres pruebas siempre van ligados] 17

Comentario sobre los resultados:

Factor Weight App/Total Input&Weight 1: 9 0,463 0,95 0,87 8 0,105 0,53 0,48 7 0,360 0,23 0,81 6 0,593 0,55 0,92 5 0,645 0,65 0,93 4 0,984 0,98 1,00 3 0,090 0,39 0,43 2 0,526 0,87 0,90 2: 1 0,531 0,95 0,90 2 0,834 0,74 0,97 3 0,196 0,57 0,65 4 0,420 0,55 0,85 3: - 0,773 0,90 0,96 + 0,227 0,51 0,69 4: t 0,710 0,78 0,95 v 0,286 0,55 0,76 i 0,505 0,66 0,89 Nueva solución:

18

3.4. Recodificaciones de variables 3.4.1. Podemos dejar de considerar un factor dentro de una variable (por ejemplo, porque no presenta variación. Es el que sale como knockout en los descriptivos). Esta cuestión está explicada en el apartado 3.2. 3.4.2. Podemos recodificar factores de una variable. Por ejemplo, quiero convertir en 3 los 9 grupos de edad: Goldvarb 2001

Goldvarb X

19

3.4.3. Podemos agrupar dos variables en una Goldvarb 2001

Notas: -Elsewhere: se pide al programa que tenga en cuenta el factor especificado a la izquierda (en este caso, /, es decir, nada). En la izquierda se introduce cualquier factor que no se haya considerado previamente. Goldvarb X

20

3.4.4. Podemos realizar análisis exhaustivos a través de tabulaciones cruzadas (Cross tabulations) Goldvarb 2001

22

Goldvarb X

24

Utilidad de las Tabulaciones Cruzadas:

1) Es recomendable hacer tabulaciones cruzadas de cada grupo de factores con los otros grupos de factores para:

a. conocer bien los datos internos del análisis b. saber cómo los datos están distribuidos en cada intersección de factores c. detectar interacciones, celdas vacías (véase abajo), celdas mal

distribuidas, etc. Ejemplo de celdas vacías (tendrían que revisarse las condiciones y reagrupar factores de distintas variables, por ejemplo)

25

26

4. EPÍLOGO: MENSAJES DE AVISO SOBRE ERRORES 1) Bad group number: Group index out of range 1:0 Este mensaje puede aparecer cuando se generan las especificaciones de factores para un fichero de tokens. (Véase 1: generate factor specifications). Significa que hay alguna cosa inesperada en el fichero de tokens (por ejemplo, un grupo que tenga menos de dos factores). Solución: pulsar OK y cuando los factores se han generado y aparece la ventana de los grupos, se tiene que revisar si todo está bien. (Esto quiere decir, contar todos los factores de las variables, etc.) 2) Warning - bad cells Este mensaje aparece cuando se quiere realizar un análisis binomial (up & down o bién binomial 1 level) y hay knockouts en el fichero de resultados. Solución: identificar dónde aparece el knockout, ir al fichero de condiciones y excluir el factor o recodificarlo. (Véase 3.2.1.). 5. BIBLIOGRAFÍA BAYLEY, R. “The Quantitative Paradigm.” J. K. Chamberts; P. Trudgill; N. Schilling-Estes (eds.) The Handbook of Language Variation and Change. Massachusetts: Blackwell (2002), p. 117-141. CARRERA-SABATÉ, J. “L'estadística en l'anàlisi de la variació fonètica: una aplicació del programa Goldvarb.” Noves SL, primavera de 2002. CEDERGREN, H. J.; SANKOFF, D. (1974) Variable rules: Performance as a statistical reflection of competence. Language. 50: 333-355. Goldvarb 2.1, 2001, X: http://individual.utoronto.ca/tagliamonte/goldvarb.htm MORENO, F. (1994) “Status quaestionis: sociolingüística, estadística e informática.” Lingüística. 6: 95-154. RAND, D.; SANKOFF, D. GoldVarb: A Variable Rule Application for the Macintosh (version 2.1). Montréal: Centre de recherches mathématiques de la Universitat de Montréal, 1991. ROBINSON, J; LAWRENCE, H.; TAGLIAMONTE, S. (2001) Goldvarb 2001. A Multivariate Analysis Application for Windows. User’s Manual. http://www.york.ac.uk/depts/lang/webstuff/goldvarb/manual/manualOct2001.html#_Toc525700204 TAGLIAMONTE, S. (2006) Analysing Sociolinguistic Variation. Cambridge: Cambridge University Press.

http://individual.utoronto.ca/tagliamonte/goldvarb.htm

27

APÉNDICE Los análisis anteriores se han realizado a partir de las codificaciones que se detallan a continuación CÓDIGOS SOCIALES 1: (sexo): d(mujer) / h(hombre) 2: (estatus): +(alto) / -(bajo) 3: (edad): 9 (3 a 5) / 8 (6 a 11) / 7 (12 a 20) / 6 (21 a 30) / 5 (31 a 40) / 4 (41 a 50) / 3 (51 a 60) / 2 (61 a 70) / 1 (71 a 80) 4: (estudios): 4 (superiores) / 3 (secundarios) / 2 (primarios) / 1 (sin estudios) 5: (conocimientos de catalán): + (sí) / - (no) 6/7: (códigos de los informantes) CÓDIGOS LINGÜÍSTICOS 8: (tiempo): P(resente) I(mperfecto) C(ondicional) 9: (conjugación): 1 2 3 4 (III incremento -eix) 10: (sílaba) : 2 sílabas 3 sílabas 5 sílabas 11: (contexto): t (delante de vocal) v (delante de vocal) i (delante de vocal) 12/13/14: (numeración): 001...012 15: VARIABLE DEPENDIENTE e/a (01) canta: P12t001 (02) jugava: I13v002 (03) estudiava: I15v003 (04) fregava: I13v004 (05) naixia: I23i005 (06) perdria: C23i006 (07) temia: I23i007 (08) dormia: I33i008 (09) sortia: I33i009 (10) presumiria: C45i010 (11) canviaria: C15i011 (12) comença: P15i012

SEMINARI SOBRE GOLDVARB 2001 - uni-freiburg.de · Interpretación de los datos: -Input general de...

Documents

Transcript of SEMINARI SOBRE GOLDVARB 2001 - uni-freiburg.de · Interpretación de los datos: -Input general de...