Post on 06-Apr-2016
description
Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Compilado en: junio 2007 Compilado por: Mara Silvia Riestra Lugar: Gral. Hornos, Partido de Gral. Las Heras Buenos Aires - República Argentina
Serie: Mejora Continua en la Producción Estadística
(MeCoPE) Tema:
Clasificaciones MECOPE CLAS Nº 00-1
Ediciones Mimeo de EcoDinamia (EME) Ediciones para compartir pensamientos, ideas y datos
EME-MECOPE-CLAS-00-1-1/2007-msr
2 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Los escritos de EME tienen por finalidad dar forma, espacio y movimiento a ideas y pensamientos que ayuden a las personas y a sus organizaciones a encontrar su manera de abordar la realidad en forma satisfactoria.
Reúne los documentos y artículos relacionados con la “Elaboración de estadísticas e indicadores”. La base filosófica es la mejora continua o Kaizen y el objetivo es provocar un cambio de actitud hacia aquella en la cual día a día se va construyendo la calidad; no hay fórmulas ni milagros. Requiere conocer las Fortalezas y Debilidades que provienen del interior
del propio proceso y las Oportunidades y Amenazas que surgen del contexto. El interior y el exterior está formado por personas. Éstas son un factor productivo y, a la vez, las responsables de conformar las instituciones y de gestionar, operar y/o programar las máquinas y los restantes recursos usados en la producción. Es común que en actividades tan complejas, como la producción estadística, se establezcan inercias que con el tiempo disuelven o enquistan la fluidez del proceso. Trabajar bien no es un hecho fortuito ni es producto de la conservación, es la elección de hacer las cosas a conciencia: saber quiénes nos dan los recursos, cómo usarlos y para qué. Por ello, detrás de la organización de esta Serie existe la Visión de aportar leves provocaciones al fascinante proceso de retratar y animar con datos la naturaleza y las actividades del hombre
El ser humano es el denominador común.
LA
SERIE
Ediciones Mimeo de EcoDinamia
3 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Las clasificaciones tienen la función de reunir datos de manera organizada; cada nivel nos permite
disponer de arquetipos mesoestadísticos que funcionan como unidades de análisis, de predicción y de
conocimiento. Son instrumentos que sirven para comparar datos provenientes de distintas áreas
geográficas y de múltiples fuentes; son el lenguaje común que da lugar a la síntesis y a la comprensión. También son
normas, a veces algo arbitrarias, porque encierran contenidos que están en el inconsciente colectivo, en la experiencia
de cada uno, y que son difíciles de explicitar pero no de ejecutar.
Contiene escritos que se elaboraron durante el diseño y desarrollo del Sistema de
Codificación Informatizada que permitió la codificación del Censo Nacional de Población y
Vivienda 2001, las Encuestas de Hogares que surgieron a partir del mismo y el
Empadronamiento del Censo Nacional Económico 2005. Esta primer recopilación incluye
documentos consolidados pero no editados, es decir, que pueden considerarse completos pero que por distintas
circunstancias no se llegaron a revisarse para su publicación. En tal sentido, parece interesante disponer de los mismos
con la finalidad transmitir su contenido para que aporte a futuros desarrollos de aplicaciones de normalización y
codificación, aún cuando algunos de los conceptos, dado el tiempo transcurrido, han sido superados.
ÍNDICE
Introducción 4
Sistema de Codificación Informatizada (SiCI) para operativos económicos y sociodemográficos
7
Corrección ortográfica 28 - 41
Proceso Diccio 42 – 51
Campo semántico 52 - 64
Microprocesos 65 - 71
Peso Heurístico 72 - 75
EL
TEMA
ESTE
DOCUMENTO
4 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
INTRODUCCIÓN
En 1994 presenté un proyecto de crear un área de clasificaciones dentro del INDEC. Si bien ya funcionaba una Comisión Técnica relacionada con el tema, a la hora de realizar las tareas operativas ninguno de los integrantes tenía el tiempo para profundizar en la problemática que se presentaba. En 1995, la Dirección del INDEC accedió a crea el Sistema Nacional de Nomenclaturas con la función de normalizar el uso de las clasificaciones en las estadísticas desarrolladas a lo largo de todo el Sistema Estadístico Nacional (SEN). Luego de un periodo de 3 años durante los cuales se desarrollaron clasificaciones nacionales y sus nomenclaturas, mi inquietud por la codificación normalizada aún persistía. Si bien se había logrado la incorporación de la clasificación nacional en el ámbito tributario nacional y en gran parte de las provincias, y además, se contaba con un sistema informático de gestión de nomenclaturas que incluía clasificaciones de actividades económicas (propias y de otros países), de ocupaciones, de productos, de títulos universitarios y de unidades geográficas, operativamente cada oficina tenía sus codificadores y su cultura clasificatoria diferencial (criterios, adaptaciones, métodos) cuya consecuencia era la falta de normalización real. A partir de 1997 comencé a desarrollar un modelo de codificación informatizada – pero sin informáticos –lo que resultó en un modelo conceptual basado en una serie de ideas producto de la experiencia de 13 años de codificación y hay que decirlo, como madre tuve que asistir a mis hijos en tareas escolares que me permitió recordar y recuperar un instrumento harto valioso para el SiCI los campos semánticos. Con el advenimiento del Censo Nacional de Población y Vivienda 2001 y gracias a la confianza depositada por el equipo coordinador de dicho operativo, la asignación de recursos para el diseño del sistema fue un hecho. Es así que durante el año 1999 -2000 se desarrolló el Sistema de Codificación Informatizada (SiCI). Las ideas del modelo original se modificaron con los aportes del equipo del Sistema Nacional de Nomenclaturas, tanto para actividades como ocupaciones, metodología estadística colaboró activamente en las cuestiones relacionadas con los heurísticos, la prueba de algunas ideas usando scores y finalmente para el diseño de los planes de muestreo que permitirían realizar el control de calidad. Las discusiones en el ámbito informático fueron muy provechosas para lograr la eficiencia y eficacia de la codificación. Las áreas de las encuestas socio demográficas no solo aportaron bases de prueba sino que además colaboraron en el diseño de un nuevo clasificador de títulos universitarios y finalmente, el área de cartografía aportó el bagaje de diccionarios que hizo posible operar las variables geográficas con el SICI. RECUERDE, la intención de los escritos de EME es compartir datos, pensamientos y experiencias. Agradezco envíe sus opiniones, comentarios y sugerencias a: ecodinamia@yahoo.com.ar.
5 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
SISTEMA DE CODIFICACIÓN INFORMATIZADA (SiCI) PARA OPERATIVOS ECONOMÓMICOS Y
SOCIODEMOGRÁFICOS
Este documento resume gran parte de la visión original, que tuve como coordinadora del Sistema Nacional de Nomenclaturas, para la creación y diseño del Sistema de Codificación Informatizada (SiCI). La idea cobró vida y mejoro de manera integral que gracias al aporte de:
Mariano Lanne, técnico en actividades económicas del SiNN,
Marcelo Esses y Claudio La Roca técnicos del programa del ocupaciones del SiNN,
Juan José Brión de la Dirección de Informática que desarrolló el sistema y
Silvana Specogna y Alejandra Clemente de la Dirección de Metodología.
El texto es una réplica del presentado en la primera sesión de la Conferencia de Estadística de las Américas (CEA) que tuvo lugar en la Ciudad de Santiago de Chile en mayo de 2001, en la sede CEPAL. Los aspectos aquí tratados han cambiado con el correr de la codificación del censo y las sucesivas encuestas de hogares, sin embargo. la base filosófica del SiCI se mantiene. Por mi parte seguí desarrollando la idea. El resultado de las mejoras incorporadas al modelo, se exponen en un documento de la misma serie denominado Manual del Sistema de Normalización y Codificación.
6 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Contenido Primera parte: Introducción al Sistema de Codificación Informática (SiCI) Presentación 1.- Acerca de la codificación informatizada 2.- Objetivos 3.- Aplicaciones
3.1.- Censo Nacional de Población y Vivienda 2001 3.2.- Censo Nacional Económico (CNE) 3.3.- Encuesta Permanente a los Hogares (EPH) 3.4.- Directorio Nacional de Unidades Económicas (DiNUE) Segunda parte: Modelo conceptual del SiCI 4.- Definiciones 4.1.- Diccionarios 4.2.- Procesos lingüísticos 4.3.- Procesos de codificación 5.- Esquema global
5.1.- Etapa I: elaboración de los diccionarios 5.2.- Etapa II: preparación de las bases 5.3.- Etapa III: codificación
Tercera parte: Resultados de la prueba piloto del SiCI en el Censo Experimental de Pergamino
- Buenos Aires, febrero 2001 -
7 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Introducción
La creación de un sistema de codificación "informatizada" surgió como una inquietud de la Coordinación del
Sistema Nacional de Nomenclaturas (SiNN) del INDEC, a fines de 1998. Hasta ese momento, el área estaba
preocupada en obtener clasificadores más adecuados a las necesidades nacionales. También se desarrollaron notas
explicativas y diccionarios que permitirían agilizar los procesos de clasificación y a la vez documentar las decisiones
que se tomaban ante diferentes consultas. Sin embargo, aún persistía la preocupación de que muchos de los
procesos de codificación manual resultaban tediosos, no aportaban demasiada experiencia a los codificadores, eran
largas jornadas para codificar lo mismo y se producían divergencias entre los criterios aplicados por diferentes
codificadores. Además, ello dejaba poco tiempo para la discusión de casos de difícil resolución. En el caso particular
de los operativos masivos como los censos, estos inconvenientes se traducían en una elevada demanda de recursos
humanos, monetarios y de periodos de codificación extremadamente largos, con lo cual la información tardaba en
estar en manos de los usuarios.
Fue justamente la coordinación del Censo 2001 el marco necesario para que la mencionada inquietud encontrara
eco. A partir de abril de 1999 se conformó, en el ámbito de la metodología de trabajo propuesta por el SiNN, el
Grupo de Aplicación de Nomenclaturas (GAN) 1, formado por integrantes de Actividades y Productos (SiNN-AyP), el
Programa de Medición y Análisis de la Estructura Ocupacional (SiNN-ProMAEO) e integrantes de otras áreas como
la Dirección de Metodología Estadística, el Departamento de Cartografía, la Dirección de Informática y el Equipo del
Censo. Creemos que es este el principal hecho que permitió avanzar y obtener los resultados a los que hoy día
hemos podido arribar. Es en esta unión multidisciplinaria que se pudo lograr mentar un sistema que lejos está de
ser complejo. La mayor demanda está centrada en obtener una alta calidad en la red de diccionarios de los que se
alimenta el sistema
El proyecto consistió básicamente en promover un estudio minucioso de la metodología de codificación aplicada en
el procesamiento manual de cada una de las variables a codificar. Para ello se diseñó un sistema de trabajo que
provocaran en el "codificador" del SiNN, un trabajo ordenado, pautado y que, a la vez de "explicitar" cada uno de
los pasos que lo llevaban a un código, se obtuvieran los instrumentos necesarios para diseñar el SiCI (Sistema de
Codificación Informática), es decir los diccionarios.
El documento que se presenta, resume la experiencia adquirida hasta el momento. El trabajo se divide en tres
partes. La primera es una introducción al SiCI, luego se mencionan los objetivos y en un tercer apartado se
presentan los programas de trabajo sobre los cuales se aplica el mismo. En la segunda parte, se hace referencia al
modelo conceptual, en donde se definen los conceptos fundamentales y se explican las etapas que lo conforman.
En la tercera y última parte, se exponen los resultados que se obtuvieron en las prueba del SiCI en el Censo
Experimental de Pergamino.
1.- Acerca de la Codificación Informatizada
Como ya se mencionó en la introducción, el proyecto de diseño, desarrollo e implementación del SiCI involucra un
gran esfuerzo de inicio ya que el primer paso para todo sistema de este tipo es poder "modelizar" el proceso que se
8 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
quiere sistematizar. En tal sentido, el SiCI es un sistema que recrea a través de diferentes métodos, todo el
conjunto de procesos "intelectuales" que el codificador realiza cuando lee, interpreta, analiza y coloca el código a la
frase que tiene delante de él.
Si observamos en detalle la forma en la que nos referimos al proceso de codificación notamos que no es lo mismo
hablar de codificación automática que de informatizada, ya que esta última es más amplia. Nos referimos con el
término de automática a aquella en la que es posible determinar un código sin la intervención de ninguna
persona1; mientras que la codificación informatizada incluye a la anterior, pudiendo llegar a poner un código en
forma automática, asistida o semi-manual. No siempre los casos que se nos presentan son de resolución masiva, es
más, algunos ni siquiera se presentan en forma frecuente ya que solo los encontramos en censos por barrido. Por
ello, aquellos casos que no se pueden "modelizar" requieren de la codificación semi-manual. Una vez solucionada la
codificación puede resolverse en forma automática para relevamientos futuros dependiendo ello del contexto en
que la respuesta esté incluida.
Con relación al proceso de codificación automática podríamos decir que ésta se basa en la aplicación de un
conjunto de frases anteriormente codificadas, de tal forma que aquellos casos que se repitan, se resuelvan de la
misma manera. Para ello se requiere una herramienta básica del proceso llamado DCCIONARIO, que es un conjunto
de casos previamente codificados. Vamos a ver que en realidad, no existe solo un diccionario sino un conjunto de
ellos, que interactúan en el proceso de codificación.
2.- Objetivos
El SiCI tiene como objetivo principal, la codificación de diferentes variables de uso estadístico. Las variables a
codificar son las llamadas respuestas "abiertas" es decir, aquellas en las que no existe una precodificación en el
formulario y donde el informante responde con sus palabras a la pregunta del cuestionario, lo cual implica que
distintas personas que tienen igual ocupación, realizan igual tarea y trabajan en la misma empresa, pueden
responder la actividad y su ocupación de diferentes formas. La codificación de variables “cerradas” no requerirá,
por lo general, demasiado esfuerzo, puesto que su relevamiento es en sí un tipo de codificación. Sin embargo, en
muchos casos, las variables cerradas se utilizarán como complemento para la codificación de las variables abiertas.
A título de ejemplo, algunas de las variables a codificar son:
actividades
nombre de la ocupación
descripción de la tarea
variables geográficas
carreras universitarias
Podemos realizar una importante diferencia entre las variables de actividades y ocupaciones por un lado, y las
geográficas y carreras universitarias por otro. Esta diferencia se basa en la infinidad de posibles respuestas que se
1 En realidad la codificación fue realizada por el equipo del SiNN durante la etapa de generación de los diccionarios
9 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
pueden obtener en el primer conjunto; mientras que en el segundo, las posibilidades de que las respuestas se
expresen en formas diferentes son mucho más limitadas. Por tal motivo, la codificación informatizada de las
variables del primer grupo puede ser más complicada que las variables del segundo conjunto. En este documento
nos referiremos principalmente a la codificación informatizada de actividades y ocupaciones, pero las conclusiones
que se obtengan podrán ser utilizadas, en general, para la codificación de las otras variables.
El SiCI no sólo tiene como objetivo la codificación de estas variables, sino también disminuir los tiempos de
codificación y unificar criterios de interpretación. La diferencia de criterios adoptados por cada uno de los
codificadores es uno de los problemas que lleva a disminuir la calidad de los resultados de una encuesta o un
censo. Sin embargo, mediante la aplicación de criterios uniformes adoptados por un sistema informático es posible
considerar todos los casos semejantes, bajo una misma óptica; a la vez que permite una rápida recodificación si se
requiere cambiar el criterio. Esta misma tarea, si se realizara manualmente, requeriría demasiado esfuerzo y costo.
En un sistema informatizado, los casos que permiten diferentes interpretaciones pueden ser, o bien codificado bajo
un criterio adoptado, o agrupados automáticamente para su posterior codificación. En síntesis:
codificar variables con mayor calidad Metas del SiCI disminuir tiempos y costos y aumentar oportunidad unificar criterios reduciendo sesgos 3.- Aplicaciones 3.1.- Censo Nacional de Población y Vivienda 2001 Para este censo se calcula que habrá aproximadamente 37 millones de personas a censar y 12 millones de
ocupados. Las cifras son grandes de más como para pensar en una codificación manual, pues se debería concentrar
gran cantidad de codificadores, o bien, realizar como en el censo de 1991 una muestra, o se debería prescindir de la
obtención de resultados en forma oportuna, o peor aún eliminar parte de las preguntas. Ante tales circunstancias,
surge como una necesidad la incorporación de la codificación informatizada. Sin embargo, el censo 2001 no es el
único fin del Sistema de Codificación Informatizada (SiCI), ya que en el horizonte de planeamiento de utilización del
mismo se prevé la incorporación del mismo a distintos programas de trabajo como ser la codificación de la
Encuesta Permanente de Hogares, el Censo Nacional Económico y el Directorio Nacional de Unidades Económicas
entre los principales destinatarios.
La tarea de coordinar la codificación del Censo no se refiere sólo a producir un software apto para codificarlo, sino
también a un conjunto de tareas que se relacionan con la codificación y que influyen en buena medida en la calidad
de los datos. Esto implica mantener una interacción permanente con varias áreas de trabajo relacionadas con el
censo, a saber:
Con la empresa encargada de la lectura óptica de los formularios. El SiCI provee los diccionarios de palabras,
manteniéndose una actualización de los mismos en forma diaria durante el período de lectura.
Con el área de Metodología Estadística. Otra tarea relacionada a la codificación es ayudar en la determinación del
método para medir la calidad de los datos, tarea que se realiza en forma conjunta con el área de metodología
10 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
estadística. Esta es a su vez, es la encargada de desarrollar el método de codificación denominado “scores”, cuya
explicación se realiza más adelante.
Con los codificadores. Ella se origina en la necesidad de entrenar al personal, tanto en el uso del software como en
el manejo de los instrumentos clasificatorios y en los criterios de codificación propiamente dichos. Es necesario
trabajar en forma conjunta, para detectar errores en la interpretación y distribuir la tarea de manera más eficiente.
Con el área de análisis y consistencia. En algunos casos la codificación no es posible sin la consistencia previa de
ciertos datos y en otros la misma consistencia implica una codificación previa. Ejemplo de ello es que las variables
geográficas requieren ser codificadas previo a la consistencia.
Con Informática. Finalmente, la obtención de un software no sería posible sin la permanente interacción con el
área informática, tanto en la etapa de desarrollo del sistema como durante la codificación del censo para poder
permitir una actualización continua de ciertos diccionarios, la retroalimentación y calibrado del sistema.
3.2.- Censo Nacional Económico (CNE)
Otro de los grandes operativos que se presenta como desafío para la aplicación del SiCI es la codificación de las
variables de actividades y productos. Por un lado porque si bien se reduce el número de respuestas a alrededor de
1.500.000 de casos, el nivel de desagregación con que se requiere la codificación aumenta sustantivamente. Esto
implica necesariamente aumentar el nivel de detalle de los diccionarios y conjuntamente la velocidad de
procesamiento y codificación ya que los resultados deberían estar disponibles dentro de los cuatro meses
siguientes al operativo censal.
Para esta aplicación la fuente primordial para alimentar los diccionarios de codificación, además del Censo Nacional
Económico 1994, cobran importancia los literales relevados por el Directorio y las encuestas relevadas por otros
sectores del Sistema Estadístico Nacional, tales como la encuesta industrial, el Registro Industrial de la Nación y las
encuestas de la Secretaría de Agricultura, Pesca y Alimentación, por citar algunas.
Siguiendo en el ámbito de la clasificación de actividades, en este operativo, el nombre de la empresa es importante
dato a la hora de definir los códigos, ya que podría llegar a pensarse en una posible pre-codificación de las
empresas previo a la salida a campo, con lo cual el espectro de casos a codificar se reduciría notablemente.
Por último, ante la existencia de preguntas sobre los productos se crea una nueva demanda para el SiCI que es la
incorporación de los clasificadores de productos, lo que lleva a desarrollar nuevos diccionarios.
3.3.- Encuesta Permanente a los Hogares (EPH)
11 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
La EPH es la principal fuente de descriptores para la casi totalidad de las variables que se proyecta codificar. Sin
embargo, hoy es uno de nuestros principales "usuarios". La implementación de un relevamiento continuo,
provocará un uso permanente del sistema de codificación. Además de los beneficios que ello reporta en términos
de la pronta disponibilidad de los resultados de la EPH, ello permitirá el calibrado del sistema, sentando los
antecedentes necesarios para ser luego utilizado durante el operativo censal. Es la continuidad también la que
permitirá ir "amortizando" los esfuerzos realizados en este par de años. Actualmente se está realizando una prueba
piloto del SiCI sobre la última EPH disponible. Se espera tener resultados para la segunda quincena de febrero.
3.4.- Directorio Nacional de empresas (DiNUE)
El DiNUE es, junto con el Censo Nacional Económico 1994, la principal fuente de literales para procesos de
codificación de actividades provenientes de relevamientos de índole económica. El SiCI permitirá al DiNUE relevar
información sobre actividades y productos, y en la medida en que esa información esté en los diccionarios, la
codificación se realizará en forma automática. Caso contrario, se activará el proceso de codificación asistida y semi-
manual, lo cual redundará en una mejora en los diccionarios de codificación del SiCI a la vez que aumenta la calidad
de codificación de dichas variables en el DiNUE, reduciendo así las tareas de supervisión.
4.- Definiciones
El SiCI ha sido una creación "original" en el sentido que dada la escasa bibliografía existente, hubo que desarrollar
un sistema desde cero incluyendo la terminología utilizada. Es por eso, que pese al alcance del documento, fue
preciso incorporar este apartado sobre las definiciones que se encontraron a lo largo del texto.
SiCI: red de diccionarios de diversa índole, interconectados a través de procesos lingüísticos y de codificación. Por
medio de este sistema el conjunto de registros que contienen literales originales de las variables a codificar, son
transformados en descriptores a los cuales se les aplica diferentes métodos de codificación tendientes asignar a
cada uno el código correspondiente en forma unívoca.
De esta definición surgen los tres elementos básicos del SiCI:
- Diccionarios
- Procesos lingüísticos
- Procesos de codificación
4.1. Diccionarios: son listados inventariados de palabras o frases que conforman los instrumentos fundamentales
del SiCI y que se originan en las respuestas empíricas relevadas en cada uno de los operativos que sirvieron de
fuente. En el sistema conviven dos tipos de diccionarios: los que sirven para la manipulación de las palabras y los
diccionarios de codificación.
12 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Diccionario de palabras espurias (E): conjunto de palabras que si bien poseen significado literal, a efectos de la
codificación no son relevantes. Ejemplos de palabras que conforman este diccionario son: números, nombres
propios (excepto de empresas que puedan definir un código); nombres de lugares geográficos; adjetivos que no son
relevantes a efectos de la codificación como ser colores, tamaños, adjetivos relativos a lugares o formas, etc.; letras
sueltas y números romanos; y otras palabras que tengan significado pero son prescindibles para la codificación. Son
generalmente de baja frecuencia.
Diccionario de anuladas (A): conjunto de palabras que carecen de significado. Son originadas en errores de tipeo,
lectura y/o redacción y no se les puede atribuir ninguna palabra para realizar una corrección. Se forma
generalmente por la partición de palabras. Ejemplo: supongamos que la palabra “computadora” aparece cortada al
medio: “compu” “tadora”. La primera parte puede ser útil para intuir que es algo relativo a la computación por lo
que no formará parte del diccionario de anuladas. La segunda parte: “tadora” no puede relacionarse con nada
específico o con muchas cosas, por lo tanto forma parte del diccionario de palabras anuladas. Al contrario de las
espurias, estas “cuasi-palabras “ no tienen significado y por lo tanto no forman parte del diccionario de lectura.
Diccionario de conectores (C): conjunto de artículos, preposiciones, y otras palabras que se utilizan para dar forma
a una oración, pero no son relevantes a efectos de la codificación. Ejemplos de conectores son: y, la, los, con, por,
etc. Por el contrario, son relevantes a efectos de la codificación los conectores no, para y excepto los cuales no
forman parte de este diccionario.
Diccionario de excepciones (X): conjunto de conectores cuya presencia en una frase puede alterar la codificación
de la misma y por tanto no forman parte del diccionario de conectores. En la actualidad está formado por tres
palabras a saber: no, para y excepto.
Diccionario corrector (R): conjunto de relaciones entre palabras incorrectas y correctas. Las palabras incorrectas
pueden ser generadas por errores de tipeo, ortográficos, abreviaturas u otra clase pero siempre se puede
relacionar con una y solo una palabra correcta. Ejemplo: la palabra incorrecta “alimemticios” tendrá su par
equivalente con la palabra correcta “alimenticios”; la palabra incorrecta “gral” será reemplazada por la palabra
correcta “general”. Un caso en que no se puede mantener una relación palabra incorrecta-correcta se da con “art”
pues, si bien puede venir de un contexto en donde se entiende que es la abreviatura de “artículo”, en otras
ocasiones se puede tratar de las ART (Aseguradoras de Riesgo de Trabajo).
Diccionario de palabras correctas (D): conjunto de palabras correctamente escritas, que son relevantes para la
codificación y por lo tanto no se incluyen en ninguno de los diccionarios anteriores.
Diccionario de lectura (L): está compuesto por la unión de los siguientes diccionarios: espurias, conectores,
excepciones, y palabras correctas.
L = E+C+X+D
13 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Diccionario de codificación: es el listado de frases y palabras asociados a cada código y sobre el cual se calcula el
peso heurístico que sirve de base al método de scores, más adelante expuesto. Los elementos que lo componen
son: el diccionario de palabras correctas (D) y el de excepciones (X).
4.2.- Procesos lingüísticos: son aquellos que modifican los literales de las frases a codificar, permitiendo una
simplificación del vocabulario y de la cantidad de palabras involucradas. Con literales o descriptores nos referimos
a la frase que representa la respuesta original brindada por el informante, sea esta en representación de una
persona o una unidad económica (empresa y local entre otras). Entre los procesos lingüísticos que operan sobre los
literales nos encontramos con:
Proceso de normalizado: consiste en sacar los caracteres no válidos que se encuentran en las frases de la base
recibida con las tres variables (actividad, ocupación y tarea) y se convierten a mayúscula.
Campos semánticos o familiarizado: consiste en asignar a una palabra tomada como referencia (denominada
padre), una lista de palabras que serán tomadas como sinónimos (denominado hijos).
Proceso de estandarizado: consiste en tratar todas las palabras del diccionario por número, género y
truncamiento, según lo que sea más apropiado, a los efectos de lograr un diccionario de términos únicos (no
repetitivos)
Sin estandarizado: no se realiza el proceso anterior.
Es importante destacar que los procesos lingüísticos no son procesos de codificación.
4.3.- Procesos de codificación: estos actúan de diferente forma según el caso a resolver. Son procesos que surgen
de la "modelización" de las procesos analíticos que los codificadores realizan en el momento de asignar un código.
Macroproceso: es un conjunto de instrucciones que se modelizan a través de sentencias informáticas y que
permiten dividir al universo a codificar en grandes grupos. Esta división permite luego acotar el rango de códigos
posible. Son ejemplo los macroprocesos "patrón" en ocupaciones y "ventas" en actividad, como se explicará en su
correspondiente apartado.
Microproceso o autoproceso: es un conjunto de instrucciones que se modelizan a través de sentencias
informáticas y que permiten arribar a la codificación de un determinado literal sin la intervención de codificadores.
A diferencia de los macroprocesos, son métodos de codificación propiamente dicho.
3ra Generación: forma de codificación, elemento que me permite determinar que variables se utilizaron para
codificar una variable específica.
AutoFrase: es un método de codificación automático o directo que permite la asignación de un código único sin
intervención de los codificadores. Para esto, utiliza un diccionario de codificación formado exclusivamente por
14 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
frases que ofrecen una única alternativa de código y que son independientes de las restantes variables del
cuestionario.
Scores: es un método que combina dos elementos. Por un lado la “especificidad” que cada palabra tiene respecto a
los distintos códigos. Por ejemplo la palabra leche es “más específica” que “fabricación” pues le aparecen a la
primera una limitada cantidad de códigos asociados mientras que la segunda es de uso más difundido en todas las
ramas de la industria. La especificidad de cada palabra del diccionario se mide a través del llamado “peso
heurístico” que también forma parte de los diccionarios junto con los literales y los códigos. Por el otro lado, el
score también analiza la relación entre las frases del diccionario y las frases a codificar. Dada una frase a codificar,
el “score” permite elegir “frases candidatas” dentro de la “oferta” que da el diccionario. Esas “candidatas” se eligen
teniendo en cuenta el mayor número de palabras comunes entre la frase a codificar y las frases del diccionario.
Cuanta mayor coincidencia es de entre ambos tipos de frases, mayor será el “score”.
Autopalabra: es un método de codificación automático o directo que permite la asignación de un código único sin
intervención de los codificadores. Para esto, utiliza un diccionario de codificación formado exclusivamente por
palabras y los códigos asociados según la frase de la cual provengan.
Asistido: es un método de codificación indirecto que permite la asignación de un código único con intervención de
los codificadores. En este caso, el SiCI da la posibilidad de elegir entre un limitado número de alternativas
propuestas automáticamente.
Semimanual: es un método de codificación que permite la asignación de un código único con intervención de los
codificadores. En este caso, dada la gran cantidad de alternativas de elección, el SiCI ofrece elementos de ayuda
para el codificador sin realizar propuestas automáticas.
5.- ETAPAS DEL SiCI
Para simplificar la explicación de las distintas etapas del SiCI se ha tomado como ejemplo a la codificación del Censo
Nacional de Población y Vivienda 2001. Por lo tanto, el esquema general que figura en la próxima página puede
modificarse levemente cuando se procesan otros operativos, como la EPH o el Censo Nacional Económico. A
continuación se realiza una brevísima descripción integral del SiCI, para luego pasar al detalle a partir del punto 5.1.
En la implementación del SiCI hay dos grandes períodos de trabajo bien diferenciados:
Primer periodo: desarrollo de los diccionarios. Es el momento previo a la realización del operativo a ser codificado.
Una de las características de este sistema es la importancia que se le da a la corrección ortográfica. Para ello se
generan los distintos diccionarios con la única finalidad de corregir las descripciones que provienen del operativo
de campo a ser codificado. Es natural que se repitan errores de ortografía, abreviaturas, siglas y formas de
escritura que hacen que las frases que dicen lo mismo no sean perfectamente iguales y por lo tanto no puedan ser
codificadas automáticamente. El sistema incorpora todas aquellas correcciones que se repiten con el ánimo de
poder interpretar mejor las descripciones. Esta etapa es una de las más tediosas pues consiste básicamente en
15 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
codificar, corregir y relacionar la mayor cantidad de palabras y frases provenientes de distintas fuentes, para
obtener a final de todo el proceso los DICCIONARIOS.
Segundo periodo: preparación de las bases a codificar y codificación. A partir de la recepción del archivo del
operativo a codificar se inicia una serie de etapas basadas en la necesidad de acondicionar las bases para su
codificación. Dado que para codificar se utilizan los diccionarios obtenidos en la primera etapa, es preciso llevar a
cabo un conjunto de tareas tendientes a otorgarle al archivo a codificar, las mismas características de los
diccionarios. Por ello se suceden los siguientes pasos, que se corresponde con el gráfico de la página siguiente:
1. Se identifican las palabras no contenidas en el diccionario de lectura. Esto tiene por finalidad enviar a la
empresa que lee las cédulas el diccionario de lectura actualizado.
2. Se verifica que la estructura de las bases sea la que requiere el SiCI y se normalizan las frases. Esto consiste
en eliminar caracteres extraños o no válidos para la codificación (comillas, dobles espacios, puntos, etc.).
3. Se corrige automáticamente la ortografía mediante la utilización de los diccionarios de corrección y
anulador.
4. Se corrige manualmente la ortografía que no pudo ser corregida automáticamente, empezando por las de
mayor frecuencia.
5. Si es necesario, se crean nuevos campos semánticos y estandarizados, sobre las palabras nuevas.
6. Se arma el archivo con las frases corregidas en las etapas descriptas y comienza la etapa de
“Acondicionamiento de bases a codificar”
7. Se eliminan las palabras que no son útiles a los efectos de la codificación utilizando el diccionario de
palabras espurias.
16 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
8.
AUTOFRASE
MICROPROCESOS
SCORE 10
AUTOSCORE<10
AUTOPALABRA
BASES CODIFICADAS
CONTROL DE CALIDAD
DEVOLUCION VARIABLES CODIFICADAS PARA EL ARMADO
DE TABULACIONES CON RESULTADOS
ETAPA IV: RESULTADOS
ARMADO MATRIZ DE
DISTRIBUCION SECTORIAL
CODIFICACION
SEMIMANUAL
CODIFICACION
ASISTIDA
Métodos AutomáticosMétodos No Automáticos
Frases con palabras
no encontradas
Corrección
automática
Corrección manual
ortográfica
Nuevos campos semánticos y
estandarizado
Archivo con
frases corregidas
Espurias
Campos
semánticos y
estandarizado
Frases únicas a
codificar
Corrección ortográficaAcondicionamiento de
bases
Verificar estado y
normalizado
1
5
2
3
4
7
8
6
9
Corrección
ortográfica
Corrección códigos
Determinación 3º
generación
Obtención de
diccionarios
ETAPA I: PERIODO DE ELABORACION
DE DICCIONARIOS
ETAPA III: CODIFICACION
Proceso Diccio
ETAPA II: PREPARACION DE
BASES
17 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
9. Se modifican las frases a codificar simplificando sus palabras. Se aplican los campos semánticos, es decir se
llevan distintas palabras que significan lo mismo a efectos de la codificación (palabras hijos) a una palabra en común (palabra padre). Se aplica también el estandarizado, es decir, se eliminan los géneros y números de las palabras dejando solamente la raíz de las mismas. Por último si dentro de la frase, como consecuencia de lo anterior, quedaron palabras repetidas, se procede a realizar una simplificación (ver apartado II.2, para mayores detalles).
10. Muchas de las frases a codificar van a ser iguales por causa de los procesos antes mencionados. Se obtiene entonces un archivo con frases únicas (sin repeticiones de frases) a codificar. En la práctica se ha logrado reducir la base de actividades en alrededor de 67%. Es decir que de 35.000 frases recibidas se redujeron a 11.000.
11. Una vez obtenida la dase de frases únicas se inicia la etapa de codificación propiamente dicha. La misma consiste en aplicar secuencialmente los distintos métodos de codificación, cuya explicación se realiza en forma detallada a partir del punto 5.3. El hecho de ser secuencial implica no solo un orden sino que además si un método logró colocar un código único, esa frase ya queda codificada y no se vuelve a codificar. Es decir cada método codifica la base residual que recibe del método anterior.
12. Por último llegar al autoscore < 10 el sistema puede llegar a codificar la frase con más de un código. Si se coloca
tres o menos se pasa al método codificación “asistida”; si es mayor a tres se envía la base a la codificación “semimanual”.
Como síntesis de todas las etapas se obtiene la base codificada, la cual se somete al control de calidad y finalmente se transmiten los datos a la oficina de procesamiento del censo.
SOLO SE PRODUCE EL HECHO CODIFICATORIO EN LA ETAPA III
5.1.- Etapa I: elaboración de los diccionarios Los diccionarios son la base del sistema de codificación informatizada ya que los utiliza en todas las etapas de su funcionamiento. Este capítulo se refiere principalmente al modo de crear esos diccionarios en una forma sistematizada. Un error en un diccionario se reflejará en la codificación de una actividad u ocupación, tantas veces como estas aparezcan para ser codificadas. De ahí proviene la necesidad de poseer un diccionario sin errores. Pero es a través de los diccionarios que se pueden aplicar criterios únicos de codificación evitando distintas interpretaciones. Un error en el diccionario se multiplica en la codificación automática. De todos modos, ya sea por un error en el diccionario o por la decisión de tomar un criterio distinto al que figura en el diccionario, se puede modificar el mismo y correr nuevamente el sistema de codificación para aquellos registros que se pretenden modificar. En un comienzo se mencionó que no existe un solo diccionario, sino un conjunto de ellos; veamos como surgen.
18 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
5.1.1 Fuentes para la creación de los diccionarios Al utilizar un diccionario para la codificación, se busca que la base a codificar y la del diccionario se asemejen lo más posible. Es necesario, entonces, armar los diccionarios con registros provenientes de campo, que se respondan en forma similar a la base que se pretenda codificar. Por ejemplo, si se quiere codificar una encuesta sociodemográfica es conveniente utilizar principalmente registros que provengan de programas del mismo ámbito. Ello no implica que no se puedan utilizar registros que provengan de encuestas del área económica, y mucho menos que éstas no aporten nada al diccionario, sino que es más probable que las respuestas de dos encuestas de la misma área sean más parecidas. Además, se pueden realizar diccionarios paralelos, es decir, crear un diccionario que utiliza registros de una fuente para codificar cierto tipo de encuestas y otro que se compone de registros de otras fuentes para codificar otro tipo de encuestas. Las áreas que sirven de fuentes para la creación de los diccionarios son:
Encuesta Permanente de Hogares (EPH)
Tercera y cuarta Prueba Piloto del Censo 2000
Muestra del Censo de Población y Viviendas de 1991
Directorio Nacional de Unidades Económicas (DiNUE) 5.1.2 Proceso Diccio Para proceder a armar los diccionarios sobre las fuentes antes mencionadas, se desarrolló una pantalla que permite sistematizar la codificación, la corrección ortográfica y la aplicación de la tercera generación2. Esta pantalla no forma parte de la codificación informática propiamente dicha, sino que es parte de una etapa anterior a la codificación. Esta etapa fue denominada "Proceso Diccio" y es mediante este proceso en donde se invierte tiempo y recursos en la corrección y codificación de registros que luego formarán parte de los diccionarios. Esta etapa es una de las más largas y tediosas, puesto que implica la revisión o codificación de las bases que se elijan para que formen parte de los diccionarios. Las decisiones que aquí se tomen le servirán al SiCI como guía para saber cómo actuar en determinados casos.
El trabajo realizado a través de esta pantalla (Proceso Diccio) se podría hacer en cualquier tabla o archivo, sin embargo, es conveniente realizarlo a través de una pantalla en donde se sistematizan las tareas efectuadas y automáticamente realiza la gestión de las bases que formarán los diccionarios. A la vez que permite una mayor seguridad en el manejo de las bases. En la próxima página se muestra un modelo de pantalla del módulo de corrección. 5.1.2.1 Corrección ortográfica La corrección ortográfica busca obtener diccionarios "correctos", sin embargo al corregir los registros que luego formarán parte de los diccionarios, estos se diferenciarán de los registros a codificar que tengan errores ortográficos. Es por eso, que se crea el primer diccionario, al que denominaremos "Diccionario Corrector". Este se compone de un conjunto de pares ordenados de palabras (palabra incorrecta y palabra correcta), que se obtienen de la experiencia de la corrección ortográfica. La corrección ortográfica es importante para reducir el tamaño de los diccionarios de codificación.
2 La tercera generación permite indicar para cada caso codificado, que elementos se tuvieron en cuenta para arribar al código como se verá en el punto 5.1.2.3
19 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Es importante distinguir las correcciones que se pueden hacer porque el contexto de la frase permite definir una palabra correcta asociada a la palabra incorrecta, de aquellas en las que existe una única relación palabra incorrecta – palabra correcta sin considerar el contexto de la frase. Por ejemplo, en el caso anterior en que se relaciona la palabra “estableciminto” con “establecimiento” no quedan dudas de dicha correspondencia y por lo tanto se puede generalizar y permitir que se corrija automáticamente en todos los casos en los que aparezca. Pero si aparece la palabra “art” en algunos casos se la puede relacionar gracias al contexto de la frase con la palabra “artículos”. Sin embargo, en otros casos es una palabra correcta pues se refiere a las “ART, Administradoras de Riesgo de Trabajo”. El diccionario corrector solo debe estar compuesto de los casos en que se puede generalizar la corrección de una palabra. El diccionario anulador es el que se compone de palabra anuladas, que son aquellas que no tienen ningún significado porque efectivamente no existen. No incluyen aquellas palabras que poseen errores ortográficos y que no se pueden incluir en el diccionario corrector por tener más de una palabra correcta anulada. 5.1.2.2 Codificación Las bases fuente utilizadas para crear los diccionarios, en muchos casos ya vienen codificadas desde las áreas de trabajo que las proveen. Es necesario entonces revisar la calidad de la codificación recibida para garantizar la veracidad de cada código existente en los diccionarios y solucionar los problemas provenientes de diferencias de criterio. Esta etapa de corrección de la codificación se realiza en la misma pantalla antes mostrada y a continuación de la corrección ortográfica. Dado que estamos hablando del Censo de Población, los clasificadores utilizados son la ClaNAE-97 (Clasificación Nacional de Actividades Económicas 1997) para actividad y el Clasificador Nacional de Ocupaciones para las ocupaciones. Luego a los efectos de cumplir con los compromisos adoptados en el marco del acuerdo Mercosur, a través de las respectivas tabla de correspondencia se obtuvieron los diccionarios en CAES (Clasificación de
Zona de corrección ortográfica
20 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Actividades Económicas para Encuestas Sociodemográficas del MERCOSUR) y en las agrupaciones de la Clasificación Internacional Uniforme de Ocupaciones (CIUO). La pauta de trabajo para la codificación de las variables que luego forman los diccionarios de trabajo, es asignar a cada "leyenda" el mayor número de dígitos posible. Una vez colocado el código, el sistema verifica la existencia del mismo. 5.1.2.3. Tercera generación La tercera generación es un código en si mismo, que indica cómo fue codificada esa variable. Es decir, si fue necesario leer solamente la variable a codificar o existe en alguna otra información complementaria para determinar un código. Para ilustrar lo antes dicho, se presenta a continuación los códigos posibles de tercera generación para actividades:
A = el código fue puesto con la información de la variable actividad
O = el código fue puesto con la información de la variable actividad más la ocupación
T = el código fue puesto con la información de la variable actividad más la descripción de la tarea
Ch = este es un caso específico para distinguir a las personas que realizan changas (changador), sin importar en donde se leyó la información (en la variable de actividad, ocupación o tarea)
Am = este es un caso específico para distinguir a las personas que realizan ventas ambulantes, sin importar en donde se leyó la información (en la variable de actividad, ocupación o tarea)
? = información insuficiente (no se puede determinar un código) Los códigos de tercera generación permiten crear otro conjunto diferente de diccionarios. Una frase de actividad a codificar idéntica a una frase del diccionario que posee tercera generación “A” se puede codificar sin problemas en forma totalmente automática; pero una frase de actividad a codificar idéntica a una frase de diccionario que posee tercera generación “O” indica que para poner el código debe observarse la ocupación. Por lo tanto, para una misma frase de actividad se presentan diferentes códigos posibles. En resumen, el módulo de corrección nos permite realizar las siguientes tareas:
5.2.- Etapa II: preparación de las bases Lectura de los formularios: si bien la lectura de los formularios no forma parte de las tareas a realizar por el SiCI, este interviene de cierta forma a través de la creación del diccionario de lectura. En un principio se había pensado en utilizar un diccionario de uso corriente donde nos aseguraríamos que se encontrarían todas las palabras que se utilizan en el idioma español. Esta idea fue descartada pues un diccionario de tal dimensión demoraría la lectura de los formularios. Con la creación de los diccionarios de codificación, se fueron recolectando las palabras más usuales
21 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
que se utilizan para responder las variables en consideración que a la fecha no superan los 10.000 vocablos. Sin embargo, dado que durante la lectura aparecen palabras nuevas estas se irán incorporando a medida que se consideren que son correctas. Normalizado: una vez obtenido el archivo de frases que no han podido ser interpretadas durante la lectura óptica, lo primero que se hace es verificar el estado de las bases. Esto consiste en determinar si la estructura de las bases es compatible con lo establecido por el Sistema. Un segundo paso es el de normalización que consiste en sacar todos los caracteres que no son de utilidad para la codificación. A título de ejemplo
"=" reemplaza por " " (espacio vacío) ")" reemplaza por " " "1°" reemplaza por ""
Acondicionamiento de bases El eje principal en esta etapa es el proceso lingüístico que denominamos en forma equivalente como "campo semántico" o "familiarizado". Solo a los efectos de aclarar los puntos se puede resumir que un campo semántico es un conjunto de palabras (denominados hijos) semánticamente diferentes pero que a los efectos codificatorios son reducibles a un solo vocablo (denominado padre). Por ejemplo:
Mediante la aplicación de los campos semánticos se puede obtener una mayor frecuencia de la palabra padre, pues esta aparecerá remplazando a cualquiera de sus hijos. Del mismo modo, se aumenta la frecuencia de las frases que contengan la palabra padre. Ello es muy importante a la hora del cálculo de los pesos heurísticos y los scores. La familia involucra vocablos hijos cuya raíz es igual al vocablo padre. Ejemplo: Padre: FABRICACION Hijos: FABRICA, FABRICAN, FABRICACIONES, FABRICO. Por lo tanto la familia no es más que un caso particular de "campo semántico". Aclarado esto, el proceso de campo semántico actúa en la base a codificar de la siguiente forma:
Ejemplo completo de la etapa de preparación de bases
22 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Para tener idea de los efectos que este proceso lingüístico tiene se presenta un cuadro de resultados.
Resultados de la pre-codificación
OPERATIVO Cantidad de frases originales Cantidad de frases únicas luego de la Pre-codificación
Censo experimental 35.567 (100%)
11.745 (33%)
EPH (octubre 98) 34.047 (100%)
9.984 Frase a codificar (29%)
5.3.- Etapa III: Codificación La etapa de codificación es la más importante en términos de que es aquí donde se encuentra la solución a las necesidades de codificar en forma rápida y precisa. Es por ello que se han “ingeniado” diversas estrategias de codificación uniendo en las mismas tres disciplinas:
Normativa clasificatoria (marco normativo de la clasificación pericia sectorial y práctica codificatoria).
Informática (lógica y desarrollo de sistema).
Metodología estadística (scores y control de calidad) Así el sistema de codificación resultante abarca los siguientes métodos: Autofrase: de manera muy simple podría decirse que si en los diccionarios de frases codificadas se tiene una frase como por ejemplo “Fabricación de leche”, que por no tener necesidad de mirar otras variables tiene 3° generación “A”, quiere decir que todo operativo que traiga la descripción “Fabricación de leche”(o su equivalente en términos de campos semánticos) se codificará en forma automática y sin errores posibles3.
3 Salvo error en los diccionarios que como ya se dijo deben ser perfectos.
23 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Microprocesos: son un conjunto de reglas de decisión diseñadas por los sectorialistas y utilizadas en el SiCI para que mediante palabras claves u otras variables (por ejemplo cantidad de ocupados del establecimiento) se le pueda asignar un código a una frase de actividad u ocupación que presente múltiples alternativas de codificación. Los microprocesos están dirigidos a "tomar decisiones" en forma automática a partir de la información contenida en otras variables que complementan las respuestas de la variable a codificar. Por ejemplo:
Frase de actividad ------------------------------ Empresa de transporte Códigos asignados por los codificadores--------- 60-61-62, (a dos dígitos) Si en ocupación o tarea surge información que lo conecte a trenes, transporte automotor o avión, el caso se resuelve. Así el diseño de un microproceso tomando el ejemplo anterior que daría de la siguiente forma:
24 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
1) FRASE CLAVE: es la frase por la cual el registro pasa a la codificación por el método de microprocesos. Ejemplo: cuando en la descripción de actividad aparezca transportista o transporte o empresa transporte, esos casos serán codificados según el esquema presentado.
2) RESTRICCIÓN: determina si existe algún dato para definir un código.
3) CÓDIGO CAES QUE CORRESPONDERIA SI HAY RESTRICCIONES
4) CÓDIGO GENERAL SI NO SE ENCUENTRA RESTRICCIONES, es decir que si no entró a ninguna respuesta SI
de las restricciones queda como código asignado.
5) PALABRAS DE LAS LISTAS DE EXCEPCIONES: conjunto de palabras que funcionan como dato clave para designar un código automáticamente.
6) LISTA CLAVE: es una lista de frases que tienen igual significación que la frase clave y que deberían tener el mismo diseño de microproceso.
También puede tomarse como tamaño del establecimiento o si la empresa en la que trabaja la persona es una empresa pública o privada. Por ejemplo:
Scores: es un método que combina dos elementos. Por un lado la “especificidad” que cada palabra tiene respecto a los distintos códigos. Por ejemplo la palabra leche es “más específica” que “fabricación” pues a la primera se le asocia una limitada cantidad de códigos mientras que la segunda es de uso más difundido en todas las ramas de la industria. Esto es un movimiento analítico dentro del diccionario de codificación. La especificidad de cada palabra del diccionario se mide a través del llamado “peso heurístico” que también forma parte de los diccionarios junto con los literales y los códigos. Por el otro lado, el score también analiza la relación entre las frases del diccionario y las frases a codificar. Dada una frase a codificar, el “score” permite elegir “frases candidatas” dentro de la “oferta” que da el diccionario. Esas “candidatas” se eligen teniendo en cuenta el mayor número de palabras comunes entre
25 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
la frase a codificar y las frases del diccionario. Cuanta mayor coincidencia es de entre ambos tipos de frases, mayor será el “score”. Score 10: se produce cuando la frase a codificar encuentra una “frase con la misma palabra” en el diccionario independientemente de su orden. Sin embargo el autofrase ya eliminó de la base a codificar aquellas que tiene el mismo orden. Score < 10: en este caso la coincidencia entre frases a codificar y candidatas no es perfecta.
Ejemplo de frase a codificar: Fabricación de golosinas y galletitas i) Ejemplo frase score 10 Fabricación de galletitas y golosinas ii) Ejemplo de frase score < 10 Fabricación de golosinas.
Autopalabra: es un método de codificación automático o directo que permite la asignación de un código único sin intervención de los codificadores. Para esto, utiliza un diccionario de codificación formado exclusivamente por palabras y los códigos asociados según la frase de la cual provengan. En la práctica, este método se ha abandonado pues el grado de error da por encima del 50% y el porcentaje a codificar, dado que es un método que se aplica a los casos que no se pudieron codificar por otros métodos, es extremadamente bajo. 6.- Prueba piloto del SiCI en el Censo Experimental de Pergamino A fines de 1999, dentro de las actividades previstas en el cronograma del censo 2001, se realizó un censo experimental en la localidad de Pergamino que dio origen a una base a codificar de 35567 registros. En ese operativo se realizó la prueba de los diccionarios de lectura y se ensayó la corrección ortográfica que alimento en forma diaria los diccionarios de lectura provistos inicialmente. Ello permitió mejorar los procesos previstos hasta adoptar la forma actual. En términos de los resultados de la etapa de pre-codificación, la manipulación de las frases a través de la aplicación de los diccionarios corrector, anulador y espurias mas los procesos de estandarizado, aplicación de los campos semánticos o familiarizado y reducción a frase única, la base a codificar se redujo de 35567 a 11745 registros, esto es un 67 %; siendo este el punto de partida de la base a codificar. Con relación a la codificación se realizaron dos pruebas, una que finalizó en junio de 2000 y una segunda que se acaba de terminar. Haciendo una síntesis de los resultados obtenidos a este momento se tiene: Codificación Automática para actividades:
Base: Pergamino, octubre de 1999 Registros a codificar: 35.567 Se codificó sobre la base del Clasificador de Actividades económicas para Encuestas Socio demográficas para el Mercosur (CAES), a 4 ó 2 dígitos y categoría de tabulación (letra).
Método Autofrase Score 10 Micro-procesos
Scores entre 8.5 y 10 *
Autopalabras
Cantidad de codificados 5699 799 9908 8971
1026
Porcentaje 16,02 2,25 27,86 25,22 2,88
Error promedio 0 % <6% 30 % 50%
*método aún no calibrado
26 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Conclusiones: el método de microprocesos aún tiene un potencial sin explotar que daría un margen para aumentar el porcentaje de codificación tratando a la vez de reducir aún más el porcentaje de error. Queda todavía definir el error máximo a tolerar. El método scores < 10 si bien ha dado errores muy altos, cercanos al 30%, también es cierto que aún queda por trabajar los valores críticos de los scores por rama de actividad y definir un valor de dispersión mínimo entre los scores de las frases candidatas. Dado los errores producidos por el método de autopalabras y el escaso aporte que realiza a la codificación el método queda descartado. Codificación automática para ocupaciones: Luego de la primera prueba de codificación informatizada para la pregunta abierta de ocupación (informe de junio de 2000) se dieron dos nuevos pasos: 1) correcciones en los procesos con palabras clave 2) aplicación de la estandarización de palabras antes de aplicar los mencionados procesos Correcciones y nueva corrida del programa: a partir de los resultados obtenidos en la primera prueba, en cuanto a cantidad y calidad de la codificación informatizada, se corrigieron los principales errores encontrados y se amplió el campo de la codificación mediante la creación de nuevos procesos. La corrección consistió tanto en el agregado como en la reducción o modificación de los listados de palabras y restricciones ligados a los procesos. La ampliación del campo de la codificación informatizada supuso la creación de nuevos procesos que no habían sido considerados en ocasión de la primera prueba, ya sea porque en principio nos centramos en los procesos que consideramos más importantes, ya sea porque el análisis de los casos que quedaron sin código asignado revelaron la posibilidad de crear nuevos procesos. Luego se corrió nuevamente el programa sobre la misma base de datos de referencia Los resultados comparativos entre la primera y la segunda prueba son los siguientes: Prueba 1 Prueba 2
Casos con código asignado 44,4% 60,8% Casos codificados 35,0% 48,0%
Casos embolsados 9,4% 12,8% Casos no codificados 55,6% 39,2%
Total de casos 35.567 35.567 Como se ve, se produjo un incremento muy sensible en la cantidad de códigos asignados: aproximadamente un 33% más que en la primera prueba. Y si bien el incremento porcentual es aproximadamente el mismo en los dos rubros que integran este ítem (casos codificados y casos embolsados), la mayor proporción del primero (en una relación de 4 a 1 respecto del segundo) implica que en valores absolutos los nuevos resultados sean muy significativos. Estandarización de palabras y nueva aplicación de los procesos: un método para expandir el rango de aplicación de los procesos es la estandarización de las palabras. Consiste básicamente en reducir las palabras (tanto las de la información empírica como las de las palabras clave de los procesos y sus listas de restricciones asociadas) a su raíz. Como parte de la segunda prueba de codificación informatizada se realizó una codificación utilizando la estandarización. Los resultados fueron los siguientes:
27 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Casos con código asignado 66,8% Casos codificados 54,8%
Casos embolsados 12,0% Casos no codificados 33,2%
Total de casos 35.567 Como se ve, los casos con código asignado pasan de 60,8% (sin estandarizar) a 66,8% (estandarizando), es decir, se incrementan 6 puntos (10% relativo) utilizando los mismos procesos de codificación con palabras clave. La única diferencia entre ambas situaciones es la estandarización de las palabras. Además, el incremento se produce totalmente en los casos codificados en forma directa, ya que los casos embolsados incluso disminuyen. Esto indica un buen camino a seguir. Control de calidad Para la Prueba 14 se realizó un control de calidad sobre los casos con código asignado (15.788 casos). Los resultados de este control difieren conceptualmente de acuerdo a si los errores localizados se encuentran entre los casos codificados o entre los casos embolsados: los errores entre los casos codificados son "definitivos": un código único es asignado por proceso automático y
este será el código final a menos que actúen otras instancias de verificación y control; los errores entre los casos embolsados son "no definitivos": el código asignado por proceso automático es
provisorio, orientativo para la instancia de codificación asistida; si el código genérico asignado es erróneo ("orienta mal") esto aún puede ser subsanado por el codificador que deba asignar el código final, ya sea asignándole el código correcto o derivando el caso a otra instancia de codificación.
Para el control de calidad se revisó una muestra del 10%. Dicha muestra incluyó por lo tanto 1.579 casos con código asignado. El resultado fue el siguiente:
Casos con código asignado incorrectamente 7,5% Errores "definitivos" 5,5% Errores "no definitivos" 2,0%
Casos con código asignado correctamente 92,5%
4 Actualmente se está realizando el control de calidad de la Prueba 2
28 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
El siguiente material muestra cómo fueron procesadas, en sus inicios, las palabras que conforman los distintos
diccionarios del SiCI. Si bien se muestra el procesamiento para actividad, es aplicable a otras variables.
Hoy algunas de las reglas y formas de proceso de las palabras han sido superadas. Por tratarse de una recopilación
no se ha modificado su contenido.
CORRECCIÓN ORTOGRÁFICA
29 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
CORRECCIÓN ORTOGRÁFICA
1. Objetivos
2. Criterios utilizados en la tipificación de palabras
a. Criterios de selección
b. Criterios de corrección
c. Criterios de lectura
d. Criterios de normalización
e. Características distintivas de las palabras espurias y anuladas
3. Reglas operativas utilizadas en la tipificación de las palabras
Anexo capítulo corrección ortográfica: tabla de caracteres de normalizado
30 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Actividades
En esta sección se presenta la experiencia recogida durante la elaboración del proceso de corrección ortográfica de la variable actividad. Al respecto es importante puntualizar: No se debe confundir al proceso de corrección ortográfica con la tarea de aplicación de las reglas ortográficas del idioma castellano, ya que el SiCI normaliza todas las frases eliminando: comas, puntos y acentos, entre otros signos. La implementación de la corrección ortográfica es un proceso relevante a la hora de conformar los diccionarios. Es aquí donde se definen las reglas operativas que permitirán el ingreso o el egreso de las palabras a cada uno de ellos. Es decir, en esta etapa se estableció el contenido concreto de cada diccionario y se afianzaron los conceptos de palabras espuria, conector, excepción y anulada que se utilizan en el SiCI. Los criterios elegidos para tipificar las palabras que forman las frases de actividad, están de acuerdo con el rol que cada una tiene en la frase, desde el punto de vista gramatical y codificatorio. Todas las reglas operativas de índole gramatical o semántica, desarrolladas durante este proceso, han sido adoptadas en el diseño del SiCI como normativa y por lo tanto impactan en los procesos de armado de campos semánticos y de microprocesos que se explicarán en otros documentos. El proceso de corrección ortográfica tuvo como fuente los diccionarios armados a partir del Proceso Diccio descripto en otro documento. El siguiente esquema representa al proceso de corrección ortográfica: PROCESO
Anterior Actual Posterior
Diccionario Diccionario
P P E S
input output
De esta forma las reglas operativas utilizadas en este proceso permitieron pulir los diccionarios del Proceso Diccio para conferirle una mayor eficiencia en su uso durante el armado de los campos semánticos, los microprocesos, en la etapa de corrección automática y en la codificación.
Proceso Diccio
Corrección Ortográfica
Campos Semánticos Microprocesos
31 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
1. Objetivos La corrección ortográfica se llevó a cabo con los siguientes fines: Acondicionar los diccionarios ya descriptos en el Proceso Diccio a los efectos de unificar los criterios de
inclusión de las palabras en cada uno de ellos. Los diccionarios5 afectados al proceso de corrección ortográfica fueron:
Diccionario de palabras correctas (P) Diccionario de palabras espurias (E) Diccionario de sinónimos y diccionario corrector (S-CR) Diccionario de palabras anuladas (A) Diccionario de conectores (C ).
Crear las reglas operativas necesarias para solucionar los casos difíciles de tipificar, como así también
resolver las dificultades encontradas en la unión de palabras que, de aplicarse los criterios de inclusión, hubiesen llevado a la pérdida de información relevante.
2. Criterios utilizados en la tipificación de palabras
Para el desarrollo de los diccionarios fue preciso partir de pautas o criterios de selección de las palabras, que permitieran armar los mismos con contenidos homogéneos. Según el diccionario, las pautas de selección fueron las siguientes:
a) Criterios de selección: se refieren a cómo se selecciona el diccionario en el que cada palabra debe incorporarse.
Palabra ESPURIA: se consideran como tales aquellas que son neutras en la tarea de asignación de códigos, ya que no reportan información de relevancia para los nomencladores que se utilizan. Para que una palabra sea espuria debe ser neutra para todos los códigos del nomenclador en cuestión. En tal sentido, una palabra puede ser espuria para el nomenclador de actividades y no para el de ocupaciones y viceversa; aunque también puede darse el caso que sea "universalmente" espuria.
URUGUAY SA $ BRITANICO B°SAN STAFE
VGOBGALVEZ BBLANCA ALEJANDRO ARGERICH D LU4
N506 TOMASSINI U7
5 Ver las definiciones de los diccionarios en el capítulo N° XXXXXX de Proceso Diccio.
32 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Palabra ANULADA: se consideran como tales aquellas que carecen de significado para el idioma español y/o para la jerga de las actividades, los productos y las ocupaciones, entre otras variables sujetas a ser codificadas en forma automática.
GAN ADERAS DIAR IO COS INSTA
AGROPE PRO
Palabra SINÓNIMO: se consideran como tales las palabras que reemplazan a otras no por su significado sino para producir la corrección. Es decir, no reviste el mismo rol que los sinónimos en el idioma español, sino que funcionan como palabras correctoras que a los efectos del SiCI tienen el mismo significado que la palabra original proveniente del relevamiento en cuestión.
CORP = CORPORACION SINGUERIA = ZINGUERIA
TV = TELEVISION BONCE = BRONCE
Palabras LOCALES: se consideran como tales aquellas que denotan el nombre de una tipología de local, que para el SiCI facilita la tarea de asignación de códigos pues los locales son la síntesis de una frase que manifiesta una determinada actividad.
Por ejemplo: "bicicletería", es lo mismo que encontrar una frase que diga "Venta y reparación de bicicletas y otros rodados”;
"verdulería", es lo mismo que decir “Ventas de frutas, verduras y hortalizas”.
Palabras CONECTORES: se consideran como tales aquellos vocablos que cumplen un rol de nexo entre las palabras que componen la frase, pero que no tienen ninguna participación en la asignación de los códigos.
E BAJO QUE LA AL Y CABE ETC. LAS DEL U CON ETCETERA EL SU O DE ETC LO SUS
Y/O DESDE TODA LOS OTRA EN TODAS LE OTRO ENTRE COMO LES OTRAS POR ASI UNA OTROS SIN NI UN
SOBRE SI
TRAS SE
33 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Palabras EXCEPCIONES: son consideradas como tales aquellos vocablos que cumpliendo con el mismo rol que los conectores, no se consideran dentro de éstos debido a que modifican el sentido de las frases y pueden alterar la asignación de los códigos.
NO PARA
EXCEPTO A
Palabras MÁQUINAS Y EQUIPOS: se consideran como tales aquellas palabras que hacen referencia a nombres de máquinas y equipos, en contraposición a instrumentos simples o herramientas. Dentro de esta categoría máquinas y equipos existen dos grupos: electromecánico e informatizado. Todas estas palabras sólo forman parte de los diccionarios de ocupaciones.
Ejemplos de:
Maquinarias Equipos ESTAMPADORA DE TELA TOMOGRAFO COMPUTADO
PRENSA HIDRAULICA RADAR MAQUINA INYECTORA DE PLASTICO
VEHICULOS MOTORIZADOS
Palabras CORRECTAS: son aquellas palabras escritas en forma adecuada y que no están incorporadas en ninguna de las categorías anteriores. En términos del proceso de armado de los diccionarios, este es un diccionario residual que surge de aplicar los criterios antes mencionados al diccionario armado sobre la base de palabras originales provenientes de los relevamientos.
Incluye: siglas fácilmente reconocibles. Ya que, muchas de ellas, pueden llegar a definir un código.
En el área del SiNN, se elaboró una tabla con el fin de tener un lugar fuera del sistema en donde se pudieran ir volcando las palabras correctas que surgieran a partir del resultado de reuniones del equipo de trabajo, o de consultas. Consta de cuatro columnas:
En la primera, se volcó el nombre del registro. En la segunda, se escribió la palabra tal cual aparece en el registro. En la tercera, se colocaron las palabras que para el SiCI tienen valor de correctas, es decir, que ante la presencia de algún conflicto se tomó la decisión –reunión mediante- de escribirla de esa manera para satisfacer los requerimientos del sistema. Si la palabra está escrita en inglés, se registra también el plural si apareció en singular. La cuarta, se reservó para las observaciones. Aquí se aclaró cómo se decidió, bajo qué circunstancias o a partir de qué bases se fueron tomando. También se aprovechó para indicar errores existe algún error ortográfico o reglas viejas descubiertos en una publicación, tales como el diccionario del SiNN o Notas
34 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Explicativas; de esta manera antes de hacer una publicación se podría hacer una revisión de la lista y proceder a volcar los arreglos allí anotados. Se haría un filtro para ver cuáles de las palabras se encuentran en esta situación. De esta manera ya vamos contamos con un listado de correcciones a llevar a cabo en el momento de lanzar una nueva edición de cualquiera de las publicaciones que el SiNN elabora.
El cuadro 2 presenta parte del archivo a modo de ejemplo:
Cuadro 2
Origen y N° del Registro
Palabra del registro
Palabras correctas para
el SiCI
Observaciones
FRAEPHNO SWEATERS SUETERES RECORDAR corregirlo en el diccionario del SiNN.
“ BUREAU BURO Consultado con ACADEMIA ARG. LETRAS.
“ BOULEVARD BULEVAR Consultado con ACADEMIA ARG. LETRAS.
PREVENCIONAL PREVENTIVA Consultado con ACADEMIA ARG. LETRAS. En el registro dice:
“seguridad prevencional”. No existe este último como vocablo.
FOLKLORICA FOLCLORICA CD diccionario de la real academia española
CONTAINERS CONTENEDORES
En la pág. 245 del diccionario del SiNN acepta las dos acepciones.
En las Nuevas NE solo dice contenedores en el 34200.
REMMIS REMIS Posibilidad BA BUENOS AIRES FRAEPHNO STAFE SANTA FE FRAEPHNO BBLANCA BAHIA BLANCA
TERGOPOL TELGOPOR CORREGIRLO EN EL DICCIONARIO DEL SiNN
DiNUE ALBUNES ALBUMES
b) Criterio de corrección: se refiere a la tarea previa que se debe realizar cuando una palabra está escrita en forma incorrecta. En primer lugar se debe armar su sinónimo y luego, a la palabra correcta, se la incorpora en el diccionario de palabras correspondiente según los criterios antes mencionados.
c) Criterios de lectura: para conformar el diccionario de lectura, se deben unir los diccionarios: (P), (E), (L)6,
(M)7, ( C)8 y (X)9 que tienen la particularidad de contener palabras correctamente escritas.
6 Su definición se encuentra en el capítulo de Proceso Diccio.
7 Su definición se encuentra en el capítulo de Proceso Diccio.
8 Su definición se encuentra en el capítulo de Proceso Diccio.
9 Su definición se encuentra en el documento de Proceso Diccio.
35 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
d) Criterios de normalización: a continuación se describen las diferentes decisiones tomadas con el fin de
normalizar las palabras que forman los diccionarios. El sistema está diseñado de manera tal que todas las palabras que forman parte de los registros estén siempre normalizadas de la siguiente manera:
en letras mayúsculas,
sin los caracteres que se eliminan o se reemplazan en forma automática como por ejemplo: puntos, comas, acentos, diéresis, y otros que figuran en el anexo de este capítulo,
sin errores de ortografía y,
sin abreviaturas.
Características distintivas de las palabras espurias y anuladas
Si bien tanto las palabras “espurias” como “anuladas” deben ser eliminadas durante el proceso de corrección, es preciso destacar sus características diferenciales ya que las espurias si bien no sirven para codificar son de relevancia en el proceso de lectura. 3.1 Palabras espurias: son palabras que poseen significado literal y están escritas de manera correcta (ver criterio de corrección) ) pero no son útiles para asignar un código. Debido a que los diccionarios de palabras tienen asociado un peso heurístico10, que se utiliza luego en el proceso de codificación automática mediante scores, la presencia de palabras “inútiles” sólo introduce ruido al proceso. En general, todas ellas son de baja frecuencia. Sin embargo, al mismo tiempo durante la lectura por scanner, si estas palabras no se incluyen en los diccionarios se incrementará el porcentaje de palabras “no reconocidas” aumentando la tarea manual. Por ello las espurias se incluyen en el diccionario de lectura y se excluyen en el diccionario de codificación.
Los diferentes casos de palabras espurias son:
Nombre/s y/o apellido/s de personas (excepto aquellos que representan empresas que puedan definir un código)
Nombres de lugares geográficos Excepción:
IBERIA: ya que puede ser el nombre de la aerolínea y en ese caso debe formar parte de un diccionario de empresas –aún sin definir-.
Nacionalidades y gentilicios
Nombres de empresas que no sean fácilmente reconocibles
Ejemplos:
ESPUMI COMPY Abreviaturas (excepto siglas)
36 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Todos los números
Incluye
Números ordinales Números cardinales DÉCIMO ART65
1° 1ERA
Nota: los números cardinales se anulan con el normaliza do. Verlo en el anexo del final de capítulo.
Excepciones números romanos, pues se confunden con letras. Nota de atención: cuidado con la “X” ya puede ser “por” (venta x mayor) o una máquina (rayos X) Adjetivos
Sociedades comerciales o Tipo jurídico de una empresa: SA, SRL, entre otras.
Cargos (tomado como empleo honorífico o dignidad); jerarquías militares; títulos universitarios o terciarios,
tales como: Dr. o Lic.; y expresiones tales como: San o Santa11. Meses del año
3.2 Palabras anuladas: son palabras que carecen de significado literal. Se originan en errores de tipeo, en la lectura y/o redacción y no se les puede atribuir ninguna palabra para realizar una corrección. Surgen generalmente por partes de palabras que se cortaron al medio por alguna razón.
Ejemplo: La palabra computadora se presenta por la mitad de esta manera: “compu” “tadora”. Una rápida solución sería unir los dos restos de la palabra. Pero lo que se busca es la sistematización. Es decir, que el sistema forme un par ordenado a partir de una parte de la palabra “compu”. Entonces el par queda formado con: compu /computadora. La segunda parte “tadora” no puede relacionarse con una palabra específica o bien puede hacerse con un espectro amplio de palabras, por lo tanto forma parte del diccionario de palabras anuladas.
Conclusiones
Por lo dicho anteriormente para armar los diccionarios es necesario contar con conocimientos técnicos de los diferentes clasificadores de actividades y productos. Es por ello que estos diccionarios son creados por técnicos que trabajan con nomenclaturas, ya que son ellos quienes determinan qué palabras son relevantes para codificar y cuáles no.
11
recordar que puede que estos conceptos sean válidos para actividades y no para ocupaciones.
37 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Las tipologías de palabras si bien respecta como guía pautas dadas por la gramática del idioma, han sufrido algunas modificaciones para transformarlas en pautas gramaticales de este otro lenguaje que es el de las clasificaciones.
Reglas operativas utilizadas en la tipificación de palabras
Sirven para solucionar los problemas que se presentaron como producto de la aplicación de los criterios. Los casos que se presentaron y las soluciones adoptadas son los siguientes:
Regla operativa 1, caso dos o más palabras claves12 bien escritas que no tienen espacio en blanco entre ellas
Ejemplos: PAPELERAVENTA
MENORCOMERCIO EDUCACIONCOMEDOR EMPRESARIALNUCLEA
FINCAVIÑAS MADERAFABRICA
NATURALESPARQUE DOMICILIARIASREPARACIONES
LOCALBIJOUTERIE JUEGOSACTIVIDADES
GRANJAVENTA
Regla 1: si en un registro se presentaran varias palabras o sílabas “pegadas” (sin que exista entre ellas espacios en blanco) y éstas son claves O BIEN PONER QUE SON CLAVES PARA LA CODIFICACION, se debe considerar a todo el
bloque -palabras o sílabas pegadas- como una palabra correcta. Cada una de estas palabras pasan a formar parte del diccionario corrector.
Regla operativa 2, caso dos o más palabras claves con errores ortográficos que no tienen espacio en blanco entre ellas
Ejemplos:
PAUQUETERAVENTA DISTRIBUBMAYORISTA
Regla 2: si el bloque de palabras claves no estuviera bien escrito, se le debe corregir la ortografía. Se generan entonces sinónimos.
Regla operativa 3, caso dos o más palabras que no tienen espacio en blanco entre ellas
12 Palabras claves: se ajustan al esquema necesario para llegar a la codificación. Éste es: ACCION-PRODUCTO-MATERIA PRIMA-DESTINO.
38 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Ejemplos: SUPERMERCADOSECCION
VIEJASCARTON PRIMERAPOLICIA
DEJUGO PROFDE
PRODCDE SUPERVDE
Regla 3: si alguna de las partes del bloque no es clave, se debe anular la palabra, abreviatura o sílaba no clave y se
debe conservar como sinónimo el resto del bloque que sí es clave.
Regla operativa 4, caso dos o más palabras que no tienen espacio en blanco entre ellas y que alguna de ellas es indefinida
Ejemplos:
ACTIVDEPORTIVA Regla 4: si alguna de las partes del bloque creara algún conflicto en cuanto a su interpretación, se debe completar la palabra o sílaba en cuestión y se debe conservar como sinónimo el resto del bloque.
No entendí cómo se procede en este caso, por eso puse los .....................
Regla operativa 5, caso dos o más palabras claves que no tienen espacio en blanco entre ellas y que alguna de ellas
está abreviada
Ejemplos: SERVMEDICOS FABLADRILLO
MAQSOLDADORAS ARTPARA
VTAMAYORISTA METALURGICOFCADE
ESCSECUNDARIA
Caso particular o excepción: VTASAL Puede considerarse como proveniente de las palabras VENTAS AL, o bien de las palabras VENTAS SAL.
Decisión: considerarla como sinónimo de la palabra VENTAS cuando este bloque de palabras se presente fuera de contexto.
Regla 5: si el bloque de palabras claves posee una abreviatura, se debe completar la abreviatura y todo el bloque formado de esta manera es el sinónimo del bloque primitivo.
39 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Regla operativa 6, caso par ordenado: relación entre una palabra incorrecta y una palabra correcta. Las palabras incorrectas pueden ser generadas, entre otros motivos por: errores de tipeo:
o inversión de letras o repetición de letras o un espacio entre medio de una palabra
errores ortográficos abreviaturas: deben reemplazarse por las palabras que correspondan, siguiendo el contexto del registro en
el que ese esté trabajando, pero siempre se deben relacionar con una y solo una palabra correcta.
En el cuadro 1 se esquematiza el razonamiento que se lleva a cabo para conformar el par ordenado y para ejemplificar el tema.
Cuadro 1 – Pares ordenados de palabras
Par ordenado Palabra incorrecta Palabra correcta Va al
diccionario corrector (SI/NO)
Decisión Tipo de error ortográfico
Observación
NIBORISTA MINORISTA SI S Tipeo CORP CORPORACION no S Abreviatura
CONFECCCION CONFECCION SI S Tipeo MERC MERCADERIA NO S Abreviatura GRAL GENERAL SI S Abreviatura
ART ARTICULO NO S No se mantiene la relación palabra incorrecta-correcta ya que en otro
contexto se puede tratar de las ART (Aseguradoras de Riesgo de
Trabajo).
MTS METROS SI S Abreviatura ALIMEMTICIOS ALIMENTICIOS SI S Tipeo
AUUTOMOTORES AUTOMOTORES SI S Tipeo Referencia: sinónimo (S) o espuria (E) con relación a la palabra incorrecta.
40 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Anexo capítulo corrección ortográfica: tabla de caracteres de normalizado
El primer caracter entre comillas puede ser reemplazado por otro caracter, un espacio en blanco o se suprime el caracter.
El caracter se reemplaza con "." "" "=" " " ";" " " " , " " " "(" " " ")" " " "'" "" '"' " " "[" " " "]" " " ":" " " "-" " " "_" " " "*" " " "/" " " "\" " " "%" " " "'" " " "´" " " "`" " " "ñ" "Ñ" "À" "A" "È" "E" "Ì" "I" "Ò" "O" "Ù" "U" "Á" "A" "É" "E" "Í" "I" "Ó" "O" "Ú" "U" "à" "A" "è" "E" "ì" "I" "ò" "O" "ù" "U" "á" "A" "é" "E" "í" "I" "ó" "O"
41 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
"ú" "U" "Ü" "U" "ü" "U" "0" "" "1" "" "2" "" "3" "" "4" "" "5" "" "6" "" "7" "" "8" "" "9" ""
42 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
PROCESO DICCIO
43 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Proceso Diccio13 En esta sección se describe el método denominado Proceso Diccio, utilizado para crear la múltiple variedad de diccionarios que alimentan al SiCI. Es en la ejecución de este proceso donde se logró explicitar cada uno de los pensamientos y decisiones que el codificador llevó a cabo durante la ejecución de su tarea, y que luego fueron tomados como modelo en el desarrollo del SiCI. Para la implementación sistemática y uniforme del método, se creó una pantalla que fue utilizada por los sectorialistas14 que participaron en el proceso. Objetivos El objetivo del Proceso Diccio es armar los elementos (tipologías de palabras, códigos y tercera generación) que constituyen los diferentes diccionarios que alimentan al SiCI y a la lectora óptica, esta última utilizada solo en el caso particular del Censo de Población y Vivienda 2001. Los diccionarios que surgen de este proceso son:
Diccionarios de frases: frases contenidas en las bases fuentes y que pueden estar o no codificadas.
Diccionario de frases originales: estas frases son las contenidas en los archivos fuente, a las cuales se les realizó un proceso de normalización que consiste en eliminar espacios en blanco, signos excesivos, depuración y dejar todo en mayúsculas, se trata de un proceso automático. Sin embargo estas frases no sufren modificación mediante el proceso de corrección, por lo tanto se mantienen en su contenido original.
Diccionario de frases corregidas codificadas: son frases que surgen del Proceso Diccio, realizada la corrección ortográfica quedan todas las palabras correctamente escritas, estas luego son codificadas al mayor grado de desagregación posible según la información disponible y asignada su correspondiente dígito de tercera generación –que es el que indica, el método por el cual se llegó al código-.
Diccionarios de palabras: surgen de la descomposición de las frases que provienen de las bases fuentes y del Proceso Diccio. Según el rol que esas palabras cumplan dentro de la frase a los efectos del SiCI se forman los siguientes tipos de diccionarios de palabras:
Diccionario de palabras correctas (P): palabras bien escritas, relevantes para la asignación de los códigos.
13 El desarrollo informático estuvo a cargo de Juan José Brión y Silvina Gijón de la Dirección de Informática. 14
Para mayor información consultar: INDEC, (1999), Serie Análisis y Comentarios N° 1, “Hacia un Modelo Integral de Clasificaciones de Uso Estadísticos”, Sistema Nacional de Nomenclaturas (SiNN).
44 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Diccionario de palabras espurias (E): palabras bien escritas, que no tienen relevancia en la asignación de los códigos. Por ejemplo en la frase “Fábrica de muebles de madera laqueada”, la palabra “laqueada” es espuria, ya que no aporta ninguna información a la hora de codificar.
Diccionario de sinónimos y diccionario corrector (S-CR): relación entre palabras correctas e incorrectas. El diccionario de sinónimos contiene los pares de palabras incorrectas-correctas que provienen de la corrección ortográfica. En cambio, el diccionario corrector es la parte del diccionario de sinónimos que puede ser aplicada en forma general en un proceso de corrección automática, sin afectar el sentido de las frases. Al encontrarse la frase: Fabricación de art de bazar, el par de palabras art-artículo conforman un sinónimo; sin embargo no puede tomarse ese par como “corrector” ya que en algunas ocasiones art significa: aseguradora de riesgo de trabajo, por lo tanto no puede reemplazarse dicha abreviatura en forma general por la palabra artículo ni la frase aseguradora de riesgo de trabajo.
Diccionario de palabras anuladas (A): palabras que carecen de sentido. Por ejemplo letras sueltas como: Z, H; excepto la X.
Diccionario de locales (L): palabras correctas que hacen referencia a nombres de locales como por ejemplo verdulería.
Diccionario de máquinas y equipos (M): palabras que refieren a nombres de maquinaria y equipo, por ejemplo computadora.
Diccionario de conectores (C): palabras que tienen la función de vincular los vocablos relevantes de las frases como por ejemplo, preposiciones y artículos.
Diccionario de palabras excepciones (X): son los conectores que deben excluirse del diccionario (C), por alterar el sentido de la frase a los efectos codificatorios. Son ellos “para”, “no” y “excepto”. “a”
Diccionario de lectura (LT): es aquel utilizado en el proceso de lectura óptica, que está conformado por los diccionarios: (P) + (E) + (L) + (M) + (C) + (X).
¿Qué es el Proceso Diccio? El Proceso Diccio, es un conjunto de tareas realizadas con el fin de crear los diccionarios de frases y palabras que alimentan al SiCI. Ellas son: Corrección ortográfica: las frases que alimentan la pantalla del Proceso Diccio provienen del relevamiento de campo de los diferentes programas del INDEC y mantienen el vocabulario utilizado por los informantes o entrevistados, con la única transformación de la realizada por el data-entry. Es por ello que estas frases presentan errores de ortografía, abreviaturas, palabras cortadas, palabras faltantes y errores gramaticales. La corrección ortográfica tiene por finalidad acondicionar las frases empíricas a los efectos de obtener frases y palabras correctas, tanto desde el punto de vista gramatical como semántico. Al mismo tiempo, cada palabra es tipificada de acuerdo a su rol dentro de la frase y su relevancia a los efectos de la aplicación de un código. Codificación o corrección de los códigos: si bien gran parte de las bases fuente han sido provista con sus respectivos códigos, fue preciso realizar un proceso de revisión de los mismos y llevarlos a un nivel de desagregación que la información disponible permita. Los diferentes programas de trabajo, utilizan clasificadores de actividad con distintos niveles de desagregación –cantidad de dígitos-. Ello lleva a que, para algunas frases, los
45 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
códigos asignados son el resultado de la ejecución de reglas operativas, imputaciones o soluciones de compromiso arribando así a la cantidad de dígitos requeridos. En otras frases la información disponible permitiría arribar a códigos con una mayor apertura, ya que una desagregación menor implicaría una pérdida de información. Tipología de palabras La primera generación de diccionarios se realiza partiendo de las bases de relevamiento de las fuentes, consiste en verificar la naturaleza de las bases, dichos diccionarios son:
Actividad (AC)
Ocupaciones (OC)
País (PA)
Provincia (PV)
Departamento (DP)
Localidad (LC)
Municipio (MC)
Razón social (RZ) La tercera generación surge al explicitar cuál es el método o qué elementos utiliza el codificador para poder arribar a un código de actividad. Los códigos posibles son:
A = este código indica, que el codificador asignó un código del nomenclador correspondiente a la mayor desagregación, solamente con la información de la variable de la actividad. Con esta tercera generación se alimenta el diccionario de frases únicas.
= al ser insuficiente la información descripta en la actividad, llevó al codificador recurrió a las variables de ocupación y/o tarea, para poder colocar un código de actividad.
? = se adjudica este código de tercera generación, cuando el registro por no contar con la información necesaria a los fines codificatorios, no se le puede asignar un código ni siquiera a dos dígitos.
Pantalla del Proceso Diccio La pantalla utilizada en el Proceso Diccio, se diseñó para la implementación sistemática y uniforme de las tareas antes descriptas y que fueron llevadas a cabo por los sectorialistas del SiNN, evitando de esta manera la inclusión de factores subjetivos que sesgaran los resultados obtenidos en el proceso. Es aquí donde se logró explicitar cada uno de los pensamientos y decisiones que el codificador llevó a cabo durante la ejecución de su tarea, y que luego fueron tomados como modelo en el desarrollo del SiCI. Vale aclarar que la pantalla no forma parte de la etapa de codificación propiamente dicha, sino a la etapa de elaboración de los instrumentos de codificación. Funciones de la pantalla del Proceso Diccio Las fuentes utilizadas para el armado de los diccionarios mediante el Proceso Diccio fueron, principalmente aquellas provenientes de relevamientos sociodemográficos, a saber:
Encuesta Permanente de Hogares, onda 3, año 1998 (EPH3)
46 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Encuesta Prueba Piloto IV del Censo del año 2000 Pergamino (EPP4) También fueron incorporadas las frases de actividades provenientes del Directorio Nacional de Unidades Económicas (DiNUE). Las diferencias entre esta última fuente y las de índole sociodemográfica son que en el DiNUE el encuestado es una unidad empresa, mientras que en las segundas son individuos que representan a los hogares, por ello difieren en el vocabulario y la extensión de las frases. Área de información: en este área se encuentran los datos originales de las bases fuentes donde solo se puede realizar un proceso intelectual. El codificador solo puede leer, interpretar y analizar, para luego decidir si es preciso
ingresar a la zona de corrección o ir directamente al área de codificación. El sistema de ninguna forma permite editar la información para realizar cambios, ya que es preciso mantener la originalidad de la fuente empírica, que es en definitiva la destinataria del código propuesto.
El área de información tiene cuatro campos: 1 Campo de Código: en este rango se visualiza el código en el caso de que el registro haya sido codificado previamente por el área o el programa de trabajo que lo proveyó. 2 Campo de Actividad: en este campo se describe la actividad económica, que puede ser respondida por una empresa o bien, por una persona si la encuesta es de tipo sociodemográfica. 3 Campo de Ocupación: donde se describe el nombre de la ocupación de la persona entrevistada. 4 Campo de Tarea: donde se describe la/s tarea/s que realiza la persona encuestada.
1 2 3 4
Área de
tratamiento
ortográfico
Y
semántico
Área menú
de ayuda
Área de información
Área de
codificación
47 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Área de tratamiento ortográfico y semántico: es el área donde se realizan las correcciones ortográficas, se procede al armado de la parte literal de los futuros diccionarios y se tipifican las palabras según su rol en la frase y su relevancia para la codificación. Esta área cuenta con dos campos:
En este sector de la pantalla se encuentran contenidas cinco tipo de columnas: 1. Palabra anterior: se encuentra la frase original, fraccionada en tantas filas como palabras la constituyan, que
proviene de la base fuente. Puede tener errores, abreviaturas, palabras cortadas y palabras superpuestas, entre otros casos. Esta columna es la única que no es editable, por lo tanto no sufrirá ninguna modificación, porque es necesario mantener la originalidad de la frase.
2. Nueva palabra: es en esta columna donde podemos observar las modificaciones realizadas en las palabras en el
caso de contener errores, abreviaturas, palabras cortadas y palabras superpuestas, entre otros casos. 3. Tipo: indica con una letra, qué función cumple la palabra dentro de la frase y según su utilidad a los efectos
clasificatorios. P palabra correcta, sin ninguna modificación. S palabra sinónima de la palabra incorrecta. C palabra considerada como conector dentro de la frase, ejemplo “de”; “y”; “por”; A palabra anulada. 4. Orden: indica el número de ubicación de la palabra en la frase. 5. Frecuencia: indica la cantidad de veces que figura la misma palabra dentro de la fuente que se está corrigiendo. Área de codificación:
En esta ventana el codificador inserta la cantidad de dígitos que la información de la frase
permita codificar.
48 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
EJEMPLOS DE CASOS Corrección ortográfica, caso error de ortografía Presentación del caso: en el registro 1593 de la base EPH3, la persona encuestada declara la ocupación de modista, que su tarea es confeccionar ropa y la actividad del establecimiento en el que trabaja es la de confección de ropas. En la pantalla la respuesta ingresada se ve de la siguiente manera : Observamos que una palabra de la frase de actividad contiene un error ortográfico cuya corrección se realiza ingresando al área de tratamiento ortográfico y semántico, y posicionándonos en la fila que contiene el error, se procede a corregir la palabra, CONFESCION por CONFECCION. En la columna de tipo de palabra se le asigna la “S” lo cual significa que la nueva palabra es un sinónimo de la palabra anterior. De esta manera los diccionarios que se alimentan en este caso son: Diccionario (P) con la palabra CONFECCION Diccionario (S) con el par CONFESCION -CONFECCION Diccionario (CR) con el par CONFESCION –CONFECCION Diccionario de frases originales: CONFESCION DE ROPAS Diccionario de frases corregidas codificadas: CONFECCION DE ROPAS (este diccionario luego será completado con el código correspondiente). Corrección ortográfica, caso unión de dos o más palabras Si dos palabras que describen la actividad están unidas y además una de ellas es una abreviatura. Para realizar la separación y corrección de las mismas, se ingresa al área de tratamiento ortográfico y semántico, y posicionándonos en la fila que contiene el problema, se procede a corregir la palabra, VTASAL por VENTAS. A continuación en la columna de tipo de palabra se le asigna la “S” lo cual significa que la nueva palabra es un
Cuando la palabra CONFESCION es reemplazada por la correcta, ésta aparece en
la columna de Nueva Palabra.
En este sector se coloca el código según la cantidad de dígitos que se hayan indicado en la ventana anterior.
En este rango se inserta el código de tercera generación. Con ésto queda indicado cómo y de qué forma el codificador arribó al código del nomenclador. Los códigos de tercera generación se encuentran en una ventana oculta con las diferentes opciones.
49 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
sinónimo de la palabra anterior. Para que la frase quede correcta es preciso incorporar la palabra AL y eso se realiza escribiendo en una fila vacía dicha palabra, asignándole como tipología “C” de conector. Al agregar la palabra AL, la frase quedó desordenada, por consiguiente en la columna Orden, se deben reenumerar las palabras para que la frase tenga un sentido de lectura correcto. De esta manera los diccionarios que se alimentan en este caso son: Diccionario (P) con la palabra VENTAS Diccionario (S) con el par VTASAL-VENTAS Diccionario (CR) con el par VTASAL-VENTAS Diccionario (C) con la palabra AL Diccionario de frases originales: VTASAL POR MENOR ARTICULO ALMACEN Diccionario de frases corregidas codificadas: VENTAS AL POR MENOR ARTICULOS DE ALMACEN (este diccionario luego será completado con el código correspondiente). Codificación, caso información suficiente mirando solo actividad Presentación del caso: en el registro 1687 de la base EPH3, la persona encuestada declara que su ocupación es ser operario de abastecimiento, su tarea es entregar materia prima a las personas que trabajan en las máquinas y la actividad del establecimiento en el que trabaja es la de fabricar telas. En la pantalla la respuesta ingresada se ve de la siguiente manera:
La información disponible en la actividad nos permite asignar el código del nomenclador de actividad a la mayor desagregación posible, asignando el código 1711.4. El siguiente paso es indicar la tercera generación, esto quiere decir, de qué manera el codificador llegó a determinar el código 1711.4. En este caso el código de tercera generación que le corresponde es A.
50 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
En este caso se alimenta el: Diccionario de frases corregidas codificadas: FABRICACION DE TELAS con el código 1711.4 y la tercera generación A. Codificación, caso información insuficiente en actividad: Presentación del caso: en el registro 16327 de la base EPH3, la persona encuestada declara que su ocupación es ser chofer de remis, su tarea es la de levantar pasajeros y la actividad transporte de pasajeros. En la pantalla se ve de la siguiente manera:
La información disponible en la actividad es insuficiente; por lo tanto se debe recurrir a la información declarada en la ocupación y la tarea para poder asignar un código, en este caso corresponde el código 602.22 del nomenclador de actividad. Por lo tanto, como se ha recurrido a la variable descripta en la ocupación y/o tarea para poder codificar la tercera generación que le corresponde es O. Queda alimentado así el siguiente diccionario: Diccionario de frases corregidas codificadas: TRANSPORTE DE PASAJEROS con su código 602.22 y tercera generación O.
51 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Codificación, caso información insuficiente para codificar: Presentación del caso: en el registro 2784 de la base EPH3 la persona encuestada declara que su ocupación es proyectista, su tarea es realizar proyectos para la destilería y la actividad destilería. En la pantalla se ve de la siguiente manera:
En este caso la información descripta en las tres variables, que figuran el área de información no alcanza para asignar un código numérico, solo letra C (Industria Manufacturera). Luego de terminada la codificación, para completar los códigos se aplica un método estadístico.
52 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
CAMPOS SEMÁNTIC0S
53 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
CAMPOS SEMÁNTICOS15
La idea de crear “campos semánticos” surgió con el objetivo de reducir la cantidad de palabras que, aunque sean
semánticamente diferentes pueden agruparse en un conjunto por estar asociadas a un mismo código, asignándole
a ese conjunto un nombre denominado “PADRE”, que será un apalabra representativa a las palabras agrupadas
dentro del conjunto de palabras denominadas “HIJOS”.
La oficina de nomenclaturas fue la encargada de armar los campos semánticos, dado que en ella se encuentran los sectorialistas de cada sector, por lo cual cada uno armó y controló su familia de palabras.
15
El desarrollo informático estuvo a cargo de Juan José Brión y Silvina Gijón de la Dirección de Informática.
Las palabras HIJOS se cargaron con
género y número.
PADRE
HIJOS
GOLOSINA
CARAMELOS
CARAMELO
ALFAJORES
ALFAJOR
CHOCOLATE
CHOCOLATES
CHICLE
CHICLES
BOMBOM...
BOMBONES
..........
GOLOSINAS
GOLOSINAS
GOLOSINAS
GOLOSINAS
GOLOSINAS
GOLOSINAS
GOLOSINAS
GOLOSINAS
GOLOSINAS
GOLOSINAS
..........
GOLOSINA
S
GOLOSINAS
Por lo tanto cada una de las palabras que el sistema reconoce como hijo, la reemplaza por su correspondiente padre, esto hace que la palabra PADRE se multiplique aumentando su frecuencia.
Todas las palabras PADRES se cargaron en plural, estando el singular de dicha palabra dentro del conjunto de los HIJOS.
54 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Para el armado de los campos semánticos fue fundamental, una vez realizada la tarea de elegir las palabras para el conjunto HIJOS, sacar los listados para corregir posibles errores o palabras dudosas que llevarían a la frase a una inconsistencia semántica y/o de códigos. Por ejemplo:
BANCO DE
PLAZA BANCO DE
SANGRE BANCO DE
DATOS BANCO DE LA
NACION
BANC
O
La palabra BANCO, como vemos, tiene diferentes significados, por lo tanto es una palabra conflictiva para que ingrese como HIJO, ya que es imposible asociarla a un único código.
55 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Menú de
funcione
s
La tercera ventana es la puerta de entrada a la primer pantalla del campo semántico.
CAMINO DE ACCESO AL CAMPO SEMANTICO
Lista de todas las palabras PADRES, ordenadas alfabéticamente.
56 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
En el menú de teclas de función que encontramos en la parte inferior de la
pantalla anterior tenemos la opción de presionar ENTER y cambiar el
nombre del grupo (“padre”).
De la misma manera pero presionando INSERT el sistema nos habilita una
ventana para agregar otro grupo.
57 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Luego de presionar [F1] VER LISTAS nos aparece una ventana en la cual nos pide que le ingresemos el número de lista (de acuerdo a la CAES) de palabras asociadas a dicha lista, por ejemplo: 1504 de la CAES se corresponde con los códigos 153 y 154 de la ClaNAE, por lo tanto en esa lista vamos a encontrar palabras asociadas al “padre” GOLOSINAS.
58 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Una vez que terminamos de marcar las palabras de una lista, antes de salir, el sistema nos pregunta si queremos leer otra lista..... la respuesta será SI o NO según el caso. Si una palabra aparece en dos o más listas, solo bastará con marcarla una vez para que luego al abrir otra lista en la que se encuentre esa palabra ya estará marcada.
La lista aparece ordenada alfabéticamente y las palabras elegidas aparecen con una marquita a la
izquierda de la misma
59 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
El sistema también nos permite cargar palabras compuestas
Estos son casos en los que la palabra “HIJO” tiene que cargarse compuesta, ya que si la separamos, cada palabra nos llevaría a códigos distintos. Por ejemplo: AFJP SIEMBRA (palabra compuesta) -> código 6600
AFJP 6600 SIEMBRA 0101 (agropecuario)
60 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Presionando ENTER, estamos habilitados para modificar las palabras compuestas, de la misma manera sucede con las palabras simples.
61 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Finalmente aparecen los listados que fueron creándose a medida que avanzábamos con la carga de los grupos, ya que eran necesarios para control y consistencia.
62 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Instrumentos para la corrección del campo semántico
Listado de control – “Frases con asignación de familia de palabras” Ejemplo:
Una vez finalizada la tarea de cargar los grupos de familias se procedía a imprimir para corregir: aquí se controlaba que estuviese el género y número de cada palabra, como también agregar o anular aquellas que estuvieran incorrectas. Luego se procedía a cargar en el sistema lo realizado.
Frase original normalizada, sin
conectores y corregida
ELABORACION
BOMBONES
CHOCOLATES
Frase con campo semántico
ELABORACION
(GOLOSINAS)
(GOLOSINAS)
Frase con campo reducido
ELABORACION
GOLOSINAS
Frase original
ELAV. DE
BOMBONES Y
CHOCOLATES
63 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
LISTADO DE CAMPOS SEMANTICOS LISTA CON HIJOS - ORDENADO POR GRUPO
64 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Instrumentos utilizados: Notas Explicativas de la ClaNAE CAES – MERCOSUR Clasificación de Actividades Económicas para encuestas
sociodemográficas del MERCOSUR. Diccionario Básico de Actividades, Productos y Ocupaciones del SiNN CD del Diccionario de la Lengua Española. Asociación Argentina de Letras – servicio telefónico – Tel.: 4802-2408
LISTADO DE PALABRAS COMPUESTAS
65 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
MICROPROCESOS
66 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Capítulo Microprocesos
Los Microprocesos pertenecen a la etapa de codificación del Sistema de Codificación Informatizada (SiCI) y los
definimos como el método para que, siguiendo reglas operativas construidas por medio de frases o palabras claves
u otras variables, el sistema informático pueda asignar un código automáticamente.
El objetivo de dicho mecanismo es que el porcentaje de la codificación asistida sea menor.
Construidos los diccionarios, se pudo identificar que había frases con igual descripción en el campo de actividad se
correspondían con distintos códigos de la ClaNAE-97 (Clasificación Nacional de Actividades Económicas 1997) como
resultado de la información disponible en las variables concomitantes.
Para poder entender este método a continuación veremos con ejemplos los diseños, el funcionamiento, su
estructura y los distintos tipos de Microprocesos:
Ejemplo 1
REGISTRO 1
Actividad: empresa de transporte
Ocupación: camionero
Tarea: transporto granos
REGISTRO 2
Actividad: empresa de transporte
Ocupación: manejo colectivo de línea
Tarea: transporto pasajeros
Si un codificador tiene que poner un código a cada registro, solamente mirando la descripción de actividad, no
sabría que camino tomar, porque la actividad contestada en este caso “empresa transporte” es muy abarcativa y
los códigos posibles serían el 60 dígitos, el 6100 y el 6200 de la CAES.
67 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Ahora que sucede si se codifican ayudándonos con los campos de ocupación y tarea, en el primer registro nos brindan la información para poder agrandar la cantidad de dígitos del código anterior, siendo este el 6003 y en el segundo el 6004 . Por consiguiente el concepto de los microprocesos es darle al sistema una serie de reglas o decisiones para que si llegase a encontrar alguna palabra clave en los campos de ocupación y tarea, pueda definir un código más preciso.
Códigos CAES posibles a esta descripción 6001: transporte ferroviario. 6100: servicio de transporte por vía acuática. 6004: transporte automotor de pasajeros. 6200: servicio de transporte aéreo. 6002: transporte por metro. 6003: transporte automotor de carga.
68 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Diseño ejemplo 1 Estructura del microproceso:
1) Nombre del Proceso: es la frase o palabra clave por el cual el registro es codificado por el método de microprocesos, en este ejemplo es una frase “empresa de transporte”. 2) Restricción: determina si existe algún dato para definir un código. Por ejemplo, una lista o algún otro tipo de variable (Cantidad de ocupados).
EMPRESA TRANSPORTE
LISTA
6001
LISTA
6002
LISTA
6100
LISTA
6004
LISTA
6200
CÓDIGO
6001
CÓDIGO
6002
CÓDIGO
6100
CÓDIGO
6004
CÓDIGO
6200
CÓDIGO
6003
SI
NO
NO
NO
NO
NO
SI
SI
SI
SI
NOMBRE DEL PROCESO
LISTA 6001 TREN
FERROVIARIO
FERROCARRIL
LISTA 6100
BARCO
LANCHA
MARÍTIMO
LISTA 6004 COLECTIVO
TAXI
MICRO
LISTA 6200
AVIÓN
AEREO
AVIONETA
LISTA 6002
SUBTE SUBTERRANEOMETRO
RESTRICCION
L
I
S
T
A
S
CÓDIGO
RESIDUAL
C
ÓD
IGO
DE
LA
R
EST
RI
CC
ION
69 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
3) Lista: es el conjunto de palabras asociadas a un código que funcionan como dato clave para que el sistema designe un código automáticamente ejemplo “lista 6001”. 4) Lista Clave: es una lista de frases o palabras que a nivel codificación tiene el mismo significado que el nombre del proceso y se los considera como frases sinónimas. 5) Código Residual: es el código que resulta de no encontrar restricciones y no asignar un código en el camino del Microproceso. 6) Código de la restricción: es el código resultante de reconocer alguna palabra clave contenida en la lista de restricciones. Ejemplo 2 tomando como restricción la variable público-privado: Actividad: recursos hídricos Ocupación: supervisor Tarea: controlo al personal Diseño ejemplo 2:
70 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Códigos CAES posibles a esta descripción 4500: construcción. 7501: servicios de la administración pública y prestación pública de servicios a la comunidad. Ejemplo 3 tomando como restricción la variable cantidad de ocupados Actividad: venta de pan Ocupación: panadero Tarea: vendo pan Diseño ejemplo 3
Códigos CAES posibles a esta descripción 1504: elaboración de productos alimenticios n.c.p. 5303: comercio de alimentos, bebidas y tabaco. Ejemplo 4 Actividad: hago changas
71 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Ocupación: changador Tarea: hago de todo Diseño ejemplo
72 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
PESO HEURÍSTICO
73 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
HEURÍSTICO
En este documento se plantea una propuesta sobre la construcción de un Sistema de Codificación Automática de
las preguntas abiertas correspondientes a ocupación, rama de actividad y ubicación geográfica.
Dada la relación existente entre las respuestas de ocupación y rama de actividad, es de suma importancia la
necesidad de codificarlas conjuntamente.
En una primera etapa se codificaría rama de actividad. De acuerdo a la gran cantidad de información que se
manejaría si se contempla la frase completa en la búsqueda de un código válido, surge la necesidad de establecer
un orden de importancia entre las palabras que componen dicha frase, de manera de poder acotar la búsqueda.
Dicho orden de importancia surge de la construcción para cada palabra del diccionario de un peso “heurístico” H.
Este peso mide cuan específica es una palabra para un código en particular. Si por ejemplo “Fabricación de
guitarras” es una respuesta, es de esperar que se seleccione guitarras como la palabra mas relevante de la frase ya
que aparecería mas infrecuentemente que la palabra fabricación, la cual está asociada a muchos códigos en el
diccionario.
El cálculo de este peso “heurístico” es:
HE E
E
u w
w
donde:
E p pw i e i
i
n
log
74 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
pi = proporción de respuestas que fueron codificadas con el i-ésimo código con respecto a todas las respuestas que
contienen a la palabra, donde pi
i
n
11
.
n = número de códigos en el cual aparece esta palabra.
En n
u
i
n
e1 1
log
n
n
n
ne
1 1log , valor arbitrario positivo usado para evitar el cociente por cero.
Para el cálculo de los valores H por palabra del diccionario se debe recurrir a fuentes de datos tales como la última
Onda de la EPH para todos los aglomerados16.
Siguiendo el ejemplo de Fabricación de guitarras, se toma el peso para Fabricación y para guitarras. Por lo dicho
anteriormente es de esperar que este último sea el mas alto. Con esta palabra “importante” se identifican todas las
frases del diccionario que la contienen.
Para optimizar esta búsqueda se pueden utilizar distintos filtros como los existentes en los diccionarios de 3ra
generación, es decir, Marca, Empresa, Acción-Producto, etc.
Para todas las frases encontradas en el diccionario se procede al cálculo de scores del siguiente modo:
S M
H
A A
m
m
M
r d
3 1
100
*
*
*
donde:
M = número de palabras empatadas entre la frase original y la frase encontrada en el diccionario.
Hm
m
M
1
es la suma de los pesos “heurísticos” para las palabras empatadas.
Ar es el número de palabras activas en la frase a codificar (total de palabras excluyendo las triviales y puntuación).
16
Consultar con respecto a los n y a las estimaciones por Rama a cuantos dígitos.
75 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)
Ad es el número de palabras activas en la frase del diccionario.
Por otra parte se debe calcular un score crítico, a partir del cual si el score de la frase lo supera se lo considera
como un candidato.
Si ocurre un empate completo, se computa un score doble (para asegurar que se asigne ese código).
Si con la palabra “guitarras” ninguna de las frases encontradas supera el score crítico comienza el proceso
nuevamente en la palabra “Fabricación”. Si tampoco en este paso encuentra una frase que supere el score crítico
entonces el sistema proporciona todas las frases posibles para la Etapa De Codificación Semi-Asistida o Manual.
Un procedimiento similar se aplicaría para codificar la variable ocupación, buscando de alguna manera utilizar las
preguntas 34, 35, 38, 41 y 42 como filtros con el objetivo de acotar la búsqueda. Se observan los pesos
“heurísticos” de cada una de las palabras de las frases de la pregunta 32 y 33, se selecciona la palabra de mayor
peso y se comienza la búsqueda a través de la misma.
Se procede al cálculo de scores para cada una de las frases. De igual manera se debe buscar algún score crítico, con
el objetivo de encontrar candidatos.
Es en este momento en que se deben vincular los candidatos seleccionados en la fase de rama de actividad con los
candidatos de ocupación y observar cuáles de ellos cumple con la relación rama-ocupación.
En caso de que un único candidato de rama esté relacionado con un único candidato de ocupación se asignan
ambos códigos. En el caso en que haya más de un candidato en cualquiera de las variables se debe calcular alguna
medida que defina.
En el caso de no encontrar ninguna relación entre las candidatas de ambas variables, se siguen los procesos por
separado, es decir seleccionar la mejor opción entre las candidatas de cada variable.