sábado, 23 de febrero de 2019

Procesamiento de datos


Procesamiento de datos


Una vez realizado el trabajo de campo y la edición de los datos obtenidos, es necesario efectuar el procesamiento de los datos, es decir, que los mismos se preparan para ser analizados, para ello se apela a dos técnicas de elaboración de los datos: la codificación y la tabulación. Lo que precede es válido, en lo que atañe a la codificación, tanto para una perspectiva metodológica cuantitativa como cualitativa.
En el caso de la tabulación, cabe señalar que no necesariamente está reñida con los estudios cualitativos, el hecho de realizarla o no depende de la decisión adoptada por el investigador.

 Codificación

La codificación es un procedimiento técnico mediante el cual, los datos obtenidos se clasifican en categorías y se traducen en símbolos, ya sean cifras o letras; es decir, se asigna a cada opción de respuestas un número o una letra que permita tabularla rápidamente.




Es importante señalar que la elaboración de un sistema de categorías y la codificación se pueden efectuar en forma simultánea, pero desde un punto de vista lógico, la codificación depende del sistema de categorías o valores que adopte la variable o alternativas que presente la pregunta. 


Fases para codificar los datos cualitativos: 

1) Desarrolle categorías de codificación. Empiece redactando una lista de todos los temas, conceptos e interpretaciones, tipologías y proposiciones identificados o producidos durante el análisis inicial.
2) Codifique todos los datos. Codifique todas las notas de campo, las transcripciones, los documentos y otros materiales, escribiendo en el margen el número asignado o la letra correspondiente a cada categoría.
3) Separe los datos pertenecientes a las diversas categorías de codificación. El investigador reúne los datos codificados pertenecientes a cada categoría. Se recortan las notas de campo, las transcripciones y otros materiales y se colocan los datos de cada categoría en carpetas de archivo.
4) Vea que datos han sobrado. Algunos de esos datos probablemente se ajusten a las categorías de codificación existentes. También se pueden plantear nuevas categorías.
5) Refine su análisis. La codificación y separación de los datos permite comparar diferentes fragmentos relacionados con cada tema, concepto, proposición, etcétera, y en consecuencia refinar y ajustar las ideas.
Una vez realizada la codificación de los datos, se puede proceder a la confección de la matriz de datos
En efecto, cada fila de la matriz corresponde a una unidad de análisis, cada columna a una variable y en cada celda, figura el valor que cada unidad asume para cada variable. De esta manera, con la articulación de estos tres elementos se configura una Matriz de Datos.





Tabulación 


Luego de confeccionar la matriz de datos, se procede a la tabulación de los mismos.

La tabulación es el proceso mediante el cual los datos recopilados se organizan y concentran, con base a determinadas ideas o hipótesis, en tablas o cuadros para su tratamiento estadístico.

Entonces tabular es contar las unidades que son ubicadas, ya sea en forma manual o con la utilización de una computadora, en cada categoría de una variable o unidades que son ubicadas simultáneamente en categorías determinadas de dos o más variables. Por lo tanto, la tabulación puede ser simple, esto es, univariable o cruzada, es decir, bivariable o multivariable.

Por supuesto, lo que antecede requiere un “plan de tabulación”, esto es, determinar de antemano qué resultados de las variables se van a presentar y cuáles relaciones entre las mismas se van analizar, a fin de brindar respuesta al problema y los objetivos formulados.

La tabulación puede ser tratada de forma manual o informática. La primera se recomienda efectuar cuando el cuestionario es reducido y se realiza mediante el simple recuento de los datos. Para tabular mecánicamente se utiliza la informática, ya que la información que se recoge en las encuestas es muy amplia y exige, para su eficaz utilización, la realización de múltiples clasificaciones combinadas entre variables. Y la tabulación electrónica se realiza mediante el uso de equipo electrónico, el cual facilita de alguna manera el conteo de frecuencias.





Elaboración de cuadros estadísticos

Aquí pueden ver una presentación de cómo realizar un cuadro estadístico:



Construcción de gráficos (o gráficas)

Se denomina gráfica o gráfico la representación de datos, generalmente numéricos, mediante líneas, vectores, superficies, colores o símbolos, que muestran visualmente la relación que guardan entre sí. También puede ser un conjunto de puntos, que se plasman en coordenadas cartesianas, y sirven para analizar el comportamiento de un proceso, o un conjunto de elementos o signos que permiten la interpretación de un fenómeno.
Los medios de comunicación nos ofrecen constantemente noticias ilustradas con gráficas.


Una gráfica, entonces, permite representar la relación existente entre una lista de elementos (como temperatura, tiempo, espacio, etc.) y sus valores numéricos correspondientes.
Así, podemos decir que las gráficas tienen como función fundamental representar visualmente, en forma clara e intuitiva, una serie de datos que aportan gran cantidad de información.
Según su construcción, podemos distinguir dos tipos de gráficas: Gráficas cartesianas y Graficas estadísticas

Construcción de gráficas cartesianas

Si lo que queremos es mostrar la relación entre dos variables, podemos hacerlo mediante una gráfica cartesiana.
Las variables que se presentan en el eje horizontal o eje x (abscisas) en una gráfica cartesiana se llaman variable independiente y las que se representan en el eje vertical o eje y (ordenadas), se llaman variable dependiente.
Aquí debemos anotar que en una gráfica cartesiana no tienen por qué coincidir las unidades de medida de los dos ejes, sino que los datos se acomodan a su propia escala.



Los datos para construir una gráfica cartesiana pueden provenir de texto , o pueden obtenerse a partir de tablas o a partir de fórmulas .
a) Construcción de gráficas cartesianas a partir de textos.
Ejemplo:
El precio del cobre ha subido en forma sostenida desde 2004, como se aprecia en el gráfico de la izquierda.
Por lo general, en estos casos no importa mucho el valor exacto de los puntos, sino el dibujo, que indica la forma global de la gráfica y el comportamiento de las variables.
b) Construcción de gráficas cartesianas a partir de tablas
A veces resulta muy clarificador que los datos recogidos en una tabla se representen gráficamente sobre unos ejes de coordenadas.
Veamos cómo representar gráficamente los datos de la siguiente tabla de valores:

Tabla de valores
x
y
0
6
1
1
2
9
3
2
4
3
5
5
6
4
7
7
8
6
9
3
10
8
11
9
12
2
Ahora dibujaremos un sistema de ejes coordenados (figura abajo) sobre el que representaremos los datos, marcando los valores correspondientes tanto en el eje de abscisas (X) como en el eje de ordenadas (Y):



En nuestra gráfica hemos unido, mediante segmentos, cada par de puntos consecutivos, aunque no siempre se deberán unir.
Siempre que se puedan unir los puntos mediante segmentos diremos que la gráfica es continua, y cuando no sea posible hacerlo, diremos que la gráfica es discontinua .
Veamos un ejemplo de gráfica discontinua:
Tenemos una tabla que nos muestra el tiempo (en horas) que emplean 15 atletas en completar un recorrido:
La tabla entrega estos datos:

Nº atletas
Tiempo (h)
1
8
3
7
2
6
4
5
5
4
La gráfica resultante, a partir de esta tabla sería esta:



Esta es una gráfica discontinua ya que no podemos unir los puntos mediante segmentos debido a que no es posible considerar un valor intermedio para los atletas: nunca habrá 0,5 o 1,5 atletas.
Veamos ahora un ejemplo de gráfica continua
Tenemos un tabla que nos muestra los kilómetros recorridos por un ciclista en el transcurso de 5 horas:

Horas
Kms recorridos
1
20
2
40
2,5
50
3
60
3,5
60
4
60
5
70
La gráfica resultante a partir de esta tabla será:


Esta es una gráfica continua ya que podemos unir los puntos mediante segmentos debido a que es posible considerar un valor intermedio para el tiempo, ya que a las 2,5 y a las 3,5 horas también podemos anotar los kilómetros recorridos.
c) Construcción de gráficas a partir de fórmulas
En algunos casos la información recopilada o entregada llega por medio de fórmulas o reglas que nos permiten relacionar variables distintas y así elaborar tablas de valores, las cuales podemos transformar en gráficas.
Veamos un ejemplo:
El costo (valor o importe) de un litro de gasolina (nafta o bencina) es 1,2 dólar ( 1,2 US$). Sabido esto, elaborar la gráfica que relacione ese precio unitario con la cantidad de litros que se compren:
Primero, hacemos una tabla  para saber el costo de 1, 2, 3, 4, 5 y 6 litros:

Litros
Precio (US$)
1
1,2
2
2,4
3
3,6
4
4,8
5
6
6
7,2
Trasladamos los datos a una gráfica, que sería (gráfica siguiente):

 


Tipos de Gráficas estadísticas 

 

Hasta aquí hemos visto solo gráficas cartesianas, construidas sobre la base de un Plano cartesiano.
Existen otras formas gráficas de representar datos, que son las siguientes:
a) Gráfico de barras:
Es un gráfico estadístico que está formado por varios rectángulos igualmente espaciados, del mismo ancho, cuyas bases están colocadas sobre una misma línea horizontal.


A los rectángulos que forman el gráfico de barras se les llama barras.
En este tipo de gráfico, es posible observar que las barras:
1.- Están sobre el eje de las abscisas.
2.- Tienen el mismo ancho.
3.- Están igualmente espaciadas.
En el eje de las abscisas se representan los valores de una de las variables (eje x) y en el eje de las ordenadas se representa la otra variable (eje y).
Se usa generalmente cuando se pretende resaltar la representación de porcentajes de datos que componen un total. 

b) Gráfico lineal o de segmentos:
Se usa especialmente para representar datos numéricos de situaciones que ocurren en períodos sucesivos. Además permite visualizar rápidamente una situación determinada.


En el ejemplo (tabla arriba), los datos numéricos corresponden a las temperaturas máximas registradas durante una semana del mes de octubre; estos datos son números que se obtuvieron en forma sucesiva, día tras día.
En el gráfico lineal de abajo (construido a partir de la tabla de valores anterior) se puede visualizar fácil y rápidamente que el día miércoles de esa semana se registró la temperatura más alta, y también que el día jueves fue la más baja.


C) diagrama:



Un elemento de la derecha se relaciona con uno de la izquierda
.
d) Gráfico circular:
Muestra las relaciones o proporciones de las partes con un todo. Este gráfico (abajo) es de utilidad cuando se pretende destacar un elemento importante.



Un gráfico circular siempre se compone de una serie de datos. 

e) Gráfico de puntos:
El denominado gráfico de puntos permite mostrar apropiadamente a pequeños conjuntos de datos y tiene la gran ventaja de ser fácilmente construido a mano.
En este tipo de gráfico, la abscisa (línea horizontal) representa los valores de la variable estudiada y la ordenada (línea vertical) la frecuencia de aparición de un valor en el conjunto de datos estudiado.





Medidas de tendencia central y dispersión
Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda. Las medidas de dispersión en cambio miden el grado de dispersión de los valores de la variable. Dicho en otros términos las medidas de dispersión pretenden evaluar en qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas usadas en conjunto permiten describir un conjunto de datos entregando información acerca de su posición y su dispersión.
Los procedimientos para obtener las medidas estadísticas difieren levemente dependiendo de la forma en que se encuentren los datos. Si los datos se encuentran ordenados en una tabla estadística diremos que se encuentran “agrupados” y si los datos no están en una tabla hablaremos de datos “no agrupados”.

Según este criterio, haremos primero el estudio de las medidas estadísticas para datos no agrupados y luego para datos agrupados.


Medidas estadísticas en datos no agrupados


Medidas de tendencia central

Promedio o media
La medida de tendencia central más conocida y utilizada es la media aritmética o promedio aritmético. Se representa por la letra griega µ cuando se trata del promedio del universo o población y por Ȳ (léase Y barra) cuando se trata del promedio de la muestra. Es importante destacar que µ es una cantidad fija mientras que el promedio de la muestra es variable puesto que diferentes muestras extraídas de la misma población tienden a tener diferentes medias. La media se expresa en la misma unidad que los datos originales: centímetros, horas, gramos, etc.


Estos cálculos se pueden simbolizar:








Desviaciones: Se define como la desviación de un dato a la diferencia entre el valor del dato y la media:







Ejemplo de desviaciones:


































Una propiedad interesante de la media aritmética es que la suma de las desviaciones es cero

Mediana

Otra medida de tendencia central es la mediana. La mediana es el valor de la variable que ocupa la posición central, cuando los datos se disponen en orden de magnitud. Es decir, el 50% de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50% tiene valores iguales o superiores a la mediana.

Si el número de observaciones es par, la mediana corresponde al promedio de los dos valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11)/2=10.

Moda
La moda de una distribución se define como el valor de la variable que más se repite. En un polígono de frecuencia la moda corresponde al valor de la variable que está bajo el punto más alto del gráfico. Una muestra puede tener más de una moda.

Medidas de dispersión
Las medidas de dispersión entregan información sobre la variación de la variable. Pretenden resumir en un solo valor la dispersión que tiene un conjunto de datos. Las medidas de dispersión más utilizadas son: Rango de variación, Varianza, Desviación estándar, Coeficiente de variación.
Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de la variable.





La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz cuadrada, la desviación estándar. La varianza se representa con el símbolo σ² (sigma cuadrado) para el universo o población y con el símbolo s2 (s cuadrado), cuando se trata de la muestra. La desviación estándar, que es la raíz cuadrada de la varianza, se representa por σ (sigma) cuando pertenece al universo o población y por “s”, cuando pertenece a la muestra. σ² y σ son parámetros, constantes para una población particular; s2 y s son estadígrafos, valores que cambian de muestra en muestra dentro de una misma población. La varianza se expresa en unidades de variable al cuadrado y la desviación estándar simplemente en unidades de variable.

Fórmulas
Donde µ es el promedio de la población.






Donde Ȳ es el promedio de la muestra.




Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación estándar de la muestra expresada como porcentaje de la media muestral.








Es de particular utilidad para comparar la dispersión entre variables con distintas unidades de medida. Esto porque el coeficiente de variación, a diferencia de la desviación estándar, es independiente de la unidad de medida de la variable de estudio.

Medidas de tendencia central y de dispersión en datos agrupados

Se identifica como datos agrupados a los datos dispuestos en una distribución de frecuencia. En tal caso las fórmulas para el cálculo de promedio, mediana, modo, varianza y desviación estándar deben incluir una leve modificación. A continuación se entregan los detalles para cada una de las medidas.

Promedio en datos agrupados
La fórmula es la siguiente:




Donde ni representa cada una de las frecuencias correspondientes a los diferentes valores de Yi.


Moda en datos agrupados
Si la variable es de tipo discreto la moda o modo será al valor de la variable (Yi) que tenga la mayor frecuencia absoluta ( ). En los datos de la tabla 1 el valor de la moda es 3 ya que este valor de variable corresponde a la mayor frecuencia absoluta =16.

Más adelante se presenta un ejemplo integrado para promedio, mediana, varianza y desviación estándar en datos agrupados con intervalos.

Varianza en datos agrupados
Para el cálculo de varianza en datos agrupados se utiliza la fórmula




 
 
Percentiles
Los percentiles son valores de la variable que dividen la distribución en 100 partes iguales. De este modo si el percentil 80 (P80) es igual a 35 años de edad, significa que el 80% de los casos tiene edad igual o inferior a 35 años.
Su procedimiento de cálculo es relativamente simple en datos agrupados sin intervalos.




Análisis e Interpretación de los Datos


Ya desarrollado el proceso de recolección de datos, se procederá a convertir los datos en bruto del instrumento de que se usó para tal fin, en una forma legible y entendible para su posterior análisis.

Para esto, se tomará en cuenta la siguiente secuencia:

  • Verificación y edición de cuestionarios aceptables: Cada cuestionario tendrá una etapa de revisión, en donde se verificará los datos obtenidos, es decir, que estén bien contestados (completos), mirar en base a las respuestas dadas si estas fueron bien comprendidas, que los elementos de la muestra sean los que hayan contestado la encuesta, etc. Para tal fin, el porcentaje de cuestionarios defectuosos permitidos será del 5% del total. En caso de que el porcentaje sea mayor, se enviarán nuevamente a trabajo de campo y se volverán a formular los cuestionarios.



  • Edición y depuración de datos: Los datos a procesar tendrán legibilidad, que se puedan entender con facilidad; consistencia, que estén acordes a los objetivos del estudio y con exactitud, ya que se evaluarán de acuerdo a una serie de parámetros para verificar si fueron obtenidos con honestidad por los encuestadores. Los datos serán procesados y analizados usando software destinado para esto. Se hará empleo de SPSS y Microsoft Excel, programas destinados a realizar análisis estadísticos, con un ambiente amigable para el usuario, a través de interfaces fáciles de manejar y entender.



Herramientas Estadísticas 
Para un correcto análisis de datos, se usarán las siguientes ayudas estadísticas:

  • Tabulación cruzada: Tabulación de datos que consiste en identificar una relación entre variables, describiendo dos ó más variables en forma simultánea y dar como resultado tablas que reflejan la distribución conjunta de las variables con un número limitado de categorías o valores distintivos.
  • Herramientas de estadística inferencial: Pruebas ji cuadrado para probar la significancia estadística que hay entre la relación de variables.
  • Procedimientos de análisis de relación: Regresiones para verificar el grado de dependencia y relación entre variables.
  • Procedimientos generales de análisis: Gráficos estadísticos para evaluar proporciones, histogramas de frecuencia, pruebas de hipótesis para evaluar a las mismas, etc.

Análisis Descriptivo 


 


El primer paso en el análisis de datos, una vez introducidos los mismos, es realizar un análisis descriptivo de la muestra. Este análisis nos permitirá controlar la presencia de posibles errores en la fase de introducción de los datos, es decir, detectaremos con él valores fuera de rango (p. ej. un peso de 498 Kg es claramente un dato extraño), o la presencia de valores perdidos. Este análisis inicial también nos proporcionará una idea de la forma que tienen los datos: su posible distribución de probabilidad con sus parámetros de centralización; media, mediana y moda; así como sus parámetros de dispersión; varianza, desviación típica, etc.

Este análisis es muy básico. Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central. Esto es lo que podría ser un concepto aproximado.

Entre las opciones que fueron enumeradas arriba, los indicios más salientes para seleccionar el método de análisis pueden ser obtenidos mirando la extensión de datos y la perspectiva de tiempo. Una vez que usted haya decidido sobre éstos, se puede encontrar en las células de la tabla siguiente los métodos de análisis usuales para cada acercamiento. 

Análisis Inferencial


 


El análisis inferencial se emplea solo en los estudios correlaciónales, esto se realiza a través de los resultados obtenidos al cruzar las variables independientes con la variable dependiente. A través de los resultados obtenidos en las tablas que genera el programa estadísticos solo puede inferir si la variable independiente objeto de análisis influye sobre la variable dependiente y si esta influencia es significativa o no.


Contrastación de Hipótesis


Según el análisis inferencial se puede entonces afirmar si se acepta la hipótesis nula, o las hipótesis nulas que se plantearon en el capítulo metodológico del estudio correlacional, o si se rechaza la hipótesis nula, aceptando la alterna.

El objetivo del análisis de contenido es la realización de inferencias, cuando el contenido de los mensajes es analizado para apoyar conclusiones no relacionadas con el contenido, entonces adquiere la investigación de carácter explicativo o inferencial.

Hay dos categorías de inferencias:

1.- Las que se refieren al origen, causas, condiciones, antecedentes de la comunicación y especialmente al autor de la misma, estas inferencias responden a las preguntas < quien > y < Por qué >.

2.- La segunda está formada por las inferencias que se refieren a efectos o resultados de la comunicación y el análisis responde al interrogante.

Combinando las aportaciones de Berelson y Holsti se obtiene la siguiente clasificación del análisis de contenido de carácter inferencial:

  • Análisis para realizar inferencias acerca de las causas, de los productores o de los antecedentes de la comunicación.
  • Para identificar las intenciones y otras características de los creadores de las comunicaciones.

(Obtenido de: https://sabermetodologia.wordpress.com/2016/03/06/analisis-interpretacion-datos/)

Aquí pueden observar una presentación y un video del tema:


5 comentarios:

  1. Te felicito Beatriz por incluir información sobre el análisis de datos desde la estadística discriptiva.

    ResponderEliminar
  2. Recomiendo que cargues información de los temas que estamos viendo: Diseños de investigación, instrumentos de recolección de datos: Cuestionarios, escalas de actitudes e intereses, observación, etc, también puedes incluir información de población, muestra y tipos de muestreo.

    ResponderEliminar
  3. Bien didáctica la presentación de prezi para crear cuadros de datos recopilados en investigaciones.

    ResponderEliminar
  4. Recomiendo que todos revisen la carga de información de sus compañeros y coloquen comentarios.

    ResponderEliminar
  5. Beatriz muy buena la información cargada en el blog.

    ResponderEliminar