martes, 25 de abril de 2017

Tema 9 "Estadística inferencial: muestreo y estimación"

Hola de nuevo a todos, hoy os traigo el penúltimo tema de la asignatura.   



Inferencia estadística

  • Población de estudio: conjunto de pacientes sobre los que queremos estudiar alguna cuestión
  • Muestra: conjunto de individuos concretos que participan en el estudio
  • Tamaño muestral: número de individuos de la muestra
Y la inferencia estadística es el conjunto de procedimientos que permite pasar de lo particular (muestra) a lo general (población).
  • Técnicas de muestreo: procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la población
Cuando trabajamos con muestras, siempre hay que asumir un cierto error, si la muestra se elige al azar, se puede evaluar ese error y la técnica de muestreo se denomina muestreo probabilístico o aleatorio, y el error asociado a esa muestra elegida al azar se llama error aleatorio.

Error estándar

Medida que trata de captar la variabilidad de los valores del estimador, el error estándar de cualquier estimador mide el grado de variabilidad en los valores del estimador en las distintas muestras de un determinado tamaño que pudiésemos tomar de una población. Para calcular el error estándar:

Este dependerá de cada estimador, y mientras mayor sea el tamaño de una muestra, menor será  el error estándar:

 Error estándar para una media
Error estándar para una proporción

Teorema central del límite

Para estimadores que pueden ser expresados como suma de valores muestrales, la distribución de sus valores sigue una distribución normal con media de la de la población y desviación típica igual al error estándar del estimador de que se trate. 


Intervalos de confianza

Forma de conocer el parámetro en una población midiendo el error que tiene que ver con el azar, se calcula considerando que el estimador muestral sigue una distribución normal, como establece la teoría central del límite.  

Cálculo:
⤱ Para nivel de confianza 95%, z=1,96
⤱ Para nivel de confianza 99%, z=2,58

Mientras mayor sea la confianza que queremos otorgar al intervalo, éste será más amplio y el intervalo menos preciso. Podemos calcular intervalos de confianza para cualquier parámetro.

Tipos de muestreo

  • Muestreo probabilístico (aleatorio): elementos que tienen la misma probabilidad de ver elegidos. Método que consiste en extraer una parte de una población, de manera que todas las muestras posibles de tamaño fijo tengan la misma probabilidad de ser seleccionadas. Hay diferentes tipos dentro de este grupo:
  1. aleatorio simple: cada unidad tiene la probabilidad equitativa de ser incluida en la muestra. Tenemos de sorteo o rifa (no puede usarse cuando el universo es grande) y tabla de números aleatorios (económico y requiere menos tiempo)
  2. sistemático: cada unidad del universo tiene la misma probabilidad de ser seleccionada
  3. estratificado: subdivisión de la población en subgrupos, porque las variables principales que deben someterse a estudio presentan cierta variabilidad o distribución conocida que puede afectar los resultados
  4. conglomerado: en la selección de muestra se toman los subgrupos o conjuntos de unidades "conglomerados" y en este muestreo el investigador no conoce la distribución de la variable
  • Muestreo no probabilístico: no sigue el proceso aleatorio, el investigador selecciona la muestra siguiendo algunos criterios identificados para los fines del estudio que realiza. Tenemos tres tipos:
  1. por conveniencia o intencional: el investigador decide que elementos integrarán la muestra
  2. por cuotas: el investigador selecciona la muestra considerando algunas variables a estudiar (sexo, religión,raza...)
  3. accidental: se usa para el estudio las personas disponibles en un momento dado, según lo que interesa estudiar
Tamaño de la muestra

Este tamaño dependerá de el error estándar, de la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a estudiar, de la variabilidad de la variable a estudiar y del tamaño de la población de estudio. 



lunes, 24 de abril de 2017

Tema 8 "Medidas de tendencia central, posición y dispersión"

¡Buenas noches a todos! Os traigo un nuevo tema, uno de los últimos ya de la asignatura. 

Existen dos grandes tipos de medidas estadísticas:

  • Medidas de posición o tendencia central (dan idea de la magnitud o tamaño de los datos)
  • Medidas de dispersión o variabilidad (dan información acerca de la heterogeneidad de nuestras observaciones)
Medidas de tendencia central
  1. Media: se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos los valores de la variable observada entre el total de observaciones, se calcula para variables cuantitativas (si los datos son agrupados, se usa como valor de referencia de cada intervalo su marca de clase)
  2. Mediana: es el valor de la observación tal que un 50% de los datos es menor y otro 50% es mayor, si el número de observaciones es impar el valor de la observación será justamente la observación que ocupa la posición (n/2)+1, y si el número es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2)+1 
  3. Moda: es el valor con mayor frecuencia, es decir el que más veces ve repite. La muestra puede ser bimodal (dos modas) o multimodal (más de dos), si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud es mayor. Puede calcularse para cualquier tipo de variable
Medidas de posición
  1. Cuantiles: se calculan para variables cuantitativas, y sólo tienen en cuenta la posición de los valores en la muestra. Los cuantiles más usuales son los percentiles, los deciles y los cuartiles
  2. Percentiles: dividen la muestra ordenada en 100 partes, para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) vea superior al valor del percentil. El valor del P50 corresponde al valor de la mediana
  3. Deciles: dividen la muestra ordenada en 0 parte. El valor del D5 corresponde al valor de la mediana y por tanto, al del P50
  4. Cuartiles: dividen la muestra ordenada en 4 partes. Tenemos cuatro cuartiles (Q1: primer cuartil, Q2: segundo cuartil, Q3: tercer cuartil y Q4: cuarto cuartil)
Medidas de dispersión

La información aportada por las medidas de tendencia central es limitada. Ejemplo:
  • serie 1: 18,19,20,21,22
  • mediana serie 1= 20 media serie 1=20
  • serie 2: 9,14,20,27,30
  • mediana serie 2=20 media serie 2=20
¿Qué es lo que diferencia a una serie de otra? La dispersión
  1. Rango o recorrido: diferencia entre el mayor y el menor valor de la muestra
  2. Desviación media: media aritmética de las distancias de las distancias de cada observación con respecto a la media de la muestra
  3. Desviación típica: cuantifica el error que cometemos si representamos una muestra únicamente por su media
  4. Varianza: expresa la misma información en valores cuadráticos
  5. Recorrido intercuartílico: diferencia entre el tercer y el primer cuartil [Q3-Q1]
  6. Coeficiente de variación: medida de dispersión relativa (adimensional), nos sirve para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medida (c.v=s/x)
Distribuciones normales: también llamada distribución de Gauss o distribución gaussiana. Es una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. La gráfica de su función de densidad tiene forma acampanada. 



Asimetrías y curtosis

Coeficiente de asimetría de una variable: grado de asimetría de la distribución de sus datos en torno a su media. Es adimensional y los resultados pueden ver los siguientes:
  • g1=0 (distribución simétrica)
  • g2>0 (distribución asimétrica positiva)
  • g1<0 (distribución asimétrica negativa)


Coeficiente de apuntamiento o curtosis de una variable: sirve para medir el grado de concentración de los valores que toma en torno a su media. Los resultados pueden ser los siguientes:
  • g2=0 (distribución mesocúrtica o normal)
  • g2>0 (distribución leptocúrtica)
  • g2<0 (distribución platicúrtica)

Tipificación de los valores y su relación con la campana de Gauss

Trabajamos con una variable continua que sigue una distribución normal y que tiene más de 100 unidades. La tipificación nos permite conocer si otro valor corresponde o no a esa distribución de frecuencia. La media coincide con lo más alto de la campana:8 y la desviación típica es de 2 puntos (50% puntuaciones>8 y 50% puntuaciones<8), y aproximadamente el 68% puntúa entre 6 y 10.





Durante este tema hemos realizado problemas en clase para ir afianzando la teoría. Hasta la próxima.

"Lo único imposible es aquello que no intentas" 

domingo, 23 de abril de 2017

¡Di no a la violencia de género!

"La violencia de género no es sólo física. La vivimos desde nuestra infancia...y nos persigue hasta el final. Es AHORA o NUNCA"


Tema 7 "Introducción a la bioestadística"

La estadística es un cuerpo de conocimientos para aprender de la experiencia, frecuentemente en forma de números provenientes de medidas que muestran variaciones entre los distintos individuos.
Es la ciencia que estudia la variabilidad.

Existen diferentes métodos de medición, para medir variables se usan distintas escalas de medición.

Escalas de medida:

  • Escala nominal: es el nivel inferior de medida. En una característica o variable sólo se puede comprobar si son iguales o diferentes (Ejemplos: Raza: 1.blanco 2. amarillo 3.negro, Género: 1.hombre, 2.mujer). Los números se utilizan como nombres, al igual que se podrían usar símbolos o letras, por tanto no gozan de ninguna de las propiedades aritméticas.
  • Escala ordinal: dada dos o más modalidades de una variable, es posible: establecer si son iguales o diferentes, y si son distintas determinar cual de ellas es mayor. Los números expresan relaciones de igualdad, desigualdad y orden (Ejemplo: Grado de mejoría tras el tratamiento: 1.Nula, 2.Leve, 3.Media 4.Máxima)
  • Escala de intervalo: presenta las características propias de las dos escalas anteriores: identidad y orden. Las características de esta escala son que no puede sacar razones o proporciones, u que es una escala cuantitativa, por tanto en ella se puede aplicar estadísticas como mediana, desviaciones y correlación (Ejemplo: temperatura 36º, 37º y 38º) 
  • Escala de razón: nivel más alto de medición. Tiene las características propias de las escalas anteriores: igualdad, desigualdad, identidad, orden y distancias equivalentes entre los intervalos(Ejemplo: edad, peso, talla, etc.) 
Tipos de variables:

Cualitativas: se refiere a propiedades, no pueden ver medidas
  • Nominales: Dicotómicas (2 niveles o categorías, ejemplo: hombre, mujer) y policotómicas (más de dos categorías, ejemplo: soltero, viudo, casado, separado)
  • Ordinales: establecen un orden, ejemplo: satisfacción en el trabajo: muy satisfecho, satisfecho, poco satisfecho, nada satisfecho)
Cuantitativas: pueden medirse en términos numéricos
  • Discretas: sólo pueden tomar un número finito de valores, la unidad de medición no puede ver fraccionada, son números aislados (ejemplo:número de hijos: 1,2,3,4,5,..o más)
  • Continuas: pueden valer cualquier número dentro de un rango, la unidad de medida puede ser subdividida en forma finita (ejemplo: talla)
Operativización de las variables:
Proceso que transforma una variable en otras que tengan el mismo significado y que sean susceptibles de medición. Las variables principales se descomponen en otras que son más específicas llamadas dimensiones, y estas se traducen en indicadores que permitan la observación directa.

Variables (Representación de datos)

Tablas de frecuencia: son la imagen de los datos que muestran frecuencias en columnas y categorías de las variables en filas. Presentan información repetitiva de forma visible y comprensible. Requisitos:
  1. autoexplicativas
  2. son sencillas y de fácil comprensión
  3. tienen título breve y claro
  4. indican lugar, fecha y fuente de información
  5. incluye las unidades de medida en cada cabecera
  6. indica la base de las medidas relativas
  7. hacen explícitas las abreviaturas
  8. hacen llamadas a notas de pie 
Representaciones gráficas: forma rápida de comunicar información numérica, son la imagen de las ideas, aumentan la información escrita, ofrecen orientación visual y no reemplazan al texto. Normas básicas:
  1. visualmente claros
  2. claramente descritos en pie de figura y en texto
  3. representar gráficamente las conclusiones del estudio
  4. evitar gráficos confusos y no sobrecargarlos
A continuación los distintos tipos de representaciones gráficas:




Diagrama de Barras








Pictograma










Histograma (para variables continuas)










Polígono de frecuencia










Cuando la amplitud del intervalo es la misma, elevaremos columnas unidas a la altura de la frecuencia correspondiente, pero si la amplitud del intervalo es diferente, el área del rectángulo verá proporcional a la frecuencia representada

 
Gráfico de tronco y hoja (es un híbrido entre tabla e histograma. Nos muestra la forma de la distribución y los valores de la variable. Cada dato de la serie se divide en dos partes: tronco (decenas) y hoja (unidades)




Gráfico de sectores








 Diagrama de estrellas 

Tema 6 "La etapa empírica de la investigación: el diseño, material y método"

Hola a todos, espero que hayáis disfrutado mucho de las vacaciones de Semana Santa. Volvemos a la carga, os traigo un nuevo tema de la asignatura. 

Material y métodos

  • Población de estudio: selección de individuos en búsqueda de validez interna y externa
  • Muestreo: cuando no es posible incorporar toda la población de estudio, se considera el tamaño (para hacer inferencia con un error determinado: p<0,05) y la representatividad (muestreo aleatorio, simple, sistemático, por conglomerados,etc.) 
  • Recogida de datos: por observación directa, por fuentes documentales, mediante entrevistas, formularios, cuestionarios,etc.
  • Variables: búsqueda de relaciones de asociación 
  • Registro y procesamiento: agrupación de los datos, distribución de frecuencia, tablas cruzadas, bases de datos y hojas de cálculo
  • Recogida de datos: pilotaje previo, evitar sesgos de información y hoja de recogida de datos
  • Análisis: revisión de la información, aplicación técnica estadística, comparación de grupos, controlar variables, estimar magnitud de asociación , errores en el estudio: aleatorios y sistemáticos, y definir validez
Asignación del diseño en función de la pregunta de investigación


Medidas de frecuencia en estudios descriptivos

Prevalencia: la situación en un punto en el tiempo. Describe que proporción de la población tiene la enfermedad en un punto específico en el tiempo. Depende de  la duración y de la velocidad de aparición de la enfermedad. Características:
  1. Adimensional                                    
  2. Adopta valores entre 0 y 1


Incidencia: lo que está pasando durante un período de tiempo. Describe la frecuencia de nuevos casos que ocurren durante un período de tiempo, es el flujo de sanos a enfermos. Características:
  1. Dimensional
  2. Adopta valores entre 0 e infinito              
Incidencia acumulada: riesgo de que se produzca el suceso, se calcula utilizando un período de tiempo durante el cual consideramos que todos los individuos de la población están a riesgo de la enfermedad. Es la proporción de sujetos que desarrollan la enfermedad, en un período de tiempo, del total de población a riesgo al inicio del período. 
  • Mide el riesgo promedio de padecer la enfermedad
  • Mide la probabilidad de tener el evento
  • No tiene unidades, es una proporción
  • Valores entre 0 y 1 [0-100]
  • No lleva implícito el período de tiempo
Las condiciones de la incidencia acumulada son son las siguientes: no puede haber pérdidas en el seguimiento, se sigue a todos los sujetos durante todo el período y no permite inferir fuera del período de estudio. 



Ejemplo: En una población de 15000 personas se quiere conocer cuál es la incidencia de cáncer de mama en mujeres entre 50 y 64 años. La población está formada por 8500 mujeres, de las cuales el 15% tienen entre 50 y 64 años. De estás, 15 ya han sido diagnosticadas de cáncer de mama. Después de un año de seguimiento activo (mamografía) se detectan 6 casos de cáncer de mama. ¿Cuál es la incidencia acumulada en esta población? 




Tasa de incidencia: velocidad de aparición de nuevos casos con respecto al tamaño de la población. Con frecuencia, no todos los individuos a riesgo son seguidos durante el mismo tiempo, si se dispone de los diferentes tiempos de observación (tiempos en riesgo) de los diferentes individuos, se puede calcular la densidad de incidencia o tasa de incidencia. Es necesario especificar la unidad de tiempo a las que se refiere la tasa y una misma cantidad de personas-tiempo se puede obtener mediante el seguimiento de distintos grupos de población. Características:
  • se mide en unidades de tiempo (elevado a menos 1)
  • No son proporciones, es una tasa instantánea 
  • Expresa la "tasa" a la cual ocurren los eventos en sujetos de la población en riesgo en cualquier momento
  • Expresa velocidad: la tasa de cambio instantánea o la rapidez con la que se desarrolla el evento en la población 
Densidad de incidencia basada en datos individuales



Personas-tiempo: suma de tiempos que los individuos están en riesgo de desarrollar el evento. Las unidades a utilizar dependen del investigador (eventos poco frecuentes: personas-año, y los eventos más frecuentes personas-semana o personas-día)

Medidas de asociación en estudios descriptivos


Medidas de asociación en estudios de seguimiento y experimentales
Se calcula mediante la razón de incidencia o el riesgo relativo
Incidencia en no expuestos= Nº de casos entre los no expuestos/Nº total de individuos no expuestos=Ine
Incidencia en expuestos = Nº de casos entre los expuestos/Nº total de individuos expuestos =Ie

Entonces la relación entre, la incidencia (nuevos casos) en expuestos Ie y la incidencia (nuevos casos) en no expuestos Ine, se puede expresar como Ie/Ine. Esto recibe el nombre de riesgo relativo (RR): Magnitud de asociación: es la razón entre el riesgo en los expuestos y el riesgo en los no expuestos. 

Estudio de casos y controles. Estimación de la magnitud de asociación
Se trata de relacionar la ODDS o ventaja de los casos con la ODDS o ventaja de los controles.
Se calcula la ODDS RATIO mediante:


Es la razón entre la odds de los casos y la odds de los controles. También la podemos calcular de la siguiente forma:


Por último os dejo uno de los problemas vistos en clase de este tema: Un grupo de investigadores estudian durante 1 año a 1500 escolares para saber si el uso de enjuagues bucales previene la aparición de enfermedades periodontales. De los 1500, 900 usaban colutorios. A lo largo del año se observa que 15 de los escolares que usaban colutorios presentaron síntomas de infección periodontal, mientras que 40 de lo que no usaban colutorios presentaron estos síntomas.

  1. Hipótesis nulas y alternativas identificando las variables independiente y dependiente
  2. Qué tipo de diseño es el utilizado
  3. Magnitud de asociación existente entre el uso de colutorios y enfermedades periodontales, especificando el sentido de la relación si existiente
  4. A qué conclusión se puede llegar a la vista de los resultados del estudio

  H0: Uso de colutorios no influyen en las enfermedades periodontales.
  H1: Uso de colutorios reduce el riesgo de enfermedades periodontales. 
  H2: Uso de colutorios aumenta el riesgo de enfermedades. 
Variable independiente: Uso de colutorios (sí o no). 
Variable dependiente: enfermedades periodontales (sí o no)

Diseño: estudio de cohortes o de seguimiento prospectivo. No es experimental, porque no ha introducido la variable independiente aleatoriamente
Magnitud de asociación:
n=1500: nne= 900 y ne= 600
Ine= 15/900 = 0,016
Ie= 40/600= 0,066
RR (riesgo relativo) = Ie/Ine = 0,066/0,016 = 4,12

Resultado: Rechazamos la hipótesis nula porque está alejada de 1, y escogemos la H1 (la      incidencia en expuestos es 4 veces más alta que en los no expuestos)