viernes, 12 de abril de 2019

TEMA 9: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS

En el tema 9, trabajaremos acerca de la "Introducción de la inferencia estadística. Intervalos de confianza y contrastes de hipótesis", además detallaremos acerca de la estimación de parámetros, hipótesis estadísticas, contraste de hipótesis, error tipo I y error tipo II y contrastes por intervalos de confianza.

La inferencia estadística como ya sabemos es lo que llamamos al conjunto de procedimientos estadísticos que permiten pasar de lo particular (la muestra), a lo general, la población.
MUESTRA→POBLACIÓN 
PARTICULAR→GENERAL

Las dos formas de inferencia estadística son:
  • Estimación del valor de la población (parámetro) a partir de un valor de la muestra (estimador).
  • Contraste de hipótesis, a partir de valores de la muestra, se concluye si hay diferencias entre ellos en la población. 

ESTIMACIONES
Proceso de utilizar información de una muestra para extraer conclusiones acerca de toda la población. 
  • ESTIMACIÓN PUNTUAL: consiste en considerar al valor del estadístico muestral como una estimación del parámetro poblacional. (Sería dar un dato sin más)
Para más aclaraciones, pueden acceder a esta página web: Estimación puntual


  • ESTIMACIÓN POR INTERVALO: consiste en calcular dos valores entre los cuales se encuentra el parámetro poblacional que queremos estimar con una probabilidad determinada, habitualmente el 95%.
La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable que se encuentre el parámetro. Estimación por intervalos

ERROR ESTÁNDAR 
  • El error estándar de cualquier estimador mide el grado de variabilidad en los valores del estimador en las distintas muestras de un determinado tamaño que pudiésemos tomar de una población. 
  • Cuanto más pequeño es el error estándar de un estimador, más nos podemos fiar del valor de una muestra concreta. - error estándar +fiable 

El cálculo del error estándar depende de cada estimador: 
  • Error estándar para una media
  • Error estándar para una proporción
De ambas fórmulas se deduce que, mientras mayor sea el tamaño de la muestra, menor será el error estándar.

INTERVALOS DE CONFIANZA
En este vídeo se os muestra como se calcula el intervalo de confianza: Vídeo: cálculo intervalo de confianza. Es un vídeo muy sencillo y muy claro, con un ejemplo práctico al final. 

TEOREMA CENTRAL DEL LÍMITE
Para estimadores que pueden ser expresados como suma de valores muestrales, la distribución de sus valores sigue una distribución normal con media de la de la población y desviación típica igual al error estándar del estimador de que se trate.





CONTRASTES DE HIPÓTESIS
Permite cuantificar la compatibilidad entre una hipótesis previamente establecida y los resultados obtenidos.
El test de hipótesis siempre va a contrastar la hipótesis nula.
→Hipótesis nula = H0 = la que establece igualdad entre los grupos a comparar = la que no establece relación entre las variables de estudio.

ERRORES DE HIPÓTESIS
  • Con una misma muestra podemos aceptar o rechazar la hipótesis nula, todo depende de un error, al que llamamos alfa. 
  • El error alfa es la probabilidad de equivocarnos al rechazar la hipótesis nula.
  • El erro alfa más pequeño al que podemos rechazar H0 es el error p. 
  • Habitualmente rechazamos H0 para un nivel alfa máximo del 5% (P<0'05), es lo que llamamos "significación estadística". 


miércoles, 10 de abril de 2019

TEMA 8: TEORÍAS DE MUESTRAS

En el siguiente tema 8, que va sobre las "Teorías de muestras" nos centraremos también en los tipos de muestreo, en la teoría de la estimación y en el tamaño de la muestra.

ESTIMACIÓN E INFERENCIA ESTADÍSTICA
  • Al conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la población, a esto le llamamos técnicas de muestreo
  • Siempre que trabajamos con muestras hay que asumir un cierto error.
  • Muestreo probabilístico o aleatorio: procedimiento al azar, mediante el cual se puede evaluar ese error, error aleatorio. 
  • Muestreo no probabilístico: no es posible evaluar el error. El muestreo no es aleatorio, es arbitrario. 

TIPOS DE MUESTREO 
  • NO PROBABILÍSTICO: no sigue el proceso aleatorio, no puede considerarse que la muestra sea representativa de una población, se caracteriza porque el investigador selecciona la muestra siguiendo algunos criterios identificados para los fines del estudio que se realiza. 
    • Por conveniencia o intencional: el investigador decide según sus objetivos los elementos que integrarán la muestra. 
    • Por cuotas: el investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar, como: 
      • Sexo
      • Raza
      • Religión 
    • Accidental: consiste en utilizar para el estudio las personas disponibles en un momento dado, según lo que interesa estudiar. 
PROCEDIMIENTO MUESTRAL 
Un muestreo es un métodos tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo posea las características de la población que estamos estudiando. 


TAMAÑO DE LA MUESTRA 
El tamaño de la muestra a tomar va a depender de: 
  • El error aleatorio (estándar).
  • De la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a estudiar 
  • De la variabilidad de la variable a estudiar (varianza en la población
  • El tamaño de la población de estudio

Cálculo del tamaño de una muestra para estimar la media de una población: 

  • n  = Z2 x S2/e2
  •  Z es un valor que depende del nivel de confianza 1-alfa con que se quiera dar a los intervalos calculados a partir de estimadores de esta muestra (Para nivel de confianza 95% z=1’96 y para nivel de confianza 99% Z=2’58).
  • S2 es la varianza poblacional. 
  • e es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la variable a estudiar. 
  • Si tras esta operación se cumple el resultado: N>n (n-1), el cálculo del tamaño muestral termina aquí. 
  • Si no se cumple, obtendremos el tamaño de la muestra con esta fórmula: n = n/ 1+(n/N)
Para calcular el tamaño de una muestra cuando queremos estimar una proporción: 
  • p es la proporción de una categoría de la variable.
  • 1-p es la proporción de la otra categoría. 
  • z es el valor que depende del nivel de confianza 1-alfa.
  • N es el tamaño de la población. 
  • e es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la variable a estudiar.




TEMA 7: TEORÍA DE LA PROBABILIDAD

El tema 7, irá sobre los la "Teoría de la probabilidad" y observaremos los conceptos básicos, la distribución y reglas básicas de la probabilidad, el teorema de Bayés, la distribución de la probabilidad discreta: binomial y de Poisson, la distribución de probabilidad continua: normal o campana de Gauss.

La probabilidad,
  • Si no existe la certeza de que ocurran los hechos, existe una esperanza dimensionada y razonable, de que el hecho anunciado se vea confirmado. 
  • Cuanto más probable es que ocurre un evento, su medida de ocurrencia estará más próxima a 1 o al 100% y cuanto menos probable, más se aproxima al cero. 


PROBABILIDAD SUBJETIVA PROBABILIDAD SUBJETIVA

PROBABILIDAD CLÁSICA  PROBABILIDAD CLASICA

PROBABILIDAD A POSTERIORI A posteriori
Resumen de las distintas probabilidades,  vídeo -> resumen1


PROPIEDADES DE LAS PROBABILIDADES



REGLAS BÁSICAS: TEORÍA DE LA PROBABILIDAD
  • Las probabilidades siempre oscilan entre 0 y 1. 
  • La probabilidad de un suceso contrario es igual a 1 menos la probabilidad del susucesos: 
    • P (A') = 1 - P (A)
  • La probabilidad de un suceso imposible es 0.
  • La unión de A y B es: 
    • P (A U B) = P (A) + P (B) - P (A  П B).
  • La probabilidad condicionada de un suceso A a otro B se expresa:
    • P (A/B)= P (A I B) / P(B) 

TEOREMA DE BAYES

En este enlace, os dejo, una página web acerca de este teorema para que os resulte más fácil: https://economipedia.com/definiciones/teorema-de-bayes.html 


DISTRIBUCIÓN DE PROBABILIDAD EN VARIABLES DISCRETAS: BINOMIAL Y POISSON

DISTRIBUCIÓN BINOMIAL 

La distribución binomial es un modelo matemático de distribución teórica de (la normal es con variables continuas) variables discretas: 
  • Cuando se producen situaciones en las que sólo existen dos posibilidades (cara/cruz; sano/enfermo…) 
  • El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. 
  • La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de `A es 1- p y la representamos por q . 
  • El experimento consta de un número n de pruebas. 
En el siguiente enlace os mostraré una página web en la que hay realizados problemas resueltos sobre la distribución binomial: problemas

DISTRIBUCIÓN DE POISSON 

DISTRIBUCIONES NORMALES

TIPICACIÓN DE VALORES EN UNA NORMAL
  • Extrapolando aparecen los principios básicos de las distribuciones normales y podemos tipificar valores de una normal: 

En la siguiente página web, aparece la definición de tipificación y ejemplos: Tipificación 






TEMA 6: REPRESENTACIÓN DE LA INFORMACIÓN. REPRESENTACIÓN VARIABLES CUALITATIVAS Y CUANTITATIVAS. REPRESENTACIÓN DE VARIABLES CUANTITATIVAS CONTINUAS. ERRORES DE LAS REPRESENTACIONES

A continuación mostrare el tema 6, llamado "Representación de la información. representación variables cualitativas y cuantitativas. representación de variables cuantitativas continuas. errores de las representaciones."

Las representaciones gráficas más empleadas son las siguientes: 
  • VARIABLES CUALITATIVAS
  • VARIABLES CUANTITATIVAS 
Con el siguiente vídeo se explica claramente la diferencia entre ambas variables (cualitativas o cuantitativas). Variables cualitativas y cuantitativas
  • DATOS BIDIMENSIOALES Y MULTIDIMENSIONALES

VARIABLES CUALITATIVAS
  • GRÁFICO DE SECTORES: no recomendable para más de 3 o 4 categorías, solo muestra una variable a la vez, no se usan con variables ordinales. 



  •  GRÁFICO DE BARRAS: Cada barra representa una categoría y su altura la frecuencia (absoluta o relativa), las barras deben estar separadas, es importante que el eje Y empiece en la frecuencia 0. 


Policotómicas
  • PICTOGRAMAS (policotómicas)



VARIABLES CUANTITATIVAS
  • HISTOGRAMA: (variables continuas)
    • Sucesión de rectángulos contiguos construidos sobre una recta.  
    • Representa a una variable continua con sus datos agrupados en intervalos.  
    • La base de cada rectángulo representa la amplitud de cada intervalo y la altura está determinada por la frecuencia.  
    • Cada intervalo representado en el histograma ocupa un rectángulo.
  • GRÁFICO DE BARRAS: (solo para variables discretas con bajo rango de valores)
  • POLÍGONOS DE FRECUENCIA: (variables continuas)
Igual que diagrama de barras en cuanto al tipo de frecuencias que se pueden utilizar. La diferencia: es para variables continuas. Si la amplitud del intervalo es la misma, elevaremos columnas unidas, a altura la frecuencia correspondiente. Si la amplitud del intervalo es diferente, el área del rectángulo columna será proporcional a la frecuencia representada. 

  • GRÁFICO DE TRONCO Y HOJAS (variables continuas)
Híbrido entre tabla e histograma: nos muestra la forma de distribución y los valores de la variable.  Cada dato de la serie se divide en dos partes: el tronco (decenas) y la hoja (unidades). 



GRÁFICOS PARA DATOS BIDIMENSIONALES 

  • Para representar el comportamiento de dos variables continuas en un grupo de individuos.  
  • En el eje “x” se representa la variable independiente y en el eje “y” los valores de la variable dependiente.  
  • La imagen del diagrama nos da una posible idea de la correlación entre las dos variables.
  • DIAGRAMA DE ESTRELLAS
- Para representar un conjunto de variables cuantitativas y comparar entre diferentes unidades de análisis (individuos o conglomerados). 
- Cada variable representa un vértice del diagrama de estrella .  
- Gráficamente da una idea del comportamiento conjunto de las variables estudiadas.  
- También permite comparativas con un “gold standard”.

viernes, 5 de abril de 2019

TEMA 5: ESTADÍSTICAS UNIVARIABLES: MEDIDAS RESUMEN PARA VARIABLES CUANTITATIVAS

Esta tema trata sobre los estadísticos univariables: medidas resumen para variables cuantitativas. Las cuales son las siguientes: medidas de tendencia central, medidas de dispersión, medidas de posición. Forma de distribución: asimetría y curtosis.

Existen tres grandes tipos de medidas estadísticas: 
  • Medidas de tendencia central: dan idea de los valores alrededor de los cuales el resto de los datos tienen tendencia a agruparse. Más o menos es un dato donde tendemos a agruparnos. 
    • Media aritmética o media. Se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos valores de la variable observada entre el total de observaciones. 


    • Mediana: es de tendencia central y de posición. 
Mediana (impar, par)

    • Moda: es el valor con mayor frecuencia, si hay más de una se dice que la muestra es bimodal (2 modas). Se puede calcular para cualquier tipo de variable.  Si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud es mayor (hi /ci). 


  • Medidas de posicióndividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Nos ayudan a identificar la posición que ocupa un individuo concreto de manera ordenada. 

    • Cuantiles hace tener en cuenta la posición de las variables en la muestra. 
      •  Se calculan para variables cuantitativas y, al igual que la mediana, sólo tienen en cuenta la posición de los valores en la muestra.
      • Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según dividan la muestra ordenada en 100, 10 ó 4 partes, respectivamente





  • Medidas de dispersión o variabilidaddan información acerca de la heterogeneidad de nuestras observaciones. Si mezclo gente de 18 con personas de 3 años, hay mucha dispersión. Si hay uno de 18 y otro de 19 y digo que la media es de 18, no hay apenas dispersión. 
    • Rango o recorrido: diferencia entre el mayor y el menor valor de la muestra:  |
      • xn -x1|.
    • Desviación media: media aritmética de las distancias de cada observación con respecto a la media de la muestra: 
      • dm= å |xi -𝑥|/n. 
    • Desviación típica:  cuantifica el error que cometemos si representamos una muestra únicamente por su media (el parámetro en la población se representa por σ) 
      • s= √å (xi -𝑥)2/n-1. 
    • Varianza: expresa la misma información en valores cuadráticos (en la población el parámetro se expresa por σ2): 
      • s2= å(xi -𝑥)2 /n-1
    • Recorrido intercuartílico: diferencia entre el tercer y el primer cuartil
      •  |Q3 -Q1| 
    • Coeficiente de variación: es una medida de dispersión relativa (adimensional) ya que todas las demás se expresan en la unidad de medida de la variable. Nos sirve para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medidas: 
      • c.v.=s/x

DISTRIBUCIONES NORMALES

Distribución normal y más. Aquí os dejo un enlace  de un página web bastante interesante, ya que os presenta las distintas distribuciones que podemos conocer. 

  • En la estadística se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. 
  • La campana de Gauss es simétrica. Campana de Gauss




  • La mediana y la moda van a coincidir al ser distribución normal.

ASIMETRÍA Y CURTOSIS
La siguiente información será bastantes más esquemática, pero si os surgen dudas, os dejo el enlace de esta página web, de la cual he obtenido la información. Asimetría y curtosis

  • Asimetría: Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central. Es adimensional ya adopta valores entre -1 y 1.
Los resultados pueden ser los siguientes: 
    • G1 = 0, distribución simétrica. 
    • G1 > 0, distribución asimétrica positiva. 
    • G1 < 0, distribución asimétrica negativa. 
  • Curtosis: Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución.
    • G2 = 0, distribución mesocúrtica.
    • G2 > 0, distribución leptocúrtica.
    • G2 < 0, Distribución paticúrtica. 

CONCLUSIÓN

Pues como todo, todo tiene su fin, y esta asignatura esta llegando a su fin. Personalmente puedo decir que nunca me había enfrentado a esto,...