PROBABILIDAD Y ESTADISTICA: ANTOLOGIA DE ESTADISTICA

COLEGIO DE ESTUDIOS CIENTIFICOS Y TECNOLOGICOS DEL ESTADO DE MORELOS

ANTOLOGIA DE PROBABILIDAD Y ESTADÍSTICA

Estadística descriptiva

Introducción

Estadística: En el lenguaje común (por ejemplo en las crónicas deportivas) es conocida como un conjunto de datos. Se refiere a un conjunto de métodos para manejar la obtención, presentación y el análisis de observaciones numéricas. Sus fines son: Describir al conjunto de datos obtenidos y tomar decisiones, o bien, realizar generalizaciones acerca de las características de todas las posibles observaciones bajo consideración. La Estadística es una de las ramas de la matemática con más aplicaciones ya que casi en cualquier rama del conocimiento humano tiene aplicación. Se considera como su fundador a Godofredo Achenwall, profesor alemán (1719-1772), él y sus seguidores estructuraron métodos estadísticos para estudiar las riquezas de las naciones.

Existen muchas definiciones dependientes de sus aplicaciones, pero en el fondo todas ellas coinciden de una u otra forma en el que la estadística “es un método científico de operar con los datos y de interpretarlos”. De la definición anterior pueden percibirse dos grandes áreas de acción de la Estadística:

Ø Estadística Descriptiva

Ø Estadística Inferencial

Si tenemos la posibilidad de conocer a todos y cada uno de los integrantes de una población a la cual queremos estudiar, entonces usaremos los métodos de la Estadística Descriptiva, que incluye la obtención, organización, presentación y descripción de la información numérica. Pero si no nos es posible conocer a toda la población entonces tomaremos una muestra de ella, la estudiaremos y se sacarán conclusiones que se extrapolarán a toda la población, para lo que se usarán los métodos de la Estadística Inferencial.

Estadística Descriptiva.

Se refiere a aquella parte del estudio que incluye la obtención, organización, presentación y descripción de la información numérica.

Estadística Inferencial.

Es una técnica de la cual se obtienen generalizaciones o se toman decisiones con base a información parcial o incompleta obtenida mediante técnicas descriptivas.

Los conceptos básicos de Probabilidad y de distribuciones muestrales sirven como introducción al método de Inferencia Estadística; esta se compone de dos áreas:

Prueba de Hipótesis

Estimación

La estimación se encarga de buscar establecer los valores de los parámetros de la población.

Las pruebas de Hipótesis constituyen un proceso relacionado con aceptar o rechazar afirmaciones acerca de los parámetros de la población.

Los dos pasos anteriores se pueden resumir diciendo que el propósito es hacer inferencias sobre la población a partir de una muestra y estimar la confianza con la que estas inferencias pueden ser verdaderas.

Población y muestra

Para poder establecer las bases de lo que conlleva un estudio estadístico necesitamos algunas definiciones:

Población.

Conjunto de todas las posibles observaciones. Sinónimo de Conjunto Universal se le define como la totalidad de todas las posibles mediciones observables, bajo consideración en una situación dada por determinado problema, circunstancias diferentes implican situaciones diferentes. Las Poblaciones se clasifican en función a su cardinalidad (cuantificación).

Población Finita. Es aquella que incluye un número limitado de medidas y observaciones.

Población Infinita.

Es aquella que por incluir un gran número de medidas y observaciones no es posible determinar la cantidad de éstas. En lo general, las características medibles de una población son denominadas parámetros.

Muestra.

Es un conjunto de observaciones o medidas tomadas a partir de una población dada, es decir, es un subconjunto de la población. Desde luego, la cardinalidad de la muestra depende de la cardinalidad de la población. Las muestras deben ser representativas para evitar un sesgo u error.

Variables discretas y continuas.

Las variables constituyen la herramienta fundamental de la Estadística, por que son la base esencial del estudio que se desea realizar y por tal motivo analizaremos cómo pueden ser éstas.

Las variables son:

1) Características.

2) Atributos.

3) Rasgos.

4) Cualidades.

Definición

Variable cualitativa es cuando solamente se busca en ella una cualidad o un atributo.

Variable cualitativa nominal es aquella que agrupa los elementos en categorías sin tener un orden.

Variable cualitativa ordinal es cuando las categorías en que se agrupan los elementos, pueden ser ordenados.

Variable cuantitativa es aquella que se puede asociar con un número con el cual podemos realizar operaciones o comparaciones.

Variable cuantitativa discreta es la que siempre se asocia con valores enteros.

Variable cuantitativa continua es la que se puede asociar con valores de un intervalo de número reales.

Las variables estudiadas de acuerdo con sus características, se resumen en el siguiente cuadro:

NOMINAL

CUALITATIVA

ORDINAL

VARIABLE

DISCRETA

CUANTITATIVA

CONTINUA

Distribución de frecuencias

Una vez que se han obtenido los datos y que se ha hecho el estudio de los valores que pueden tomar las variables, la primera tarea de la Estadística es la de ordenar y presentar los datos en tablas que permitan ver la tendencia de los mismos. Ordenados los datos se facilita su representación en diagramas y gráficas de diferentes tipos.

En los temas que siguen se verá la forma de describir, presentar, ordenar, resumir la información en tablas y su presentación en diferentes tipos de gráficas.

Los datos agrupados en tablas, nos permiten ver con facilidad el número de observaciones iguales o comprendidos en un intervalo, a este número de repeticiones iguales de la variable se llama frecuencia y se denota por fi. Otros valores relacionados con la frecuencia son:

La frecuencia relativa que se denota por fr.

La frecuencia acumulada que se denota por Fa.

La frecuencia relativa acumulada que se denota Fra.

Con el análisis de las frecuencias podemos determinar la tendencia de la variable en estudio que como ya se dijo, ésta puede ser nominal, ordinal o cuantitativa y sus respectivas escalas de medición: nominal, ordinal o por intervalos, respectivamente.

Otro parámetro importante es la frecuencia relativa que simbolizaremos con “fr”, ésta se obtiene dividiendo la frecuencia absoluta (fi) entre el número de elementos de la muestra que simbolizaremos con (n).

La definición matemática es:

fr=fi/n

De la ecuación se observa que la frecuencia relativa se puede expresar como una razón, como una proporción o como un porcentaje (%).

Definición

Frecuencia relativa (fr) es la proporción de elementos que pertenecen a una categoría y ésta se obtiene dividiendo su frecuencia absoluta entre el número total de elementos de la muestra.

La frecuencia acumulada (Fi) es otra característica de la muestra que nos permitirá determinar la posición de un caso particular que nos interese en comparación con el total de los elementos.

Definición

Frecuencia acumulada (Fa) de una clase es la que se obtiene sumando las frecuencias de las clases anteriores con la frecuencia de ésta.

Su definición matemática es:

FORMULA

Al calcular la frecuencia acumulada (F1) podemos determinar su frecuencia relativa acumulada (Fra) en la forma ya explicada mediante la ecuación, esto es:

FORMULA

Intervalos de clase.

Hasta el momento, en los problemas que hemos analizado las muestras son pequeñas (n es pequeño). Sin embargo cuando la muestra o población se compone de un considerable número de elementos, la tabla de frecuencias se elabora agrupando los datos en clases y ahora la tabla se llama “Tabla de frecuencias con datos agrupados”.

La formación de clases o intervalos de clase que simbolizaremos con (k) es muy variado y depende generalmente del tamaño del rango de la población o muestra.

Definición

Rango (R) es el intervalo en que se distribuyen los datos en observaciones de una muestra y se determina restándole al mayor valor el menor valor.

La definición matemática del rango es:

R= (valor mayor – valor menor) = Xn – x1
Xn = valor mayor
X1 = valor menor

No existe alguna ley que defina cómo obtener el número de clases; pero la experiencia recomienda que no sea menor que 5 ni mayor de 20, esto es:
5 ≤ k ≤ 20
k = número de clases

Una vez definido el número de clases (k), para obtener la amplitud de clase (C) aplicamos la siguiente ecuación: 𝐶=RK
Otra forma de determinar el número de intervalos de clase (k) es mediante la ecuación de Sturges y ésta es: K = 1 + 3.322 (log n)

Marca de clase

Otra característica importante del intervalo de clase o marca de clase es el punto medio de clase o marca de clase (mi).

Definición

La marca de clase es el valor del punto que se localiza a la mitad del intervalo de cada clase o intervalo real de clase.
Su definición matemática es: 𝑚= 𝑋

FORMULA

Histograma y polígonos de frecuencia

Al representar en una gráfica la información concentrada en la tabla de frecuencias, ésta es un recurso visual que nos permite tener una idea clara, precisa, global y rápida acerca de las observaciones de una muestra o población.

Existen muchos tipos de gráficas en las que se pueden representar la frecuencia absoluta (fi), relativa (fr) y acumulada (Fa) y con ellas podemos estimar algunos valores con la simple observación.

Los diferentes tipos de gráfica que podemos usar para representar las observaciones de un determinado problema y la selección de este tipo, dependen de la variable en estudio.

Si la variable en estudio es del tipo cualitativo, los gráficos pueden ser:

a) De barras; horizontales o verticales.

b) Circulares.

c) Pictogramas, etcétera.

Si la variable en estudio es de tipo cuantitativo, los gráficos que podemos usar para su representación gráfica son:

a) Histogramas.

b) Polígonos de frecuencias que a continuación analizaremos.

Histograma y Polígono de Frecuencias

El histograma es la forma más usual para analizar las características observables de una variable continua.

Definición

Histograma es la representación gráfica en el plano coordenado de las características concentradas en la tabla de frecuencias de una variable continua.

Para trazar el histograma, la secuencia de operaciones es:

1. En los ejes coordenados del plano cartesiano representamos los datos de la siguiente forma:

a) En el eje de las abscisas (horizontal) se representan las clases con sus límites reales de clase y las marcas de clase (Mi) de cada intervalo.

b) En el eje de las ordenadas (vertical) representamos las frecuencias absolutas en que ocurre la variable.

2. Por los límites reales superior e inferior de cada clase se trazan barras verticales que se cortan mediante una horizontal que se traza a la altura del punto correspondiente a la frecuencia de cada clase.

3. Por la naturaleza continua de la variable, los rectángulos se trazan adyacentes, toda vez que en esta forma se debe dividir el eje horizontal

4. El área representada por cada barra es equivalente a la proporción de la frecuencia del intervalo de clase correspondiente con respecto al total.

Polígono de Frecuencia

El polígono de frecuencia se construye a partir de los datos de la tabla de frecuencias.

Sobre el eje horizontal se levanta por el punto medio segmentos verticales punteados que terminan a la altura de su frecuencia de clase, se unen los puntos superiores con un segmento de recta que empieza medio punto antes del límite superior de la última clase.

Otra forma de trazar el polígono de frecuencias es:

a) Sobre el histograma se trazan segmentos punteados que inician en el punto medio de clase y terminan a la altura del rectángulo.

b) Se unen los puntos finales de éstos segmentos con una línea continua que inicia medio punto antes del límite inferior de la primera clase y termina medio punto después del límite superior de la última clase.

Distribuciones de frecuencia

Reglas Generales para construir las distribuciones de frecuencias por intervalos

Efectuar el arreglo ordenado (Ascendente o Descendente) de la población o muestra A = ( X1, X2, … , Xn )

Obtener la frecuencia absoluta mediante la tabulación o conteo de los datos (homogenizar los datos)

Encontrar el rango o recorrido (R) de los datos: R = (valor mayor – valor menor) = Xn – X1

Encontrar el número de clases o intervalos de clases (K). El número de clases debe ser tal que se evite el detalle innecesario, pero que no conduzca a la perdida de más información de la que puede ser convenientemente ignorada. Para este cálculo se utiliza la formula de Sturges K = 1 + 3.322(log. N)

Determinar la amplitud de la clase (C ): c=R/k

El dato menor (X1) será el limite inferior de la primera clase. A él se le suma C y se obtiene el límite superior de la primera clase que también será el límite inferior de la segunda clase. Luego se suma nuevamente C y se obtiene el límite superior del segundo intervalo e inferior del tercero. Y así sucesivamente hasta que el limite superior corresponda o supere ligeramente el valor mayor ( Xn ), la cantidad de clases obtenidas deberá corresponder con el número K calculado mediante la formula de Sturges.

Una vez construidos los intervalos se calculan, mediante tabulación de acuerdo a los límites inferiores y superiores de las clases, las frecuencias absolutas, relativas, porcentuales y acumuladas correspondientes.

Con los datos obtenidos se procede a construir la tabla de distribución de frecuencia.

2.11 Distribuciones de frecuencia acumulada.

2.12 Distribuciones de frecuencia relativas acumuladas.

Medidas de tendencia central

Para complementar la información que proporcionan los métodos tabulares y gráficos, se usan las medidas de tendencia central, que son valores representativos y que sirven también para describir y analizar un conjunto de datos.

Las medidas de tendencia central son medidas descriptivas que señalan hacia donde tienden a concentrarse los valores contenidos en un conjunto de datos. Su resultado debe ser un valor típico o representativo de la muestra o población, el cual es utilizado para describir o analizar un fenómeno. Al ser una idea abstracta y representativa del conjunto de datos, las medidas de tendencia central tienen la ventaja de poder ser transmitidas de manera verbal.

Existen diversas medidas de tendencia central que son utilizadas según la naturaleza del fenómeno que se quiere investigar. Las medidas de tendencia central que se estudiarán son:

Ø Media

Ø Mediana

Ø Moda

Si bien, todas tienen como objetivo obtener un valor representativo para un conjunto de datos, cada una de ellas tiene ventajas y desventajas que hacen que las distingamos entre si.

Media.

También conocida como la media aritmética o el promedio, la media es la medida de tendencia central más utilizada en los negocios y en las ciencias sociales, pues se emplea con mucha frecuencia en trabajos empíricos. La media se utiliza únicamente para describir el comportamiento de variables cuantitativas.

Existen dos símbolos para representar la media (X y µ ). La X se refiere a un estadístico, es decir, es la medida de una muestra; mientras que µ se refiere a un parámetro, es decir, es la medida de una población. A la X se le conoce como la medida muestral mientras que la µ se le conoce como la medida poblacional.

La manera de obtener la media muestral o poblacional depende de la forma como se encuentra organizados los datos, ya sea que estén no agrupados o agrupados. Se dice que trabajamos con datos no agrupados cuando se expone cada uno de los datos de la serie, mientras que los datos agrupados son aquellos que se encuentran organizados mediante tablas de frecuencias.

La media para datos no agrupados.

Cuando tenemos una serie de datos no agrupados: X₁, X₂, X₃,…,X_n,la media se calcula sumando los valores de cada uno de los datos y su resultado se divide entre el número de datos que tiene la serie.

Para una serie de datos X₁, X₂, X₃,…,X_n,,la formula de la media para datos no agrupados se describe de la siguiente manera:

FORMULA DE LA MEDIA

Donde:

X = Media aritmética de la muestra

Σ = Suma

n = Número de datos incluidos en la muestra

X_i = El valor que toma cada uno de los datos

La media para datos agrupados

Cuando tenemos una serie de datos agrupados, es decir, que son presentados mediante una tabla de distribución de frecuencias, la media se obtiene mediante la siguiente formula:

FORMULA DE DATOS AGRUPADOS

Donde:

X= Media aritmética

M_j= Punto medio de cada clase

f_i = Frecuencia de cada clase

= Suma de las frecuencias de todas las clases

= Suma de los productos de los puntos medios por las frecuencias de todas las clases

A diferencia de la fórmula para datos no agrupados, en este caso m_i representa el punto medio de cada clase, el cual se obtiene sumando el límite inferior y el límite superior de cada clase, y dividiendo ese resultado entre dos.

Mediana (Md)

Es una medida de tendencia central cuyo valor se encuentra exactamente a la mitad de una serie ordenada de datos. Por encima de la mediana se encuentra el 50 % de los datos con mayor valor de la serie y por debajo de ella 50% de los datos con menor valor de la serie. De esta forma, la mediana describe hacia dónde tienden a concentrarse los valores de una serie o proporciona un dato típico o representativo del conjunto de datos.

La mediana es representada por la expresión M_d y puede ser utilizada cuando la serie tiene valores extremos o atípicos, es decir, cuando existen diferencias significativas entre los valores que conforman la muestra o la población bajo estudio.

La mediana para datos no agrupados.

Para encontrar la mediana de un conjunto de datos no agrupados, se realizan los siguientes pasos:

Se ordenan los datos de la serie del valor más pequeño al valor más grande, es decir, se organiza la serie en orden creciente.

Observamos cual es el tamaño de la muestra (n) o de la población (N) que se pretende analizar y procedemos a encontrar la mediana bajo uno de los siguientes criterios:

a A) Si el total de datos analizados es un número impar, entonces la mediana es el valor que se encuentra exactamente en el centro de la serie ordenada. Es decir, es el valor del dato que ocupa la posición de la serie ordenada.

b B) Si el total de datos analizados es un número par, entonces la mediana es el promedio de los dos valores que se encuentran en el centro de la serie ordena.

Es decir, es el promedio de los valores de los datos que ocupan las posiciones n/2 Y FORMULA y de la serie ordenada.

La mediana para datos agrupados.

Cuando analizamos datos que se encuentran organizados mediante una tabla de frecuencias, la mediana para datos agrupados se obtiene utilizando la siguiente formula:

FORMULA DE MEDIANA DATOS AGRUPADOS

Donde:

L_i = limite real inferior de la clase mediana

n = número de datos observados

F_a = Frecuencia acumulada anterior a la clase mediana

I= Amplitud del intervalo de la clase mediana

F_m = Frecuencia de la clase mediana

Para localizar correctamente los componentes de esta fórmula, debemos tomar en cuenta los siguientes puntos.

1. 1) Las clases de la tabla de frecuencias deben estar organizados en orden creciente y a la tabla se le debe adicionar una columna que contenga las frecuencias acumuladas de cada clase.

2. 2) Identificamos la clase donde se encuentra la mediana. Para ello se divide el total de datos que tiene la serie entre 2 (n/2); posteriormente localizamos en la columna de las frecuencias acumuladas la clase en la que se encuentra el número (n/2).

3. 3) Esa es precisamente la clase donde se localiza la mediana, de la cual se toma su límite real inferior (Li), su frecuencia (f_m)y su amplitud del intervalo (I) el cual se obtiene diferenciando el límite superior al límite inferior de la clase.

4 4) El límite real inferior de la clase mediana (L_i) es un límite teórico que se obtiene sumando el límite inferior de la clase y el límite superior de la clase anterior y dividiendo esa suma entre dos.

5 5) La amplitud del intervalo de la clase mediana (I) se obtiene de dos formas, ya sea diferenciando dos límites superiores de clase consecutivos, o diferenciando dos límites inferiores de clase consecutivos.

6) Se localiza la frecuencia acumulada inmediatamente inferior a la clase en donde se encuentra la mediana (F_a).

Moda

Es una medida de tendencia central cuyo valor es el más común en una serie de datos. La moda es representada por la expresión M_o y puede ser utilizada para describir series de datos con variables cuantitativas o variables cualitativas. En muchas ocasiones, esta medida es de gran utilidad en los negocios. Por ejemplo, algunas tiendas de autoservicio necesitan conocer cuál es el producto más demandado y en qué magnitud, con el propósito de tener al día sus inventarios.

La moda para datos no agrupados.

La moda para datos no agrupados se define como el valor de la variable que se presenta con mayor frecuencia en una serie de datos.

La moda para datos agrupados

Cuando se analizan datos cualitativos que están organizados mediante una tabla de frecuencias, la moda es la clase que tiene la mayor frecuencia.

Por otra parte, cuando se tiene la presencia de datos cuantitativos agrupados en una tabla de frecuencias, la moda se obtiene utilizando la siguiente formula:

FORMULA DE LA MODA DATOS AGRUPADOS

Donde:

M_o = Moda

L_i = Límite real inferior de la clase modal (la que tiene la mayor frecuencia)

D₁ = Diferencia entre la mayor frecuencia y la frecuencia anterior

D₂ = diferencia entre la mayor frecuencia y la frecuencia que le sigue

I = Amplitud del intervalo de la clase modal.

Cuartiles

Una vez localizado el centro de la distribución de un conjunto de datos, el siguiente paso es analizar más detalladamente la manera en que se distribuye el resto de los valores.

En adición a las medidas de tendencia central, hay algunas medidas útiles de posición “no central” que suelen utilizarse al resumir o descubrir propiedades de grandes conjuntos de datos. A estas medidas se les denomina cuantiles. Algunos de los cuantiles más empleados son los cuartiles, los deciles y los percentiles, medidas que hacen posible un análisis más detallado de una distribución, representando que porcentaje de los datos es más pequeña y qué porcentaje de los datos es más alto en valor.

Cuartiles (Q_i)

Los cuartiles son aquellos valores que dividen una distribución de datos en cuatro partes y se representan por Q₁, Q₂ y Q₃, denominados primero, segundo y tercer cuartil, respectivamente.

Los cuartiles para datos no agrupados en una serie se localizan de la siguiente manera: primero se ordenan los valores observados de acuerdo son su magnitud y posteriormente, se determina el lugar que cada cuartil debe ocupar en la serie.

La posición del primer cuartil se define por:

FORMULA CUARTILES PRIMERO

La formula para determinar la posición del segundo cuartil es:

FORMULA SEGUNDO CUARTIL

La formula para definir el tercer cuartil:

FORMULA

Los cuartiles para una serie de datos agrupados en una serie de frecuencias, la localización del número de orden que ocupan los cuartiles también se obtiene mediante las relaciones: n/4, n/2 y 3n/4. Posteriormente, se aplica la fórmula:

FORMULA CUERTILES

Donde:

L_i = Límite real inferior de la clase donde se encuentra el cuartil

N_o = Lugar o posición que le corresponde al cuartil

F_a= frecuencia acumulada anterior a la clase donde se encuentra el cuartil

I = valor del intervalo donde se ubica el cuartil

F_c = frecuencia de la clase donde esta el cuartil

Deciles

Los deciles son aquellos valores que dividen en diez partes una serie de datos y se representan por D₁, D₂,…., D₉, denominados primer decil, segundo decil,…, noveno decil.

Para datos no agrupados, el primero, segundo, tercero,…., noveno decil son los valores que se obtienen para los números de orden n/10, 2n/10,3n/10,…, 9n/10 de los casos observados comenzando por la primera clase.

Al trabajar deciles para datos agrupados es necesario seguir con una metodología similar a la de la mediana y de los cuartiles. Por ello, la fórmula para obtener el valor de los deciles es:

FORMULA

Donde:

L_i = Límite real inferior de la clase donde se encuentra el decil

N_a = Lugar o posición que le corresponde al decil

F_a = Frecuencia acumulada anterior a la clase donde se encuentra el decil

I = Valor del intervalo donde se ubica el decil

f_d= Frecuencia de la clase donde esta el decil

Percentiles

El percentil p es un valor tal que a lo más p por ciento de los datos es menor que él y a lo más (100-p) por ciento de los datos es mayor.

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

Para los percentiles, cuando n es par: FORMULA

Cuando n es impar: FORMULA

Siendo A, el número del percentil.

Percentiles para datos agrupados

La fórmula que define el cálculo de los percentiles es:

FORMULA

Donde:

L_i = Límite real inferior de la clase donde se encuentra el percentil

N_a = Lugar o posición que le corresponde al percentil

F_a = Frecuencia acumulada anterior a la clase donde se encuentra el percentil

I = Valor del intervalo donde se ubica el percentil

f_p= Frecuencia de la clase donde esta el percentil

3.8 Regresión lineal

Medidas de dispersión

En los temas anteriores estudiamos que las medidas de tendencia central proporcionan valores representativos o típicos que señalan hacia dónde tienden a concentrarse los datos de una serie. Sin embargo, en el análisis de muchos fenómenos también necesitamos conocer la manera en que los valores de una serie se dispersan entre sí. Para ello acudimos a otro tipo de medidas descriptivas, las medidas de dispersión o de variabilidad, las cuales son tan importantes en el estudio de una serie de datos, como lo es localizar sus valores centrales.

Las medidas de dispersión proporcionan una idea mental con la cual se conoce qué tanto se dispersan los valores de un conjunto de datos. Si la variación es muy pequeña, las medidas de dispersión también tendrían un valor muy pequeño e indicarían una gran uniformidad de los elementos de una serie. Por el contrario, si se obtiene un valor grande de las medidas de dispersión, señalaría gran variación entre los valores de los datos. La ausencia de dispersión es señal de uniformidad perfecta, lo cual quiere decir que todos los datos tienen el mismo valor.

4.1 Dispersión.

Rango

También conocido con el nombre de amplitud o recorrido, el rango se define como la diferencia que existe entre el valor máximo y el valor mínimo de un conjunto de datos. Es la medida de dispersión más fácil de calcular, y es especialmente útil en aquellas situaciones en que el objetivo de la investigación sólo consiste en averiguar el alcance de las variaciones extremas.

FORMULA

4.3. Desviación media.

4.4. Rango semiintercuartílico.

4.5. Rango entre percentiles.

Varianza.

Es una medida de la variabilidad que toma en cuenta la dispersión que los valores de los datos tienen con respecto a su media. Es decir, aquellos conjuntos de datos que tengan valores más alejados de la media, sea muestral o poblacional, tendrán una mayor varianza. Su resultado se expresa en unidades al cuadrado.

Existen dos símbolos para representar la varianza (s² y s²). La s²se refiere a un estadístico, es decir, a la varianza de una muestra; mientras que s²se refiere a un parámetro, es decir, a la varianza de una población. A la s²se le conoce como la varianza muestral mientras que a s² se le conoce como la varianza poblacional.

La varianza para datos no agrupados.

Cuando tenemos una variable cuya serie de datos no se encuentran agrupados, X₁, X₂, X₃,…, X_n, la varianza muestral se calcula mediante la siguiente fórmula:

FORMULA VARIANZA

Donde:

= Suma de los cuadrados de las desviaciones del valor de cada dato de la serie respecto a la medida muestral.

X_i = El valor da cada dato de la serie

(FORMULA)= La media muestral

N= tamaño de la muestra

La varianza para datos agrupados

En el caso de datos agrupados, para encontrar la varianza es necesario conocer el punto medio de cada clase. El método se basa en la suposición de que el punto medio de cada clase es aproximadamente igual a la media aritmética de las medidas contenidas en un intervalo.

La fórmula para calcular la varianza es:

FORMULA

Donde:

S² = Varianza de la muestra

M_j = Punto medio de la clase

(SIMBOLO)= media de la muestra

n = tamaño de la muestra

f = frecuencia de la clase.

Desviación típica

Al igual que la varianza, la desviación estándar es una medida de variabilidad que también toma en cuenta la dispersión de los valores de los datos con respecto a su media. Sin embargo, su significado es más valioso que el de la varianza, pues su resultado se encuentra expresado en las mismas unidades de la variable que se examina y no en valores elevados al cuadrado como lo hace la varianza.

Se obtiene sacando la raíz cuadrada al resultado de la varianza, no importa si ésta se trate de una varianza para datos no agrupados o para datos agrupados, o provenientes de una muestra o de una población. Al proporcionar sus resultados en unidades no cuadradas, la desviación estándar es muy fácil de interpretar y su resultado tiene mayor significado en el análisis de un fenómeno.

La fórmula para datos no agrupados.

FORMULA

Para datos agrupados

FORMULA

Probabilidad

Introducción

Probabilidad, rama de las matemáticas que se ocupa de medir o determinar cuantitativamente la posibilidad de que ocurra un determinado suceso. La probabilidad está basada en el estudio de la combinatoria y es fundamento necesario de la estadística.

La creación de la probabilidad se atribuye a los matemáticos franceses del siglo XVII Blaise Pascal y Pierre de Fermat, aunque algunos matemáticos anteriores, como Gerolamo Cardano en el siglo XVI, habían aportado importantes contribuciones a su desarrollo. La probabilidad matemática comenzó como un intento de responder a varias preguntas que surgían en los juegos de azar, por ejemplo, saber cuántos dados hay que lanzar para que la probabilidad de que salga algún seis supere el 50%.

La probabilidad de un resultado se representa con un número entre 0 y 1, ambos inclusive. La probabilidad 0 indica que el resultado no ocurrirá nunca, y la probabilidad 1, que el resultado ocurrirá siempre.

El cálculo matemático de probabilidades se basa en situaciones teóricas en las cuales puede configurarse un espacio muestral cuyos sucesos elementales tengan todos la misma probabilidad. Por ejemplo, al lanzar un dado ideal, la probabilidad de cada una de las caras es 1/6. Al lanzar dos dados, la probabilidad de cada uno de los resultados es 1/36.

Conceptos básicos

Existen tres conceptos básicos para adentrarse al tema de la probabilidad, éstos son: experimento, espacio muestral y eventos.

Experimento

Un experimento se refiere a un proceso de observación del cual se obtiene un resultado entre distintos resultados posibles.

Si en un experimento existe un único resultado posible, es decir, se tiene la plena certeza de obtener ese resultado, no estaríamos hablando de un experimento de probabilidad, pues no tendríamos la presencia de incertidumbre y, por lo tanto, no es de interés del estudio de la probabilidad. Por esta razón, los experimentos en probabilidad se llaman experimentos aleatorios, cuyos resultados no pueden predecirse con plena seguridad, pues están sujetos al azar.

Espacio muestral

El espacio muestral es el conjunto de todos los resultados posibles que se pueden obtener de un experimento y es representado mediante la letra S.

Los resultados posibles que pueden obtenerse en un experimento también son conocidos como puntos muestrales y cada uno de ellos, se representa mediante la letra R_i. De esta manera, el espacio muestral también se define como el conjunto de todos los puntos muestrales que se pueden obtener en un experimento.

Evento

Un evento en probabilidad se le llama a la colección de uno o varios resultados posibles o puntos muestrales que pertenecen a un espacio muestral. Es decir, un evento es un subconjunto del espacio muestral.

Generalmente los eventos se representan por la letra E_i.

Cabe señalar que un evento no debe entenderse como sinónimo de posible resultado o punto muestral. Un evento efectivamente puede tomar en cuenta un resultado posible o punto muestral, pero también puede considerar varios resultados posibles o puntos muestrales.

Tampoco deben confundirse los términos experimento y evento. Un experimento es un proceso de observación en el que se pueden obtener distintos resultados. Un evento es la colección de uno o más de esos resultados que se pueden obtener en un experimento y que se encuentra dentro del espacio muestral.

Probabilidad

En estas notas no se da una definición de probabilidad; en su lugar se ha desarrollado tres enfoques conceptuales para determinar sus valores: enfoque clásico, enfoque de frecuencia relativa, y enfoque subjetivo.

Enfoque clásico

El enfoque de probabilidad clásico predominó en los siglos XVII y XVIII, y se aplicó

Principalmente en los juegos de azar, como cartas y dados.

La probabilidad desde el punto de vista de que acurra un evento se calcula dividiendo el número de resultado que son favorables al evento, entre el número total de resultados del experimento.

FORMULA

PROBABILIDAD Y ESTADISTICA

Páginas

sábado, 7 de julio de 2012

ANTOLOGIA DE ESTADISTICA

No hay comentarios:

Publicar un comentario