COLEGIO DE ESTUDIOS
CIENTIFICOS Y TECNOLOGICOS DEL ESTADO DE MORELOS
ANTOLOGIA DE
PROBABILIDAD Y ESTADÍSTICA
Estadística descriptiva
Introducción
Estadística: En el lenguaje común (por ejemplo en
las crónicas deportivas) es conocida como un conjunto de datos. Se refiere a un
conjunto de métodos para manejar la obtención, presentación y el análisis de
observaciones numéricas. Sus fines son: Describir al conjunto de datos
obtenidos y tomar decisiones, o bien, realizar generalizaciones acerca de las
características de todas las posibles observaciones bajo consideración. La
Estadística es una de las ramas de la matemática con más aplicaciones ya que
casi en cualquier rama del conocimiento humano tiene aplicación. Se considera
como su fundador a Godofredo Achenwall, profesor alemán (1719-1772), él y sus
seguidores estructuraron métodos estadísticos para estudiar las riquezas de las
naciones.
Existen muchas definiciones
dependientes de sus aplicaciones, pero en el fondo todas ellas coinciden de una
u otra forma en el que la estadística “es un método científico de operar con
los datos y de interpretarlos”. De la definición anterior pueden percibirse dos
grandes áreas de acción de la Estadística:
Ø
Estadística
Descriptiva
Ø
Estadística
Inferencial
Si tenemos la posibilidad de conocer a
todos y cada uno de los integrantes de una población a la cual queremos
estudiar, entonces usaremos los métodos de la Estadística Descriptiva, que
incluye la obtención, organización, presentación y descripción de la
información numérica. Pero si no nos es posible conocer a toda la población
entonces tomaremos una muestra de ella, la estudiaremos y se sacarán
conclusiones que se extrapolarán a toda la población, para lo que se usarán los
métodos de la Estadística Inferencial.
Estadística Descriptiva.
Se refiere a aquella parte del estudio
que incluye la obtención, organización, presentación y descripción de la
información numérica.
Estadística Inferencial.
Es una técnica de la cual se obtienen generalizaciones
o se toman decisiones con base a información parcial o incompleta obtenida
mediante técnicas descriptivas.
Los conceptos básicos de Probabilidad
y de distribuciones muestrales sirven como introducción al método de Inferencia
Estadística; esta se compone de dos áreas:
Prueba de Hipótesis
Estimación
La estimación se encarga de buscar
establecer los valores de los parámetros de la población.
Las pruebas de Hipótesis constituyen
un proceso relacionado con aceptar o rechazar afirmaciones acerca de los
parámetros de la población.
Los dos pasos anteriores se pueden
resumir diciendo que el propósito es hacer inferencias sobre la población a
partir de una muestra y estimar la confianza con la que estas inferencias
pueden ser verdaderas.
Población y muestra
Para poder establecer las bases de lo
que conlleva un estudio estadístico necesitamos algunas definiciones:
Población.
Conjunto de todas las posibles
observaciones. Sinónimo de Conjunto Universal se le define como la totalidad de
todas las posibles mediciones observables, bajo consideración en una situación
dada por determinado problema, circunstancias diferentes implican situaciones
diferentes. Las Poblaciones se clasifican en función a su cardinalidad
(cuantificación).
Población Finita. Es aquella que incluye un número
limitado de medidas y observaciones.
Población Infinita.
Es aquella que por incluir un gran
número de medidas y observaciones no es posible determinar la cantidad de
éstas. En lo general, las características medibles de una población son
denominadas parámetros.
Muestra.
Es
un conjunto de observaciones o medidas tomadas a partir de una población dada,
es decir, es un subconjunto de la población. Desde luego, la cardinalidad de la
muestra depende de la cardinalidad de la población. Las muestras deben ser
representativas para evitar un sesgo u error.
Variables discretas y continuas.
Las variables constituyen la
herramienta fundamental de la Estadística, por que son la base esencial del
estudio que se desea realizar y por tal motivo analizaremos cómo pueden ser
éstas.
Las variables son:
1) Características.
2) Atributos.
3) Rasgos.
4) Cualidades.
Definición
Variable cualitativa es cuando
solamente se busca en ella una cualidad o un atributo.
Variable cualitativa nominal es
aquella que agrupa los elementos en categorías sin tener un orden.
Variable cualitativa ordinal es cuando
las categorías en que se agrupan los elementos, pueden ser ordenados.
Variable cuantitativa es aquella que
se puede asociar con un número con el cual podemos realizar operaciones o
comparaciones.
Variable cuantitativa discreta es la
que siempre se asocia con valores enteros.
Variable cuantitativa continua es la
que se puede asociar con valores de un intervalo de número reales.
Las variables estudiadas de acuerdo
con sus características, se resumen en el siguiente cuadro:
NOMINAL
CUALITATIVA
ORDINAL
VARIABLE
DISCRETA
CUANTITATIVA
CONTINUA
Distribución
de frecuencias
Una vez que se han obtenido los datos
y que se ha hecho el estudio de los valores que pueden tomar las variables, la
primera tarea de la Estadística es la de ordenar y presentar los datos en
tablas que permitan ver la tendencia de los mismos. Ordenados los datos se
facilita su representación en diagramas y gráficas de diferentes tipos.
En los temas que siguen se verá la
forma de describir, presentar, ordenar, resumir la información en tablas y su
presentación en diferentes tipos de gráficas.
Los datos agrupados en tablas, nos
permiten ver con facilidad el número de observaciones iguales o comprendidos en
un intervalo, a este número de repeticiones iguales de la variable se llama
frecuencia y se denota por fi. Otros valores relacionados con la frecuencia
son:
La frecuencia relativa que se denota
por fr.
La frecuencia acumulada que se denota
por Fa.
La frecuencia relativa acumulada que
se denota Fra.
Con el análisis de las frecuencias
podemos determinar la tendencia de la variable en estudio que como ya se dijo,
ésta puede ser nominal, ordinal o cuantitativa y sus respectivas escalas de
medición: nominal, ordinal o por intervalos, respectivamente.
Otro parámetro importante es la
frecuencia relativa que simbolizaremos con “fr”, ésta se obtiene dividiendo la
frecuencia absoluta (fi) entre el número de elementos de la muestra que
simbolizaremos con (n).
La definición matemática es:
De la ecuación se observa que la
frecuencia relativa se puede expresar como una razón, como una proporción o
como un porcentaje (%).
Definición
Frecuencia relativa (fr) es la
proporción de elementos que pertenecen a una categoría y ésta se obtiene
dividiendo su frecuencia absoluta entre el número total de elementos de la
muestra.
La frecuencia acumulada (Fi) es otra
característica de la muestra que nos permitirá determinar la posición de un
caso particular que nos interese en comparación con el total de los elementos.
Definición
Frecuencia acumulada (Fa) de una clase
es la que se obtiene sumando las frecuencias de las clases anteriores con la
frecuencia de ésta.
Su definición matemática es:
FORMULA
Al calcular la frecuencia acumulada (F1) podemos determinar su frecuencia relativa acumulada (Fra) en la forma ya explicada mediante la ecuación, esto es:
FORMULA
Intervalos de clase.
Hasta el momento, en los problemas que hemos analizado las muestras son pequeñas (n es pequeño). Sin embargo cuando la muestra o población se compone de un considerable número de elementos, la tabla de frecuencias se elabora agrupando los datos en clases y ahora la tabla se llama “Tabla de frecuencias con datos agrupados”.
La formación de clases o intervalos de clase que simbolizaremos con (k) es muy variado y depende generalmente del tamaño del rango de la población o muestra.
Definición
Rango (R) es el intervalo en que se distribuyen los datos en observaciones de una muestra y se determina restándole al mayor valor el menor valor.
La definición matemática del rango es:
R= (valor mayor – valor menor) = Xn – x1
Xn = valor mayor
X1 = valor menor
No existe alguna ley que defina cómo obtener el número de clases; pero la experiencia recomienda que no sea menor que 5 ni mayor de 20, esto es:
5 ≤ k ≤ 20
k = número de clases
Una vez definido el número de clases (k), para obtener la amplitud de clase (C) aplicamos la siguiente ecuación: 𝐶=RK
Otra forma de determinar el número de intervalos de clase (k) es mediante la ecuación de Sturges y ésta es: K = 1 + 3.322 (log n)
Marca de clase
Otra característica importante del intervalo de clase o marca de clase es el punto medio de clase o marca de clase (mi).
Definición
La marca de clase es el valor del punto que se localiza a la mitad del intervalo de cada clase o intervalo real de clase.
Su definición matemática es: 𝑚= 𝑋
FORMULA
Histograma y polígonos de frecuencia
Al representar en una gráfica la información concentrada en la tabla de frecuencias, ésta es un recurso visual que nos permite tener una idea clara, precisa, global y rápida acerca de las observaciones de una muestra o población.
Existen muchos tipos de gráficas en las que se pueden representar la frecuencia absoluta (fi), relativa (fr) y acumulada (Fa) y con ellas podemos estimar algunos valores con la simple observación.
Los diferentes tipos de gráfica que
podemos usar para representar las observaciones de un determinado problema y la
selección de este tipo, dependen de la variable en estudio.
Si la variable en estudio es del tipo
cualitativo, los gráficos pueden ser:
a) De barras; horizontales o
verticales.
b) Circulares.
c) Pictogramas, etcétera.
Si la variable en estudio es de tipo
cuantitativo, los gráficos que podemos usar para su representación gráfica son:
a) Histogramas.
b) Polígonos de frecuencias que a
continuación analizaremos.
Histograma y Polígono de Frecuencias
Definición
Histograma es la representación
gráfica en el plano coordenado de las características concentradas en la tabla
de frecuencias de una variable continua.
Para trazar el histograma, la secuencia
de operaciones es:
1. En los ejes coordenados del plano
cartesiano representamos los datos de la siguiente forma:
a) En el eje de las abscisas
(horizontal) se representan las clases con sus límites reales de clase y las
marcas de clase (Mi) de cada intervalo.
b) En el eje de las ordenadas
(vertical) representamos las frecuencias absolutas en que ocurre la variable.
2. Por los límites reales superior e
inferior de cada clase se trazan barras verticales que se cortan mediante una
horizontal que se traza a la altura del punto correspondiente a la frecuencia
de cada clase.
3. Por la naturaleza continua de la variable, los rectángulos se trazan adyacentes, toda vez que en esta forma se debe dividir el eje horizontal
4. El área representada por cada barra
es equivalente a la proporción de la frecuencia del intervalo de clase
correspondiente con respecto al total.
Polígono de Frecuencia
El polígono de frecuencia se construye
a partir de los datos de la tabla de frecuencias.
Sobre el eje horizontal se levanta por
el punto medio segmentos verticales punteados que terminan a la altura de su
frecuencia de clase, se unen los puntos superiores con un segmento de recta que
empieza medio punto antes del límite superior de la última clase.
Otra forma de trazar el polígono de
frecuencias es:
a) Sobre el histograma se trazan
segmentos punteados que inician en el punto medio de clase y terminan a la
altura del rectángulo.
b) Se unen los puntos finales de éstos
segmentos con una línea continua que inicia medio punto antes del límite
inferior de la primera clase y termina medio punto después del límite superior
de la última clase.
Distribuciones de frecuencia
Reglas Generales para construir las
distribuciones de frecuencias por intervalos
Efectuar el arreglo ordenado
(Ascendente o Descendente) de la población o muestra A = ( X1, X2, … , Xn )
Obtener la frecuencia absoluta
mediante la tabulación o conteo de los datos (homogenizar los datos)
Encontrar el rango o recorrido (R) de
los datos: R = (valor mayor – valor menor) = Xn – X1
Encontrar el número de clases o
intervalos de clases (K). El número de
clases debe ser tal que se evite el detalle innecesario, pero que no conduzca a
la perdida de más información de la que puede ser convenientemente
ignorada. Para este cálculo se utiliza
la formula de Sturges K = 1 + 3.322(log. N)
Determinar la amplitud de la clase (C
): c=R/k
El dato menor (X1) será el limite
inferior de la primera clase. A él se le suma C y se obtiene el límite superior de la primera clase que también será el límite
inferior de la segunda clase. Luego se
suma nuevamente C y se obtiene el límite superior del segundo intervalo e
inferior del tercero. Y así
sucesivamente hasta que el limite superior corresponda o supere ligeramente el
valor mayor ( Xn ), la cantidad de clases obtenidas deberá corresponder con el
número K calculado mediante la formula de Sturges.
Una vez construidos los intervalos se
calculan, mediante tabulación de acuerdo a los límites inferiores y superiores
de las clases, las frecuencias absolutas,
relativas, porcentuales y acumuladas correspondientes.
Con los datos obtenidos se procede a
construir la tabla de distribución de frecuencia.
2.12
Distribuciones de frecuencia relativas acumuladas.
Medidas de tendencia central
Para complementar la información que
proporcionan los métodos tabulares y gráficos, se usan las medidas de tendencia
central, que son valores representativos y que sirven también para describir y
analizar un conjunto de datos.
Las medidas de tendencia central son
medidas descriptivas que señalan hacia donde tienden a concentrarse los valores
contenidos en un conjunto de datos. Su resultado debe ser un valor típico o representativo
de la muestra o población, el cual es utilizado para describir o analizar un
fenómeno. Al ser una idea abstracta y representativa del conjunto de datos, las
medidas de tendencia central tienen la ventaja de poder ser transmitidas de
manera verbal.
Existen diversas medidas de tendencia
central que son utilizadas según la naturaleza del fenómeno que se quiere
investigar. Las medidas de tendencia central que se estudiarán son:
Ø
Media
Ø
Mediana
Ø
Moda
Si bien, todas tienen como objetivo
obtener un valor representativo para un conjunto de datos, cada una de ellas
tiene ventajas y desventajas que hacen que las distingamos entre si.
Media.
También conocida como la media
aritmética o el promedio, la media es la medida de tendencia central más
utilizada en los negocios y en las ciencias sociales, pues se emplea con mucha
frecuencia en trabajos empíricos. La media se utiliza únicamente para describir
el comportamiento de variables cuantitativas.
Existen dos símbolos para representar
la media (X y µ ). La X se refiere a un estadístico, es decir, es la medida de
una muestra; mientras que µ se refiere a un parámetro, es decir, es la medida
de una población. A la X se le conoce como la medida muestral mientras que la µ
se le conoce como la medida poblacional.
La manera de obtener la media muestral
o poblacional depende de la forma como se encuentra organizados los datos, ya
sea que estén no agrupados o agrupados. Se dice que trabajamos con datos no
agrupados cuando se expone cada uno de los datos de la serie, mientras que los
datos agrupados son aquellos que se encuentran organizados mediante tablas de
frecuencias.
La
media para datos no agrupados.
Cuando tenemos una serie de datos no
agrupados: X1 , X2, X3,…,Xn, la
media se calcula sumando los valores de cada uno de los datos y su resultado se
divide entre el número de datos que tiene la serie.
Para una serie de datos X1 ,
X2, X3,…,Xn,, la formula de la media para datos no agrupados se describe de la
siguiente manera:
FORMULA DE LA MEDIA
Donde:
X = Media aritmética de la muestra
Σ = Suma
n = Número de datos incluidos en la
muestra
Xi = El valor que toma cada
uno de los datos
La
media para datos agrupados
Cuando tenemos una serie de datos
agrupados, es decir, que son presentados mediante una tabla de distribución de
frecuencias, la media se obtiene mediante la siguiente formula:
FORMULA DE DATOS AGRUPADOS
Donde:
X= Media aritmética
M
j= Punto medio de cada clase
fi = Frecuencia de cada
clase
=
Suma de las frecuencias de todas las clases
=
Suma de los productos de los puntos medios por las frecuencias de todas las
clases
A diferencia de la fórmula para datos
no agrupados, en este caso mi representa el punto medio de cada
clase, el cual se obtiene sumando el límite inferior y el límite superior de
cada clase, y dividiendo ese resultado entre dos.
Mediana (Md)
Es una medida de tendencia central
cuyo valor se encuentra exactamente a la mitad de una serie ordenada de datos.
Por encima de la mediana se encuentra el 50 % de los datos con mayor valor de
la serie y por debajo de ella 50% de los datos con menor valor de la serie. De
esta forma, la mediana describe hacia dónde tienden a concentrarse los valores
de una serie o proporciona un dato típico o representativo del conjunto de
datos.
La mediana es representada por la
expresión Md y puede ser utilizada cuando la serie tiene valores
extremos o atípicos, es decir, cuando existen diferencias significativas entre
los valores que conforman la muestra o la población bajo estudio.
La
mediana para datos no agrupados.
Para encontrar la mediana de un
conjunto de datos no agrupados, se realizan los siguientes pasos:
Se ordenan los datos de la serie del
valor más pequeño al valor más grande, es decir, se organiza la serie en orden
creciente.
Observamos cual es el tamaño de la
muestra (n) o de la población (N) que se pretende analizar y procedemos a
encontrar la mediana bajo uno de los siguientes criterios:
a A)
Si
el total de datos analizados es un número impar, entonces la mediana es el
valor que se encuentra exactamente en el centro de la serie ordenada. Es decir,
es el valor del dato que ocupa la posición
de la serie ordenada.
b B)
Si
el total de datos analizados es un número par, entonces la mediana es el
promedio de los dos valores que se encuentran en el centro de la serie ordena.
Es decir, es el promedio de los
valores de los datos que ocupan las posiciones n/2 Y FORMULA
y
de la serie ordenada.
La
mediana para datos agrupados.
Cuando analizamos datos que se
encuentran organizados mediante una tabla de frecuencias, la mediana para datos
agrupados se obtiene utilizando la siguiente formula:
FORMULA DE MEDIANA DATOS AGRUPADOS
La
moda para datos no agrupados se define como el valor de la variable que se
presenta con mayor frecuencia en una serie de datos.
Donde:
Li = limite real inferior
de la clase mediana
n = número de datos observados
Fa = Frecuencia acumulada
anterior a la clase mediana
I= Amplitud del intervalo de la clase
mediana
Fm = Frecuencia de la clase
mediana
Para localizar correctamente los
componentes de esta fórmula, debemos tomar en cuenta los siguientes puntos.
1.
1) Las
clases de la tabla de frecuencias deben estar organizados en orden creciente y
a la tabla se le debe adicionar una columna que contenga las frecuencias
acumuladas de cada clase.
2.
2) Identificamos
la clase donde se encuentra la mediana. Para ello se divide el total de datos
que tiene la serie entre 2 (n/2); posteriormente localizamos en la columna de
las frecuencias acumuladas la clase en la que se encuentra el número (n/2).
3.
3) Esa
es precisamente la clase donde se localiza la mediana, de la cual se toma su
límite real inferior (Li), su frecuencia (fm) y su amplitud del
intervalo (I) el cual se obtiene diferenciando el límite superior al límite
inferior de la clase.
4 4) El
límite real inferior de la clase mediana (Li) es un límite teórico
que se obtiene sumando el límite inferior de la clase y el límite superior de
la clase anterior y
dividiendo esa suma entre dos.
5 5) La
amplitud del intervalo de la clase mediana (I) se obtiene de dos formas, ya sea
diferenciando dos límites superiores de clase consecutivos, o diferenciando dos
límites inferiores de clase consecutivos.
6) Se
localiza la frecuencia acumulada inmediatamente inferior a la clase en donde se
encuentra la mediana (Fa).
Moda
Es una medida de tendencia central
cuyo valor es el más común en una serie de datos. La moda es representada por
la expresión Mo y puede ser utilizada para describir series de datos
con variables cuantitativas o variables cualitativas. En muchas ocasiones, esta
medida es de gran utilidad en los negocios. Por ejemplo, algunas tiendas de
autoservicio necesitan conocer cuál es el producto más demandado y en qué
magnitud, con el propósito de tener al día sus inventarios.
La
moda para datos no agrupados.
La
moda para datos agrupados
Cuando se analizan datos cualitativos
que están organizados mediante una tabla de frecuencias, la moda es la clase
que tiene la mayor frecuencia.
Por otra parte, cuando se tiene la presencia
de datos cuantitativos agrupados en una tabla de frecuencias, la moda se
obtiene utilizando la siguiente formula:
FORMULA DE LA MODA DATOS AGRUPADOS
Donde:
Mo = Moda
Li = Límite real inferior
de la clase modal (la que tiene la mayor frecuencia)
D1 = Diferencia entre la mayor frecuencia y la frecuencia anterior
D2 = diferencia entre la mayor frecuencia y la frecuencia
que le sigue
I = Amplitud del intervalo de la clase
modal.
Cuartiles
Una vez localizado el centro de la
distribución de un conjunto de datos, el siguiente paso es analizar más
detalladamente la manera en que se distribuye el resto de los valores.
En adición a las medidas de tendencia
central, hay algunas medidas útiles de posición “no central” que suelen
utilizarse al resumir o descubrir propiedades de grandes conjuntos de
datos. A estas medidas se les denomina
cuantiles. Algunos de los cuantiles más empleados son los cuartiles, los
deciles y los percentiles, medidas que hacen posible un análisis más detallado
de una distribución, representando que porcentaje de los datos es más pequeña y
qué porcentaje de los datos es más alto en valor.
Cuartiles (Qi)
Los cuartiles son aquellos valores que
dividen una distribución de datos en cuatro partes y se representan por Q1,
Q2 y Q3, denominados primero, segundo y tercer cuartil,
respectivamente.
Los cuartiles para datos no agrupados
en una serie se localizan de la siguiente manera: primero se ordenan los
valores observados de acuerdo son su magnitud y posteriormente, se determina el
lugar que cada cuartil debe ocupar en la serie.
La posición del primer cuartil se
define por:
FORMULA CUARTILES PRIMERO
La formula para determinar la posición
del segundo cuartil es:
FORMULA SEGUNDO CUARTIL
La formula para definir el tercer
cuartil:
FORMULA
Los cuartiles para una serie de datos
agrupados en una serie de frecuencias, la localización del número de orden que
ocupan los cuartiles también se obtiene
mediante las relaciones: n/4, n/2 y 3n/4. Posteriormente, se aplica la fórmula:
FORMULA CUERTILES
Donde:
Li = Límite real inferior
de la clase donde se encuentra el cuartil
No = Lugar o posición que
le corresponde al cuartil
Fa= frecuencia acumulada
anterior a la clase donde se encuentra el cuartil
I = valor del intervalo donde se ubica
el cuartil
Fc = frecuencia de la clase
donde esta el cuartil
Deciles
Los deciles son aquellos valores que
dividen en diez partes una serie de datos y se representan por D1, D2,….,
D9, denominados primer decil, segundo decil,…, noveno decil.
Para datos no agrupados, el primero,
segundo, tercero,…., noveno decil son los valores que se obtienen para los
números de orden n/10, 2n/10,3n/10,…,
9n/10 de los casos observados comenzando por la primera clase.
Al trabajar deciles para datos
agrupados es necesario seguir con una metodología similar a la de la mediana y
de los cuartiles. Por ello, la fórmula para obtener el valor de los deciles es:
FORMULA
Donde:
Li = Límite real inferior
de la clase donde se encuentra el decil
Na = Lugar o posición que
le corresponde al decil
Fa = Frecuencia acumulada
anterior a la clase donde se encuentra el decil
I = Valor del intervalo donde se ubica
el decil
fd= Frecuencia de la clase
donde esta el decil
Percentiles
El percentil p es un valor tal que a
lo más p por ciento de los datos es menor que él y a lo más (100-p) por ciento
de los datos es mayor.
Si se tienen una serie de valores X1,
X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
Para los percentiles, cuando n es par: FORMULA
Cuando n es impar: FORMULA
Siendo A, el número del percentil.
Percentiles
para datos agrupados
La fórmula que define el cálculo de
los percentiles es:
FORMULA
Donde:
Li = Límite real inferior
de la clase donde se encuentra el percentil
Na = Lugar o posición que
le corresponde al percentil
Fa = Frecuencia acumulada
anterior a la clase donde se encuentra el percentil
I = Valor del intervalo donde se ubica
el percentil
fp= Frecuencia de la clase
donde esta el percentil
3.8 Regresión lineal
Medidas de dispersión
En los temas anteriores estudiamos que
las medidas de tendencia central proporcionan valores representativos o típicos
que señalan hacia dónde tienden a concentrarse los datos de una serie. Sin
embargo, en el análisis de muchos fenómenos también necesitamos conocer la
manera en que los valores de una serie se dispersan entre sí. Para ello
acudimos a otro tipo de medidas descriptivas, las medidas de dispersión o de
variabilidad, las cuales son tan importantes en el estudio de una serie de
datos, como lo es localizar sus valores centrales.
Las medidas de dispersión proporcionan
una idea mental con la cual se conoce qué tanto se dispersan los valores de un
conjunto de datos. Si la variación es muy pequeña, las medidas de dispersión
también tendrían un valor muy pequeño e indicarían una gran uniformidad de los
elementos de una serie. Por el contrario, si se obtiene un valor grande de las
medidas de dispersión, señalaría gran variación entre los valores de los datos.
La ausencia de dispersión es señal de uniformidad perfecta, lo cual quiere
decir que todos los datos tienen el mismo valor.
4.1 Dispersión.
Rango
También conocido con el nombre de
amplitud o recorrido, el rango se define como la diferencia que existe entre el
valor máximo y el valor mínimo de un conjunto de datos. Es la medida de
dispersión más fácil de calcular, y es especialmente útil en aquellas situaciones
en que el objetivo de la investigación sólo consiste en averiguar el alcance de
las variaciones extremas.
FORMULA
4.3. Desviación media.
4.4. Rango semiintercuartílico.
4.5. Rango entre percentiles.
Varianza.
Es una medida de la variabilidad que
toma en cuenta la dispersión que los valores de los datos tienen con respecto a
su media. Es decir, aquellos conjuntos de datos que tengan valores más alejados
de la media, sea muestral o poblacional, tendrán una mayor varianza. Su
resultado se expresa en unidades al cuadrado.
Existen dos símbolos para representar
la varianza (s2 y s2). La s2 se refiere a un estadístico, es decir,
a la varianza de una muestra; mientras que s2 se refiere a un parámetro, es decir, a la varianza de una
población. A la s2 se le conoce como la varianza muestral mientras
que a s2 se le conoce como la varianza
poblacional.
La
varianza para datos no agrupados.
Cuando tenemos una variable cuya serie
de datos no se encuentran agrupados, X1, X2, X3,…,
Xn, la varianza muestral se calcula mediante la siguiente fórmula:
FORMULA VARIANZA
Donde:
= Suma de los cuadrados de las
desviaciones del valor de cada dato de la serie respecto a la medida muestral.
Xi = El valor da cada dato
de la serie
(FORMULA)= La media muestral
N= tamaño de la muestra
La
varianza para datos agrupados
En el caso de datos agrupados, para
encontrar la varianza es necesario conocer el punto medio de cada clase. El
método se basa en la suposición de que el punto medio de cada clase es
aproximadamente igual a la media aritmética de las medidas contenidas en un
intervalo.
La fórmula para calcular la varianza
es:
FORMULA
Donde:
S2 = Varianza de la muestra
Mj = Punto medio de la
clase
(SIMBOLO)= media de la muestra
n = tamaño de la muestra
f = frecuencia de la clase.
Desviación típica
Al igual que la varianza, la
desviación estándar es una medida de variabilidad que también toma en cuenta la
dispersión de los valores de los datos con respecto a su media. Sin embargo, su significado es más valioso que el
de la varianza, pues su resultado se encuentra expresado en las mismas unidades
de la variable que se examina y no en valores elevados al cuadrado como lo hace
la varianza.
Se obtiene sacando la raíz cuadrada al
resultado de la varianza, no importa si ésta se trate de una varianza para
datos no agrupados o para datos agrupados, o provenientes de una muestra o de
una población. Al proporcionar sus resultados en unidades no cuadradas, la
desviación estándar es muy fácil de interpretar
y su resultado tiene mayor significado en el análisis de un fenómeno.
La
fórmula para datos no agrupados.
FORMULA
Para
datos agrupados
FORMULA
Probabilidad
Introducción
Probabilidad, rama de las matemáticas
que se ocupa de medir o determinar cuantitativamente la posibilidad de que
ocurra un determinado suceso. La probabilidad está basada en el estudio de la
combinatoria y es fundamento necesario de la estadística.
La creación de la probabilidad
se atribuye a los matemáticos franceses del siglo XVII Blaise Pascal y Pierre
de Fermat, aunque algunos matemáticos anteriores, como Gerolamo Cardano en el
siglo XVI, habían aportado importantes contribuciones a su desarrollo. La
probabilidad matemática comenzó como un intento de responder a varias preguntas
que surgían en los juegos de azar, por ejemplo, saber cuántos dados hay que
lanzar para que la probabilidad de que salga algún seis supere el 50%.
La probabilidad de un
resultado se representa con un número entre 0 y 1, ambos inclusive. La
probabilidad 0 indica que el resultado no ocurrirá nunca, y la probabilidad 1,
que el resultado ocurrirá siempre.
El cálculo matemático de
probabilidades se basa en situaciones teóricas en las cuales puede configurarse
un espacio muestral cuyos sucesos elementales tengan todos la misma
probabilidad. Por ejemplo, al lanzar un dado ideal, la probabilidad de cada una
de las caras es 1/6. Al lanzar dos dados, la probabilidad de cada uno de los
resultados es 1/36.
Conceptos básicos
Existen tres conceptos básicos para
adentrarse al tema de la probabilidad, éstos son: experimento, espacio muestral
y eventos.
Experimento
Un experimento se refiere a un proceso
de observación del cual se obtiene un resultado entre distintos resultados
posibles.
Si
en un experimento existe un único resultado posible, es decir, se tiene
la plena certeza de obtener ese resultado, no estaríamos hablando de un
experimento de probabilidad, pues no tendríamos la presencia de incertidumbre
y, por lo tanto, no es de interés del estudio de la probabilidad. Por esta
razón, los experimentos en probabilidad se llaman experimentos aleatorios,
cuyos resultados no pueden predecirse con plena seguridad, pues están sujetos
al azar.
Espacio muestral
El espacio muestral es el conjunto de
todos los resultados posibles que se pueden obtener de un experimento y es
representado mediante la letra S.
Los resultados posibles que pueden
obtenerse en un experimento también son conocidos como puntos muestrales y cada
uno de ellos, se representa mediante la letra Ri. De esta manera, el
espacio muestral también se define como el conjunto de todos los puntos
muestrales que se pueden obtener en un experimento.
Evento
Un evento en probabilidad se le llama
a la colección de uno o varios resultados posibles o puntos muestrales que
pertenecen a un espacio muestral. Es decir, un evento es un subconjunto del
espacio muestral.
Generalmente los eventos se
representan por la letra Ei.
Cabe señalar que un evento no debe
entenderse como sinónimo de posible resultado o punto muestral. Un evento
efectivamente puede tomar en cuenta un resultado posible o punto muestral, pero
también puede considerar varios resultados posibles o puntos muestrales.
Tampoco deben confundirse los términos experimento y
evento. Un experimento es un proceso de observación en el que se pueden obtener
distintos resultados. Un evento es la colección de uno o más de esos resultados
que se pueden obtener en un experimento y que se encuentra dentro del espacio
muestral.
Probabilidad
En estas notas no se da una definición
de probabilidad; en su lugar se ha desarrollado tres enfoques conceptuales para
determinar sus valores: enfoque clásico, enfoque de frecuencia relativa, y
enfoque subjetivo.
Enfoque
clásico
El enfoque de probabilidad clásico
predominó en los siglos XVII y XVIII, y se aplicó
Principalmente en los juegos de azar,
como cartas y dados.
La probabilidad desde el punto de
vista de que acurra un evento se calcula dividiendo el número de resultado que
son favorables al evento, entre el
número total de resultados del experimento.
FORMULA