En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica. Así pues, podemos evidenciar comportamientos, observar el grado de homogeneidad, acuerdo o concisión entre los valores de todas las partes que componen la población o la muestra, o, en contraposición, poder observar el grado de variabilidad, y por ende, la dispersión de todos los valores que toman las partes, también es posible no evidenciar ninguna tendencia y obtener que cada miembro de la población toma por su lado y adquiere un valor de la característica aleatoriamente sin mostrar ninguna preferencia o tendencia.
Se utilizan para relacionar variables cuantitativas continuas. Para variables cuantitativas discretas las barras se dibujan separadas y el gráfico se llama diagrama de frecuencias, porque la variable representada en el eje horizontal ya no representa un espectro continuo de valores, sino valores cuantitativos específicos, igual que ocurre en un diagrama de barras, usado para representar una característica cualitativa o categórica. Su utilidad se hace más evidente cuando se cuenta con un gran número de datos cuantitativos y que se han agrupado en intervalos de clase.
Ejemplos de su uso es la representación de edades o estaturas de una población. Por comodidad, sus valores se agrupan en clases, es decir, en intervalos continuos. En los casos en los que los datos son cualitativos (no numéricos), como cierto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.
Etimología
El término "histograma" fue acuñado en 1891 por el matemático estadístico inglés Karl Pearson y es un compuesto de los términos griegos ἱστός (‘histós’, “mástil”) y ɣράμμα ('gramma', "dibujo, figura")[1]
Tipos de gráficos relacionados con el histograma
Histograma de frecuencias absolutas
Representa la frecuencia absoluta mediante la altura de las barras. Se usa mucho en educación no universitaria por su sencillez, pero solo se puede aplicar cuando todos los intervalos son iguales, ya que en ese caso las alturas y las superficies son proporcionales. En esos niveles educativos se introduce una estadística elemental y todavía no se puede profundizar en estos detalles.
Histograma de frecuencias relativas
Representa la frecuencia relativa mediante la altura de las barras. Igual que en el caso anterior se usa mucho en educación no universitaria. La elaboración del gráfico es más complicada pues los números ya no son enteros. Como en el caso anterior solo se puede aplicar cuando todos los intervalos son iguales, ya que en ese caso las alturas y las superficies son proporcionales.
Histograma
Representa la frecuencia relativa mediante la superficie de las barras. Aunque esto sea cierto en todos los histogramas, cuando se agrupan los datos en intervalos desiguales hay que atender a la superficie de las barras, que no se corresponderá con la altura como ocurría en los casos anteriores. Es el que se suele usar en educación universitaria. Para su elaboración debe introducirse el concepto de altura de histograma, que es un concepto equivalente al de densidad de probabilidad, y que se calcula dividiendo la frecuencia relativa de ese intervalo (o sea la superficie que queremos darle) entre la anchura del intervalo (la base del rectángulo). Ahora las barras tendrán siempre superficie igual a la frecuencia relativa y la suma de todas esas superficies (de todas las barras) será 1, o sea el 100%.
Función densidad
Representa la probabilidad mediante la superficie de las barras. Es un gráfico idéntico al histograma pero aplicado a distribuciones teóricas. El concepto de frecuencia relativa se cambia por el de probabilidad, pero también se representa por superficies y la suma de todas esas superficies (de todas las barras) será 1, como en el histograma, o sea el 100% de probabilidad.
Curva acumulativa u ojiva
Es un gráfico acumulativo (véase Función de distribución) que representa la frecuencia relativa acumulada hasta cada valor de la variable. Si el rango es finito el primer valor del rango tiene frecuencia acumulada (anterior) cero y el último tiene frecuencia acumulada 1 (100%). Así el eje vertical siempre toma valores de cero a uno y representa frecuencias relativas (o probabilidades si se trata de distribuciones teóricas). Se utiliza para introducir el concepto y el cálculo de la mediana, los cuartiles, los deciles y en general los parámetros llamados de posición. Si el rango es infinito, como suele ocurrir en las distribuciones teóricas (Normal, student, chi-cuadrado, etc.) el cero puede no alcanzarse y será el valor asintótico por la izquierda, si tampoco se alcanza el uno también será el valor asintótico derecho, y en muchos casos no se alcanza ni uno ni otro, teniendo dos asintotas. Este gráfico es la integral del histograma (cuando trabajamos con distribuciones reales) o de la función densidad (cuando trabajamos con distribuciones teóricas).
Curva acumulativa de frecuencias absolutas
Es un gráfico acumulativo que representa la frecuencia absoluta acumulada hasta cada valor de la variable. Realmente no es un gráfico relacionado con el histograma, pero es muy parecido a la curva acumulativa y a la función de distribución. Se usa mucho en enseñanza no universitaria por su sencillez, ya que permite trabajar con números enteros (frecuencias absolutas) y, como la anterior, permite introducir y calcular mediana, cuartiles, etc. Esta curva no irá entre cero y uno sino entre cero y el total de individuos de la muestra.
Nota
En todos estos diagramas la muestra o la población se divide en intervalos (del parámetro a estudiar, por ejemplo estatura) y aparece el dilema de si incluir el extremo del intervalo (por ejemplo 180 cm) en el primer o en el segundo intervalo en los que aparece. Tradicionalmente se incluye en el segundo y los intervalos quedan abiertos por la derecha: [170, 180) y [180,190). Sin embargo, dependiendo del problema a estudiar (problemas en que los extremos salen con mucha frecuencia frente a otros en que no salen nunca) y de la costumbre, se pueden encontrar otras elecciones.
Construcción de un histograma de frecuencias
Paso 1
Determinar el rango de los datos. Rango es igual al mayor valor menos el menor valor.
Paso 2
Obtener todos los números de grupos, existen 4 criterios para determinar el número de clases (o barras) –por ejemplo, la regla de Sturges.
Paso 3
Establecer la anchura de clase. Si queremos intervalos iguales tomaremos el rango dividido por el número de clases y comparar con los resultados obtenidos de la dispersión.
Paso 4
Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en segmentos iguales usando la anchura de clase obtenida en el paso 3.
Paso 5
Graficar el histograma: Como todas las clases tienen la misma amplitud las bases de las barras son los intervalos de clases y la altura es la frecuencia de las clases.
Ejemplos
El histograma de una imagen representa la frecuencia relativa de los niveles de gris de la imagen. Las técnicas de modificación del histograma de una imagen son útiles para aumentar el contraste de imágenes con histogramas muy concentrados. Sea una imagen de tamaño N×N, la función de distribución del histograma es:
Un caso especial
La Wikipedia guarda un registro de visitas de cada artículo y esas visitas se pueden ampliar a 90 días y a todos y cada uno de los idiomas. En estos casos se pueden convertir los datos en un histograma donde se indica, día a día el número de usuarios que han consultado el artículo. Este enlace llevará a los datos numéricos y gráficos (histograma) de esas consultas, que nos pueden dar la información sobre un idioma en particular o sobre todos los idiomas que tienen una página con el mismo tema.
En el caso del artículo Histograma, abriendo el historial de dicho artículo, se puede consultar el número de visitas que se han hecho día a día y veremos que existe una característica que se destaca sobre todas las demás: este número de visitas tiene un ritmo semanal, correspondiendo a los días centrales de la semana el mayor número de visitas (miércoles y jueves, por ejemplo) y el menor número, en sábado y domingo (y también el lunes). De esta característica se puede inferir fácilmente que es un artículo consultado mayoritariamente por estudiantes. Y la comparación del artículo en distintos idiomas (el inglés y el español en primero y segundo lugares y mucho después, el portugués y otros) también nos relaciona con la demografía de los países que hablan los distintos idiomas. Por ejemplo, en el caso del portugués, pesa mucho la numerosa población joven del Brasil. El enlace es: [1], y el enlace para el mismo artículo en todos los idiomas es: [2]
Otros tipos de representaciones gráficas
Los histogramas se aplican a variables continuas, aquellas en las que la variable observada (estatura, peso, edad…) pueden tomar cualquier valor real, a veces entre dos valores fijos que determinan su rango.
Otros gráficos similares al histograma son los diagramas de barras, que se suelen aplicar a variables discretas y a las cualitativas. A diferencia de las variables continuas aquí los valores intermedios entre dos barras consecutivas no tienen sentido (un dado puede salir 1, 2, 3, 4, 5 o 6, pero no 3,7 ni 5/3) o no pueden observarse (si estudiamos documentos que solo registran edades enteras deberemos tratarla como variable discreta), por eso las barras se dibujan separadas.
La distinción entre discreta y continua no siempre es clara. La variable edad se puede considerar continua pues el tiempo es una variable continua, pero frecuentemente se considera como un número entero (la administración no suele considerar edades fraccionarias) y entonces es una variable discreta. Los gráficos estadísticos presentarán el mismo problema, y los mismos datos se podrán representar en diagramas de barras (separadas) si se considera una variable discreta o en histograma (barras unidas) si se considera continua.
Incluso la distinción entre cualitativa y cuantitativa puede ser arbitraria, pues muchas cualidades se pueden representar de forma numérica, como hacen los ordenadores. El ejemplo más evidente es el color (ver el ejemplo anterior: histograma de grises), variable claramente cualitativa que los ordenadores traducen a números (por ejemplo usando el código RGB).
En las variables cuantitativas y en las cualitativas ordinales es frecuente representar polígonos de frecuencia en lugar de histogramas.