Regla de sturges

La regla de Sturges, propuesta por Herbert Sturges en 1926, es una regla práctica acerca del número de clases que deben considerar al elaborarse un histograma.[1]​

Este número viene dado por la siguiente expresión:

c = 1 + log 2 ⁡ ( M ) {displaystyle c=1+log _{2}(M)}

{displaystyle c=1+log _{2}(M)}M es el tamaño de la muestra.

Que puede escribirse a partir de logaritmos base 10 de la siguiente forma:

c = 1 + log ⁡ ( M ) log ⁡ ( 2 ) {displaystyle c=1+{frac {log(M)}{log(2)}}}

{displaystyle c=1+{frac {log(M)}{log(2)}}}M es el tamaño de la muestra.

El valor de c (número de clases) debe ser redondeado a un número entero. Es común redondearlo con el siguiente criterio: si el entero del resultado previo al redondeo es «par» se redondea a la alta y si el entero es «impar» se redondea a la baja, resultando siempre un número impar de clases (lo que permite ver la acumulación cerca de la media en una distribución normal).

Referencias

[

editar

]

Explicamos qué es la regla de Sturges, sus aplicacione y damos varios ejemplos

Regla de Sturges

¿Qué es la regla de Sturges?

La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos. Esta regla fue enunciada en 1926 por el matemático alemán Herbert Sturges.

Sturges propuso un método sencillo, basado en el número de muestras x que permitiesen encontrar el número de clases y su amplitud de rango. La regla de Sturges es muy utilizada sobre todo en el área de la estadística, específicamente para construir histogramas de frecuencia.

Explicación

La regla de Sturges es un método empírico muy utilizado en la estadística descriptiva para determinar el número de clases que deben existir en un histograma de frecuencias, para así poder clasificar un conjunto de datos que representan una muestra o población.

Básicamente, con esta regla se determina el ancho de los contenedores gráficos, de los histogramas de frecuencia.

Para establecer su regla Herbert Sturges consideró un diagrama de frecuencias ideal, que consta de K intervalos, donde el i-ésimo intervalo contiene un determinado número de muestras (i = 0,… k – 1), representado como:

Regla de Sturges

Ese número de muestras es dado por el número de formas en que puede extraerse un subconjunto de un conjunto; es decir, por el coeficiente binomial, expresado de la siguiente manera:

Regla de SturgesLuego, Sturges relacionó que el histograma de frecuencias se aproximará a una distribución normal cuando el número de intervalos (k) aumente según el teorema central del límite. De tal forma que se puede calcular el número de muestras de cada uno de los intervalos:

Regla de Sturges

Para simplificar la expresión, aplicó las propiedades de los logaritmos en ambas partes de la ecuación:

Regla de Sturges

Así, Sturges estableció que el número óptimo de intervalos k es dado por la expresión:

READ  Disfruta la vida

Regla de Sturges

También puede ser expresada como:

Regla de Sturges

En esta expresión:

  • k es el número de clases.

  • N es el número total de observaciones de la muestra.

  • Log es el logaritmo común de base 10.

Por ejemplo, para elaborar un histograma de frecuencia que exprese una muestra aleatoria de la estatura de 142 niños, el número de intervalos o clases que tendrá la distribución es:

k=1 + 3,322 * log10 (N)

k=1+3,322* log (142)

k=1+3,322* 2,1523

k=8,14 ≈ 8

Así, la distribución será en 8 intervalos.

El número de intervalos siempre debe estar representado por números enteros. En los casos en los que el valor sea decimal, se debe hacer una aproximación al número entero más próximo.

Aplicaciones de la regla de Sturges

La regla de Sturges es aplicada principalmente en estadística, ya que esta permite realizar una distribución de frecuencias a través del cálculo del número de clases (k), así como la longitud de cada una de estas, conocida también como amplitud.

La amplitud es la diferencia del límite superior e inferior de la clase, dividido entre el número de clases, y se expresa:

Regla de Sturges

Existen muchas reglas empíricas que permiten hacer una distribución de frecuencias. Sin embargo, la regla de Sturges es comúnmente usada porque hace una aproximación del número de clases, que generalmente va de 5 a 15.

De esa forma, considera un valor que representa adecuadamente una muestra o población; es decir, la aproximación no representa agrupaciones extremadas, así como tampoco trabaja con un número excesivo de clases que no permitan resumir la muestra.

Ejemplo

Se necesita realizar un histograma de frecuencia de acuerdo a los datos dados, que corresponden a edades obtenidas en una encuesta realizada a hombres que hacen ejercicios en un gimnasio de la localidad.

Regla de Sturges

Para determinar los intervalos se debe saber cuál es el tamaño de la muestra o el número de observaciones; en este caso, se tienen 30.

Luego se aplica la regla de Sturges:

k=1 + 3,322 * log10 (N)

k=1+3,322* log (30)

k=1+3,322* 1,4771

k = 5,90 ≈ 6 intervalos.

A partir del número de intervalos, se puede calcular la amplitud que estos van a tener; es decir, la anchura de cada barra representada en el histograma de frecuencias:

Regla de Sturges

El límite inferior es considerado como el valor menor de los datos, y el superior es el valor mayor. La diferencia entre el límite superior e inferior es denominada rango o recorrido de la variable (R).

De la tabla se tiene que el límite superior es 46 y el inferior 13; de esa manera, la amplitud de cada clase será:

Regla de Sturges

Los intervalos estarán compuestos por un límite superior e inferior. Para determinar esos intervalos se comienza contando desde el límite inferior, sumándole a este la amplitud determinada por la regla (6), de la siguiente manera:

Regla de Sturges

Luego se calcula la frecuencia absoluta para determinar el número de hombres que corresponden a cada intervalo; en este caso es:

  • Intervalo 1: 13 – 18 = 9

  • Intervalo 2: 19 – 24 = 9

  • Intervalo 3: 25 – 30 = 5

  • Intervalo 4: 31 – 36 = 2

  • Intervalo 5: 37 – 42 = 2

  • Intervalo 6: 43 – 48 = 3

READ  Palabras con bra bre bri bro bru

Al sumar la frecuencia absoluta de cada clase, esta debe ser igual al número total de la muestra; en este caso, 30.

Posteriormente se calcula la frecuencia relativa de cada intervalo, dividiendo la frecuencia absoluta de esta entre el número total de observaciones:

Regla de Sturges

  • Intervalo 1: fi = 9 ÷ 30 = 0,30

  • Intervalo 2: fi = 9 ÷ 30 = 0,30

  • Intervalo 3: fi = 5 ÷ 30 = 0,1666

  • Intervalo 4: fi = 2 ÷ 30 = 0,0666

  • Intervalo 5: fi = 2 ÷ 30 = 0,0666

  • Intervalo 4: fi = 3 ÷ 30 = 0,10

Luego se puede realizar una tabla que refleje los datos, y también el diagrama a partir de la frecuencia relativa con relación a los intervalos obtenidos, como se puede observar en las siguientes imágenes:

Regla de Sturges

Regla de Sturges

De esa manera, la regla de Sturges permite determinar la cantidad de clases o intervalos en los que puede ser dividida una muestra, con la finalidad de resumir una muestra de datos a través de la elaboración de tablas y gráficas.

Altman, Naomi, and Martin Krzywinski. 2015. “Simple Linear Regression.” Nature Methods 12 (11): 999–1000.

———. 2016a. “Points of Significance: Analyzing Outliers: Influential or Nuisance?” Nature Methods 13 (4): 281–82.

———. 2016b. “Points of Significance: Regression Diagnostics.” Nature Methods 13 (5): 385–86.

Armitage, Emily G., and Coral Barbas. 2014. “Metabolomics in Cancer Biomarker Discovery: Current Trends and Future Perspectives.” J Pharm Biomed Anal 87 (January). Centre for Metabolomics; Bioanalysis (CEMBIO), Faculty of Pharmacy, Universidad San Pablo CEU, Campus Monteprincipe, Boadilla del Monte, 28668 Madrid, Spain.: 1–11. doi:10.1016/j.jpba.2013.08.041.

Čuperlović-Culf, Miroslava. 2013. “5 – Metabolomics Data Analysis – Processing and Analysis of a Dataset.” In {NMR} Metabolomics in Cancer Research, edited by Miroslava Čuperlović-Culf, 261–333. Woodhead Publishing Series in Biomedicine. Woodhead Publishing. doi:http://dx.doi.org/10.1533/9781908818263.261.

Fox, J. 1997. Applied Regression Analysis, Linear Models, and Related Methods. SAGE Publications.

Krzywinski, Martin, and Naomi Altman. 2014. “Points of Significance: Two-Factor Designs.” Nature Methods 11 (12): 1187–8.

Kuehl, R.O., and M.G. Osuna. 2001. Diseño de Experimentos: Principios Estadísticos de Diseño Y análisis de Investigación. Matemáticas (Thomson). International Thomson Editores, S. A. de C. V.

Martínez-Arranz, Ibon, Rebeca Mayo, Miriam Pérez-Cormenzana, Itziar Mincholé, Lorena Salazar, Cristina Alonso, and José M. Mato. 2015. “Enhancing Metabolomics Research Through Data Mining.” Journal of Proteomics 127, Part B (0): 275–88. doi:http://dx.doi.org/10.1016/j.jprot.2015.01.019.

Pulido, H.G., R. de la Vara Salazar, P.G. González, C.T. Martínez, and M.C.T. Pérez. 2004. Análisis Y Diseño de Experimentos. McGraw-Hill.

Xie, Yihui. 2014. “Knitr: A Comprehensive Tool for Reproducible Research in R.” In Implementing Reproducible Computational Research, edited by Victoria Stodden, Friedrich Leisch, and Roger D. Peng. Chapman; Hall/CRC. http://www.crcpress.com/product/isbn/9781466561595.

———. 2015. Dynamic Documents with R and Knitr. 2nd ed. Boca Raton, Florida: Chapman; Hall/CRC. http://yihui.name/knitr/.

———. 2016. Knitr: A General-Purpose Package for Dynamic Report Generation in R. http://yihui.name/knitr/.

Actualizado por ultima vez el 10 de mayo de 2022, por Luis Benites.

READ  Faceebok

Un histograma es un gráfico que nos ayuda a visualizar la distribución de valores en un conjunto de datos.

Resulta que la cantidad de bins utilizados en un histograma puede tener un gran impacto en la forma en que interpretamos los datos.

Si usamos muy pocos bins, el verdadero patrón subyacente en los datos se puede ocultar:

Y si usamos demasiados bins, es posible que estemos visualizando el ruido en un conjunto de datos:

Afortunadamente, podemos usar un método conocido como regla de Sturges para determinar el número óptimo de contenedores para usar en un histograma.

La regla de Sturges usa la siguiente fórmula para determinar el número óptimo de contenedores para usar en un histograma:

Contenedores óptimos = ⌈log 2 n + 1⌉

dónde:

  • n: el número total de observaciones en el conjunto de datos.
  • ⌈ ⌉: Símbolos que significan «techo», es decir, redondean la respuesta al número entero más cercano.

Ejemplo de la Regla de Sturges

Supongamos que tenemos el siguiente conjunto de datos con n = 31 observaciones en total:

Podemos usar la regla de Sturges para determinar el número óptimo de bins a usar para visualizar estos valores en un histograma:

Bandejas óptimas = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 .

De acuerdo con la regla de Sturges, deberíamos usar 6 contenedores en el histograma que usamos para visualizar esta distribución de valores.

Así es como se vería un histograma con 6 contenedores para este conjunto de datos:

Usar la regla de Sturges para determinar la cantidad de contenedores que se deben usar en un histograma

Observe cómo estos contenedores parecen ser suficientes para tener una buena idea de la distribución subyacente de valores sin ser demasiados que solo estamos visualizando el ruido en los datos.

Valores comunes de la regla de Sturges

La siguiente tabla muestra el número óptimo de bins para usar en un histograma basado en el número total de observaciones en un conjunto de datos, de acuerdo con la regla de Sturges:

Regla de Sturges para diferentes tamaños de muestra

Alternativas a la regla de Sturges

La regla de Sturges es el método más común para determinar el número óptimo de bins para usar en un histograma, pero existen varios métodos alternativos que incluyen:

La regla de la raíz cuadrada : número de contenedores = ⌈√ n ⌉

La regla del arroz: Número de contenedores = ⌈2 * 3 √ n ⌉

La regla de Freedman-Diaconis: Número de contenedores = (2 * IQR) / 3 √ n donde IQR es el rango intercuartílico.

Bono: Calculadora de reglas de Sturges

Utilice esta calculadora en línea gratuita para aplicar automáticamente la regla de Sturges para determinar la cantidad óptima de contenedores que se utilizarán para un histograma en función del tamaño de un conjunto de datos.

  • https://r-project.org

  • https://www.python.org/

  • https://www.stata.com/

Dereck Amesquita Perú

I’m a Bachelor of Economics gratuaded from the National University of San Agustin. I have experience in Python, R and other languages with aplications in Finance or Econometrics, I also have knowledge of statistics and econometrics. If you need help on some issues you can write to me.

You May Also Like

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *