Calcular valores atípicos

Autor: Charles Brown
Fecha De Creación: 8 Febrero 2021
Fecha De Actualización: 1 Mes De Julio 2024
Anonim
PARCELAMENTO (valor das prestações)  -   Matemática Financeira
Video: PARCELAMENTO (valor das prestações) - Matemática Financeira

Contenido

A parte aislada o parte aislada en estadística es un punto de datos que difiere significativamente de los otros puntos de datos en una muestra. A menudo, los valores atípicos apuntan a discrepancias o errores en las mediciones a los estadísticos, después de lo cual pueden eliminar el valor atípico del conjunto de datos. Si realmente optan por eliminar los valores atípicos del conjunto de datos, podría producir cambios significativos en las conclusiones extraídas del estudio. Por eso es importante calcular y determinar valores atípicos si desea interpretar correctamente los datos estadísticos.

Al paso

  1. Aprenda a detectar posibles valores atípicos. Antes de que podamos decidir si eliminar valores anómalos de un conjunto de datos en particular, por supuesto, primero debemos identificar los posibles valores atípicos en el conjunto de datos. En general, los valores atípicos son los puntos de datos que se desvían significativamente de la tendencia que forman los otros valores en el conjunto; en otras palabras, salir de los otros valores. Por lo general, es fácil reconocer esto en tablas y (especialmente) en gráficos. Si el conjunto de datos se grafica visualmente, los valores atípicos estarán "lejos" de los otros valores. Por ejemplo, si la mayoría de los puntos de un conjunto de datos forman una línea recta, los valores atípicos no se ajustarán a esta línea.
    • Echemos un vistazo a un conjunto de datos que muestra las temperaturas de 12 objetos diferentes en una habitación. Si la temperatura de 11 de los objetos fluctúa unos pocos grados como máximo alrededor de 21 ° C, mientras que un objeto, un horno, tiene una temperatura de 150 ° C, puede ver de un vistazo que el horno es probablemente un valor atípico.
  2. Ordene todos los puntos de datos de menor a mayor. El primer paso para calcular los valores atípicos es encontrar el valor mediano (o el valor medio) del conjunto de datos. Esta tarea resulta mucho más sencilla si los valores del conjunto están ordenados de menor a mayor. Entonces, antes de continuar, ordene los valores en su conjunto de datos de esta manera.
    • Continuemos con el ejemplo anterior. Aquí está nuestro conjunto de datos que muestra las temperaturas en grados Fahrenheit de diferentes objetos en una habitación: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si ordenamos los valores del conjunto de menor a mayor, este se convierte en nuestro nuevo conjunto: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Calcule la mediana del conjunto de datos. La mediana de un conjunto de datos es el punto de datos donde la mitad de los datos está por encima y la mitad de los datos por debajo; de hecho, es el "centro" del conjunto de datos. Si el conjunto de datos contiene un número impar de puntos, la mediana es fácil de encontrar: la mediana es el punto con tantos puntos arriba como abajo. Si hay un número par de puntos, porque no hay un centro, debe tomar el promedio de los dos puntos centrales para encontrar la mediana. Cuando se calculan valores atípicos, la mediana generalmente se denomina mediante la variable Q2, porque se encuentra entre Q1 y Q3, el primer y tercer cuartiles. Determinaremos estas variables más adelante.
    • No se confunda con los conjuntos de datos con un número par de puntos; el promedio de los dos puntos intermedios suele ser un número que no está en el conjunto de datos en sí; esto está bien. Sin embargo, si los dos puntos intermedios son iguales, la media, por supuesto, también será este número; también esto es Okey.
    • En nuestro ejemplo tenemos 12 puntos. Los dos términos del medio son los puntos 6 y 7 - 70 y 71, respectivamente. Por lo tanto, la mediana de nuestro conjunto de datos es la media de estos dos puntos: ((70 + 71) / 2) =70,5.
  4. Calcula el primer cuartil. Este punto, que denotamos con la variable Q1, es el punto de datos por debajo del cual se encuentran el 25 por ciento (o una cuarta parte) de las observaciones. En otras palabras, este es el centro de todos los puntos en su conjunto de datos. debajo la mediana. Si hay un número par de valores por debajo de la mediana, debe volver a tomar el promedio de los dos valores medios para encontrar Q1, como podría haber hecho usted mismo para determinar la mediana.
    • En nuestro ejemplo, seis puntos están por encima de la mediana y seis puntos por debajo de ella. Entonces, para encontrar el primer cuartil tenemos que tomar el promedio de los dos puntos medios en los seis puntos inferiores. Los puntos 3 y 4 de los seis últimos son ambos 70, por lo que su media es ((70 + 70) / 2) =70. Entonces, nuestro valor para Q1 es 70.
  5. Calcula el tercer cuartil. Este punto, que denotamos con la variable Q3, es el punto de datos por encima del cual se encuentra el 25 por ciento de los datos. Encontrar Q3 es prácticamente lo mismo que encontrar Q1, excepto que estamos viendo los puntos en este caso sobre la mediana.
    • Continuando con el ejemplo anterior, vemos que los dos puntos medios de los seis puntos por encima de la mediana son 71 y 72. La media de estos dos puntos es ((71 + 72) / 2) =71,5. Por tanto, nuestro valor para el tercer trimestre es 71,5.
  6. Encuentra el rango intercuartil. Ahora que hemos determinado Q1 y Q3 tenemos que calcular la distancia entre estas dos variables. Puede encontrar la distancia entre Q1 y Q3 restando Q1 de Q3. El valor que obtiene para el rango intercuartílico es crucial para determinar los límites de los puntos no desviados en su conjunto de datos.
    • En nuestro ejemplo, los valores de Q1 y Q3 son 70 y 71,5, respectivamente. Para encontrar el rango intercuartílico, calculamos Q3 - Q1: 71.5 - 70 =1,5.
    • Esto funciona incluso si Q1, Q3 o ambos números son negativos. Por ejemplo, si nuestro valor para Q1 fuera -70, el rango intercuartílico sería 71,5 - (-70) = 141,5, que es correcto.
  7. Busque los "límites internos" del conjunto de datos. Puede reconocer valores atípicos determinando si se encuentran dentro de una serie de límites numéricos; los llamados "límites internos" y "límites externos". Un punto que cae fuera de los límites internos del conjunto de datos se clasifica como uno valor atípico leve, y un punto fuera de los límites exteriores se clasifica como uno valor atípico extremo. Para encontrar los límites internos de su conjunto de datos, primero multiplique el rango intercuartil por 1,5. Sume el resultado a Q3 y réstelo de Q1. Los dos resultados son los límites internos de su conjunto de datos.
    • En nuestro ejemplo, el rango intercuartílico es (71,5 - 70) o 1,5. Multiplique esto por 1,5 para obtener 2,25. Agregamos este número a Q3 y lo restamos de Q1 para encontrar los límites internos de la siguiente manera:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Entonces las fronteras internas son 67,75 y 73,75.
    • En nuestro conjunto de datos, solo la temperatura del horno (300 grados Fahrenheit) está fuera de este rango. Así que esto puede ser un valor atípico leve. Sin embargo, todavía tenemos que determinar si esta temperatura es un valor atípico extremo, así que no saquemos conclusiones por el momento.
  8. Encuentra los "límites externos" del conjunto de datos. Lo haces de la misma manera que con los límites internos, con la única diferencia de que multiplicas la distancia intercuartil por 3 en lugar de 1,5. A continuación, sume el resultado a Q3 y reste de Q1 para encontrar los valores límite externos.
    • En nuestro ejemplo, multiplicamos la distancia intercuartil por 3 para obtener (1.5 * 3) o 4.5. Ahora podemos encontrar los límites externos de la misma manera que los límites internos:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Entonces los límites externos son 65,5 y 76.
    • Los puntos de datos que se encuentran fuera de los límites externos se consideran valores atípicos extremos. En nuestro ejemplo, la temperatura del horno, 300 grados Fahrenheit, está mucho más allá de los límites exteriores. Entonces la temperatura del horno es definitivamente un valor atípico extremo.
  9. Utilice una evaluación cualitativa para determinar si debe "descartar" los valores atípicos. Con el método anterior, puede determinar si ciertos puntos son valores atípicos leves, valores atípicos extremos o ningún valor atípico. Pero no se equivoque: reconocer un punto como un valor atípico lo convierte en uno solo. candidato que se elimine del conjunto de datos, y no inmediatamente un punto que se elimine deber convertirse en. La razón por qué un valor atípico difiere del resto de los puntos del conjunto es crucial para determinar si el valor atípico debe eliminarse. Generalmente, se eliminan los valores atípicos causados ​​por algún error, un error en las mediciones, en los registros o en el diseño experimental, por ejemplo. Por el contrario, los valores atípicos que no son causados ​​por errores y que revelan información o tendencias nuevas e impredecibles suelen convertirse en no eliminado.
    • Otro criterio a considerar es si los valores atípicos afectan la media de un conjunto de datos de una manera sesgada o engañosa. Esto es especialmente importante si planea sacar conclusiones de la media de su conjunto de datos.
    • Juzguemos nuestro ejemplo. Desde el mas alto Es poco probable que el horno alcanzara una temperatura de 300 ° F debido a alguna fuerza imprevista de la naturaleza, en nuestro ejemplo podemos concluir con casi un 100% de certeza que el horno se encendió accidentalmente, provocando una lectura de temperatura anormalmente alta. Además, si no eliminamos el valor atípico, la media de nuestro conjunto de datos es (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, mientras que la media sin el valor atípico sale a (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 ° F.
      • Dado que el valor atípico fue causado por un error humano, y porque es incorrecto decir que la temperatura ambiente promedio fue cercana a 32 ° C, debemos optar por utilizar nuestro valor atípico. retirar.
  10. Comprenda la importancia de (a veces) retener los valores atípicos. Si bien algunos valores atípicos deben eliminarse de un conjunto de datos porque son el resultado de errores o porque sesgan los resultados de una manera engañosa, otros valores atípicos deben conservarse. Por ejemplo, si un valor atípico se ha obtenido correctamente (y, por lo tanto, no es el resultado de un error) y / o si el valor atípico ofrece una nueva perspectiva del fenómeno que se va a medir, no debe eliminarse de inmediato. Los experimentos científicos son situaciones particularmente sensibles cuando se trata de lidiar con valores atípicos: eliminar por error un valor atípico puede significar desechar información importante sobre una nueva tendencia o descubrimiento.
    • Por ejemplo, imagine que estamos diseñando un nuevo fármaco para hacer que los peces de una piscifactoría crezcan más. Usemos nuestro antiguo conjunto de datos ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), con la diferencia de que cada punto ahora representa la masa de un pez (en gramos ) después del tratamiento con otro fármaco experimental desde el nacimiento. En otras palabras, la primera droga le dio a un pez una masa de 71 gramos, la segunda le dio a otro pez una masa de 70 gramos, y así sucesivamente. En esta situación, 300 todavía un gran valor atípico, pero no deberíamos eliminarlo ahora. Porque, si asumimos que el valor atípico no es el resultado de un error, representa un gran éxito en nuestro experimento. El fármaco que produjo un pescado de 300 gramos funcionó mejor que cualquier otro fármaco, así que este es el la mayoría punto de datos importante en nuestro conjunto, en lugar de la menos punto de datos importante.

Consejos

  • Si encuentra valores atípicos, intente explicarlos antes de eliminarlos del conjunto de datos; pueden indicar errores de medición o desviaciones en la distribución.

Artículos de primera necesidad

  • Calculadora