

Continuons à travailler avec l`exemple ci-dessus. Voici notre ensemble de données montrant les températures en degrés Fahrenheit de divers objets dans une pièce : {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si nous trions les valeurs de l`ensemble de la plus faible à la plus élevée, cela devient notre nouvel ensemble : {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}. 
Ne soyez pas confus par les ensembles de données avec un nombre pair de points - la moyenne des deux points médians est souvent un nombre qui n`est pas dans l`ensemble de données lui-même - ce n`est pas grave. Cependant, si les deux points médians sont les mêmes, la moyenne sera bien entendu également ce nombre - cela aussi est D`accord. Dans notre exemple, nous avons 12 points. Les deux termes du milieu sont les points 6 et 7 - 70 et 71. respectivement. La médiane de notre ensemble de données est donc la moyenne de ces deux points : ((70 + 71) / 2)=70,5. 
Dans notre exemple, six points sont au-dessus de la médiane et six en dessous. Donc, pour trouver le premier quartile, nous devons prendre la moyenne des deux points du milieu dans les six points du bas. Les points 3 et 4 des six derniers sont tous les deux à 70, donc leur moyenne est ((70 + 70) / 2)=70. Donc notre valeur pour Q1 est 70. 
En continuant avec l`exemple ci-dessus, nous voyons que les deux points médians des six points au-dessus de la médiane sont 71 et 72. La moyenne de ces deux points est ((71 + 72) / 2)=71,5. Notre valeur pour Q3 est donc de 71,5. 
Dans notre exemple, les valeurs pour Q1 et Q3 sont respectivement 70 et 71,5. Pour trouver l`intervalle interquartile, nous calculons Q3 - Q1 : 71,5 - 70=1,5. Cela fonctionne même si Q1, Q3 ou les deux nombres sont négatifs. Par exemple, si notre valeur pour Q1 était de -70, l`intervalle interquartile serait de 71,5 - (-70) = 141,5, ce qui est correct. 
Dans notre exemple, l`intervalle interquartile est (71,5 - 70), soit 1,5. Multipliez cela par 1,5 et vous obtenez 2,25. Nous ajoutons ce nombre à Q3 et le soustrayons de Q1, pour trouver les limites internes comme suit : 71,5 + 2,25 = 73,75 70 - 2,25 = 67,75 Les frontières intérieures sont donc 67,75 et 73,75. Dans notre ensemble de données, seule la température du four - 300 degrés Fahrenheit - est en dehors de cette plage. Cela peut donc être une valeur aberrante légère. Cependant, nous n`avons pas encore déterminé si cette température est une valeur aberrante extrême, alors ne sautons pas aux conclusions pour l`instant.

Dans notre exemple, on multiplie l`intervalle interquartile par 3, et on arrive à (1,5 * 3) ou 4,5. Nous pouvons maintenant trouver les limites extérieures de la même manière que les limites intérieures : 71,5 + 4,5 = 76 70 - 4,5 = 65,5 Les limites extérieures sont donc 65,5 et 76. Les points de données situés à l`extérieur des frontières extérieures sont considérés comme des valeurs aberrantes extrêmes. Dans notre exemple, la température du four, 300 degrés Fahrenheit, est bien en dehors des limites extérieures. La température du four est donc sans aucun doute une valeur aberrante extrême.

Un autre critère à considérer est de savoir si les valeurs aberrantes affectent la moyenne d`un ensemble de données d`une manière faussée ou trompeuse. Ceci est particulièrement important si vous avez l`intention de tirer des conclusions de la moyenne de votre ensemble de données. Revoyons notre exemple. Puisqu`il très Bien qu`il soit peu probable que le four ait atteint une température de 300 °F en raison d`une force imprévue de la nature, dans notre exemple, nous pouvons conclure avec une certitude de presque 100 % que le four a été laissé allumé accidentellement, ce qui a entraîné une lecture de température anormalement élevée. De plus, si nous ne supprimons pas la valeur aberrante, notre ensemble de données est en moyenne de (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12=89,67 °F, tandis que la moyenne sans pour autant la valeur aberrante sort à (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11=70,55 °F. Étant donné que la valeur aberrante a été causée par une erreur humaine et qu`il est incorrect de dire que la température ambiante moyenne était proche de 32 °C, nous devons choisir de choisir notre valeur aberrante supprimer. 
Par exemple, imaginez que nous concevons un nouveau médicament pour faire grossir les poissons dans une ferme piscicole. Utilisons notre ancien jeu de données ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), sauf que chaque point représente maintenant la masse d`un poisson (en grammes) après traitement avec un autre médicament expérimental dès la naissance. En d`autres termes, le premier médicament a donné à un poisson une masse de 71 grammes, le second a donné à un autre poisson une masse de 70 grammes, et ainsi de suite. Dans cette situation 300. est toujours une valeur aberrante énorme, mais nous ne devrions pas l`enlever maintenant. Parce que, si nous supposons que la valeur aberrante n`est pas le résultat d`une erreur, cela représente un grand succès dans notre expérience. Le médicament qui a produit un poisson de 300 grammes a fonctionné mieux que tout autre médicament, alors c`est tout plus point de données important dans notre ensemble, plutôt que le moins point de données important.
Calculer les valeurs aberrantes
Teneur
Une valeur aberrante ou valeur aberrante dans les statistiques, un point de données qui diffère considérablement des autres points de données dans un échantillon. Souvent, les valeurs aberrantes signalent aux statisticiens des anomalies ou des erreurs dans les mesures, après quoi ils peuvent supprimer la valeur aberrante de l`ensemble de données. S`ils choisissent réellement de supprimer les valeurs aberrantes de l`ensemble de données, cela pourrait apporter des changements importants aux conclusions tirées de l`étude. C`est pourquoi il est important de calculer et de déterminer les valeurs aberrantes si vous souhaitez interpréter correctement les données statistiques.
Pas

1. Apprenez à repérer les valeurs aberrantes potentielles. Avant de pouvoir décider de supprimer les valeurs anormales d`un ensemble de données particulier, nous devons bien sûr reconnaître les valeurs aberrantes possibles dans l`ensemble de données. En général, les valeurs aberrantes sont les points de données qui s`écartent de manière significative de la tendance que les autres valeurs sous la forme définie - en d`autres termes, elles tirer des autres valeurs. Il est généralement facile de le reconnaître dans les tableaux et (surtout) dans les graphiques. Si l`ensemble de données est représenté graphiquement, les valeurs aberrantes seront « loin » des autres valeurs. Par exemple, si la plupart des points d`un ensemble de données forment une ligne droite, les valeurs aberrantes ne seront pas conformes à cette ligne.
- Regardons un ensemble de données montrant les températures de 12 objets différents dans une pièce. Si la température de 11 des objets oscille autour de 21°C de quelques degrés au maximum, alors qu`un objet, un four, a une température de 150°C, vous pouvez voir d`un coup d`œil que le four est probablement une valeur aberrante.

2. Trier tous les points de données de bas en haut. La première étape du calcul des valeurs aberrantes consiste à trouver la valeur médiane (ou la valeur médiane) de l`ensemble de données. Cette tâche devient beaucoup plus facile si les valeurs de l`ensemble sont dans l`ordre du plus bas au plus élevé. Alors avant de continuer, triez les valeurs de votre jeu de données comme ceci.

3. Calculer la médiane de l`ensemble de données. La médiane d`un ensemble de données est le point de données où la moitié des données est au-dessus et la moitié des données est en dessous - c`est fondamentalement le "centre" de l`ensemble de données. Si l`ensemble de données contient un nombre impair de points, la médiane est facile à trouver - la médiane est le point avec autant de points au-dessus qu`en dessous. S`il y a un nombre pair de points, puisqu`il n`y a pas un milieu, il faut faire la moyenne des deux milieux pour trouver la médiane. Lors du calcul des valeurs aberrantes, la médiane est généralement désignée par la variable Q2 - car elle se situe entre Q1 et Q3, les premier et troisième quartiles. Nous déterminerons ces variables plus tard.

4. Calculer le premier quartile. Ce point, que nous appelons la variable Q1, est le point de données en dessous duquel 25 pour cent (ou un quart) des observations se situent. En d`autres termes, il s`agit du point médian de tous les points de votre ensemble de données sous la médiane. S`il y a un nombre pair de valeurs en dessous de la médiane, vous devez à nouveau faire la moyenne des deux valeurs médianes pour trouver Q1, comme vous l`avez peut-être déjà fait pour déterminer vous-même la médiane.

5. Calculer le troisième quartile. Ce point, que nous désignons par la variable Q3, est le point de données au-dessus duquel 25 pour cent des données se trouvent. Trouver Q3 est pratiquement le même que trouver Q1, sauf dans ce cas, nous regardons les points au dessus la médiane.

6. Trouver l`intervalle interquartile. Maintenant que nous avons déterminé Q1 et Q3, nous devons calculer la distance entre ces deux variables. La distance entre Q1 et Q3 peut être trouvée en soustrayant Q1 de Q3. La valeur que vous obtenez pour l`intervalle interquartile est cruciale pour déterminer les limites des points non déviants dans votre ensemble de données.

sept. Trouver les « limites intérieures » de l`ensemble de données. Vous pouvez identifier les valeurs aberrantes en déterminant si elles se situent dans un certain nombre de limites numériques ; les soi-disant « valeurs limites internes » et « valeurs limites externes ». Un point qui sort des limites internes de l`ensemble de données est classé comme un valeur aberrante légère, et un point qui se situe en dehors des limites extérieures est classé comme un valeur aberrante extrême. Pour trouver les limites internes de votre ensemble de données, commencez par multiplier l`intervalle interquartile par 1,5. Ajoutez le résultat à Q3 et soustrayez-le de Q1. Les deux résultats sont les limites internes de votre ensemble de données.


8. Trouver les « limites extérieures » de l`ensemble de données. Vous faites cela de la même manière qu`avec les bornes internes, à la seule différence que vous multipliez l`intervalle interquartile par 3 au lieu de 1,5. Vous ajoutez ensuite le résultat à Q3 et soustrayez de Q1 pour trouver les limites extérieures.


9. Utilisez une évaluation qualitative pour déterminer si vous devez « écarter » les valeurs aberrantes. Avec la méthode ci-dessus, vous pouvez déterminer si certains points sont des valeurs aberrantes légères, des valeurs aberrantes extrêmes ou aucune valeur aberrante du tout. Mais ne vous y trompez pas - reconnaître un point comme aberrant n`en fait qu`un candidat à supprimer de l`ensemble de données, et pas immédiatement un point supprimé doit devenir. le est monté pourquoi une valeur aberrante est différente du reste des points de l`ensemble est cruciale pour déterminer si la valeur aberrante doit être supprimée. En général, les valeurs aberrantes causées par une erreur - une erreur dans les mesures, dans les enregistrements ou dans la conception expérimentale, par exemple - sont supprimées. En revanche, les valeurs aberrantes qui ne sont pas causées par des erreurs et qui révèlent de nouvelles informations ou tendances imprévues sont généralement ne pas supprimé.

dix. Comprendre l`importance de (parfois) retenir les valeurs aberrantes. Alors que certaines valeurs aberrantes doivent être supprimées d`un ensemble de données parce qu`elles sont le résultat d`erreurs ou parce qu`elles faussent les résultats de manière trompeuse, d`autres valeurs aberrantes doivent être préservées. Par exemple, si une valeur aberrante a été obtenue correctement (et n`est donc pas le résultat d`une erreur) et/ou si la valeur aberrante fournit un nouvel aperçu du phénomène à mesurer, elle ne doit pas être supprimée immédiatement. Les expériences scientifiques sont des situations particulièrement sensibles lorsqu`il s`agit de traiter les valeurs aberrantes - la suppression erronée d`une valeur aberrante peut signifier la suppression d`informations importantes sur une nouvelle tendance ou découverte.
Des astuces
- Si vous trouvez des valeurs aberrantes, essayez de les expliquer avant de les supprimer de l`ensemble de données ; ils peuvent indiquer des erreurs de mesure ou des écarts dans la distribution.
Nécessités
- Calculatrice
Articles sur le sujet "Calculer les valeurs aberrantes"
Оцените, пожалуйста статью
Populaire