1
Învățați să recunoașteți un potențial extern. Înainte de a calcula dacă datele observaționale sunt sau nu o depășire, este întotdeauna util să examinăm setul de date și să recunoaștem potențialele valori excepționale. De exemplu, luați în considerare un set de date care reprezintă temperatura a 12 obiecte diferite dintr-o cameră. Dacă 11 obiecte au o temperatură în jur de 21 ° C, dar a douăsprezecea (poate un cuptor) are o temperatură de 150 ° C, o examinare rapidă poate spune că cuptorul este un outlier.
2
Organizați datele observaționale de la cel mai mic la cel mai mare. Continuând cu exemplul de mai sus, luați în considerare următorul set de date care reprezintă temperaturile mai multor obiecte: {22, 21, 24, 21, 21, 20, 21, 23, 22, 150, 22, 20}. Acest set trebuie distribuit astfel: {20, 20, 21, 21, 21, 21, 22, 22, 22, 23, 24, 150}.
3
Calculați valoarea mediană a setului de date. Mediana este datele observaționale aflate deasupra jumătății inferioare a datelor și sub jumătatea superioară. Dacă setul de date conține un număr par de observații, atunci trebuie luați în considerare cei doi termeni din mijloc. În exemplul de mai sus, cei doi termeni ai mediului sunt 21 și 22, deci mediana este ((21 + 22) / 2) sau 21,5.
4
Calculați cartilajul inferior. Acest punct, numit Q1, reprezintă datele observaționale observate sub 25% din observații. În exemplul de mai sus, vor fi luați în considerare doi termeni, de data aceasta 21 și 21. Media celor doi va fi ((21 + 21) / 2), sau 21.
5
Calculați topul quartile. Acest punct, numit Q3, este datele observaționale situate peste 25% din observații. Continuând cu exemplul nostru, media celor două date 22 și 23 duce la Q3, care este de 22,5.
6
Găsiți "barierele interne" ale setului de date. Primul pas este multiplicarea diferenței dintre Q1 și Q3 (numită intervalul interquartilat) cu 1,5. În exemplul de mai sus, intervalul interquartile este (22,5 - 21), adică 1,5. Înmulțirea acestei valori cu 1,5 generează 2,25. Adăugați acest număr la Q3 și scade din Q1 pentru a crea bariere. În acest exemplu, barierele interne superioare și inferioare ar fi 24,75 și 18,75.
- Toate datele observaționale care se află în afara acestui interval sunt considerate valori extreme moderate. În setul de date din acest exemplu, numai temperatura cuptorului (150 ° C) este considerată o depășire moderată.
7
Găsiți "barierele exterioare" ale setului de date. Acest lucru se face în același mod ca barierele interne, cu excepția faptului că intervalul interquartilat este înmulțit cu 3, în loc de 1,5. Prin multiplicarea intervalului interquartilat de mai sus cu 3, avem (1,5 * 3), sau 4,5. Astfel, barierele exterioare superioare și inferioare sunt 27 și 16,5.
- Orice valoare observațională care se află în afara barierelor externe este considerată o depășire extremă. În acest exemplu, temperatura cuptorului, de 150 ° C, este, de asemenea, o depășire extremă.