Kako zaznati odstopanja: 10 korakov (s slikami)

Kazalo:

Kako zaznati odstopanja: 10 korakov (s slikami)
Kako zaznati odstopanja: 10 korakov (s slikami)

Video: Kako zaznati odstopanja: 10 korakov (s slikami)

Video: Kako zaznati odstopanja: 10 korakov (s slikami)
Video: ТЕПЕРЬ НЕ ПРОПАДУ 10-ть самоделок ВЫРУЧАТ ГДЕ УГОДНО! 2024, Maj
Anonim

V statistiki je odstopanje ali »odstopanje« referenčna točka, ki zelo odstopa od katere koli druge točke v vzorcu ali nizu datumov (niz datumov se imenuje podatek). Pogosto lahko odstopanje v nizu referenčnih podatkov statistiku opozori na nenormalnost ali eksperimentalno napako pri izvedenih meritvah, zaradi česar lahko statistik odstrani odstopanje od nabora referenčnih vrednosti. Če statistik odstrani odstopanja od nabora podatkov, so lahko zaključki študije zelo različni. Zato je znanje, kako izračunati in analizirati odstopanja, zelo pomembno za zagotovitev pravilnega razumevanja statističnega niza podatkov.

Korak

Izračunajte odstopanja 1. korak
Izračunajte odstopanja 1. korak

Korak 1. Naučite se prepoznati potencialno odstopajoče datume

Preden se odločimo, ali bomo iz nabora referenčnih točk odstranili izstopajoče datume ali ne, moramo seveda ugotoviti, kateri datumi lahko postanejo zunanji. Na splošno je odstopanje referenčna točka, ki zelo odstopa od drugih točk v enem nizu referenc - z drugimi besedami, odstopanje je "zunaj" drugih točk. Običajno je enostavno odkriti odstopanja v podatkovni tabeli ali (zlasti) grafu. Če je en niz referenčnih točk vizualno opisan z grafikonom, se zdi, da je referenčna točka "zelo daleč" od drugih točk. Če na primer večina datumov v nizu referenčnih točk tvori ravno črto, se zunanja točka ne bo razumno razlagala kot tista črta.

Poglejmo niz podatkov, ki predstavljajo temperature 12 različnih predmetov v sobi. Če ima 11 predmetov temperaturo okoli 70 Fahrenheita (21 stopinj Celzija), vendar ima 12. predmet, pečica, temperaturo 300 Fahrenheita (150 stopinj Celzija), je takoj mogoče videti, da je temperatura pečice zelo verjetno odstopanje

Izračunajte odstopanja 2. korak
Izračunajte odstopanja 2. korak

Korak 2. Datume razporedite v niz datumov od najnižjega do najvišjega

Prvi korak pri izračunu odstopanj v nizu referenčnih točk je iskanje mediane (srednje vrednosti) te množice referenc. Ta naloga postane zelo preprosta, če so datumi v nizu datumov razporejeni od najmanjšega do največjega. Torej, preden nadaljujete, razporedite datume v en tak niz podatkov.

Nadaljujmo z zgornjim primerom. To je naš niz datumov, ki predstavljajo temperature več predmetov v sobi: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Če datume razporedimo od najnižjega do najvišjega, postane vrstni red datumov: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Izračunajte odstopanja 3. korak
Izračunajte odstopanja 3. korak

Korak 3. Izračunajte mediano množice referenčnih točk

Mediana niza referenčnih točk je referenčna točka, pri kateri je druga polovica referenčne točke nad to referenčno točko, preostala polovica pa pod njo - v bistvu je ta referenčna točka, ki je v "sredini" množice referenčnih točk. Če je število točk v nizu referenčnih točk liho, jih je zelo enostavno najti - mediana je referenčna točka, ki ima enako in nad njo pod in pod njo. Če pa je število točk v nizu datumov enakomerno, potem, ker se noben podatek ne prilega sredini, se povprečja dveh datumov na sredini, da se najde mediana. Treba je opozoriti, da se pri izračunu odstopanj mediani običajno dodeli spremenljivka Q2-ni, ker je Q2 med Q1 in Q3, spodnjim in zgornjim kvartilom, o čemer bomo razpravljali kasneje.

  • Ne zamenjujte z naborom referenčnih točk, kjer je število točk enakomerno-povprečje dveh srednjih datumov pogosto vrne številko, ki ni v samem nizu referenc-to je v redu. Če pa sta 2 srednji točki enaki, bo seveda tudi povprečje enako število, kar je tudi v redu.
  • V zgornjem primeru imamo 12 datumov. Dva srednja datuma sta 6. in 7. datum 70 in 71. Tako je mediana našega niza datumov povprečje teh dveh števil: ((70 + 71) / 2), = 70.5.
Izračunajte odstopanja 4. korak
Izračunajte odstopanja 4. korak

Korak 4. Izračunajte spodnji kvartil

Ta vrednost, ki jo podamo spremenljivki Q1, je referenčna točka, ki predstavlja 25 odstotkov (ali četrtino) datumov. Z drugimi besedami, referenca je tista, ki polovičuje datume, ki so pod mediano. Če je število točk pod mediano enako, morate znova povprečiti 2 datuma na sredini, da poiščete Q1, tako kot bi našli srednjo vrednost.

V našem primeru obstaja 6 točk, ki ležijo nad mediano, in 6 datumov, ki ležijo pod srednjo vrednostjo. To pomeni, da bomo za iskanje spodnjega kvartila morali povprečiti 2 datuma na sredini 6 točk pod mediano. 3. in 4. točka 6 točk pod srednjo vrednostjo sta 70. Torej je povprečje ((70 + 70) / 2), = 70. 70 postane naše Q1.

Izračunajte odstopanja 5. korak
Izračunajte odstopanja 5. korak

Korak 5. Izračunajte zgornji kvartil

Ta vrednost, ki jo podamo spremenljivki Q3, je referenčna točka, na kateri je 25 odstotkov datumov v nizu referenčnih točk. Iskanje Q3 je skoraj enako iskanju Q1, le da v tem primeru gledamo na datume nad srednjo vrednostjo, ne pod srednjo vrednostjo.

Nadaljujemo z zgornjim primerom, 2 datuma sredi 6 točk nad mediano sta 71 in 72. Povprečje teh dveh datumov je ((71 + 72)/2), = 71, 5. 71, 5 je naše Q3.

Izračunajte odstopanja 6. korak
Izračunajte odstopanja 6. korak

Korak 6. Poiščite medkvartilno razdaljo

Zdaj, ko smo našli Q1 in Q3, moramo izračunati razdaljo med tema dvema spremenljivkama. Razdalja od Q1 do Q3 je ugotovljena z odštevanjem Q1 od Q3. Vrednosti, ki jih dobite za medkvartilne razdalje, so zelo pomembne za določanje meja ne-zunanjih datumov v vašem nizu referenc.

  • V našem primeru sta naši vrednosti Q1 in Q3 70 in 71, 5. Če želimo najti medkvartilno razdaljo, odštejemo Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Treba je opozoriti, da to velja tudi, če so Q1, Q3 ali oboje negativna števila. Na primer, če bi bila naša vrednost Q1 -70, bi bila naša pravilna medkvartilna razdalja 71,5 -(-70) = 141, 5.
Izračun odstopanj 7. korak
Izračun odstopanj 7. korak

Korak 7. Poiščite "notranjo ograjo" v naboru datumov

Odstopanje ugotovimo s preverjanjem, ali referenčna točka spada v meje števila, imenovane "notranja ograja" in "zunanja ograja". Referenca, ki pade izven notranje ograje niza podatkov, se imenuje "manjša odstopanja", medtem ko se referenca, ki pade izven zunanje ograje, imenuje "večja odstopanje". Če želite poiskati notranjo ograjo v svojem nizu referenc, najprej pomnožite medkvartilno razdaljo z 1, 5. Nato rezultat dodajte s Q3 in ga odštejte tudi od Q1. Dve vrednosti, ki jih dobite, sta notranji meji vašega niza podatkov.

  • V našem primeru je medkvartilna razdalja (71,5 - 70) ali 1,5. Pomnožite 1,5 s 1,5, kar ima za posledico 2,25. To število dodamo v Q3 in za to število odštejemo Q1, da najdemo meje notranje ograje, kot sledi:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Torej so meje naše notranje ograje 67, 75 in 73, 75.
  • V našem nizu meril je samo temperatura pečice, 300 Fahrenheita, zunaj teh meja, zato je ta točka manjša odstopanje. Vendar še vedno nismo izračunali, ali je ta temperatura večja odstopanje, zato ne sklepajte prehitro, dokler ne opravimo izračunov.

    Izračunajte odstopanja Korak 7Bullet2
    Izračunajte odstopanja Korak 7Bullet2
Izračunajte odstopanja 8. korak
Izračunajte odstopanja 8. korak

Korak 8. Poiščite "zunanjo ograjo" v nizu referenčnih vrednosti

To se naredi na enak način kot pri iskanju notranje ograje, le da se interkvartilna razdalja pomnoži s 3 namesto s 1,5. Rezultat se nato doda Q3 in odšteje od Q1, da se najde zgornja in spodnja meja zunanje ograje.

  • V našem primeru množenje medkvartilne razdalje s 3 daje (1, 5 x 3) ali 4, 5. Meje zunanje ograje najdemo na enak način kot prej:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Meje zunanje ograje so 65,5 in 76.
  • Datumi, ki ležijo zunaj meje zunanje ograje, se imenujejo velike odstopanja. V tem primeru je temperatura pečice, 300 Fahrenheita, očitno zunaj zunanje ograje, zato je ta datum "vsekakor" pomemben odmik.

    Izračunajte odstopanja Korak 8Bullet2
    Izračunajte odstopanja Korak 8Bullet2
Izračunajte odstopanja 9. korak
Izračunajte odstopanja 9. korak

Korak 9. Uporabite kvalitativno presojo, da ugotovite, ali morate „zavrniti“zunanjo točko ali ne

Z zgoraj opisano metodo je mogoče ugotoviti, ali je referenca manjša referenca, glavna točka ali sploh ne odstopa. Vendar ne bo pomote - iskanje referenčne točke kot odstopanja označuje le to referenčno točko kot "kandidata", ki ga je treba odstraniti iz niza referenčnih točk, ne pa kot referenčno točko, ki jo je treba "zavreči". "Razlog", zaradi katerega odstopajoča referenčna točka odstopa od drugih referenčnih točk v nizu referenčnih točk, je zelo pomemben pri odločanju, ali jo zavreči ali ne. Na splošno se lahko odstopanje, ki je na primer posledica napake pri merjenju, beleženju ali poskusnem načrtovanju, zavrže. Po drugi strani pa se odstopanja, ki niso posledica napake in ki nakazujejo nove informacije ali trende, ki niso bili predhodno napovedani, običajno "ne" zavržejo.

  • Drugo merilo, ki ga je treba upoštevati, je, ali ima odstopanje velik vpliv na povprečje množice referenčnih točk, to je, ali ga odstopanje zmede ali naredi napačnega. To je zelo pomembno upoštevati, če nameravate sklepati iz povprečja vašega nabora podatkov.
  • Preučimo naš primer. V tem primeru, ker se zdi "zelo" neverjetno, da je pečica dosegla 300 Fahrenheita zaradi nepredvidljivih naravnih sil, lahko skoraj zagotovo sklepamo, da je bila pečica po nesreči vklopljena, kar je povzročilo nenormalnost visoke temperature pri datumu. Če ne odstranimo odstopanj, je naša sredinska vrednost nastavljena (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheita (32 stopinj Celzija)), medtem ko je povprečje, če odstranimo odstopanja (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheita (21 stopinj Celzija).

    Ker so te izstopne vrednosti nastale zaradi človeške napake in ker bi bilo napačno reči, da povprečna sobna temperatura doseže skoraj 90 Fahrenheitovih (32 stopinj Celzija), se raje odločimo, da svoje meje "zavržemo"

Izračunajte odstopanja 10. korak
Izračunajte odstopanja 10. korak

Korak 10. Zavedajte se pomena (včasih) ohranjanja odstopanj

Čeprav bi bilo treba nekatere odstopanja odstraniti iz nabora referenčnih vrednosti, ker povzročajo napake in/ali so rezultati netočni ali napačni, je treba nekatere odstopanja ohraniti. Če se na primer zdi, da je odstopanje naravno pridobljeno (torej ni posledica napake) in/ali ponuja nov pogled na obravnavani pojav, se odstopanje ne bi smelo odstraniti iz niza referenčnih vrednosti. Znanstvene raziskave so običajno zelo občutljiva situacija, ko gre za odstopanja - nepravilno odstranjevanje odstopanj lahko pomeni zavrženje informacij, ki nakazujejo nov trend ali odkritje.

Recimo, da načrtujemo novo zdravilo za povečanje velikosti rib v ribniku. Uporabili bomo naš stari niz datumov ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), le da bo tokrat vsak datum predstavljal težo ribe (v gramih) po dajanju drugega poskusnega zdravila od rojstva. Z drugimi besedami, prvo zdravilo povzroči, da ena riba tehta 71 gramov, drugo zdravilo povzroči, da druga riba tehta 70 gramov itd. V tem primeru je 300 "še vedno" velik odstopanje, vendar tega podatka ne smemo zavreči, ker ob predpostavki, da je bil pridobljen brez napak, predstavlja uspeh v študiji. Zdravilo, zaradi katerega lahko ribe tehtajo 300 gramov, deluje bolje kot vsa druga zdravila, zato je ta datum pravzaprav "najpomembnejši" v našem naboru podatkov, ne pa "najmanj pomemben"

Priporočena: