Jak vypočítat emise

Ve statistikách emisí - to jsou hodnoty, které jsou ostře odlišné od jiných hodnot v sestavené sadě dat. Emise může indikovat anomálie v distribuci dat nebo chyb v měření, takže často jsou emise vyloučeny z datové sady. Vyloučit emise ze sady dat, můžete přijít na neočekávané nebo přesnější závěry. Proto je nutné, aby bylo možné vypočítat a vyhodnotit emise, aby bylo zajištěno řádné pochopení statistických údajů.

Kroky

  1. Obrázek s názvem Vypočítat odlehlé hodnoty Krok 1
jeden. Naučte se rozpoznat potenciální emise. Než eliminujete odchozí hodnoty z datové sady, měly by být stanoveny potenciální emise. Emise jsou hodnoty, které jsou velmi odlišné od většiny hodnot v datové sadě - jinými slovy, emise leží mimo trend většiny hodnot. Je snadné detekovat v tabulkách hodnot nebo (zejména) na harmonogramech. Pokud jsou hodnoty v sadě dat v plánu, pak emise budou ležet daleko od většiny ostatních hodnot. Pokud například většina hodnot leží vpřed, pak emise leží na obou stranách takové přímé.
  • Zvažte například soubor dat reprezentujících teplotu 12 různých objektů v místnosti. Pokud má 11 objektů teplotu přibližně 70 stupňů, ale dvanáctý objekt (případně pec) má teplotu 300 stupňů, pak rychlé sledování hodnot může ukázat, že pec je pravděpodobně emise.
  • Obrázek s názvem Vypočítat odlehlé hodnoty Krok 2
    2. Uspořádejte data vzestupně. Prvním krokem při určování emisí je výpočet mediánu sady dat. Tento úkol je značně zjednodušen, pokud hodnoty v sadě dat jsou umístěny vzestupně (od menších až po více).
  • Pokračování výše uvedeného příkladu, zvažte následující soubor dat, představující teploty několika předmětů: {71, 70, 73, 70, 70, 71, 72, 72, 71, 71, 72, 71, 72, 72, 71. Tato souprava musí být objednána následovně: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Obrázek s názvem Vypočítat odlehlé hodnoty Krok 3
    3. Vypočítat střední datový soubor. Medián DataSet je hodnota uprostřed datové sady. Pokud sada dat obsahuje lichý počet hodnot, střední hodnota je hodnota, ke které a po kterém je stejný počet hodnot umístěn v sadě dat. Pokud se však datová sada obsahuje sudý počet hodnot, musíte najít aritmetický průměr dvou středních hodnot. Všimněte si, že při výpočtu mediánových emisí je obvykle označeno jako Q2, protože leží mezi Q1 a Q3 - dolní a horní čtvrtletí, které budeme definovat později.
  • Nebojte se pracovat s datovými sadami, ve kterých bude rovnoměrný počet hodnot - průměrné aritmetické dva průměrné hodnoty, číslo, které není v sadě dat, je normální. Ale pokud jsou stejné střední hodnoty stejné číslo, pak aritmetický průměr se rovná tomuto číslu, je také v pořadí věcí.
  • Ve výše uvedeném příkladu jsou průměrné 2 hodnoty 70 a 71, takže medián je roven ((70 + 71) / 2) = 70,5.
  • Obrázek s názvem Vypočítat odlehlé hodnoty Krok 4
    4. Vypočítat nižší čtvrtiny. Tato hodnota označená jako Q1, níže, která leží 25% hodnot z datové sady. Jinými slovy, je to polovina hodnot umístěných před mediánem. Pokud medián leží i počet hodnot z datové sady, musíte najít průměrné aritmetické dva průměrné hodnoty pro výpočet Q1 (to je podobné mediánu výpočtu).
  • V našem příkladu se 6 hodnot umístěných po mediánech a 6 hodnotách - k němu. To znamená, že za účelem výpočtu nižšího kvartilu musíme najít aritmetický průměr dvou průměrů šesti hodnot, které leží na mediánu. Průměrné hodnoty jsou zde 70 a 70 let. Tedy Q1 = ((70 + 70) / 2) = 70.
  • Obrázek s názvem Vypočítat odlehlé hodnoty Krok 5
    Pět. Vypočítat horní kvartil. Tato hodnota označená jako Q3, výše, která leží 25% hodnot z sady dat. Proces výpočtu Q3 je podobný procesu výpočtu Q1, ale zde je považován za hodnoty umístěné po mediánu.
  • Ve výše uvedeném příkladu dvě střední hodnoty ze šesti hodnot ležících po mediánu jsou 71 a 72. Q3 = ((71 + 72) / 2) = 71,5.
  • Obrázek s názvem Vypočítat odlehlé hodnoty Krok 6
    6. Vypočítejte rozsah ESCKELTER. Výpočet Q1 a Q3, musíte najít vzdálenost mezi těmito hodnotami. Chcete-li to provést, odpojte Q1 z Q3. Hodnota interoromosti je nesmírně důležitá pro stanovení hranic hodnot, které nejsou emisemi.
  • V našem příkladu Q1 = 70 a Q3 = 71.5. Interkomunický rozsah je 71,5 - 70 = 1,5.
  • Všimněte si, že to platí pro záporné hodnoty Q1 a Q3. Například, pokud Q1 = -70, pak interkomunický rozsah je 71,5 - (-70) = 141,5.
  • Obrázek s názvem Vypočítat odlehlé hodnoty Krok 7
    7. Najít "vnitřní hranice" hodnot v sadě dat. Emise jsou určeny analýzou hodnot - ať už spadají nebo ne v mezích tzv. "Interních hranic" a "vnějších hranic". Hodnota podstupující "vnitřní ohraničení" je klasifikována jako "zanedbatelná emise", zatímco hodnota za "vnějšími hranicemi" je klasifikována jako "významná emise". Chcete-li najít vnitřní hranice, musíte přidat eskarotický rozsah o 1.5- Výsledek musí být přidán do Q3 a odečteno od Q1. Nalezená dvě čísla jsou interní data sady hranic.
  • V našem příkladu je rozsah interkomanite roven (71,5 - 70) = 1,5. Další: 1,5 * 1,5 = 2,25. Toto číslo musí být přidáno do Q3 a odečteno od Q1, aby bylo možné najít vnitřní hranice:
  • 71,5 + 2,25 = 73,75
  • 70 - 2,25 = 67,75
  • Vnitřní hranice jsou tedy rovny 67,75 a 73,75.
  • V našem příkladu pouze teplota pece - 300 stupňů - leží mimo tyto hranice a lze je považovat za menší. Ale nespěchejte se závěry, je nutné určit, zda je tato teplota významnými emisemi. Obrázek s názvem Vypočítat odlehlé hodnoty Krok 7bullet2
  • Obrázek s názvem Vypočítat odlehlé hodnoty Krok 8
    osm. Najít "externí ohraničení" sada dat. To se provádí stejným způsobem jako pro vnitřní hranice, s výjimkou, že interkomunický rozsah je vynásoben 3, a ne o 1,5. Výsledek musí být přidán do Q3 a odečíst od Q1. Dvě nalezené čísla jsou externí data sady hranic.
  • V našem příkladu vynásobte eskarotický rozsah o 3: 1,5 * 3 = 4.5. Vypočítat vnější okraje:
  • 71,5 + 4,5 = 76
  • 70 - 4,5 = 65,5
  • Externí hranice jsou tedy rovny 65,5 a 76.
  • Všechny hodnoty, které jsou mimo vnější hranice, jsou považovány za významné emise. V našem příkladu je teplota pece - 300 stupňů - považována za významné emise.Obrázek s názvem Vypočítat odlehlé hodnoty Krok 8bullet2
  • Obrázek s názvem Vypočítat odlehlé hodnoty Krok 9
    devět. Použijte kvalitativní hodnocení, abyste zjistili, zda eliminují emise z datové sady. Výše popsaná metoda umožňuje určit, zda jsou některé emise (zanedbatelné nebo významné). Nicméně, ne mýlil - hodnota klasifikovaná jako emise je pouze "kandidátem" pro výjimku, to znamená, že nejste povinni jej vyloučit. Důvodem vzniku emisí je hlavním faktorem, který ovlivňuje rozhodnutí vyloučit emise. Zpravidla jsou vyloučeny emise, které vznikají z důvodu chyby (v měření, záznamech a tak dále). Na druhé straně, emise související s chybami, ale s novými informacemi nebo trendem, zpravidla ponechte v sadě dat.
  • Stejně důležité je odhadnout dopad emisí do mediánové datové sady (zda ji zkreslují nebo ne). To je zvláště důležité, když učiníte závěry na základě mediánové sady dat.
  • V našem příkladu je extrémně nepravděpodobné, že pec se zahřeje na teplotu 300 stupňů (pokud nebudou brát v úvahu přírodní anomálie). Proto může být uzavřen (s vysokým podílem důvěry), že taková teplota je chybová chyba měření, kterou chcete vyloučit ze sady dat. Navíc, pokud nevylučujete emise, bude mediánová data stejná (69 + 69 + 70 + 70 + 70 + 72 + 73 + 300) / 12 = 89,67 stupňů, ale pokud vyloučíte emise, medián bude rovna (69 + 69 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 stupňů.
  • Emise jsou obvykle výsledkem lidských chyb, takže emise musí být vyloučeny z datových souborů.
  • Obrázek s názvem Vypočítat odlehlé hodnoty Krok 10
    10. Vypočítejte význam (někdy) emisí vlevo v sadě dat. Některé emise musí být vyloučeny ze sady údajů, protože jejich důvody jsou chyby a technické problémy - jiné emise musí zůstat v sadě dat. Pokud například emise není výsledkem chyby a / nebo dává nové porozumění testovacímu fenoménu, pak musí být ponechána v sadě dat. Vědecké experimenty jsou obzvláště citlivé na emise - odstranění emisí omylem, můžete přeskočit nějaký nový trend nebo otevření.
  • Například vyvíjíme nový lék ke zvýšení velikosti ryb v rybolovu. Budeme používat starý soubor dat ({71, 70, 73, 70, 70, 70, 70, 73, 71, 300, 71, 69, 71, 300, 71, 69}), ale po obdržení bude tentokrát spoustou ryb (v gramech) Experimentální lék. Jinými slovy, první lék vede ke zvýšení hmotnosti ryb do 71 g, druhý lék - až 70 g a tak dále. V této situaci je 300 významnou emisí, ale neměli bychom to vyloučit, pokud předpokládáme, že neexistují žádné chyby měření, pak je taková emise významným úspěchem v experimentu. Lék, který zvýšil hmotnost ryb do 300 gramů, působí výrazně lepší než jiné léky - tímto způsobem, 300 je nejdůležitější hodnotou v sadě dat.
  • Tipy

    • Když se vyskytují emise, zkuste vysvětlit jejich přítomnost dříve, než je vylučujete z datové sady. Mohou znamenat chyby měření nebo anomálie v distribuci.

    Co potřebuješ

    • Kalkulačka
    Podobné publikace