Jak vypočítat emise
Ve statistikách emisí - to jsou hodnoty, které jsou ostře odlišné od jiných hodnot v sestavené sadě dat. Emise může indikovat anomálie v distribuci dat nebo chyb v měření, takže často jsou emise vyloučeny z datové sady. Vyloučit emise ze sady dat, můžete přijít na neočekávané nebo přesnější závěry. Proto je nutné, aby bylo možné vypočítat a vyhodnotit emise, aby bylo zajištěno řádné pochopení statistických údajů.
Kroky
jeden. Naučte se rozpoznat potenciální emise. Než eliminujete odchozí hodnoty z datové sady, měly by být stanoveny potenciální emise. Emise jsou hodnoty, které jsou velmi odlišné od většiny hodnot v datové sadě - jinými slovy, emise leží mimo trend většiny hodnot. Je snadné detekovat v tabulkách hodnot nebo (zejména) na harmonogramech. Pokud jsou hodnoty v sadě dat v plánu, pak emise budou ležet daleko od většiny ostatních hodnot. Pokud například většina hodnot leží vpřed, pak emise leží na obou stranách takové přímé.
- Zvažte například soubor dat reprezentujících teplotu 12 různých objektů v místnosti. Pokud má 11 objektů teplotu přibližně 70 stupňů, ale dvanáctý objekt (případně pec) má teplotu 300 stupňů, pak rychlé sledování hodnot může ukázat, že pec je pravděpodobně emise.

2. Uspořádejte data vzestupně. Prvním krokem při určování emisí je výpočet mediánu sady dat. Tento úkol je značně zjednodušen, pokud hodnoty v sadě dat jsou umístěny vzestupně (od menších až po více).

3. Vypočítat střední datový soubor. Medián DataSet je hodnota uprostřed datové sady. Pokud sada dat obsahuje lichý počet hodnot, střední hodnota je hodnota, ke které a po kterém je stejný počet hodnot umístěn v sadě dat. Pokud se však datová sada obsahuje sudý počet hodnot, musíte najít aritmetický průměr dvou středních hodnot. Všimněte si, že při výpočtu mediánových emisí je obvykle označeno jako Q2, protože leží mezi Q1 a Q3 - dolní a horní čtvrtletí, které budeme definovat později.

4. Vypočítat nižší čtvrtiny. Tato hodnota označená jako Q1, níže, která leží 25% hodnot z datové sady. Jinými slovy, je to polovina hodnot umístěných před mediánem. Pokud medián leží i počet hodnot z datové sady, musíte najít průměrné aritmetické dva průměrné hodnoty pro výpočet Q1 (to je podobné mediánu výpočtu).

Pět. Vypočítat horní kvartil. Tato hodnota označená jako Q3, výše, která leží 25% hodnot z sady dat. Proces výpočtu Q3 je podobný procesu výpočtu Q1, ale zde je považován za hodnoty umístěné po mediánu.

6. Vypočítejte rozsah ESCKELTER. Výpočet Q1 a Q3, musíte najít vzdálenost mezi těmito hodnotami. Chcete-li to provést, odpojte Q1 z Q3. Hodnota interoromosti je nesmírně důležitá pro stanovení hranic hodnot, které nejsou emisemi.

7. Najít "vnitřní hranice" hodnot v sadě dat. Emise jsou určeny analýzou hodnot - ať už spadají nebo ne v mezích tzv. "Interních hranic" a "vnějších hranic". Hodnota podstupující "vnitřní ohraničení" je klasifikována jako "zanedbatelná emise", zatímco hodnota za "vnějšími hranicemi" je klasifikována jako "významná emise". Chcete-li najít vnitřní hranice, musíte přidat eskarotický rozsah o 1.5- Výsledek musí být přidán do Q3 a odečteno od Q1. Nalezená dvě čísla jsou interní data sady hranic.


osm. Najít "externí ohraničení" sada dat. To se provádí stejným způsobem jako pro vnitřní hranice, s výjimkou, že interkomunický rozsah je vynásoben 3, a ne o 1,5. Výsledek musí být přidán do Q3 a odečíst od Q1. Dvě nalezené čísla jsou externí data sady hranic.


devět. Použijte kvalitativní hodnocení, abyste zjistili, zda eliminují emise z datové sady. Výše popsaná metoda umožňuje určit, zda jsou některé emise (zanedbatelné nebo významné). Nicméně, ne mýlil - hodnota klasifikovaná jako emise je pouze "kandidátem" pro výjimku, to znamená, že nejste povinni jej vyloučit. Důvodem vzniku emisí je hlavním faktorem, který ovlivňuje rozhodnutí vyloučit emise. Zpravidla jsou vyloučeny emise, které vznikají z důvodu chyby (v měření, záznamech a tak dále). Na druhé straně, emise související s chybami, ale s novými informacemi nebo trendem, zpravidla ponechte v sadě dat.

10. Vypočítejte význam (někdy) emisí vlevo v sadě dat. Některé emise musí být vyloučeny ze sady údajů, protože jejich důvody jsou chyby a technické problémy - jiné emise musí zůstat v sadě dat. Pokud například emise není výsledkem chyby a / nebo dává nové porozumění testovacímu fenoménu, pak musí být ponechána v sadě dat. Vědecké experimenty jsou obzvláště citlivé na emise - odstranění emisí omylem, můžete přeskočit nějaký nový trend nebo otevření.
Tipy
- Když se vyskytují emise, zkuste vysvětlit jejich přítomnost dříve, než je vylučujete z datové sady. Mohou znamenat chyby měření nebo anomálie v distribuci.
Co potřebuješ
- Kalkulačka