Kaj so matematične vrzeli, grozdi in izpuščaji?

Posted on
Avtor: Louise Ward
Datum Ustvarjanja: 11 Februarjem 2021
Datum Posodobitve: 6 Julij. 2024
Anonim
StatQuest: K-means clustering
Video.: StatQuest: K-means clustering

Vsebina

Poslovne, vladne in akademske dejavnosti skoraj vedno zahtevajo zbiranje in analizo podatkov. Eden od načinov za prikaz številčnih podatkov je z grafi, histogrami in grafikoni. Te vizualizacijske tehnike ljudem omogočajo boljši vpogled v težave in zasnujejo rešitve. Vrzeli, grozdi in odmiki so značilnosti nizov podatkov, ki vplivajo na matematično analizo in so zlahka vidni na vizualnih predstavitvah.

Luknje v podatkih

Vrzeli se nanašajo na manjkajoča področja v naboru podatkov. Na primer, če znanstveni eksperiment zbira podatke o temperaturi v območju od 50 stopinj Fahrenheita do 100 stopinj Farenhejta, vendar med 70 in 80 stopinjami, to bi predstavljalo vrzel v naboru podatkov. Začrtana črta tega nabora podatkov bi imela "x" oznake za temperature med 50 in 70 ter spet med 80 in 100, vendar med 70 in 80 ne bi bilo ničesar. Raziskovalci lahko kopajo globlje in raziskujejo, zakaj se nekatere podatkovne točke ne prikažejo v zbranem vzorcu.

Izolirane skupine

Grozdi so izolirane skupine podatkovnih točk. Risbe vrstic, ki so eden od načinov za predstavljanje podatkovnih nizov, so vrstice z oznakami "x" nad določenimi številkami za prikaz njihove pogostnosti pojavljanja v naboru podatkov. Grozd je prikazan kot zbirka teh "x" oznak v majhnem intervalu ali zbirki podatkov. Na primer, če so ocene za izpit za učence 10 razredov 74, 75, 80, 72, 74, 75, 76, 86, 88 in 73, bi bilo največ "x" ocen na črti črte v stolpcu 72- interval 76 do 76. To bi predstavljalo gručo podatkov. Upoštevajte, da je frekvenca za 74 in 75 dve, za vse ostale ocene pa ena.

V skrajnostih

Odpuščeni so ekstremne vrednosti - podatkovne točke, ki so znatno zunaj drugih vrednosti v naboru podatkov. Odsek mora biti bistveno manjši ali večji od večine števil v zbirki podatkov. Opredelitev "ekstremnega" je odvisna od okoliščin in konsenza analitikov, vključenih v raziskavo. Oddajalci so lahko slabe podatkovne točke, znane tudi kot hrup, ali pa vsebujejo dragocene informacije o pojavu, ki se preiskuje, in metodologiji zbiranja podatkov. Na primer, če so ocene za razrede večinoma v razponu od 70 do 80, nekaj ocen pa je v slabih 50. letih, bi ti lahko predstavljali odbitke.

Vse skupaj

Vrzeli, odbitki in grozdi v zbirkah podatkov lahko vplivajo na rezultate matematične analize. Vrzeli in grozdi lahko predstavljajo napake v metodologiji zbiranja podatkov. Če na primer telefonska raziskava pokaže samo določene kode območij, na primer stanovanjske komplekse z nizkimi dohodki ali primestna stanovanjska območja višjega razreda, in ne širokega preseka prebivalstva, obstaja velika verjetnost, da bo prišlo do vrzeli in grozdov v podatkih . Outliers lahko poševno povprečno ali povprečno vrednost nabora podatkov. Na primer, srednja ali povprečna vrednost nabora podatkov, ki ga sestavljajo štiri številke - 50, 55, 65 in 90, je 65. Brez zunanjih 90 pa je povprečna vrednost približno 57.