Vsebina
Večkratna regresija se uporablja za pregled razmerja med več neodvisnimi spremenljivkami in odvisno spremenljivko. Medtem ko vam različni regresijski modeli omogočajo analizo relativnih vplivov teh neodvisnih ali napovedovalskih spremenljivk na odvisni spremenljivki ali merilu, lahko ti pogosto zapleteni nabori podatkov privedejo do napačnih zaključkov, če niso pravilno analizirani.
Primeri večkratne regresije
Nepremičninski agent bi lahko uporabil več regresij za analizo vrednosti hiš. Kot neodvisne spremenljivke bi lahko na primer uporabila velikost hiš, njihovo starost, število spalnic, povprečno ceno stanovanja v soseski in bližino šol. Če jih umesti v model z več regresijskimi viri, je lahko uporabila te dejavnike, da bi lahko videla njihov odnos do cen domov kot merilo spremenljivke.
Drug primer uporabe modela večkratne regresije je lahko nekdo iz človeških virov, ki določa plačo na vodstvenih položajih - spremenljivka merila. Spremenljivke napovedovalca so lahko starost posameznih menedžerjev, povprečno število opravljenih ur, število upravljanih ljudi in oddelek proračuna upravljavcev.
Prednosti multiple regresije
Za analizo podatkov z modelom z več regresij obstajata dve glavni prednosti. Prva je sposobnost določiti relativni vpliv ene ali več spremenljivk napovedovalca na vrednost merila. Nepremičninski agent bi lahko ugotovil, da imata velikost domov in število spalnic močno povezavo s ceno stanovanja, medtem ko bližina šol sploh nima korelacije ali celo negativne korelacije, če gre predvsem za upokojitev skupnost.
Druga prednost je zmožnost prepoznavanja odbitkov ali anomalij. Med pregledovanjem podatkov, povezanih s plačami vodstva, je na primer lahko vodja kadrov ugotovil, da je število opravljenih ur, velikost oddelka in njegov proračun močno povezano s plačami, medtem ko delovna doba ni. Lahko pa bi bilo, da so bile vse naštete vrednosti napovedovalca povezane z vsako plačo, ki se pregleduje, razen enega upravnika, ki je bil previsoko plačan v primerjavi z drugimi.
Slabosti večkratne regresije
Kakršna koli pomanjkljivost uporabe modela z več regresijskimi ponavadi sega v podatke, ki se uporabljajo. Dva primera tega sta uporaba nepopolnih podatkov in lažno sklepanje, da je povezava vzročnost.
Recimo pri pregledu cene stanovanj, recimo, da je nepremičninski agent preučil le 10 domov, od katerih so sedem kupili mladi starši. V tem primeru lahko odnos med bližino šol privede do prepričanja, da bi to vplivalo na prodajno ceno vseh domov, ki se prodajajo v skupnosti. To ponazarja pasti nepopolnih podatkov. Če bi uporabila večji vzorec, bi lahko ugotovila, da je od 100 prodanih domov le deset odstotkov vrednosti stanovanja povezano z bližino šole. Če bi starost kupcev uporabljala kot napovedno vrednost, bi lahko ugotovila, da so mlajši kupci pripravljeni plačati več stanovanj v skupnosti kot starejši kupci.
Recimo, da je na primeru plač poslovodstva en zunanji sodelavec, ki je imel manjši proračun, manj staža in manj osebja za upravljanje, vendar je zaslužil več kot kdo drug. Vodja kadrovskih služb bi si lahko ogledal podatke in ugotovil, da je ta posameznik preplačan. Vendar bi bil ta sklep napačen, če ne bi upošteval, da je ta upravitelj upravljal spletno stran podjetja in je imel zelo dolgo željno veščino varnosti omrežja.