Kapag nakolekta mo ang data sa iyong system o proseso, ang susunod na hakbang ay upang matukoy kung anong uri ng probabilidad ang pamamahagi ng isa. Ang mga uri ng probabilidad na pamamahagi ay: discrete uniporme, Bernoulli, binomial, negatibong binomial, Poisson, geometric, tuloy-tuloy na uniporme, normal (bell curve), exponential, gamma at beta distributions. Narrowing kahit na ilang mula sa listahan ng mga posibilidad ay gumagawa ng pagtukoy kung saan ay ang pinakamalapit na R squared halaga mas mabilis.
Mga bagay na kakailanganin mo
-
Graphing software
-
Ang ibig sabihin ng pagkalkula ng R kuwadradong halaga (pinakamahusay na fit analysis)
I-plot ang data para sa isang visual na representasyon ng uri ng data.
Isa sa mga unang hakbang sa pagtukoy kung anong pamamahagi ng data ang mayroon - at sa gayon ang uri ng equation na gagamitin upang i-modelo ang data - ay upang mamuno kung ano ang hindi ito maaaring maging. • Kung mayroong anumang mga peak sa hanay ng data, hindi ito maaaring isang discrete uniform distribution. • Kung ang data ay may higit sa isang peak, hindi ito Poisson o binomial. • Kung may isang solong curve, walang pangalawang mga pagtaas, at may mabagal na dalisdis sa bawat panig, maaaring ito ay Poisson o isang pamamahagi ng gamma. Ngunit hindi ito maaaring maging isang discrete uniform distribution. • Kung ang data ay pantay-pantay na ipinamamahagi, at ito ay walang hilig patungo sa isang bahagi, ito ay ligtas upang mamuno ng gamma o Weibull distribution. • Kung ang function ay may kahit na pamamahagi o isang tugatog sa gitna ng mga resulta ng graphed, ito ay hindi isang geometric na pamamahagi o isang exponential pamamahagi. • Kung ang pangyayari ng isang kadahilanan ay nag-iiba sa isang variable ng kapaligiran, marahil ay hindi ito isang pamamahagi ng Poisson.
Matapos mapaliit ang uri ng pamamahagi ng probabilidad, gawin ang isang R squared analysis sa bawat posibleng uri ng probabilidad na pamamahagi. Ang isa na may pinakamataas na R kuwadradong halaga ay malamang na tama.
Tanggalin ang isang outlier point ng data. Pagkatapos ay muling kalkulahin ang R squared. Kung ang parehong uri ng pamamahagi ng probabilidad ay lumalabas bilang pinakamalapit na tugma, pagkatapos ay mayroong mataas na kumpiyansa na ito ang tamang pamamahagi ng probabilidad na gagamitin para sa hanay ng data.
Mga Tip
-
Kung ang data ay nagpapakita ng maramihang mga peak ng isang malawak na scatter, posible na ang dalawang magkahiwalay na mga proseso ay nagaganap o ang produkto na sample ay halo-halong. Gunitain ang data at pagkatapos ay muling pag-aralan.
Babala
Patunayan ang mga equation na nabuo laban sa mga hanay ng data sa ibang pagkakataon upang kumpirmahin na ito ay tumpak pa rin para sa hanay ng data. Posible na ang mga kadahilanan sa kapaligiran at proseso ng pag-agos ay gumawa ng mga kasalukuyang equation at mga modelo na hindi tama.