Jak określić typ rozkładu prawdopodobieństwa dla danych

Po zebraniu danych dotyczących systemu lub procesu, następnym krokiem jest ustalenie, jaki rodzaj rozkładu prawdopodobieństwa ma. Rodzaje rozkładów prawdopodobieństwa są: dyskretne jednorodne, Bernoulli, dwumianowy, dwumianowy ujemny, Poissona, geometryczne, ciągłe jednolite, normalne (krzywa dzwonkowa), wykładnicze, gamma i beta. Zawężenie nawet kilku z listy możliwości sprawia, że ustalenie, która wartość jest najbliższa Rv, jest o wiele szybsze.

Przedmioty, które będą potrzebne

Oprogramowanie do tworzenia wykresów
Sposoby obliczania wartości R do kwadratu (najlepsza analiza dopasowania)

Wykreśl dane dla wizualnej reprezentacji typu danych.

Jednym z pierwszych kroków w celu ustalenia, jaką dystrybucję danych ma się - a więc typem równania używanym do modelowania danych - jest wykluczenie tego, czym nie może być. • Jeśli w zbiorze danych występują jakiekolwiek piki, nie może to być dyskretna dystrybucja jednorodna. • Jeśli dane mają więcej niż jeden pik, to nie jest to Poissona ani dwumianowy. • Jeśli ma on pojedynczą krzywą, brak pików wtórnych i ma wolne nachylenie z każdej strony, może to być Poissona lub rozkład gamma. Ale nie może to być dyskretna dystrybucja jednolita. • Jeśli dane są równomiernie rozmieszczone i nie ma skosu w jedną stronę, można bezpiecznie wykluczyć dystrybucję gamma lub Weibulla. • Jeśli funkcja ma równy rozkład lub pik w środku wyników wykreślanych, nie jest to rozkład geometryczny ani rozkład wykładniczy. • Jeśli wystąpienie czynnika zmienia się wraz ze zmienną środowiskową, prawdopodobnie nie jest to rozkład Poissona.

Po zawężeniu typu rozkładu prawdopodobieństwa wykonaj analizę R kwadratów każdego możliwego typu rozkładu prawdopodobieństwa. Ta z najwyższą wartością R do kwadratu jest najprawdopodobniej poprawna.

Wyeliminuj jeden punkt danych odstających. Następnie przelicz ponownie R do kwadratu. Jeśli ten sam rozkład prawdopodobieństwa pojawia się jako najbliższy dopasowanie, to istnieje duże przekonanie, że jest to poprawny rozkład prawdopodobieństwa do użycia dla zestawu danych.

Wskazówki

Jeśli dane pokazują wiele pików o szerokim rozproszeniu, możliwe jest, że dwa oddzielne procesy zachodzą lub próbkowany produkt jest mieszany. Odzyskaj dane, a następnie przeprowadź ich ponowną analizę.

Ostrzeżenie

Sprawdź poprawność równań wygenerowanych dla późniejszych zestawów danych, aby potwierdzić, że jest on nadal dokładny dla zbioru danych. Możliwe, że czynniki środowiskowe i dryf procesu spowodowały, że obecne równania i modele są nieprawidłowe.