Jak określić typ rozkładu prawdopodobieństwa dla danych

Spisu treści:

Anonim

Po zebraniu danych dotyczących systemu lub procesu, następnym krokiem jest ustalenie, jaki rodzaj rozkładu prawdopodobieństwa ma. Rodzaje rozkładów prawdopodobieństwa są: dyskretne jednorodne, Bernoulli, dwumianowy, dwumianowy ujemny, Poissona, geometryczne, ciągłe jednolite, normalne (krzywa dzwonkowa), wykładnicze, gamma i beta. Zawężenie nawet kilku z listy możliwości sprawia, że ​​ustalenie, która wartość jest najbliższa Rv, jest o wiele szybsze.

Przedmioty, które będą potrzebne

  • Oprogramowanie do tworzenia wykresów

  • Sposoby obliczania wartości R do kwadratu (najlepsza analiza dopasowania)

Wykreśl dane dla wizualnej reprezentacji typu danych.

Jednym z pierwszych kroków w celu ustalenia, jaką dystrybucję danych ma się - a więc typem równania używanym do modelowania danych - jest wykluczenie tego, czym nie może być. • Jeśli w zbiorze danych występują jakiekolwiek piki, nie może to być dyskretna dystrybucja jednorodna. • Jeśli dane mają więcej niż jeden pik, to nie jest to Poissona ani dwumianowy. • Jeśli ma on pojedynczą krzywą, brak pików wtórnych i ma wolne nachylenie z każdej strony, może to być Poissona lub rozkład gamma. Ale nie może to być dyskretna dystrybucja jednolita. • Jeśli dane są równomiernie rozmieszczone i nie ma skosu w jedną stronę, można bezpiecznie wykluczyć dystrybucję gamma lub Weibulla. • Jeśli funkcja ma równy rozkład lub pik w środku wyników wykreślanych, nie jest to rozkład geometryczny ani rozkład wykładniczy. • Jeśli wystąpienie czynnika zmienia się wraz ze zmienną środowiskową, prawdopodobnie nie jest to rozkład Poissona.

Po zawężeniu typu rozkładu prawdopodobieństwa wykonaj analizę R kwadratów każdego możliwego typu rozkładu prawdopodobieństwa. Ta z najwyższą wartością R do kwadratu jest najprawdopodobniej poprawna.

Wyeliminuj jeden punkt danych odstających. Następnie przelicz ponownie R do kwadratu. Jeśli ten sam rozkład prawdopodobieństwa pojawia się jako najbliższy dopasowanie, to istnieje duże przekonanie, że jest to poprawny rozkład prawdopodobieństwa do użycia dla zestawu danych.

Wskazówki

  • Jeśli dane pokazują wiele pików o szerokim rozproszeniu, możliwe jest, że dwa oddzielne procesy zachodzą lub próbkowany produkt jest mieszany. Odzyskaj dane, a następnie przeprowadź ich ponowną analizę.

Ostrzeżenie

Sprawdź poprawność równań wygenerowanych dla późniejszych zestawów danych, aby potwierdzić, że jest on nadal dokładny dla zbioru danych. Możliwe, że czynniki środowiskowe i dryf procesu spowodowały, że obecne równania i modele są nieprawidłowe.