Wykres kwantyl-kwantyl

Wykres kwantyl-kwantyl (wykres Q-Q[1]) – graficzna metoda porównywania dwóch rozkładów prawdopodobieństwa poprzez wykreślenie ich kwantyli względem siebie[2]. Punkt (x, y) na wykresie odpowiada jednemu z kwantyli drugiego rozkładu (współrzędna y) wykreślonego względem tego samego kwantyla pierwszego rozkładu (współrzędna x).

Wykres kwantyl-kwantyl ilustrujący niezgodność ze standardowym rozkładem normalnym (oś pozioma) losowo wygenerowanych danych pochodzących z rozkładu wykładniczego o średniej 1 (X ~ Exp(1), oś pionowa). Punkty na wykresie są ułożone wyraźnie nieliniowo, co wskazuje na to, że dane nie mają standardowego rozkładu normalnego. Przesunięcie między prostą a punktami pokazuje, że średnia danych nie wynosi 0. Medianę punktów można określić na bliską 0,7.
Wykres kwantyl-kwantyl porównujący próbę losowo wygenerowaną ze standardowego rozkładu normalnego na osi pionowej ze standardową populacją normalną na osi poziomej. Liniowość punktów sugeruje, że dane mają rozkład normalny.
Wykres kwantyl-kwantyl porównujący próbkę danych z rozkładem Weibulla. Na czerwono pokazano decyle rozkładów. W prawej górnej części wykresu widoczne są trzy wartości odstające. Poza tymi wartościami dane dobrze pasują do modelu Weibulla(1,2).
Wykres kwantyl-kwantyl porównujący rozkłady standaryzowanych dziennych temperatur maksymalnych na 25 stacjach w amerykańskim stanie Ohio w marcu i lipcu. Zakrzywiony wzór sugeruje, że centralne kwantyle są bliżej siebie rozmieszczone w lipcu niż w marcu, a rozkład lipcowy jest przesunięty w lewo w stosunku do rozkładu marcowego. Dane obejmują lata 1893–2001.

Jeżeli dwa porównywane rozkłady są podobne, punkty na wykresie Q-Q będą w leżeć w pobliżu linii y = x. Jeśli między rozkładami istnieje doskonała lub przybliżona zależność liniowa, punkty na wykresie Q-Q będą w przybliżeniu leżeć na linii prostej, ale niekoniecznie będzie to linia y = x.

Wykres kwantyl-kwantyl służy do porównywania kształtów rozkładów, ilustrując, w jakim stopniu właściwości, takie jak położenie, skala i skośność w porównywanych rozkładach są zgodne. Wykresy Q-Q można wykorzystać do porównania danych empirycznych (próbek) i rozkładów teoretycznych. Użycie wykresów Q-Q do porównania dwóch próbek danych można postrzegać jako nieparametryczne podejście do porównywania ich rozkładów. Wykres Q-Q jest generalnie wygodniejszy pod względem diagnostycznym w porównaniu z histogramami przedstawiającymi próby, nie jest jednak tak powszechnie znany.

Wykresów kwantyl-kwantyl używa się często do porównywania danych empirycznych z modelem teoretycznym[3][4], ale mogą służyć również do porównywania ze sobą dwóch rozkładów teoretycznych[5].

Definicja i konstrukcja

Wykres Q-Q dla dat pierwszego otwarcia i ostatecznego zamknięcia Washington State Route 20 (drogi stanowej 20 w stanie Washington) w porównaniu z rozkładem normalnym[6]. Wartości odstające są widoczne w prawym górnym rogu.

Głównym krokiem w konstruowaniu wykresu kwantyl-kwantyl jest obliczenie lub oszacowanie kwantyli, które mają zostać wykreślone. Jeśli jedna lub obie osie na wykresie Q-Q opierają się na rozkładzie teoretycznym z ciągłą dystrybuantą, wszystkie kwantyle są jednoznacznie zdefiniowane i można je uzyskać za pomocą odwrócenia dystrybuanty. Jeżeli teoretyczny rozkład prawdopodobieństwa z nieciągłą dystrybuantą jest jednym z dwóch porównywanych rozkładów, niektóre kwantyle mogą nie zostać zdefiniowane, w związku z czym może zaistnieć konieczność interpolacji. Jeśli wykres Q-Q opiera się na danych empirycznych, stosuje się różnorodne estymatory kwantyli.

Prostym przypadkiem jest sytuacja, gdy mamy dwa zestawy danych empirycznych o tym samym rozmiarze. W takim przypadku, aby sporządzić wykres, należy uporządkować każdy zbiór w kolejności rosnącej, następnie połączyć w pary i wykreślić odpowiednie wartości. Bardziej skomplikowana konstrukcja ma miejsce w przypadku porównywania dwóch zbiorów danych o różnych rozmiarach. Aby w tym przypadku skonstruować wykres Q-Q, konieczne jest zastosowanie interpolowanego oszacowania kwantyli, aby można było skonstruować kwantyle odpowiadające temu samemu prawdopodobieństwu bazowemu.

Mówiąc bardziej abstrakcyjnie[5] mając dwie skumulowane funkcje rozkładu prawdopodobieństwa F i G, z funkcjami kwantylowymi F−1 i G−1, na wykresie Q-Q przedstawia się q-ty kwantyl F względem q-tego kwantyla G dla zbioru wartości q. Zatem wykres Q-Q można uznać za krzywą parametryczną indeksowaną względem [0,1] wartościami w płaszczyźnie rzeczywistej R2.

Interpretacja

Kolejne punkty na wykresie Q-Q od lewej do prawej są zawsze w porządku niemalejącym. Jeżeli dwa porównywane rozkłady są identyczne, wykres Q-Q przebiega wzdłuż linii 45° y=x. Jeśli oba rozkłady są doskonale zgodne po liniowym przekształceniu, wykres Q-Q przebiega według pewnej prostej, ale niekoniecznie linii y = x. Jeśli ogólne nachylenie wykresu Q-Q jest mniejsze niż nachylenie linii y = x, rozkład na osi poziomej jest bardziej rozproszony niż rozkład na osi pionowej. I odwrotnie, jeśli ogólne nachylenie wykresu Q-Q jest bardziej strome niż linii y = x, rozkład na osi pionowej jest bardziej rozproszony niż rozkład na osi poziomej. Wykresy kwantyl-kwantyl mają często kształt łuku lub litery S, co wskazuje, że jeden z rozkładów jest bardziej skośny niż drugi lub że jeden z rozkładów ma cięższe ogony niż drugi.

Chociaż wykres Q-Q opiera się na kwantylach, na standardowym wykresie Q-Q nie jest możliwe określenie, który punkt na wykresie przedstawia dany kwantyl. Na przykład nie jest możliwe określenie mediany żadnego z dwóch porównywanych rozkładów poprzez sprawdzenie wykresu Q-Q. Czasem na wykresach Q-Q wskazuje się decyle, dzięki któremu takie ustalenia są możliwe.

Punkt przecięcia i nachylenie linii regresji między kwantylami umożliwia pomiar względnego położenia i względnej skali próbek. Jeżeli mediana rozkładu na osi poziomej wynosi 0, punkt przecięcia linii regresji jest miarą położenia, a nachylenie jest miarą skali. Odległość między medianami to kolejna miara względnego położenia odzwierciedlona na wykresie Q-Q. Współczynnik korelacji pomiędzy sparowanymi kwantylami próbek może stanowić opisową miarę zgodności rozkładów. Im współczynnik korelacji jest bliższy jedności, tym kształt rozkładów (z pominięciem przesunięcia i skali) jest bliższy.

Innym powszechnym zastosowaniem wykresów Q-Q jest porównywanie rozkładu próbki z rozkładem teoretycznym, takim jak standardowy rozkład normalny N(0,1). Podobnie jak w przypadku porównywania dwóch próbek danych, porządkuje się dane (formalnie oblicza statystyki porządkowe), a następnie zestawia je z określonymi kwantylami rozkładu teoretycznego.

Oprogramowanie

Język programowania R zawiera funkcje umożliwiające tworzenie wykresów Q-Q: qqnorm i qqplot z pakietu stats . Pakiet fastqq implementuje szybsze kreślenie dużej liczby punktów danych.


Przypisy