See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Regresja logistyczna - Wikipedia, wolna encyklopedia

Regresja logistyczna

Z Wikipedii

Regresja logistyczna - jedna z metod regresji używanych w statystyce w przypadku, gdy zmienna objaśniana jest na skali dychotomicznej (przyjmuje tylko dwie wartości).

Zwykle wartości zmiennej objaśnianej wskazują na wystąpienie, lub brak wystąpienia pewnego zdarzenia, które chcemy prognozować. Regresja logistyczna pozwala wówczas na obliczanie prawdopodobieństwa tego zdarzenia (tzw. prawdopodobieństwo sukcesu).

Formalnie model regresji logistycznej jest uogólnionym modelem liniowym (GLM), w którym użyto logitu jako funkcji wiążącej.

Spis treści

[edytuj] Iloraz szans

Regresja logistyczna opiera się na specyficznym sposobie wyrażania prawdopodobieństwa, zwanym ilorazem szans (ang. odds ratio, OR).

Zamiast określać prawdopodobieństwo klasycznie, za pomocą stosunku liczby sukcesów do liczby wszystkich prób, oblicza się iloraz szans, czyli stosunek liczby sukcesów do liczby porażek.

Można go łatwo wyliczyć ze zwykłego prawdopodobieństwa:

OR=\frac{p}{1-p}

Istnieje też odwrotne przekształcenie:

p=\frac{OR}{1+OR}

Iloraz szans ma pewną zaletę w porównaniu ze zwykłym zapisem prawdopodobieństwa — przyjmuje dla 0 < p < 1 wartości z zakresu (0,+\infty) a jego logarytm wartości z zakresu (-\infty,\infty).

Dzięki temu można stosować do szacowania logarytmu ilorazu szans metody regresji nie ograniczone do przedziału [0,1] (np. regresję liniową).

Funkcja logit
Funkcja logit

Funkcja przekształcająca prawdopodobieństwo na logarytm ilorazu szans zwana jest logitem:

\operatorname{logit}(p)=\operatorname{ln} \frac{p}{1-p}=\operatorname{ln}(p)-\operatorname{ln}(1-p)

Funkcja odwrotna:

p=\frac{e^{\operatorname{logit}(p)}}{1+e^{\operatorname{logit}(p)}}=\frac{1}{1+e^{-\operatorname{logit}(p)}}

[edytuj] Model regresji logistycznej

Regresja logistyczna zakłada, że zmienna objaśniana ma rozkład dwupunktowy:

Y_i \ \sim  B(p_i,n_i), dla i=1,\dots ,m

gdzie liczba prób w procesie Bernoulliego ni jest znana, a prawdopodobieństwo sukcesu pi jest nieznane. Przykładem tej sytuacji jest rozkład odsetka kwiatów, które zakwitną, wśród ni sadzonek.

Model zakłada, że dla każdej próby Bernoulliego (wartość i), istnieje zbiór k zmiennych objaśniających, które niosą pewną informację na temat prawdopodobieństwa sukcesu. Te zmienne objaśniające można uważać za k-elementowy wektor losowy Xi. Model przyjmuje wówczas postać:

p_i = \operatorname{E}\left(\left.\frac{Y_i}{n_{i}}\right|X_i \right). \,\!

Logit nieznanego prawdopodobieństwa sukcesu pi jest modelowany jako liniowa funkcja Xi:

\operatorname{logit}(p_i)=\ln\left(\frac{p_i}{1-p_i}\right) = \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i}.

Do modelu można wprowadzić stałą, tworząc zmienną objaśniającą, mającą wszędzie wartość 1, czyli ustawiając xj,i = 1 dla pewnego j i wszystkich i. Nieznane parametry βj są zwykle estymowane metodą największej wiarygodności.

Interpretacją estymowanego parametru βj jest addytywny wpływ, jaki ma jednostkowa zmiana zmiennej j na logarytm odds ratio

W przypadku zmiennych objaśniających na skali dychotomicznej (np. płeć), eβ jest estymacją ilorazu szans, powiedzmy, mężczyzn w porównaniu z kobietami.

Model posiada równoważne sformułowanie w postaci:

p_i = \frac{1}{1+e^{-(\beta_1 x_{1,i} + \cdots + \beta_k x_{k,i})}}. \,\!

Ta forma funkcjonalna jest znana jako perceptron lub jednowarstwowa sieć neuronowa.

[edytuj] Rozszerzenia

Istnieją rozszerzenia modelu, pozwalające na użycie także zmiennych objaśniających na skali nominalnej oraz porządkowej.

Inne rozszerzenie pozwala na zmienną objaśnianą przyjmującą więcej niż dwie wartości (tzw. multinomial logit)

Odmianą jest regresja probitowa, w której zamiast funkcji logit stosuje się odwrotną dystrybuantę rozkładu normalnego (tzw. probit)

[edytuj] Zobacz też

[edytuj] Linki zewnętrzne

[edytuj] Bibliografia

  • Alan. Agresti: Categorical Data Analysis. New York: Wiley-Interscience, 2002. ISBN 0-471-36093-7. 
  • T. Amemiya: Advanced Econometrics. Harvard University Press, 1985. ISBN 0-674-00560-0. 
  • N. Balakrishnan: Handbook of the Logistic Distribution. Marcel Dekker, Inc., 1991. ISBN 978-0-8247-8587-1. 
  • William H. Green: Econometric Analysis, fifth edition. Prentice Hall, 2003. ISBN 0-13-066189-9. 
  • David W. Hosmer: Applied Logistic Regression, 2nd ed.. New York; Chichester, Wiley, 2000. ISBN 0-471-35632-8. 


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -