Делумна корелација

Од Википедија, слободната енциклопедија
Прејди на: содржини, барај

Делумната корелација („парцијална корелација“) го покажува степенот на праволиниското слагање на варијации на зависната променлива и едната независна променлива, при што влијанието на другата независна променлива е исклучено.[1]

Формална дефиниција[уреди]

Формално, делумната корелација помеѓу Х и Y за дадена група на n контролни варијабли Z={Z1,Z2,…Zn}, запишано ρXY•Z, е корелација помеѓу резидуалите RX и RY кои произлегуваат од линеарната регресија од X со Z и од Y со Z,соодветно. Всушност, корелацијата од прв ред (кога n=1) е ништо друго туку разлика помеѓу корелација и производот од преносливите корелации поделени со производот од коефициентите на отуѓување на преносливите корелации.Коефициентот на отуѓување, и неговата врска со заедничката варијанса преку корелацијата се достапни во Гилфорд(1973, стр.344-345).

Пресметка[уреди]

Со користење на линеарна регресија[уреди]

Едноставен начин да се пресмета делумната корелација за одредени податоци е да се решат проблемите со две поврзани линеарни регресии, да се најдат резидуалите, и да се пресмета корелација помеѓу нив.Ако запишеме xi, yi и zi примероци од одредени заеднички веројатности претставени преку X, Y и Z, решавањето на проблемот со линеарната регресија се сведува на пронаоѓање на n-димензиони вектори

\mathbf{w}_X^* = \arg\min_{\mathbf{w}} \left\{ \sum_{i=1}^N  (x_i - \langle\mathbf{w}, \mathbf{z}_i \rangle)^2 \right\}
\mathbf{w}_Y^* = \arg\min_{\mathbf{w}} \left\{ \sum_{i=1}^N  (y_i - \langle\mathbf{w}, \mathbf{z}_i \rangle)^2 \right\}

со тоа што N ќе биде бројот на примероци на скаларниот производ помеѓу векторите v и w. Имајте на ум дека во некои имплементации регресијата вклучува константни термини такашто матрицата ќе има дополнителна колона од нив.
Тогаш резидуалите се:

r_{X,i} = x_i - \langle\mathbf{w}_X^*,\mathbf{z}_i \rangle
r_{Y,i} = y_i - \langle\mathbf{w}_Y^*,\mathbf{z}_i \rangle

И примерокот за делумна корелација е

\hat{\rho}_{XY\cdot\mathbf{Z}}=\frac{N\sum_{i=1}^N r_{X,i}r_{Y,i}-\sum_{i=1}^N r_{X,i}\sum_{i=1}^N r_{Y,i}}
{\sqrt{N\sum_{i=1}^N r_{X,i}^2-\left(\sum_{i=1}^N r_{X,i}\right)^2}~\sqrt{N\sum_{i=1}^N r_{Y,i}^2-\left(\sum_{i=1}^N r_{Y,i}\right)^2}}.

Со користење на рекурзивна формула:
Може да биде пресметковно скапо да се решат проблемите со линеарна регресија. Всушност,n-тиот дел од делумната корелација(со |Z| = n) може лесно да се пресмета од третиот (n - 1) дел на делумната корелација. Нултиот дел од делумната корелација ρXY•Ø е дефиниран да биде редовен коефициент на корелација ρXY.
Таа го зафаќа ,за секој Z0=Z

:

\rho_{XY\cdot \mathbf{Z} } =
        \frac{\rho_{XY\cdot\mathbf{Z}\setminus\{Z_0\}} - \rho_{XZ_0\cdot\mathbf{Z}\setminus\{Z_0\}}\rho_{Z_0Y\cdot\mathbf{Z}\setminus\{Z_0\}}}
             {\sqrt{1-\rho_{XZ_0\cdot\mathbf{Z}\setminus\{Z_0\}}^2} \sqrt{1-\rho_{Z_0Y\cdot\mathbf{Z}\setminus\{Z_0\}}^2}}.

Наивно спроведување на оваа пресметка, како рекурзивен алгоритам дава време за експоненцијална комплексност. Како и да е, оваа пресметка има проблеми со преклопување, како што се користење на динамично програмирање или едноставно кеширање на резултатите од рекурзивните повици на приносите на комплексностаO(n^3)

.
Имајте на ум во случај кога Z е една променлива, ова се сведува на:

\rho_{XY\cdot Z } =
        \frac{\rho_{XY} - \rho_{XZ}\rho_{ZY}}
             {\sqrt{1-\rho_{XZ}^2} \sqrt{1-\rho_{ZY}^2}}.

Со користење на матрична инверзија[уреди]

Во O(n^3)

, друг пристап кој што овозможува сите делумни корелации да бидат пресметани помеѓу било кои две варијабли Xi и Xj во збир од V од кардиналните n, со оглед на сите останати V\begin{Bmatrix}
Xi,Xj\end{Bmatrix}

,ако корелационата матрица (или алтернативната коваријансна матрица) Ω = (ωij),каде што ωij = ρXiXj,е инверзна. Ако го дефинираме P = Ω−1, ќе добиеме:

\rho_{X_iX_j\cdot \mathbf{V} \setminus \{X_i,X_j\}} = -\frac{p_{ij}}{\sqrt{p_{ii}p_{jj}}}.

Интерпретација[уреди]

Геометриска[уреди]

Нека три променливи X, Y, Z (каде x e независна променлива, y e зависна променлива, и z e контролната или екстра променлива) бидат избрани од заедничка дистрибутивна веројатност преку n варијабли V.Понатаму нека, vi, 1 ≤ i ≤ N биде N , n-димензионални примероци превземени од заедничката дистрибутивна веројатност преку V.Потоа ги вклучуваме N-димензионалните вектори x(формиранo од страна на последователните вредности на X преку примероците), y( формиранo преку вредностите на Y) и z(формирано преку вредностите на Z). Може да се согледа дека резидуалите RX кои произлегуваат од линеарната регресија на X користејќи го Z, ако биде разгледуван како N-димензионален вектор r_x

, кој што има нула скаларен производ со векторот z генериран од Z.
Истото се однесува на резидуалите RY генерирајќи го векторот r_y

. Посакуваната делумна корелација е косинусна функција од аголот φ помеѓу проекциите rX и rY од x и y, соодветно, кон хипер рамнината и нормално кон z.

Како условен тест на независност[уреди]

Со претпоставката дека сите вклучени променливи се многуваријантни Гаусивни, делумната корелација ρXY•Z е нула ако и само ако X e условно независна од Y за даденo Z. Овa својство не се користи за во општ случај. За да се тестира дали примерокот за делумна корелација исчезнува ја користиме Фишеровата Z-трансформација за делумна корелација:

z(\hat{\rho}_{XY\cdot\mathbf{Z}}) = \frac{1}{2} \ln\left(\frac{1+\hat{\rho}_{XY\cdot\mathbf{Z}}}{1-\hat{\rho}_{XY\cdot\mathbf{Z}}}\right).

Нулта хипотеза е H_0: \hat{\rho}_{XY\cdot\mathbf{Z}} = 0 , и е тестирана наспроти двостраната алтернативна хипотеза H_A: \hat{\rho}_{XY\cdot\mathbf{Z}} \neq 0. Ја одбиваме нулта хипотеза H0 со ниво на значајност α ако:

\sqrt{N - |\mathbf{Z}| - 3}\cdot |z(\hat{\rho}_{XY\cdot\mathbf{Z}})| > \Phi^{-1}(1-\alpha/2),

Каде што Φ(•) е кумулативно дистрибутивна функција на Гаусовата распределба со средна вредност нула и стандардна девијација еден, и N како големина на примерокот.Забележете дека оваа Z-трансформација е приближна и дека вистинската распределба на коефициент на корелација кај примерокот(делумен) не е јасна. Сепак точниот t-тест е базиран врз основа на комбинација од коефициентот на делумната регресија, делумниот коефициент на корелација и делумните разлики кои се на располагање. Распределбата на примерокот со делумна корелација бил опишан од страна на Фишер.

Полуделумна корелација (дел корелација)[уреди]

Полуделумната корелација е слична на статистика на делумната корелација. Двете мерки на варијанса по одредени фактори се контролирани за, но за да се пресмета полуделумната корелација има трета променлива константа или за X или за Y, додека за делумната корелација има трета променлива и за двете. Полуделумната корелација мери единствена и заедничка варијанса додека делумната корелација мери единствена варијанса. Полуделумната корелација може да се гледа како попрактична и релевантна, бидејќи таа е прилагодена со (т.е во однос на) вкупниот варијабилитет на зависната променлива. Спротивно на тоа, таа е помалку теоретски корисна, бидејќи таа е помалку прецизна за уникатниот придонес на независната променлива. Иако тоа може да изгледа парадоксално, полуделумната корелација од X со Y е секогаш помала или еднаква на делумната корелација од X со Y.

Употреба во анализа на временските серии[уреди]

Во анализата на временските серии, функцијата на делумната автокорелација (понекогаш функција на делумната корелација) на временски редови е дефинирана,за заостанат h, како

\phi(h)= \rho_{X_0X_h\cdot \{X_1,\dots,X_{h-1} \}}.

Наводи[уреди]

  1. Ристески Славе, Тевдовски, Драган (2010): „Статистика за бизнис и економија“, четврто издание, Скопје: Економски факултет - Скопје