Повеќекратна линиска регресија

Од Википедија — слободната енциклопедија

Повеќекратниот праволиниски модел на регресија на популацијата ја дефинира зависноста помеѓу зависната(ендоѓена)променлива, Y и група од независни(егзоѓени)променливи, x1, x2, x3 ,...,xк. Наречен е праволиниски бидејќи помеѓу зависната променлива и независните променливи постои праволиниска врска во популацијата. Моделот се дефинира како:

Yio1x12x2+…+βкxк +εi 

каде што:

Yi = i-та зависна случајна променлива

x1, x2, x3 ,...,xк = i-ти вредности на независната променлива

βo,β1,β2,…,βk = параметри на моделот

εi= стохастички член или стандардна грешка со средина 0 и σ2

k= број на независни променливи

Наједноставен е повеќекратниот регресионен модел со две независни променливи, кој уште се нарекува и тридимензионален, којшто го има следниот облик:

Yio1x12x2+εi

На овој начин дефиниран моделот се состои од два дела:

детерминистички(го покажува просечното влијание на независните променливи на Yi којшто геометриски претставува рамнина)- Yio1x12x2

стохастички(ги изразува ефектите на останатите фактори кои не се опфатени со моделот и случајните влијанија)- εi

Поради неможноста да се пресметат коефициентите во популацијата βo1 и β2, задача на статистиката е да изврши нивно оценување врз основа на податоците од примерокот. Ова оценување се врши преку оцена на параметрите

bo,b1 и b2 врз основа на метод на најмали квадрати во регресионата површина на примерокот со равенката:

y’i=bo+b1x1+b2x2

каде што:

y’i- претставува прилагодена вредност на зависната променлива

bo- е отсечокот којшто рамнината го прави со y-оската

b1-за колку во % ќе се промени y кога x1 ќе се зголеми за една своја единица под услов x2 да не се менува.

b2-за колку во % ќе се промени y, ако x2 се зголеми за една своја единица под услов x1 да не се менува.

При оценувањето не ги зимаме оригиналните вредности за x1, x2 и y,туку нивните отстапувања од нивните аритметички средини, коишто се нарекуваат центрирани променливи, означени со d1, d2, dy.

d1 = x1 - ẋ1

d2 = x2 - ẋ2

dy = y - ẏ

Мерки на претставителност во повеќекратната регресија[уреди | уреди извор]

Поради стохастичката врска помеѓу појавите постојат отстапувања на емпириските податоци од регресионата рамнина. Потребно е рамнината најдобро да се прилагоди на емпириските податоци, односно добро да ги репрезентира. Како мерки на претставителност се јавуваат: резидуална варијанса и стандардна грешка како апсолутни мерки и коефициент на повеќекратна детерминација како релативна мерка.

Резидуалната варијанса претставува оцена на варијансата на случајната грешка.

Стандардната грешка претставува оцена на стандардното отстапување на случајната грешка.

Коефициентот на повеќекратната детерминација покажува со колкаво учество вкупниот варијабилитет може да се објасни со регресиониот модел.

Неговата вредност се движи помеѓу 0 и 1. Доколку е поблизок до 1 оценетата регресиона равенка подобро ги репрезентира емпириските податоци.

Зависноста од големината на примерокот и бројот на променливите во моделот, предизвикуваат овој модел да има недостатоци. Избегнувањето на овие недостатоци се врши со помош на корегиран(прилагоден) коефициент на повеќекратна детерминација. Вака приспособениот Ṝ² обезбедува подобра споредба помеѓу моделот на повеќекратната регресија со различни броеви на независна променлива.

Тестирање на значајноста на оценетите параметри[уреди | уреди извор]

За да се испита дали постои праволиниска врска помеѓу x и y во популацијата, потребно е да се изврши тестирање на значајноста на оцените на параметрите. Се поставуваат хипотезите во следниот облик:

H0 : β1 = 0

H1 : β1 ≠ 0

H0 : β2 = 0

H1 : β2 ≠ 0

Нултите хипотези и во двата случаи тврдат дека коефициентот е статистички случаен, односно дека x не влијае на y. Алтернативните хипотези и во двата случаи тврдат дека коефициентот е статистички значаен, односно дека x влијае на y.

Реализираната вредност на статистиката на тестот се пресметува како однос на оцената и нејзината стандардна грешка За пресметување на критична вредност се употребува студентовиот t распоред со n-3 степени на слобода. Потребно е да се изврши споредба помеѓу реализираната вредност на статистиката и критичната вредност за да се заклучи која од хипотезите се прифаќа а која се отфрла. Доколку апсолутната вредност на реализираната вредност е поголема од критичната се прифаќа алтернативната хипотеза а доколку е помала се отфрла алтернативната.

Оценување и предвидување на вредноста на зависната променлива[уреди | уреди извор]

По оценувањето на параметрите врз основа на методот на најмали квадрати, логично е просечната вредност Е(yp) да се оцени со вредност која лежи во регресионата рамнина на примерокот означена со y’p.

Интервалот на оцена го има следниот изглед: y’p-tα/2;n-3 S ≤ Е(yp) ≤ y’p+tα/2;n-3 S

Надворешни врски[уреди | уреди извор]