Линеарна регресија

Од Википедија — слободната енциклопедија
Прејди на прегледникот Прејди на пребарувањето

Линеарната регресија е најкористена од сите статистички техники. Таа ги проучува линеарните (праволиниските) врски помеѓу варијаблите,обично под претпоставка на нормално распределени грешки.

Поимот регресија станал применуван како предмет на моделите на линеарната статистика кога бил најпрвин проучуван при крајот на 19 век од страна на научникот Францис Галтон. Галтон бил самоук природонаучник, антрополог, астроном и статистичар. Бил познат по неговите изтражувања и по неговата книга, бестселер, за тоа како да преживееш во дивината. Тој бил пионер во примената на статистичките методи за мерење.[1].За прв пат го споменал поимот регресија како „регресија кон просечност“ при објаснувањето неговиот феномен за „ таткото и синот’’ (ако височината на таткото е Х стандардни отстапувања од средната вредност во популацијата , тогаш треба да се предвиди дека висината на синот ќе биде rх(r по х) стандардни отстапувања на популација).

Францис Галтон

Зошто ние најчесто претпоставуваме дека врската меѓу промелнивите е линеарна?[2]

  1. Оваа претпоставка е често оправдана од централната гранична теорема на статистиката, која вели дека збирот на доволно голем број независно променливи варијабли достигнува нормална дистрибуција. Многу податоци во бизнисот и економијата се добиени со агрегација.
  2. Таа е математички прилагодена : таа подразбира дека проценките за оптималниот коефициент на линеарниот модел се оние кои го минимизираат значењето на квадратната грешка (која е лесно преслетлива) и поради тоа што таа го оправдува користењето на статистички тестови врз основа на нормалното „семејство“ на тестови (ова семејство ги вклучува Т-тест,Ф-тест и Хи2-тест).
  3. Дури и ако „вистинската“ грешка на процесот не е нормална, во однос на оригиналните единици на податоците, можно е да се трансформираат податоците со цел грешките од вашиот предвиден модел да се приближно точни.


Во статистиката, линеарната регресија представува пристап за моделирање на врската меѓу променливата y и една или повеќе промелниви х. Кога имаме една променлива х тогаш станва збор за проста линеарна регресија. Ако има повеќе од една променлива тогаш станува збор за повеќекратна регресија. Во линеарната регресија, податоците се моделирани користејќи различни линеарни функции, преку кои се проценуваат непознатите параметри на некој модел. Ваквите модели се нарекуваат Линеарни модели. Најчесто , линеарната регресија се однесува на модел каде што очекуваната вредност на y, дадена преку Х , представува линеарна функција на Х. Поретко, линеарната регресија може да се однесува на модел каде што медијаната , или некој друг квантил на очекуваната y ,дадена преку Х , представува линеарна функција на Х. Како и сите форми на линеарна анализа, и линеарната регресија се фокусира на условната веројатност на y за дадена х, наместо за заедничката веројатност на y и х што представува област на мултиваријабилната анализа. Линеарната регресија беше првиот вид на регресивна анализа која беше ригорозно проучена, и која беше опширно користена во практиката. Тоа е поради тоа што моделите кои линеарно зависат од непознатите параметри се полесни отколку моделите кои не се линеарно поврзани со нивните параметри и поради тоа што статистичките својства на добиените пресметки полесно се детерминираат.


Пример за проста линеарна регресија

Вовед во линеарна регресија[уреди | уреди извор]

Во даден збир на податоци од n статистички единици, моделот на линеарна регресија тргнува од претпоставката дека релацијата меѓу зависната варијабла yi и р-вредноста на регресорот xi е линеарна. Оваа врска е моделирана преку грешката εi сличајна променлива која додава форма на линеарниот однос меѓу зависната варијабла и регресорите.

Овој модел ја има следната форма:

често овие n равенки се поврзани заедно и напишани во вектор со ваква форма:

каде што :


Неколку забелешки во врска со терминологијата и општата употреба

- yi е наречена регресант, едногена варијабла, зависна варијабла или мерена варијабла. Одлуката која варијабла, во дадениот збир на податоци, е зависна а која е независна варијабла може да се заснова на предпоставката дека вредноста на едната од варијаблите е предизвикана, или е директно под влијание на другите променливи.

- xi е наречена регресор, егзогена варијабла, објаснувачка променлива, влезна променлива или независна променлива. Матрицата х е понекогаш нарекувана ,,дизајнирана матрица’’

- β е р-димензионален параметарски вектор. Неговите елементи се нарекуваат ефекти или регресиони коефициенти. Статистичката проценка и заклучување се фокусираат на β.

- εi е наречено грешка. Оваа варијабла ги опфаќа сите други фактори кои влијаат на зависно променливата yi , освен регресорот xi. Врската меѓу грешката и регресорите, на пример кога тие се поврзани, представува клучен чекор во формирањето на моделот на линеарна регресија бидејќи таа ќе го одреди методот кој ќе се користи за проценка.

Претпоставки[уреди | уреди извор]

Стандардните модели на линеарна регресија со стандардни техники на проценка прават бројни претпоставки за предвидената варијабла, за добиената варијабла и за нивната врска. Бројни подобрувања беа направени за да се овозможи секоја од овие претпоставки да се сведе во поблага форма, или во некои случаеви целосно да се елиминира. Некои методи можат да ублажат неколку претпоставки одеднаш. Во продолжение ќе бидат објаснети неколку поважни претпоставки направени во моделите на стандардна линеарна регреисја:

  • Слаба егзогеност. Ова во суштина значи дека предвидената варијабла х може да биде третирана како фиксна вредност,наместо како случајна варијабла.Ова значи дека, на пример,предпоставената варијабла се смета дека е без грешка, односно дека таа не содржи грешки настанати при мерењето. Иако не реалистична во многу погледи, ова претпоставка води до значително потешки грешки во моделите.
  • Линеарност. Ова значи дека средната вредност на добиената променлива е линеарна комбинација на параметрите(коефициентите на регресија) и претпоставената варијабла. Мора да се забележи дека оваа претпоставка е помалку рестриктивна отколку првата. Претпоставената варијабла сама по себе може да биде произволно трансформирана.
  • Константна варијанса. Ова значи дека различни добиени варијабли имаат иста варијанса во нивните грешки, безразлика на нивните вредности.Во праксата овие претпоставки се погрешни.
  • Независност на грешки. Ова претпоставува дека грешките од добиените варијабли се неповрзани меѓу себе.Некои методи (како на пример генерализираните најмали квадтари)се способни да се справат со поврзаните грешки, иако тие најчесто бараат повеќе податоци.
  • Недостаток од мултиколинеарност во предвидувањата. За стандардните методи за проценка на најмали квадрати, матрицата Х мора да има целосна колона за р, во спротивно имаме ситуација наречена мултиколинеарност во претпоставената варијабла. Тоа значи дека може да имаме две или повеќе совршено поврзнаи варијабли. Тоа исто така може да се случи ако имаме премалку информации во споредба со бројот на параметри. Во овој случај на мултиколинеарност, параметарот β ќе биде неиндентификувана- нема да има решение. Најмногу что може да се направи е да се индетификуваат некои од параметрите.

Толкување[уреди | уреди извор]

Моделот на линеарна регреција може да биде користен за да ја индентификува врската меѓу еден индицатор, променливата xi и променливата y кога сите други променливи се во моделот фиксни. Особено, интерпретацијата на βi прави промена во y за една единица промена на xi кога другите променливи се фиксни , што представува очекувана вредност на делумниот дериват на y во однос на хi. Ова понекогаш се нарекува уникатен ефект на хi за y. Мора да се внимава при толкување на регресивните резултати, бидејќи некои од регресорите неможат да дозволат маргинални промени,додека други пак, неможе да бидат одржани фиксно. Можно е уникатниот ефект да биде скоро еднаков на нула дури и кога маргиналниот ефект е голем. Ова може да значи дека некои други промелниви ги опфаќаат сите информации на хi, така што штом варијаблата е во моделот, не постои придонес на хi на варијацијата на y. Спротивно на тоа, уникатниот ефект на хi може да биде голем додека неговиот маргинален ефект е скоро нула. Ова ќе се случи доколку другата променлива објасни поголем дел од варијацијата на y, но главно ја објаснува варијацијата на начин кој е комплементарен со она што е опфатено со хi. Во овој случај, вклучувајќи ги и другите варијабли во моделот, се намалува улогата на варијабилитетот на y кој не е поврзан со хi, а со тоа се зајакнува врската со хi. Поимот уникатен ефект е погоден кога се студира еден комплексен систем , каде што повеќе меѓусебно поврзани компоненти влијаат врз добиената варијабла. Во некои случаеви тоа буквално може да се протолкува како причинско-последичен ефект на интервенција, кој е поврзан со вредноста на претпоставената варијабла.

Методи на проценка[уреди | уреди извор]

Развиени се голем број на процедури за проценка и заклучок за параметрите на линеарната регресија. Овие методи се разликуваат во приодите кои се користат при нивното пресметување.

Некои од позначајните методи на проценка на линеарната регресија се објаснети во продолжение:

а) Проценка преку методот на најмали квадрати и сродни техники

  1. Обични најмали квадрати (OLS) е наједноставниот и според тоа, најкористениот метод на проденка. Концептуално е едноставен и директен, јасен. ОЛС методот најчесто е користен за анализа на податоци добиени од експерименти или набљудувања. Овој метод го минимизира збирот на квадратните резидуали и ја пресметува вредноста на непознатиот параметер β
  2. Генерализирани најмали квадрати (GLS) претставува проширување на ОЛС методот кој овозможува ефикасна проценка на β , кога корелациите се присутни меѓу грешките на моделот.
  3. Регресија на инструментални варијабли (IV) може да се користи кога регресорите се поврзани со грешките. Во овој случај ни требаат некои помошни инструментални променливи zi за E[ziεi] = 0 . Ако z е матрица на иструментите, тогаш формулата може да биде дадена во ова форма:
  4. Оптимални инструменти
  5. Вкупни најмали квадрати (TLS)


б) Проценка на максимална веројатност и сродни техники

  1. Проценка на максимална веројатност
  2. Најмало апсолутно отстапување(ЛАД)
  3. Адаптивна проценка


в) Други методи на проценка

  1. Квантил регресија
  2. Мешани модели
  3. Регресија на главни состојки


Наводи [уреди | уреди извор]

  • Ристески Славе, Тевдовски Драган (2010): „Статистика за бизнис и економија“, четврто издание, Скопје: Економски факултет - Скопје.
  1. www.psych.utah.edu/gordon/Classes/Psy4905Docs/PsychHistory/Cards/Galton.html
  2. http://people.duke.edu/~rnau/regintro.htm

http://people.duke.edu/~rnau/regintro.htm

http://www.psych.utah.edu/gordon/Classes/Psy4905Docs/PsychHistory/Cards/Galton.html