Анализа на варијанса

Од Википедија — слободната енциклопедија
Прејди на прегледникот Прејди на пребарувањето

Анализата на варијанса, (во литературата често се користи кратенката ANOVA) се состои од декомпонирање на вкупниот варијабилитет (расчленување) на набљудуваната појава на составни елементи: варијабилитет кој што настанува под влијание на контролираните фактори и т.н резидуален варијабилитет кој настанал под влијание на останатите, т.е неконтролирани фактори.

За основополижник на анализа на варијанса покрај (Карл Пирсон) се смета англискиот статистичар Роналд Фишер (1890-1962). Неговиот придонес датира од првата половина на дваесеттот век во областа на непристрасна статистика, развојот на p-вредноста за тестирање на хипотези, анализата на варијанса и теоријата за оценување врз основа на методот на најголема веродостојност.


Дефиниција[уреди | уреди извор]

Во современите деловни примени на статистичките анализи постојат бројни ситуации кои бараат споредби на разликите во варијабилитетот на две основни маси врз основа на случајно избрани примероци, односно значајноста на разликите меѓу варијансите на независно избрани примероци. Истовремено, со една постапка за да ја испитаме еднаквоста на аритметичките средини на повеќе маси го користиме статистичкиот метод кој се нарекува анализа на варијанса (во литературата познат како ANOVA)[1]. Таа спаѓа во параметарски статистички методи.

Факторите чие влијание сакаме да го испитаме во еден експеримент ги нарекуваме контролирани фактори. Резидуалниот варијабилитет (самиот збор резидуал значи осататок) ги содржи случајните варирања и можни дејства на другите фактори. При изведувањето на експериментите отстапувањето од нормалноста на масите и хомогеноста на варијансата ќе имаат мошне мали ефекти, под услов да се применуваат примероци со еднаков број на елементи т.е. еднакви примероци.


Видови анализи[уреди | уреди извор]

  1. Анализа на варијанса со еден фактор
  2. Анализа на варијанса со два фактора

Анализа на варијанса со еден фактор[уреди | уреди извор]

За донесување на заклучоци за статистички експерименти, најпрво се започнува со планирање. Наједноставниот вид на експерементален план се заснова на испитување на влијанието на еден фактор на варијабилитетот на набљудуваната појава при случајно избрани експериментални единици. Таквиот план се нарекува целосно случаен план, а постапката со која се испитуваат добиените податоци се нарекува анализа на варијанса со еден фактор.

Доколку разликите помеѓу аритметичките средини на примероците би настанале само поради дејствувањето на флуктуацијата на примероците, во тој случај набљудуваната појава би била само под влијание на неконтролираните фактори. Поради тоа,нултата хипотеза ќе ја поставиме во вид на еднаквост на аритметичките средини на популациите:

Ho: M1 = M2 = M3

Следствено на тоа (алтернативната хипотеза) е формулирана во следниот облик:

  • H1: Аритметичките средини барем на две маси се разликуваат
  • H0: Контролираниот фактор не влијае на варијабилитетот на набљудуваната појава

Модел на анализа на варијанса со еден фактор[уреди | уреди извор]

Општиот модел на анализа на варијанса со еден фактор го претставува влијанието на факторот А со r – нивоа или третмани: А1, А2 ... Аi …, Ar , на варијабилитетот на набљудуваната појава (променливата X).

За да можеме да го испитаме влијанието на факторот А, потребно е да извлечеме случани примероци од r основни маси, кои се класифицирани со оглед на третманите на факторот. Аритметичките средини на тие основни маси ги обележуваме со М1, М2, ..., Мi, ...Мr , а нивните варијанси со знакот σ12, σ22..., σi2 …, σr2. Аритметичката средина на сите маси заедно ќе ја означиме со M , а варијансата со σz2. Моделот го формулирање така што ја поставуваме равенката за произволно набљудување на Xij:

Xij= M + αi + εij , i = 1,2…,r; j=1,2…,n

Каде со Xij ја означуваме ј-тото набљудување изброено од i-тата популација; Со М заедничката аритметичка средина на популациите, со αi ефектот на i-тиот третман и со εij случајната грешка.

Овој модел е праволиниски и според него секое набљудување се состои од три компоненти (адитиви): две константни (неслучајни) големини М и αi и случајна променлива εij преку која се изразува влијанието на неконтролирани фактори.Основната идеја се состои преку варијациите на некоја појава во реалноста да се обиде да го открие систематското однесување кое ќе му се препише на контролираниот фактор , а пак отстапувањето и се препишува на случајната грешка.

Разложување на вкупниот варијабилитет[уреди | уреди извор]

Во еднофакторската анализа на варијансата вкупниот или тоталниот варијабилитет на набљудуваната појава е еднаков на збирот на варијабилитетите настанати под дејство на контролираниот фактор и неконтролираните (резидуалните) фактори. Вкупното отстапување на некоја произволно набљудување Xij ќе го одредиме како разлика помеѓу вредноста на тоа набљудување и заедничката аритметичка средина на сите опсервации .

Кога ги набљудуваме отстапувањата на сите примероци од нивната заедничка средина доаѓаме до вкупниот или тоталниот варијабилитет на појавата. На тој начин со квадрирање и средување на овој израз можеме да дојдеме до математичко формулирање на претходно наведените релации.Вкупниот варијабилитет, уште се нарекува вкупна сума или збир на квадратите.Факторскиот варјабилитет уште се нарекува факторски збир на квадратите,а во литературата резидуалниот варијабилитет уште се нарекува резидуална сума на квадратите.

Претпоставки при анализа на варијансата[уреди | уреди извор]

Претпоставките при анализата на варијансата се разликуваат од начинот на кој се избираат третманите. Во случај кога нивоата на факторите се фиксираат однапред тогаш зборуваме за модел со фиксирани ефекти .Доколку пак нивоата на факторите се избираат на случаен начин на масата на моќните нивоа тогаш станува збор за модел со случајни ефекти .

За правилно и коректно изведување на заклучоци врз основа на анализа на варијансата потребно е да се исполната следниве препоставки :

  • Нормалност случајните грешки ( εij )да имаат нормален распоред
  • Хомогеност на варијансата (хомоскедастичност)
  • Е(εij)=0 случајните грешки во постапката се еднакви на нула
  • Случајните грешки меѓусебно се независни
  • Адитивност

Факторска и резидуална варијанса[уреди | уреди извор]

Резидуална варијанса ( VR) укажува на варијациите кои настанале под дејство на неконтролираните фактори.Од тука произлегува дека VR е оцена на σ2.Факторска варијанса (VA) покрај влијанието на резидуалните фактори ги изразува и евентуалните варијации настанати под дејство на контролираниот фактор. Со факторската варијанса ја мериме дисперзијата на заедничката маса и затоа таа е еднаква на: VA = оцена на σз2 = оцена на σ2+ оцена на варијабилитет помеѓу аритметичките средини на масите.

Во случај кога нултата хипотеза е точна, варијабилитетот на секоја поединечна маса е еднаков на варијабилитетот на нивната заедничка маса и затоа вредностите на VA и VR помеѓу себе ќе бидат приближно еднакви. До мало отстапување може да дојде поради дејство на случајни колебања на примероците.

Бидејќи резидуалната варијанса го оценува варијабилитетот во поединечните маси, таа може да се одреди врз основа на отстапувањата на податоците внатре во примероците. Од друга страна, факторската варијанса укажува на разлики помеѓу аритметичките средини на примероците. Факторската и резидуалната варијанса меѓу себе се независни. Кога нултата хипотеза е точна тогаш и факторската варијанса претставува оцена на варијансата на поединечните маси. Во тој случај дури VA и VR се непристрасни оцени на непознатите варијанси на секоја поединечна маса т.е :

H0 e точна: Е(VR) = σ2; Е(VA) = σ2

Тоа значи дека двете оцени во просек се еднакви на непознатиот параметар.

Кога нултата хипотеза не е точна факторската анализа ја преценува големината на варијансата. Тогаш факторската варијанса во просек ќе дава поголеми вредности од резидуалната варијанса.

Анализа на варијанса со два фактора[уреди | уреди извор]

Во статистичките истражувања, кога постојат одредени идикации дека на набљудуваната појава битно влијаат повеќе фактори се применува моделот на анализа на варијансата со два и повеќе фактори. Теоретскиот модел на анализа на варијанса со два фактори го има следниот облик:

XIJ = µ + αi + βj + εij , i = 1,2, …, r; j=1,2, …, s

Каде XIJ-набљудувањето која одговара на i- то ниво на факторот А и ј-то ниво на В:

  • µ = заедничка аритметичка средина
  • αi = ефект на i- то ниво на факторот А
  • βj = ефект на ј-то ниво на факторот В
  • εij = случајна грешка

Кај еднофакторскиот модел на анализа на варијанса е воведена дополнителна претпоставка, таа се состои во адитивноста на факторите А и В т.е дека нема интеракција помеѓу нив.

Во двофакторската анализа на варијанса поставуваме две различни нулти хипотези:


I: H0 : се однесува на факторот А и гласи дека нивоата на факторот А не се разликуваат според ефектите на набљудуваната појава.

Додека соодветната H1хипотеза би гласела: ефектот барем на едно ниво на факторот А се разликува од 0.


II: Н0 : се однесува на факторот В и тврди дека нивоата не се разликуваат според ефектите на набљудуваната појава.

А, соодветната H1хипотеза гласи: ефектот барем на едно ниво на факторот В се разликува од 0.

Видови тестови на анализа на варијанса[уреди | уреди извор]

  1. F – тест и Snedecor –oв F распоред
  2. Tukey – евиот тест (повеќекратна компарација)
  3. Крускал – Волисовиот тест (Непараметарска алтернатива на тестот на анализа на варијанса со еден фактор, кој се применува кога истражувачот има силна причина да се сомнева дека распоредите на матичната популација можат да бидат значајно различни од нормалниот распоред. Овој тест се заснова на ранговите на опсервациите на примерокот).

Наводи[уреди | уреди извор]

  1. Ристески Славе, Тевдовски Драган (2010): „Статистика за бизнис и економија“, трето издание, Скопје: Економски факултет - Скопје