Порамнување на секвенци

Од Википедија — слободната енциклопедија
Прејди на прегледникот Прејди на пребарувањето

Во биоинформатиката, порамнувањето на секвенци претставува начин на подредување на секвенците на ДНК, РНК или белковини (протеини) за да се идентификуваат региони на сличност, што може да биде последица на функционални, структурни и/или еволуциони односи помеѓу секвенците.[1] Порамнетите нуклеотидни или аминокиселински секвенци обично се претставени како редови во рамките на матрица. Понекогаш се вметнуваат празнини помеѓу нуклеотидните или аминокиселинските остатоци за да идентичните или слични знаци бидат подредени во последователни колони. Порамнувањето на секвенци се користи и за небиолошки секвенци, како што е пресметувањето на edit distance cost помеѓу низите во некој природен јазик или, пак, во финансиски податоци.

Порамнување на секвенци на хистонски протеини на цицачи, создадена од ClustalO. Секвенците се состојат од аминокиселинските остатоци 120-180 на протеините. Остатоците кои се сочувани во сите секвенци се означени со сива боја. Знаците под секвенците означуваат: сочувани секвенци (*), сочувани мутации (:), семиконзервативни мутации (.), и неконзервативни мутации ( ).[2]

Толкување[уреди | уреди извор]

Ако две порамнети секвенци споделуваат заеднички предок, тогаш несогласувањата може да се толкуваат како точкести мутации, а празнините како индели (т.е., мутации на инсерција или делеција), кои се појавиле од времето на нивната дивергенција. Кај порамнувањето на белковинските секвенци, степенот на сличност меѓу аминокиселините, кои заземаат одредена позиција во секвенцата, може да се толкува како груба мерка за тоа колку е сочуван одреден регион или секвенциски мотив кај различни секвенци кои имаат заеднички предок. Отсуството на супституции (замени), или присуството само на конзервативни супституции (т.е., супституции на аминокиселини чии странични ланци имаат слични биохемиски својства) во одреден регион на секвенцата, укажуваат на тоа дека регионот има структурна или функционална значајност.[3] Иако азотните бази на ДНК и РНК повеќе се слични меѓу себе, во споредба со поголемата разнообразност на аминокиселините, сочуваноста на базните парови може да индицира слична функционална или структурна улога.

Методи на порамнување[уреди | уреди извор]

Порамнувањето на многу кратките или многу сличните секвенци може да се изврши рачно. Сепак, повеќето интересни случаи вклучуваат порамнување на долги, варијабилни или бројни секвенци, чие рачно порамнување е речиси неизводливо. Наместо тоа, се употребуваат различни алгоритми за добивање на високо квалитетни порамнувања на секвенци, каде единствената постапка која треба да се изврши рачно е повременото прилагодување на конечните резултати за да се одразат одредени карактеристики кои тешко се претставуваат алгоритамски (особено во случајот на нуклеотидните секвенци). Постојат две категории на сметачки пристапи кон порамнувањето на секвенци: глобално порамнување и локално порамнување. Пресметувањето на глобалното порамнување е форма на глобална оптимизација која прави да порамнувањето се протега по целата должина на сите испитувани секвенци. За разлика од него, кај локалното порамнување се идентификуваат слични региони во рамките на долги секвенци кои често се значително дивергентни. Обично повеќе се преферираат локалните порамнувања, но проблемот кај нив е што мора прво да се идентификуваат сличните региони.[4] Во употреба се повеќе различни компјутерски алгоритми за порамнување на секвенци. Едни од нив се релативно бавните, но формално точните методи на динамичко програмирање. Други методи се хевристичките алгоритми или пробабилистичките методи наменети за пребарување на големи бази на податоци, но кај нив не е загарантирано пронаоѓањето на најдобрите резултати.

Претставување[уреди | уреди извор]

Порамнувањата на секвенците најчесто се претставуваат графички и во текстуален формат. Во речиси сите претставувања на порамнувањето на секвенци, секвенците се напишани во редици кои се подредени на тој начин што порамнетите аминокиселински или нуклеотидни остатоци се наоѓаат во последователни (сукцесивни) колони. Во текстуалните формати, порамнетите колони, кои содржат идентични или слични знаци, се означуваат со систем на симболи за сочуваност. Како што е прикажано на сликата погоре, ѕвездичката или вертикалната црта се користат за одбележување на идентичност, додека двете точки се користат за одбележување на конзервативни супституции, а точката се користи за семиконзервативни супституции. Многу програми за визуелизација на секвенци исто така користат бои за прикажување на информации за својствата на поединечните елементи на секвенците; во ДНК и РНК секвенците, ова се изведува со назначување на посебна боја за секој нуклеотид. Кај порамнувањето на протеинските секвенци, бојата најчесто се користи за прикажување на својствата на аминокиселините, што помага во проценката на сочуваноста на одредена аминокиселинска супституција. Кај порамнувањето на повеќе секвенци, последниот ред во секоја колона е често консензус секвенца утврдена со порамнувањето; консензус секвенците често се претставени во графички формат со секвенциско лого во кое големината на буквата (знакот) за секој нуклеотид или аминокиселина одговара на степенот на сочуваност.[5]

Порамнувањата на секвенците може да бидат зачувани во широк спектар на текстуални формати на датотеки. Повеќето веб-базирани алатки овозможуваат ограничен број на влезни и излезни формати, како што се FASTA форматот и GenBank форматот, а излезот не може лесно да се уредува. Достапни се неколку конверзиони програми кои обезбедуваат графички и/или командна линија интерфејс, како што се READSEQ и EMBOSS. Исто така постојат и неколку програмски пакети кои ја нудат оваа конверзиска функционалност, како што се BioPython, BioRuby и BioPerl. SAM/BAM датотеките го користат CIGAR (од англ., Compact Idiosyncratic Gapped Alignment Report) форматот за да претстават порамнување на секвенца на референца со шифрирање на секвенца на настани (на пример, согласување/несогласување, инсерции, делеции).[6]

Глобално и локално порамнување[уреди | уреди извор]

Глобалните порамнувања, кои се обидуваат да ги порамнат сите остатоци во секоја секвенца, се најкорисни кога испитуваните секвенци се слични и со приближно еднаква големина. (Ова не значи дека глобалните порамнувања не можат да започнат и/или да завршат со празнини.) Честа техника за глобално порамнување е Нидлман–Вуншовиот алгоритам, кој е базиран на динамичко програмирање. Локалните порамнувања се повеќе корисни за секвенци со низок степен на сличност, за кои се смета дека содржат региони на сличност или слични секвенциски мотиви во рамките на поголемиот секвенциски контекст. Смит–Вотермановиот алгоритам е метод кој најчесто се користи за локално порамнување, а се заснова на истата шема на динамичко програмирање, но со дополнителни избори за почеток и крај на кое било место.[4]

Постојат и хибридни методи, познати како полуглобални или „глокални“ методи (кованица за глобално-локални). Тие го бараат најдоброто можно делумно порамнување на двете секвенци (пред порамнувањето треба да се изберат подгрупи на еден или два почетока и еден или два краја). Ова порамнување може да биде особено корисно кога низводниот дел на една секвенца се поклопува со нагорниот дел на другата секвенца. Во овој случај, ниту глобалното ниту локалното порамнување не се сосема соодветни: глобалното порамнување би се проширило надвор од преклопниот регион, додека локалното порамнување не би го покрило целиот регион на преклопување.[7] Друг случај каде полуглобалното порамнување е корисно е кога едната секвенца е кратка (на пример, генска секвенца), а другата секвенца е многу долга (на пример, хромозомска секвенца). Во тој случај, кратката секвенца треба да биде глобално (целосно) порамнета, но за долгата секвенца се бара само локално (парцијално) порамнување.

Порамнување во парови[уреди | уреди извор]

Методите за порамнување во парови се користат за да се најдат најдобрите (локални и глобални) порамнувања на две испитувани секвенци. Порамнувањето во парови може да се користи само помеѓу две секвенци во исто време, но тие се ефикасни за пресметување и често се користат за методи кои не бараат голема прецизност (како што е пребарување на база на податоци за секвенци со висока сличност со испитуваната секвенца). Трите основни методи на добивање на порамнување во парови се методите на точкеста матрица, динамичкото програмирање и методите со кратки зборови;[1] сепак, техниките за порамнување на повеќе секвенци, исто така, можат да се користат за порамнување на парови на секвенци. Иако секоја од методите има свои предности и недостатоци, сите три методи имаат тешкотии со високо повторливи (репетитивни) секвенци со ниско ниво на информациска содржина - особено каде бројот на повторувања се разликуваат во двете секвенци кои треба да се порамнат. Еден од начините за квантифицирање на корисноста на дадено порамнување во парови е MUM (од англ., maximum unique match), или најдолгата потсеквенца која се јавува во двете испитувани секвенци. Подолгите MUM секвенци обично означуваат поблиска сродност.

Методи на точкеста матрица[уреди | уреди извор]

Самоспоредба на дел од геномот на глушец. Дијаграмот на точкеста матрица прикажува мрежа од линии, кои означуваат дуплицирани сегменти на ДНК.
ДНК дијаграм на точкеста матрица на транскрипционен фактор на цинков прст кај човек (GenBank ID NM_002383). Главната дијагонала го претставува порамнувањето на секвенцата со самата себе; линиите надвор од главната дијагонала претставуваат слични или повторувачки региони во секвенцата.

Концепциски едноставен и квалитативен пристап е пристапот на точкеста матрица, чија негативна страна е што одзема многу време за извршување на обемни анализи. Во отсуството на шум, со овој метод многу лесно визуелно се идентификуваат одредени својства на секвенцата, како што се инсерции, делеции, повторувања или превртени повторувања. За да се конструира дијаграм на точкеста матрица, едната секвенца се наведува по должината на најгорниот ред, а другата секвенца се наведува по должината на најлевата колона од дводимензионалната матрица. Потоа се нанесува точка во секое квадратче каде постои поклопување (совпаѓање) на знаците од секвенците, што претставува типичен дијаграм на повторливост. Некои имплементации ја менуваат големината или интензитетот на точката во зависност од степенот на сличност на двата знака, за да се прикажат конзервативните замени (супституции). Дијаграмите на точкеста матрица на многу блиску сродни секвенци имаат изглед на единечна линија која се движи по главната дијагонала на матрицата.

Негативни страни на дијаграмите на точкестата матрица како техника за прикажување на информации се: шумот, недостатокот на јасност, неинтуитивноста, тешкотии за екстракција на статистички податоци за поклопувањата, наоѓањето на позициите на поклопување на двете секвенци, заземањето на голем простор од шумот и ограниченоста на само две секвенци.

Дијаграмите на точкестата матрица, исто така, можат да се користат за процена на повторливоста во една секвенца. Тоа се постигнува со нанесување на истата секвенца и по хоризонтала и по вертикала во дијаграмот, па регионите на секвенцата што споделуваат голема сличност ќе се појават како линии надвор од главната дијагонала. Овој ефект се јавува кога протеинот содржи повеќе слични структурни домени.

Динамичко програмирање[уреди | уреди извор]

Техниката на динамичко програмирање може да се примени за добивање на глобално порамнување на секвенци преку Нидлман–Вуншовиот алгоритам, и за добивање на локално порамнување на секвенци преку Смит–Вотермановиот алгоритам. Порамнувањата на протеинските секвенци користат матрица на замена (матрица на супституција) за доделување на бодови на совпаѓањата или несовпаѓањата на аминокиселините, и казни за празнини во едната секвенца, каде нема порамнување со соодветен остаток од другата секвенца. Порамнувањата на ДНК и РНК секвенците може исто така да користат матрица на замена, но во пракса често едноставно се доделува позитивна вредност за совпаѓање, негативна вредност за несовпаѓање и негативна вредност за празнина. Често се во употреба и две различни вредности за казна за празнина во секвенцата; едната е за отворање на празнина, а другата е за проширување (екстензија) на празнина. Обично казната за отворање на празнина е многу поголема од казната за проширување на празнина; на пример, казна од -10 за отворање на празнина и казна од -2 за проширување на празнина.

Динамичкото програмирање може да биде корисно за порамнување на нуклеотидна секвенца во однос на протеинска секвенца, која задача е комплицирана поради потребата да се земат во предвид фрејмшифт мутациите (обично инсерции или делеции). Фрејмсрч методот создава серија на глобални или локални порамнувања во парови помеѓу испитуваната нуклеотидна секвенца и група на протеински секвенци, или обратно. Неговата способност да евалуира фрејмшифт, кои се компензираат со произволен број нуклеотиди, го прави корисен метод за оние секвенци кои содржат голем број на индели, кои многу тешко се порамнуваат со поефикасните хевристички методи. Во пракса, методот бара голема компјутерска моќ или систем чија архитектура е специјализирана за динамичко програмирање. BLAST и EMBOSS алгоритмите обезбедуваат основни алатки за создавање на транслатирани порамнувања (иако некои од овие пристапи ги искористуваат несаканите ефекти од способноста за пребарување на секвенци на овие алатки). Достапни се и поопшти методи од комерцијални извори, како што е FrameSearch, дистрибуиран како дел од Accelrys GCG пакетот, и софтвер со отворен код (оpen-source software), како што е Genewise.

Методот на динамичко програмирање загарантирано наоѓа оптимално порамнување, со дадена функција за бодување; сепак, идентификувањето на добра функција за бодување често претставува емпириска, а не теоретска проблематика. Иако динамичкото програмирање може да се примени на повеќе од две секвенци, тоа е премногу бавно за голем број на секвенци или исклучително долги секвенци.

Методи со кратки зборови[уреди | уреди извор]

Методите со кратки зборови, исто така познати како к-tuple методи, се хевристички методи кои не гарантираат пронаоѓање на оптимално порамнување на секвенците, но се значително поефикасни во споредба со динамичкото програмирање. Овие методи се особено корисни при пребарувањата на големите бази на податоци, каде се очекува дека поголемиот дел од секвенците немаат значително совпаѓање со испитуваната секвенца. Методите со кратки зборови се применуваат во познатите и широко-користени алатки за пребарување на базите на податоци FASTA и BLAST.[1] Кај овие методи се идентификуваат серија на кратки, непреклопувачки потсеквенци („зборови“) во испитуваната секвенца, кои потоа се споредуваат со секвенците од базата на податоци. Релативните позиции на „зборот“ во двете секвенци што треба да се споредат се одземаат за да се добие вредност на поместување; на овој начин, доколку неколку различни зборови го произведат истото поместување, ќе се манифестира регион на порамнување. Само ако се открие ваков регион, потоа се пристапува кон примена на почувствителни критериуми за порамнување. На овој начин се елиминираат многу непотребни споредби помеѓу секвенците кои немаат доволна сличност.

Кај методот FASTA, корисникот дефинира вредност k за должина на „зборот“ кој ќе се користи за пребарување на базата на податоци. Методот е побавен и почувствителен доколку се користат пониски вредности за k, кои се преферираат доколку испитуваната секвенца е многу кратка. Семејството на методите за пребарување BLAST обезбедува повеќе алгоритми оптимизирани за одредени типови на пребарувања, како што е, на пример, пребарување и споредување на далечно сродни секвенци. BLAST (од англ., Basic Local Alignment Search Tool) бил развиен како побрза алтернатива на FASTA, без поголемо жртвување на точноста. Слично на FASTA, и BLAST користи збор за пребарување со должина k, но ги евалуира само позначајните совпаѓања на зборовите, а не секој збор како кај FASTA. Повеќето имплементации на BLAST користат фиксна должина на зборот, која е оптимизирана според типот на испитуваната секвенца и типот на базата на податоци која треба да се пребарува. Ова може да се промени само под посебни околности, како, на пример, при пребарување на многу кратки секвенци или повторувачки секвенци. Имплементациите може да се најдат преку голем број на веб портали, како што се EMBL FASTA и NCBI BLAST.

Порамнување на повеќе секвенци[уреди | уреди извор]

Порамнување на секвенците на 27 хемаглутинини на птичјиот грип, обоени според сочуваноста на аминокиселинските остатоци (горе) и според својствата на аминокиселинските остатоци (доле).

Порамнувањето на повеќе секвенци се користи за истовремено порамнување на повеќе од две секвенци. Овие методи на порамнување се обидуваат да ги порамнат сите секвенци од одредена група која е цел на проучување. Тие најчесто се користат за идентификување на региони со сочувани секвенци кои можат да бидат резултат на еволутивно сродство. Ваквите сочувани секвенциски мотиви, заедно со структурни и механистички информации, можат да послужат за лоцирање на каталитички активните места на ензимите. Порамнувањето на повеќе секвенци, исто така, се користи за откривање на еволутивните односи преку конструирање на филогенетски дрва. Порамнувањата на повеќе секвенци компутационо тешко се добиваат, а повеќето формулации на проблемот доведуваат до НП-комплетни проблеми на комбинаториска оптимизација.[8][9] Сепак, корисноста на овие порамнувања во биоинформатиката доведе до развојот на различни методи погодни за порамнување на три или повеќе секвенци.

Динамичко програмирање[уреди | уреди извор]

Теоретски, техниката на динамичко програмирање може да се примени за кој било број на секвенци; сепак, бидејќи е компутационо доста скапа, и во однос на време и во однос на меморија, многу ретко се користи за повеќе од три или четири секвенци. За овој метод потребна е конструкција на n-димензионалниот еквивалент на секвенциската матрица формирана од две секвенци, каде n е бројот на секвенците кои се споредуваат. Стандардното динамичко програмирање прво се изведува за сите парови на испитуваните секвенци, а потоа „просторот на порамнување“ се пополнува со земање во предвид на можните совпаѓања или празнини во интермедијалните позиции, со што, на крај, се добива порамнување кое е во суштина порамнување на претходно веќе добиени порамнувања. Иако оваа техника е компутационо доста скапа, таа гарантира оптимално глобално решение во случаите каде само неколку секвенци треба прецизно да бидат порамнети. Еден метод за намалување на компутационата цена на динамичкото програмирање, кој се потпира на „збир од парови“ објективна функција, е искористен во MSA софтверскиот пакет.[10]

Прогресивни методи[уреди | уреди извор]

Прогресивните, хиерархиски, или методи на филогенетско дрво генерираат порамнување на повеќе секвенци на тој начин што најпрво ги порамнуваат најсличните секвенци, а потоа сукцесивно додаваат сѐ помалку сродни секвенци на порамнувањето. Почетното филогенетско дрво кое ја опишува сродноста на секвенците е засновано на споредби во парови, кои може да вклучуваат хевристички методи слични на FASTA. Резултатите на овие методи зависат од изборот на „најсродни“ секвенци, па затоа можат да бидат чувствителни на грешки во првичното порамнување во парови. Повеќето прогресивни методи за порамнување на повеќе секвенци дополнително ги проценуваат секвенците врз основа на нивната сродност, со што се намалува веројатноста за правење на лош избор за почетни секвенци и на тој начин се зголемува точноста на порамнувањето.

Во употреба се повеќе варијации на Clustal прогресивната имплементација[11][12][13] за порамнување на повеќе секвенци, конструкција на филогенетски дрва и како инпут за предвидување на структурата на белковините. Побавна, но поточна варијанта на прогресивниот метод е T-Coffee (од англ., Tree-based Consistency Objective Function for Alignment Evaluation).[14]

Итеративни методи[уреди | уреди извор]

Итеративните методи се обидуваат да ја подобрат големата зависност од точноста на иницијалните порамнувања во парови, што е слабата точка на прогресивните методи. Итеративните методи оптимизираат објективна функција која е заснована на избран метод за бодување на порамнувањето, со назначување на иницијално глобално порамнување, а потоа со повторно порамнување на подгрупи во секвенците. Повторно порамнетите подгрупи потоа самите се порамнуваат за да се произведе порамнувањето на повеќе секвенци за следната итерација.[15]

Пронаоѓање на мотиви[уреди | уреди извор]

Пронаоѓањето на мотиви, исто така познато како профилна анализа, конструира глобално порамнување на повеќе секвенци со обид да се порамнат кратки сочувани секвенциски мотиви кај проучуваните секвенци. Ова најчесто се прави на тој начин што прво се конструира општо глобално порамнување на повеќе секвенци, по што високо сочуваните региони се изолираат и се користат за конструкција на група на профилни матрици. Профилната матрица за секој сочуван регион е аранжира како матрица за бодување, но фреквенциите кои се користат за секоја аминокиселина или нуклеотид за секоја позиција се добиваат од дистрибуцијата на карактери (знаци) на сочуваниот регион, наместо од поопшта емпириска дистрибуција. Профилните матрици потоа се користат за пребарување на други секвенци кои го содржат тој карактеризиран мотив. Во случаи каде оригиналниот збир на податоци содржи мал број на секвенци, или само многу блиску сродни секвенци, се додаваат псевдокаунтови за нормализирање на дистрибуцијата на карактерите (знаците) претставени во мотивот.

Техники инспирирани од компјутерската наука[уреди | уреди извор]

Голем број на општи алгоритми за оптимизација, кои често се користат во компјутерската наука, исто така, се применуваат за решавање на проблемот на порамнување на повеќе секвенци. Скриените Маркови модели се користат за добивање на бодови за веројатност за семејство на можни порамнувања на повеќе секвенци. Скриените Маркови модели се особено ефикасни за откривање на далечно сродни секвенци, бидејќи тие се помалку подложни на шумот создаден од конзервативни или семиконзервативни супституции.[16] Генетските алгоритми и Simulated annealing (SA), исто така, се користат за оптимизација на бодовите за порамнување на повеќе секвенци.

Филогенетски анализи[уреди | уреди извор]

Филогенетиката и порамнувањето на секвенци се тесно поврзани дисциплини, што се должи на нивната заедничка потреба од процена на сродноста на одделни секвенци.[17] Филогенетиката како дисциплина често ги користи порамнувањата на секвенци за конструкција и интерпретација на филогенетски дрва, кои се користат за класифицирање на еволутивните односи помеѓу хомологните гени во геномите на различни видови на организми. Степенот на различност на две или повеќе секвенци е квалитативна мерка за нивната еволутивна оддалеченост. Грубо кажано, висок степен на идентичност помеѓу секвенци сугерира релативно скорешен најблизок древен заеднички предок, додека низок степен на идентичност сугерира подамнешен најблизок древен заеднички предок. Оваа апроксимација, која ја рефлектира хипотезата на „молекуларен часовник“, дека приближно константната стапка на еволутивна промена може да се искористи за да се екстраполира изминатото време од дивергенцијата на два гена (т.е. времето на коалесценција), претпоставува дека ефектите на мутација и селекција се константни низ секвенциските лози. Затоа, таа не ги зема в предвид можните разлики меѓу организмите во стапките на поправка на нивната ДНК или можната функционална сочуваност на одредени региони во секвенцата. (Во случајот на нуклеотидни секвенци, хипотезата на молекуларен часовник во својата најосновна форма, исто така, не ја зема в предвид разликата во стапките меѓу тивките мутации, кои не го менуваат значењето на даден кодон, и други мутации кои резултираат со вметнување различна аминокиселина во протеинот). Статистички поточните методи овозможуваат стапката на еволуција на секоја гранка од филогенетското дрво да варира, со што се создаваат подобри проценки на времето на коалесценција на гените.

Прогресивните техники за порамнување на повеќе секвенци по природа создаваат филогенетско дрво во текот на нивната работа, бидејќи тие ги инкорпорираат секвенците во растечкото порамнување според нивната сродност. Други техники за порамнување на повеќе секвенци и конструкција на филогенетски дрва, прво ги бодуваат и ги сортираат дрвата, а потоа пресметуваат порамнување на повеќе секвенци од дрвото со највисоки бодови. Најчесто користените методи за градење на филогенетски дрва се главно хевристички, бидејќи проблемот на селектирање на оптималното дрво, како и проблемот на селектирање на оптималното порамнување на повеќе секвенци, е НП-тежок проблем.[18]

Проценка на значајност[уреди | уреди извор]

Порамнувањето на секвенци е корисно во биоинформатиката за идентификување на сличност на секвенци, за конструирање на филогенетски дрва и за развивање на хомолошки модели на протеински структури. Меѓутоа, биолошката релевантност на порамнувањето на секвенци не е секогаш јасна. Често се претпоставува дека порамнувањата одразуваат одреден степен на еволутивна промена помеѓу секвенците кои потекнуваат од заеднички предок, но формално е можно да конвергентна еволуција создаде сличност меѓу протеини кои инаку се еволутивно несродни, а вршат слични функции и имаат слични структури.

Кај методите за пребарување на бази на податоци, како што е BLAST, статистичките методи можат да ја определат веројатноста за појава на порамнување помеѓу одредени секвенци или региони на секвенци на база на случајност, имајќи ја предвид големината и составот на базата на податоци која се пребарува. Овие вредности можат значително да варираат во зависност од просторот на пребарувањето. Веројатноста за наоѓање на случајно порамнување особено се зголемува ако базата на податоци се состои само од секвенци од истиот организмот. Репетитивните секвенци во базата на податоци можат исто така да ги нарушат резултатите на пребарувањето и проценката на статистичка значајност; BLAST автоматски ги филтрира таквите репетитивни секвенци во пребарувачот, за да избегне лажни резултати кои се статистички артефакти.

Методи за проценка на статистичка значајност за порамнување на секвенци се достапни во литературата.[17][19][20][21][22][23][24][25]

Проценка на кредибилитет[уреди | уреди извор]

Статистичката значајност укажува на веројатноста да порамнување со даден квалитет настане случајно, но не укажува на тоа колку одредено порамнување е супериорно во однос на алтернативни порамнувања на истите секвенци. Мерките за кредибилитет за порамнувањето укажуваат на степенот до кој највисоко бодуваните порамнувања за даден пар на секвенци се слични меѓу себе. Методите за проценка на кредибилитетот на порамнувањата се достапни во литературата.[26]

Функции за бодување[уреди | уреди извор]

Изборот на функција за бодување која ги одразува биолошките или статистичките набљудувања за познатите секвенци е важен чекор за добивање на добри порамнувања на секвенци. Протеинските секвенци обично се порамнуваат со помош на матрици на супституција, кои ги одразуваат веројатностите за дадените супституции на карактер-во-карактер. Серија на матрици, наречени PAM матрици (од англ., Point accepted mutation), кои првично биле дефинирани од Маргарет Дејхоф, експлицитно кодираат еволутивни апроксимации во однос на стапките и веројатностите за одредени аминокиселински мутации. Друга честа серија на матрици за бодување, позната како BLOSUM (од англ., Blocks Substitution Matrix), ги кодира емпириски изведените веројатности за супституција. Варијанти на двата типа на матрици се користат за откривање на секвенци со различни степени на дивергенција, на тој начин овозможувајќи им на корисниците на BLAST или FASTA да ги ограничат пребарувањата на само поблиску сродни секвенци, или да ги прошират за да детектираат повеќе дивергентни секвенци. Казните за празнина се однесуваат на воведувањето на празнина (во еволутивниот модел тоа претставува инсерциона или делециона мутација), како за нуклеотидните така и за протеински секвенци, па затоа казнените поени треба да бидат пропорционални на очекуваната стапка на овие мутации. Од овие причини, квалитетот на добиените порамнувања на секвенци зависи од квалитетот на функцијата за бодување.

Други примени во биологијата[уреди | уреди извор]

Секвенционираната РНК, како што е EST (expressed sequence tag) и целосна иРНК, може да биде порамнета со секвенционираниот геном за да се пронајде локацијата на генот и да се добијат информации за алтернативен сплајсинг[27] и уредување на РНК.[28] Порамнувањето на секвенците претставува исто така дел од асемблирањето на геномите, каде секвенците се порамнуваат за да се пронајдат преклопувања, што овозможува да се формираат contigs (долги делови на секвенца).[29] Друга примена е во SNP (еднонуклеотиден полиморфизам) анализата, каде се порамнуваат секвенци од различни поединци за да се најдат единечни базни парови кои често се различни во дадена популација.[30]

Поврзано[уреди | уреди извор]

Наводи[уреди | уреди извор]

  1. 1,0 1,1 1,2 Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (2nd издание). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.. ISBN 978-0-87969-608-5. 
  2. „Clustal FAQ #Symbols“. Clustal. конс. 8 December 2014. 
  3. Ng PC; Henikoff S (мај 2001 г). Predicting deleterious amino acid substitutions. „Genome Res“ том  11 (5): 863–74. doi:10.1101/gr.176601. PMID 11337480. 
  4. 4,0 4,1 Polyanovsky, V. O.; Roytberg, M. A.; Tumanyan, V. G.. Comparative analysis of the quality of a global algorithm and a local algorithm for alignment of two sequences. „Algorithms for Molecular Biology“ том  6 (1): 25. doi:10.1186/1748-7188-6-25. PMID 22032267. 
  5. Schneider TD; Stephens RM. Sequence logos: a new way to display consensus sequences. „Nucleic Acids Res“ том  18 (20): 6097–6100. doi:10.1093/nar/18.20.6097. PMID 2172928. PMC: 332411. http://nar.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=2172928. 
  6. „Sequence Alignment/Map Format Specification“ (PDF). 
  7. Brudno M; Malde S; Poliakov A; Do CB; Couronne O; Dubchak I; Batzoglou S. Glocal alignment: finding rearrangements during alignment. „Bioinformatics“. 19 том  Suppl 1 (90001): i54–62. doi:10.1093/bioinformatics/btg1005. PMID 12855437. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=12855437. 
  8. Wang L; Jiang T.. On the complexity of multiple sequence alignment. „J Comput Biol“ том  1 (4): 337–48. doi:10.1089/cmb.1994.1.337. PMID 8790475. 
  9. Elias, Isaac. Settling the intractability of multiple alignment. „J Comput Biol“ том  13 (7): 1323–1339. doi:10.1089/cmb.2006.13.1323. PMID 17037961. 
  10. Lipman DJ; Altschul SF; Kececioglu JD. A tool for multiple sequence alignment. „Proc Natl Acad Sci USA“ том  86 (12): 4412–5. doi:10.1073/pnas.86.12.4412. PMID 2734293. PMC: 287279. Bibcode1989PNAS...86.4412L. http://www.pnas.org/cgi/pmidlookup?view=long&pmid=2734293. 
  11. Higgins DG, Sharp PM. CLUSTAL: a package for performing multiple sequence alignment on a microcomputer. „Gene“ том  73 (1): 237–44. doi:10.1016/0378-1119(88)90330-7. PMID 3243435. http://linkinghub.elsevier.com/retrieve/pii/0378-1119(88)90330-7. 
  12. Thompson JD; Higgins DG; Gibson TJ.. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. „Nucleic Acids Res“ том  22 (22): 4673–80. doi:10.1093/nar/22.22.4673. PMID 7984417. PMC: 308517. http://nar.oxfordjournals.org/content/22/22/4673. 
  13. Chenna R; Sugawara H; Koike T; Lopez R; Gibson TJ; Higgins DG; Thompson JD.. Multiple sequence alignment with the Clustal series of programs. „Nucleic Acids Res“ том  31 (13): 3497–500. doi:10.1093/nar/gkg500. PMID 12824352. PMC: 168907. http://nar.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=12824352. 
  14. Notredame C; Higgins DG; Heringa J.. T-Coffee: A novel method for fast and accurate multiple sequence alignment. „J Mol Biol“ том  302 (1): 205–17. doi:10.1006/jmbi.2000.4042. PMID 10964570. http://linkinghub.elsevier.com/retrieve/pii/S0022-2836(00)94042-7. 
  15. Hirosawa M; Totoki Y; Hoshida M; Ishikawa M.. Comprehensive study on iterative algorithms of multiple sequence alignment. „Comput Appl Biosci“ том  11 (1): 13–8. doi:10.1093/bioinformatics/11.1.13. PMID 7796270. http://bioinformatics.oxfordjournals.org/cgi/content/abstract/11/1/13. 
  16. Karplus K; Barrett C; Hughey R.. Hidden Markov models for detecting remote protein homologies. „Bioinformatics“ том  14 (10): 846–856. doi:10.1093/bioinformatics/14.10.846. PMID 9927713. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=9927713. 
  17. 17,0 17,1 Ortet P; Bastien O. Where Does the Alignment Score Distribution Shape Come from?. „Evolutionary Bioinformatics“ том  6: 159–187. doi:10.4137/EBO.S5875. PMID 21258650. PMC: 3023300. http://www.la-press.com/where-does-the-alignment-score-distribution-shape-come-from-article-a2393. 
  18. Felsenstein J. (2004). Inferring Phylogenies. Sinauer Associates: Sunderland, MA. ISBN 978-0-87893-177-4. 
  19. Altschul SF; Gish W (1996). Local Alignment Statistics. Methods in Enzymology. 266. стр. 460–480. doi:10.1016/S0076-6879(96)66029-7. ISBN 9780121821678. 
  20. Hartmann AK. Sampling rare events: statistics of local sequence alignments. „Phys. Rev. E“ том  65 (5): 056102. doi:10.1103/PhysRevE.65.056102. PMID 12059642. Bibcode2002PhRvE..65e6102H. 
  21. Newberg LA. Significance of gapped sequence alignments. „J Comput Biolo“ том  15 (9): 1187–1194. doi:10.1089/cmb.2008.0125. PMID 18973434. 
  22. Eddy SR; Rost, Burkhard. Rost, Burkhard. уред. A probabilistic model of local sequence alignment that simplifies statistical significance estimation. „PLoS Comput Biol“ том  4 (5): e1000069. doi:10.1371/journal.pcbi.1000069. PMID 18516236. Bibcode2008PLSCB...4E0069E. 
  23. Bastien O; Aude JC; Roy S; Marechal E. Fundamentals of massive automatic pairwise alignments of protein sequences: theoretical significance of Z-value statistics. „Bioinformatics“ том  20 (4): 534–537. doi:10.1093/bioinformatics/btg440. PMID 14990449. http://bioinformatics.oxfordjournals.org/content/20/4/534.long. 
  24. Agrawal A; Huang X. Pairwise Statistical Significance of Local Sequence Alignment Using Sequence-Specific and Position-Specific Substitution Matrices. „IEEE/ACM Transactions on Computational Biology and Bioinformatics“ том  8 (1): 194–205. doi:10.1109/TCBB.2009.69. PMID 21071807. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5276793. 
  25. Agrawal A; Brendel VP; Huang X. Pairwise statistical significance and empirical determination of effective gap opening penalties for protein local sequence alignment. „International Journal of Computational Biology and Drug Design“ том  1 (4): 347–367. doi:10.1504/IJCBDD.2008.022207. http://inderscience.metapress.com/content/1558538106522500/. 
  26. Newberg LA; Lawrence CE. Exact Calculation of Distributions on Integers, with Application to Sequence Alignment. „J Comput Biolo“ том  16 (1): 1–18. doi:10.1089/cmb.2008.0137. PMID 19119992. 
  27. Kim N; Lee C (2008). Bioinformatics detection of alternative splicing. Methods in Molecular Biology™. 452. стр. 179–97. doi:10.1007/978-1-60327-159-2_9. ISBN 978-1-58829-707-5. 
  28. Genome-wide identification of human RNA editing sites by parallel DNA capturing and sequencing. „Science“ том  324 (5931): 1210–3. мај 2009 г. doi:10.1126/science.1170995. PMID 19478186. Bibcode2009Sci...324.1210L. 
  29. Whole genome assembly from 454 sequencing output via modified DNA graph concept. „Comput Biol Chem“ том  33 (3): 224–30. јуни 2009 г. doi:10.1016/j.compbiolchem.2009.04.005. PMID 19477687. 
  30. Duran C; Appleby N; Vardy M; Imelfort M; Edwards D; Batley J (мај 2009 г). Single nucleotide polymorphism discovery in barley using autoSNPdb. „Plant Biotechnol. J.“ том  7 (4): 326–33. doi:10.1111/j.1467-7652.2009.00407.x. PMID 19386041.