Предвидување на структурата на белковините

Од Википедија — слободната енциклопедија
Прејди на прегледникот Прејди на пребарувањето
Составните аминокиселини на една белковина може да бидат анализирани за да се предвиди секундарната, терциерната и квартерната структура на таа белковина.

Предвидување на структурата на белковините е процесот на изведување на тродимензионалната структура на белковините од нивната аминокиселинска секвенца, т.е., предвидувањето на нивното склопување и нивната секундарна и терциерна структура од нивната примарна структура. Предвидувањето на структурата е фундаментално различен проблем од инверзниот проблем на дизајнирање на белковини. Предвидување на структурата е една од најважните дејности на биоинформатиката и теоретската хемија, која е мошне значајна во медицината (на пример, за дизајнирање на нови лекови) и во биотехнологијата (за пример, за дизајнирање на нови ензими). Секои две години, перформансите на постојните методи се оценуваат со CASP експериментот (од анг. Critical Assessment of Techniques for Protein Structure Prediction - критична процена на техники за предвидување на структурата на белковините). Континуирана проценка на веб серверите за предвидувањето на структурата на белковините се врши од страна на проектот CAMEO3D (од анг. Continuous Automated Model EvaluatiOn).

Структура на белковините и терминологија[уреди | уреди извор]

Белковините (протеините) се макромолекули изградени од аминокиселини поврзани меѓусебе со пептидни врски (наречени и полипептиди). Постојат многу конформации кои може да ги заземе полипептидната верига поради нејзината ротација околу секој Cα атом. Овие конформациони промени се одговорни за разликите во тродимензионалната структура на протеините. Секоја аминокиселина во полипептидната верига е поларна, односно поседува одвоени позитивно и негативно наелектризирани региони, со слободна карбонилна група, која може да игра улога на акцептор на водородна врска, и NH група, која може да игра улога на донор на водородна врска. Затоа овие групи може да стапуваат во интеракција во склоп на протеинската структура. Дваестте природни аминокиселини може да се класифицираат според хемискиот состав на нивните странични ланци, кои исто така играат важна структурна улога. Глицинот зазема посебна позиција, бидејќи го има најмалиот страничен ланец, т.е. само еден водороден атом, па затоа може да ја зголеми локалната флексибилност во протеинската структура. Цистеинот може да реагира со друг цистеински остаток и на тој начин да формира вкрстена врска која ја стабилизира целата протеинска структура.

Протеинската структура може да се смета како низа од елементи на секундарната структура, како што се α хеликсите и β плочите, кои заедно ја чинат целокупната тродимензионална конфигурација на полипептидниот синџир. Во овие секундарни структури се формираат правилни шеми на водородни врски помеѓу соседните аминокиселини, па затоа аминокиселините имаат слични Φ и Ψ агли.

Агли на врзување ψ и ω

Формирањето на овие структури ги неутрализира поларните групи на секоја аминокиселина. Секундарните структури густо се спакувани во јадрото на протеинската молекула каде владее хидрофобна средина. Секоја странична група на аминокиселините има ограничен волумен што може да го заземе и ограничен број на можни интеракции со другите соседни странични групи.[1]

α-хеликс[уреди | уреди извор]

Crystal Clear app xmag.svg Главна статија: „Алфа хеликс.

Алфа (α) хеликс е најзастапениот вид на секундарна структура кај протеините. Алфа хеликсот има 3,6 аминокиселински остатоци по едно свртување, со водородна врска која се формира помеѓу секој четврти остаток; просечната должина е 10 аминокиселини (3 свртувања) или 10 Å, но варира од 5 до 40 (1.5 до 11 свртувања). Порамнувањето на водородните врски создава диполен момент на хеликсот, што резултира со делумно позитивен полнеж на амино крајот на хеликсот. Бидејќи овој регион има слободни NH2 групи, тој би стапувал во интеракција со негативно наелектризирани групи како што се фосфати. Најчестата локација на α хеликсите е површината на протеинското јадро, каде тие обезбедуваат интерфејс со водената средина. Внатрешно-ориентираните аминокиселини се хидрофобни, а надворешно-ориентираните се хидрофилни. На тој начин, секоја трета од четирите аминокиселини долж полипептидниот синџир ќе има тенденција да биде хидрофобна, а оваа шема може доста лесно да се детектира. Во мотивот леуцински патент има повторувачка шема на леуцини на контактните страни на два соседни хеликса. Оваа повторлива шема може да се прикаже со дијаграм на хеликсно тркало. Други α хеликси кои се наоѓаат во јадрото на протеинот или во клеточните мембрани имаат поголема и поредовна дистрибуција на хидрофобни аминокиселини. Хеликсите кои се изложени на протеинската површина имаат помал процент на хидрофобни аминокиселини. Аминокиселинската содржина на еден полипептид може да даде информации за α-хеликсните региони во молекулата. Регионите кои се побогати со аланин (А), глутаминска киселина (E), леуцин (Л) и метионин (М), а сиромашни со пролин (P), глицин (G), тирозин (Y) и серин (S) имаат тенденција да формираат α хеликс. Пролинот ги дестабилизира или ги нарушува α хеликсите, но може да биде присутен во подолгите хеликси, формирајќи искривување.

Алфа хеликс со водородни врски (жолти точки)

β-плоча[уреди | уреди извор]

Crystal Clear app xmag.svg Главна статија: „Бета плоча.

Бета (β) плочите се формираат по пат на водородно поврзување помеѓу просечно 5-10 последователни аминокиселински остатоци, во еден дел од полипептидниот синџир, со други 5-10 последователни аминокиселински остатоци на подалечен крај од синџирот. Регионите кои стапуваат во интеракција може да се во непосредна близина, со кратка петелка меѓу нив, или повеќе оддалечени, со други структури меѓу нив. Секој од синџирите може да биде во истата насока па да формираат паралелна плоча, или да бидат во спротивна хемиска насока па да формираат антипаралелна плоча, или плочата може да биде мешана ако поседува и паралелни и антипаралелни нишки. Шемата на водородното врзување се разликува кај паралелните и антипаралелните конфигурации. Секоја аминокиселина од внатрешните нишки на плочата формира две водородни врски со соседните аминокиселини, додека секоја аминокиселина од надворешните нишки формира само една водородна врска со внатрешна нишка. Гледајќи низ плочата под прав агол во однос на нишките, подалечните нишки малку се ротирани спротивно од стрелките на часовникот за да формираат левогир вртеж. Cα атомите наизменично се менуваат над и под плочата во набрана структура, а страничните ланци на аминокиселините наизменично се поставени над и под наборите. Аглите Φ и Ψ на аминокиселините во бета плочите значително се разликуваат во еден регион на Рамачандрановиот дијаграм. Потешко се предвидува локацијата на β плочите во однос на α хеликсите.

Петелка[уреди | уреди извор]

Петелки се региони од полипептидната верига, кои: 1) се наоѓаат помеѓу α хеликсите и β плочите, 2) имаат различни должини и тродимензионални конфигурации и 3) се наоѓаат на површината на структурата.

Петелките на шнолите кои прават целосен пресврт во полипептидниот синџир поврзуваат две антипаралелни β-нишки и можат да бидат само две аминокиселини во должина. Петелките стапуваат во интеракција со околната водена средина и другите протеини. Бидејќи аминокиселините во петелките не се просторно ограничени, како аминокиселините во јадрото, и немаат ефект врз аранжманот на секундарните структури во јадрото, кај нив можат да настанат повеќе супституции, инсерции и делеции. Така, во порамнувањето на секвенците, присуството на овие особини може да биде показател за присуство на петелка. Позициите на интроните во геномската ДНК понекогаш одговараат на локациите на петелките во кодираниот протеин. Петелките, исто така, имаат тенденција да содржат поларни и наелектризирани аминокиселини и тие често се дел од активните места на ензимите. Деталниот преглед на структурите на петелките покажал дека тие припаѓаат на различни фамилии.

Навои[уреди | уреди извор]

Регион од секундарната структура кој не е α-хеликс, β-плоча, или свијок се нарекува навој.[1]

Класификација на белковините[уреди | уреди извор]

Белковините може да се класифицираат според нивната структурна и секвенциска сличност. Кај структурната класификација, големините и просторните аранжмани на секундарните структури се споредуваат со познати тродимензионални структури. Класификацијата врз основа на сличност на секвенците била историски првата која се користела. Најрано била направена сличност врз основа на порамнување на цели секвенци. Подоцна, протеините биле класифицирани врз основа на појавата на сочувани аминокиселини. Достапни се повеќе бази на податоци кои ги класифицираат протеините според една или повеќе од овие шеми. При разгледувањето на шемите за класификација на протеините, важно е да се имаат в предвид неколку набљудувања. Прво, две сосема различни протеински секвенци, со различно еволуционо потекло, може да се склопат во слична структура. Спротивно на тоа, секвенцата на античкиот ген за дадена структура може значително да дивергирала кај различни видови на организми, а во исто време да ги одржала (сочувала) основните структурни карактеристики. Пронаоѓањето на било каква заостаната сличност во секвенците во вакви случаи може да биде многу тешка задача. Второ, два протеина кои имаат значителен степен на сличност во секвенците или меѓусебно или со трета секвенца, исто така, имаат заедничко еволутивно потекло и треба да споделуваат некои структурни карактеристики. Сепак, генските дупликации и генетските преуредувања за време на еволуцијата може да доведат до појава на нови генски копии, кои потоа може да еволуираат во протеини со нова функција и структура.[1]

Термини кои се користат за класификација на белковинските структури и секвенци[уреди | уреди извор]

Најчесто користените термини за еволутивни и структурни односи помеѓу протеините се наведени подолу. Разни дополнителни термини се користат за различни видови на структурни карактеристики кои се среќаваат кај протеините. Описи на такви термини можат да се најде на CATH веб-сајтот, структурна класификација на белковините (SCOP) веб-сајтот, и Glaxo-Wellcome туторијалот на Swiss bioinformatics Expasy веб-сајтот.

Активно место е локализирана комбинација на аминокиселински странични групи во рамките на терциерната (тродимензионална) или квартерна (протеинска подединица) структура која може да стапува во интеракција со хемиски специфичен супстрат и која ја дава биолошката активност на протеинот. Протеините со многу различни аминокиселински секвенци може да се склопат во структура со исто активно место.

Архитектура е релативната ориентација на секундарните структури во тродимензионалната структура, без разлика на тоа дали тие споделуваат слична структура на петелките или не.

Склоп е тип на архитектура која има сочувана структура и на петелките.

Блок е сочувана шема на аминокиселинска секвенца во фамилија на протеини. Шемата вклучува серија на можни совпаѓања на секоја позиција во претставените секвенци, но нема вметнати или избришани позиции (инсерции или делеции) во шемата или во секвенците. Спротивно на тоа, секвенциските профили се тип на бодувачка матрица која претставува сличен сет на шеми кои вклучуваат инсерции и делеции.

Класа е термин кој се користи за класификација на белковинските домени според нивната содржина на секундарни структури и организацијата. Левит и Чотиа (1976) првично навеле четири класи, а подоцна биле додадени уште неколку други во SCOP базата на податоци. CATH базата на податоци наведува три класи: доминантно-α, доминантно-β и α–β класи, со тоа што α–β класата ги вклучува α/β и α+β структурите.

Јадро е дел од склопената протеинска молекула кое се состои од хидрофобна внатрешност на α-хеликси и β-плочи. Оваа компактна структура ги доведува страничните групи на аминокиселините доволно блиску, така што тие можат да стапуваат во интеракција. Кога се споредуваат структурите на протеините, како што се врши во базата на податоци SCOP, јадрото е регионот кој е заеднички за повеќето структури кои имаат заеднички склоп или кои припаѓаат на истата суперфамилија. Во предвидувањето на структурата, јадрото понекогаш се дефинира како распоредот на секундарните структури кои најверојатно е сочуван за време на еволутивната промена.

Домен (во контекст на секвенци) е сегмент од полипептидниот синџир кој може да се склопи во тродимензионална структура без оглед на присуството на други сегменти од синџирот. Посебните домени на даден протеин може да стапуваат екстензивно во интеракција или може да бидат споени преку краток дел од полипептидниот синџир. Протеин со неколку домени (мултидоменски протеин) може да ги користи овие домени за функционални интеракции со различни молекули.

Фамилија (во контекст на секвенци) е група на протеини со слична биохемиска функција, кои се повеќе од 50% идентични кога се порамнети. Една белковинска фамилија содржи белковини со иста функција во различни организми (ортологни секвенци), но исто така може да вклучува и белковини во склоп на истиот организам (паралогни секвенци) добиени со генска дупликација и преуредувања. Фамилиите може понатаму да се поделат на подфамилии или да се групираат во суперфамилии врз основа на соодветни повисоки или пониски нивоа на сличност во секвенците. Базата на податоци SCOP има 1296 фамилии, а базата на податоци CATH (верзија 1.7 бета) има 1846 фамилии.

Кога секвенците на протеините со истата функција се испитуваат подетално, за некои се наоѓаа дека имаат голема секвенциска сличност. Според горенаведените критериуми тие се членови на иста фамилија. Сепак, некои имаат многу мала, дури незначајна, секвенциска сличност со другите членови на истата фамилија. Во такви случаи, фамилијарниот однос помеѓу двата далечни членови на истата фамилија А и Ц може да се демонстрира со наоѓање на дополнителен член на семејството, на пример Б, кој има значителна сличност и со А и со Ц. Така, Б обезбедува врска помеѓу А и Ц.

Со 50% идентична секвенца, протеините имаат иста тродимензионална структура, а идентичните атоми во порамнувањето на секвенците би се поклопиле за приближно 1 Å во структурниот модел. На тој начин, ако структурата на еден член од фамилијата е позната, може да се направи веродостојно предвидување на структурата на втор член на истата фамилија. Што е поголема идентичноста во секвенцата, тоа е поверодостојно предвидувањето на структурата.

Фамилија (во контекст на структура) е, како што се користи во FSSP базата на податоци (од анг. Families of Structurally Similar Proteins - Фамилии на структурно слични белковини) и на DALI/FSSP веб-сајтот, две структури кои имаат значително ниво на структурна сличност, но не мора да имаат значителна сличност во секвенците.

Склопот е сличен на структурниот мотив, вклучува поголема комбинација на единици на секундарната структура во истата конфигурација. На тој начин, протеините кои го споделуваат истиот склоп имаат иста комбинација на секундарни структури кои се поврзани со слични петелки. Еден пример е Розмановиот склоп, кој се состои од неколку наизменични α-хеликси и паралелни β-нишки. Во базите на податоци SCOP, CATH и FSSP, познатите протеински структури се класифицирани во хиерархиски нивоа на структурна комплексност, каде склопот е основното ниво на класификација.

Хомологен домен (во контекст на секвенци) е продолжен секвенциски образец, кој најчесто се детектира со методите за порамнување на секвенците. Тој сигнализира заедничко еволутивно потекло на порамнетите секвенци. Хомологниот домен генерално е подолг од мотивите. Доменот може да ја содржи целата дадена протеинска секвенца или само дел од секвенцата. Некои домени се комплексни и се состојат од неколку помали хомологни домени кои се здружиле за да формираат поголем во текот на еволуцијата. Домен кој ја покрива целата секвенца се нарекува хомеоморфен домен од страна на PIR (од анг. Protein Information Resource - Протеински информативен ресурс).

Модул е регион на сочувани аминокиселински обрасци кои содржат еден или повеќе мотиви, а се смета за основна единица на структура или функција. Присуството на модул, исто така, се користи за класификација на протеините во фамилии.

Мотив (во контекст на секвенца) е сочуван образец на аминокиселини кој се наоѓа во два или повеќе протеина. Во каталогот PROSITE, мотив е аминокиселински образец кој се наоѓа во група на протеини кои имаат слична биохемиска активност, а кој често е сместен во близина на активното место на протеинот. Примери за бази на податоци за секвенциски мотиви се каталогот PROSITE и базата на податоци Stanford Motifs Database.[2]

Мотив (во контекст на структура) е комбинација на неколку елементи на секундарната структура создадени со склопување на соседни делови од полипептидниот синџир во специфична тродимензионална конфигурација. Еден пример е мотивот хеликс-петелка-хеликс. Структурните мотиви се нарекуваат и суперсекундарни структури и склопови.

Матрица за бодување специфична за позиција (во контекст на секвенца) претставува сочуван регион во повеќекратно порамнување на секвенци без празнини. Секоја матриксна колона ја претставува варијацијата најдена во една колона од повеќекратното порамнување на секвенци.

Матрица за бодување специфична за позиција—3D (во контекст на структура) претставува аминокиселинската варијација во порамнувањето на протеините кои спаѓаат во истата структурна класа. Матриксните колони ја претставуваат аминокиселинската варијација најдена во една аминокиселинска позиција во порамнетите структури.

Примарна структура е линеарната аминокиселинска секвенца на протеинот, која од хемиска гледна точка е полипептидна низа составена од аминокиселини врзани со пептидни врски.

Профил (во контекст на секвенца) е бодувачка матрица која претставува повеќекратно порамнување на секвенците на фамилија на протеини. Профилот обично се добива од добро сочуван регион во повеќекратното порамнување. Профилот е во форма на матрица, каде секоја колона претставува позиција во порамнувањето, а секој ред е една од аминокиселините. Матриксните вредности ја даваат веројатноста за секоја аминокиселина на соодветната позиција во порамнувањето. Профилот се поместува по должината на целната секвенца за да ги лоцира најдобро бодуваните региони со алгоритам за динамичко програмирање. Секвенциски профил може, исто така, да биде претставен со скриен модел на Марков (анг. HMM, Hidden Markov Model).

Профил (во контекст на структура) е бодувачка матрица која претставува кои аминокиселини треба добро да се вклопат и кои треба да се вклопат лошо во секвенциски позиции на позната протеинска структура. Колоните на профилот претставуваат секвенциски позиции во структурата, а редовите на профилот ги претставуваат 20-те аминокиселини. Како и со секвенцискиот профил, структурниот профил се поместува по целната секвенца за да го пронајде највисокиот можен бод за порамнување, со алгоритам за динамичко програмирање. Празнините може да бидат вклучени и добиваат казнени бодови. Резултирачката оцена дава индикација за тоа дали целниот протеин може да има таква структура или не.

Квартерна структура е тродимензионална конфигурација на протеинската молекула која содржи неколку независни полипептидни синџири.

Секундарна структура се интеракциите кои се одвиваат помеѓу C, O, и NH групите на аминокиселините во полипептидниот синџир за да формираат α-хеликси, β-плочи, свијоци, петелки и други форми, и кои го олеснуваат склопувањето во тродимензионална структура.

Суперфамилија е група на белковински фамилии кои имаат мала но детектибилна сличност во секвенците. Припадниците на една суперфамилија имаат заедничко еволутивно потекло. Протеини со неколку идентитети во порамнувањето на секвенците, но со заеднички број на структурни и функционални карактеристики се класифицирани во истата суперфамилија. На ниво на тродимензионална структура, протеините од иста суперфамилија споделуваат заеднички структурни карактеристики, како што е заеднички склоп, но може да имаат разлики во бројот и распоредот на секундарните структури. PIR ресурсот го користи терминот хомеоморфни суперфамилии за оние суперфамилии кои се составени од секвенци кои можат да бидат порамнети од крај до крај, што претставува споделување на единечен секвенциски хомологен домен, регион на сличност кој се протега низ целото порамнување. Овој домен, исто така, може да содржи помали хомологни домени кои се споделуваат со други белковински фамилии и суперфамилии. Иако дадена белковинска секвенца може да содржи домени кои се наоѓаат во неколку суперфамилии, што укажува на комплексна еволутивна историја, секвенците ќе бидат доделени само на една хомеоморфна суперфамилија врз основа на присуството на сличност низ повеќекратното порамнување на секвенци. Порамнувањето кај суперфамилиите може да вклучува региони кои не се порамнуваат ниту во средината ниту на краевите на порамнувањето. Спротивно на тоа, секвенците во рамките на иста фамилија добро се порамнуваат по целата должина.

Суперсекундарна структура е термин кој има слично значење со терминот структурен мотив.[1]

Секундарна структура[уреди | уреди извор]

Предвидување на секундарната структура на белковините претставува збир на техники во биоинформатиката кои имаат за цел да ги предвидат локалните секундарни структури на белковините врз основа на познавањето на нивната аминокиселинска секвенца. Предвидување се состои од доделување на региони од аминокиселинската секвенца можни структури на алфа хеликси, бета нишки (често именувани „издолжени“ конформации), или свијоци. Успехот на предвидувањето се одредува со негово споредување со резултатите на DSSP (анг. hydrogen bond estimation algorithm) алгоритмот (или некој сличен алгоритам, на пр. STRIDE (Structural identification)) аплицирани на кристалната структура на протеинот. Развиени се специјализирани алгоритми за детекција на специфични добро-дефинирани обрасци, како што се трансмембранските хеликси и намотаните хеликси во протеините.[1]

Најдобрите денешни методи за предвидување на секундарната структура на белковините достигнуваат точност од околу 80%;[3] оваа висока точност овозможува користење на предвидувањата како алатка за подобрување на препознавањето на склоповите (анг. fold recognition) и ab initio предвидувањето на структурата на белковините, класификација на структурните мотиви и подобрување на порамнувањето на секвенците. Точноста на денешните методи за предвидување на структурата на белковините се проценува со неделни бенчмаркови, како што се LiveBench и EVA.

Терциерна структура[уреди | уреди извор]

Практичната примена на предвидувањето на белковинската структура денес е поважна од било кога. Постојано се продуцираат огромни количества на податоци за белковински секвенци од проектите на ДНК секвенционирање, како што е Проектот за човечки геном. И покрај напорите на полето на структурната геномика, создавањето на експериментално потврдени белковински структури (обично со помош на бавни и релативно скапи методи на рендгенска кристалографија или NMR спектроскопија) значително заостанува зад продукцијата на нови белковински секвенци.

Предвидувањето на протеинската структура останува исклучително тежок и недоволно развиен потфат. Двата главни проблеми се пресметувањето на слободната енергија на протеините и наоѓањето на глобалниот минимум на оваа енергија. Методот за предвидување на структурата на протеините мора да го истражи просторот на можните протеински структури кој е астрономски голем. Овие проблеми можат делумно да се заобиколат со помош на „компаративното“ или хомологно моделирање и методите за препознавање на склопови, во кои просторот за пребарување е редуциран од претпоставката дека испитуваниот протеин би заземал структура која е приближно иста со експериментално утврдената структура на друг хомологен протеин. Од друга страна, de novo или ab initio методите за предвидување на структурата на белковините мора експлицитно да ги решат овие проблеми. Напредокот и предизвиците во предвидувањата на структурата на протеините се разгледани во Zhang 2008.[4]

Квартерна структура[уреди | уреди извор]

Во случај на комплекси од два или повеќе протеини, каде што структурите на протеините се познати или може да се предвидат со висока точност, може да се користат macromolecular docking методите за да се предвиди структурата на комплексот. Информациите за ефектот на мутациите на специфични локации врз афинитетот на комплексот помага да се разбере структурата на комплексот и да се насочуваат macromolecular docking методите.

Софтвер[уреди | уреди извор]

Постојат голем број на софтверски алатки за предвидување на структурата на протеините. Одделните пристапи вклучуваат хомологно моделирање, protein threading (познат и како fold recognition), ab initio методи, предвидување на секундарната структура и предвидување на трансмембрански хеликс и сигнален пептид. Некои неодамнешни успешни методи базирани на CASP експериментите вклучуваат I-TASSER (анг. Iterative Threading ASSEmbly Refinement) и HHpred (HHsearch).

Поврзано[уреди | уреди извор]

Наводи[уреди | уреди извор]

  1. 1,0 1,1 1,2 1,3 1,4 Mount DM (2004). Bioinformatics: Sequence and Genome Analysis. 2. Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1. 
  2. Huang, JY.; Brutlag, DL. (јануари 2001 г). The EMOTIF database. „Nucleic Acids Res“ том  29 (1): 202–04. doi:10.1093/nar/29.1.202. PMID 11125091. 
  3. Pirovano, W.; Heringa, J.. Protein secondary structure prediction. „Methods Mol Biol“. Methods in Molecular Biology том  609: 327–48. doi:10.1007/978-1-60327-241-4_19. ISBN 978-1-60327-240-7. PMID 20221928. 
  4. Zhang Y. Progress and challenges in protein structure prediction. „Curr Opin Struct Biol“ том  18 (3): 342–8. doi:10.1016/j.sbi.2008.02.004. PMID 18436442. 

Литература[уреди | уреди извор]

Надворешни врски[уреди | уреди извор]