Візуалізацыя біялагічнай інфармацыі



 

Бялок — гэта складаная малекула, для якой яе лінейная структура, зададзеная паслядоўнасцю амінакіслот, вызначае унікальную трохмерную фігуру. Гэтая фігура з'яўляецца адной з найважнейшых характарыстык бялка, бо цалкам адказвае за функцыі бялка і яго ўзаемадзеянне іншымі малекуламі. Гэтае ўзаемадзеянне часта заснавана на дапасаванасці фігур, гэта значыць, што ў бялкоў ёсць выпукласці і вогнутасці, якія дазваляюць ім звязвацца адзін з адным і ўтвараць складаныя структуры, такія як скура ці валасы. З гэтае прычыны такую важную ролю пры вынаходніцтве лекаў адыграе пошук малекул, чыя трохмерная форма дазволіць ім далучацца да зададзеных бялкоў ці ферментаў з мэтай замарудзіць ці паскорыць іх дзеянне.

Падчас эвалюцыі ў чалавека добра развілася засвойванне графічнай інфармацыі і распазнаванне вобразаў. Табліцы, дыяграмы і малюнкі часта суправаджаюць многія працы для прасцейшага ўсведамлення інфармацыі. У біяінфарматцы разнастайныя звесткі прадстаўлены ў абстрактнай форме, якая патрабуе далейшай візуалізацыі. Гэта асабліва запатрабавана для візуалізацыі паслядоўнасцяў і структур бялкоў, а таксама для стварэння графічных інтэрфейсаў для карыстальнікаў. Яшчэ адным накірункам з’яўляецца дапамога лікаваму аналізу, асабліва статыстычнаму. У кожнай вобласці прымянення замена тэкставай і лікавай інфармацыі графічнай мае мэтай замену чытання і далейшай лагічнай і матэматычнай інтэрпрэтацыі больш хуткім распазнаваннем вобразаў.

Асноўнай задачай тут з’яўляецца візуалізацыя трохмерных структур бялкоў, з мэтай пошуку лекаў. Візуалізацыя першаснай структуры бялка дае мала ведаў пра яго функцыі. У адрозненне ад візуалізацыі структур вышэйшых парадкаў. Так, разуменню докінгу бялкоў і параўнанню іх структур вельмі спрыяюць трохмерныя выявы гэтых малекул.

Існуе шэраг праглядальнікаў файлаў з такіх банкаў, якія канструіруюць трохмерную выяву бялка. Яны ўсе адрозніваюцца па сваіх магчымасцях і характарыстыках. Пры выбары канкрэтнага сродка трэба кіравацца прастатой выкарыстання, хуткасцю праграмы, апаратнымі патрабаваннямі, дакументацыяй і падтрымкай, а таксама коштам.

Адной з такіх праграм іх з'яўляецца Accelrys.[3] З яе дапамогай даследчык можа візуальна ацаніць структуру бялка. Праграма мае шэраг розных опцый і наладак, магчымасць маштабіравання і павароту выявы, уключэнне і выключэнне паказу зададзеных структурных элементаў, з'яўляецца бясплатнай і кросплатформавай. Наяўнасць такіх візуальных сродкаў дапамагае даследчыку ўбачыць структуру бялка і, напрыклад, параўнаць яе са структурай іншага бялка. На малюнку 1.1 прадстаўлена адна з магчымых форм візуалізацыі бялку.


 

 

 

Малюнак 1.1 - Прадстаўленне трохмернай структуры бялка з дапамогай Accelrys

 

Акрамя гэтага ёсць праглядальнікі інфармацыі з генетычных баз даных.  Прыкладам такой праграмы з’яўляецца NCBI’s Web-base Map Viewer[4]. Гэта анлайнавая праграма з веб-інтэрфейсам, якая праводзіць пошук па некалькіх анлайнавых базах NCBI. Яна дазваляе вучонаму вызначаць месцазнаходжанне канкрэтнага гена ў геноме арганізма, адлегласць паміж генамі ў геноме і прадастаўляе даныя пра ген у нейкім вызначанай храмасомнай вобласці. Праграма працуе ў браўзеры, а ўсе вылічэнні праводзяцца на баку сервераў NCBI. У адрозненне ад аналізу і пабудовы трохмерных структур бялкоў, вылічэнні для візуалізацыі аднамернай паслядоўнасці невялікія.

 

Малюнак 1.2. Даныя пра 8-ю храмасому Homo Sapiens у NCBI’s Map Viewer

На малюнку 1.2 прадстаўлены даныя, атрыманыя з дапамогай NCBI’s Map Viewer, пра восьмую храмасому Homo Sapiens.

 

Пашуковыя сістэмы

 

Адной з мэтаў развіцця біяінфарматыкі з’яўляецца аўтаматызацыя дыягностыкі хвароб і лячэння. Калі кансультацыю з канкрэтным доктарам заменіць канферэнцыя з камп’ютэрам, і пры адсылцы нейкага ўзору, напрыклад, сліны ці крыві, камп’ютэр мог бы прааналізаваць яго, паставіць дыягназ на аснове інфармацыі са шматлікіх баз даных (генетычны профіль пацыента і сям’і, звычкі і абставіны працы, гісторыя захворванняў і іншыя) і прызначыць лячэнне, якое будзе найлепш падыходзіць.

Аднак такі падыход патрабуе сістэмы сувязяў паміж разнастайнымі базамі біялагічных і медыцынскіх даных. Напрыклад, у генетычным профілі павінны прысутнічаць спасылкі на нейкія вобласці ў базах даных нуклеатыдных паслядоўнасцяў, бялковых паслядоўнасцяў, ферментаў і схільнасцямі да хвароб. Такія сувязі неабавязкова відавочныя ці, нават, вядомыя зараз.

На сённяшні дзень гэтыя сувязі паміж данымі ў лічбавым фармаце недастаткова гатовыя, бо знаходзяцца ў розных базах даных. Амаль усе яны пабудаваны на аснове розных і несумяшчальных тэхналогій і выкарыстоўваюць розныя слоўнікі і мовы для аперацый з данымі. Гэта выклікана тым, што базы ствараюцца як асобныя праграмы для выканання некалькіх функцый, а пра іх звязванне задумваюцца звычайна пасля стварэння. Сувязі паміж базамі могуць стварацца дынамічна з дапамогай пашуковых сістэм.

Пры пошуку рашэння задачы малекулярнай біялогіі часта неабходна пераходзіць ад адной базы да іншай і вяртацца назад. Каб дапамагчы ў гэтым працоўным працэсе былі створаны сістэмы атрымання інфармацыі, з зададзеным загадзя сувязямі паміж элементамі ключавых анлайнавых баз даных. Найбольш вядомай з такім інтэгратыўных сістэм з’яўляецца Entrez Нацыянальга Цэнтра Біятэхналагічнай Інфармацыі (NCBI)[5]. Асноўныя базы, якія ўваходзяць у NCBI прадастаўлены на табліцы 1.2.[2]

 

Табліца 1.2 Базы даных у сістэме Entrez

База даных Апісанне
PubMed Біямедычная літаратура
Бялкі Бялковыя паслядоўнасці з PIR, SWISS-PROT, PDB, EMBL
Нуклеатыды Нуклеатыдныя паслядоўнасці з GenBank, EMBL, DDJB (японская база даных ДНК)
Структуры Трохмерныя структуры з PDB
Геномы Разнастайныя базы з генетычнай інфармацыяй
OMIM Чалавечыя гены і генетычныя захворванні
Таксаномія Іерархія відаў арганізмаў у генетычнай базе даных NCBI
Трохмерныя дамены Дамены бялкоў з базы даных NCBI закансервіраваных даменаў

 

У гэтай сістэме сувязі не толькі паміжбазавыя, але і ўнутраныя. Напрыклад, не толькі сувязі прысутнічаюць не толькі паміж PubMed і базай нуклеатыдаў, але і паміж падобнымі элементамі ў самой базе нуклеатыдаў.

Ёсць дзве версіі сістэмы Entrez: адна, якая выкарыстоўвае праграму, што выконваецца лакальна на працоўнай станцыі карыстальніка, называецца Networked Entrez, а другая даступная праз веб-браўзер. Networked Entrez узаемадзейнічае напрамую з дыспетчэрам NCBI з дапамогай усталяванага злучэння кліент-сервер. Аднак, з-за таго, што Network Entrez можа выкарыстоўваць лакальныя вылічальныя рэсурсы, яна можа працаваць значна хутчэй за браўзерны варыянт. Да таго ж яна прадастаўляе больш багаты і зручны інтэрфейс з некалькімі ўкладзенымі вокнамі і больш зручнымі праглядальнікамі паслядоўнасцяў геномаў і трохмерных структур бялкоў. Аднак перавагамі браўзернай версіі з’яўляецца адстутнасць неабходнасці абнаўляць праграму, усталёўваць і наладжваць яе. Таксама браўзерная версія прадстаўляе больш зручны інтэрфейс для пераходу па гіпертэкставых спасылках на старонках адлюстравання інфармацыі.

ГЛАВА 2 ВЫКАРЫСТАННЕ ІНФАРМАЦЫЙНЫХ ТЭХНАЛОГІЙ ДЛЯ ЗАДАЧ ПАРАЎНАННЯ Ў БІЯІНФАРМАТЫЦЫ

§1 Супастаўленне з узорам

 

Аўтаматычнае супастаўленне з узорам – гэта магчымасць праграмы параўноўваць невядомыя і вядомыя ўзоры і вызначаць іх ступень падабенства. Складанасць такой задачы заключаецца ў тым, што трэба не проста знайсці адпаведнік дадзенаму ўзору, а хутка знайсці адзін ці некалькі адпаведнікаў з вялікай базы даных на рэсурсах, якія ёсць у распараджэнні. У дадатак да гэтага, часта паўстае задача знайсці адпаведнікі, якія амаль адпавядаюць ці з’яўляюцца падобнымі да дадзенага ўзора, але паняцце падабенства не вельмі строга азначана ў праграмным ці біялагічным сэнсах.

Выраўніванне паслядоўнасцяў – працэс супастаўлення іх адна пад адной так, каб колькасць супадзенняў была максімальнай, пры гэтым за пропускі і несупадаючыя сімвалы бяруцца нейкія штрафы. Выраўніванне – гэта фундаментальны сродак для вызначэння гамалагічнасці (наяўнасці агульнага продка) і функцыяльнасці бялкоў. Так, калі частка адной паслядоўнасці супадае з часткай другой паслядоўнасці, то можна казаць аб важнасці гэтага кавалка ў эвалюцыйным адборы і рабіць нейкія высновы пра яго функцыянальнасць.

Адрозніваюць некалькі тыпаў выраўніванняў:

· папарнае

· глабальнае і лакальнае

· множнае

Для папарнага выраўнівання характэрна супастаўленне двух паслядоўнасцяў. Няхай у нас ёсць дзве паслядоўнасці ATTCAGTGCT і ATTGCT. І трэба іх выраўняць. Ацэнка падабенства будзе вылічвацца як:

колькасць супаўшых – каэфіцыент разрыву * колькасць разрываў – каэфіцыент несупадзенн * колькасць несупадзенняў.

Для гэтага прыкладу пры адзінкавых каэфіцыентах найлепшым будзе наступнае выраўніванне з велічынёй падабенства 2:

 

ATTCAGTGCT

ATT----GCT

 

Адрозненне глабальнага ад лакальнага выраўніванняў заключаецца ў тым, што ў глабальным мы максімізуем функцыю падабенства па ўсёй даўжыні паслядоўнасці, а ў лакальным – кавалачна. Глабальнае выраўніванне дасць нам прадстаўленне аб падабенстве бялкоў і, напрыклад, пра адносіны іх да аднаго сямейства. Лакальнае ж можа сведчыць пра аднолькавыя функцыі, якія выконваюць падобныя кавалкі. Для вырашэння задачы лакальнага выраўнівання ёсць некалькі алгарытмаў, якія адрозніваюцца сваімі характарыстыкамі. Адным з іх з’яўляецца алгарытм Сміта-Уотэрмана.

Задача множнага выраўнівання заключаецца ў тым, што ў нас адначасова выраўніваецца больш за дзве паслядоўнасці. Гэтая задача нашмат больш складаная за папарнае выраўніванне. Але і для яе таксама ёсць рашэнні. Зразумела, што пры дастаткова вялікай даўжыні паслядоўнасці, задача не можа быць вырашана ручнымі метадамі. Таму стала неабходна выкарыстанне апарату тэорыі алгарытмаў і вылічальных машын.

Найбольш папулярнымі метадамі вырашэння задачы выраўнівання з’яўляюцца: баесаўскія метады, дынамічнае праграміраванне, нейронныя сеткі, генетычныя алгарытмы, тэхнікі, заснаваныя на словах, ацэначныя матрыцы. Сярод іх найбольш часта выкарыстоўваюцца методыкі дынамічнага праграміравання і тэхнікі, заснаваныя на словах.

З-за відавочнай важнасці рашэння такой задачы быў створаны шэраг праграмных сродкаў. Выдзяляюцца сродкі для выраўнівання нуклеатыдных і бялковых паслядоўнасцяў. Да нуклеатыдных адносяцца: BLASTN, BLASTX, BALSA. Да бялковых адносяцца: BLASTP, Smith-Waterman, PHI-BLAST.

Найбольш вядомым і выкарыстоўваемым сярод праграм для выраўнівання нуклеатыдаў з’ўяляецца BLASTN [6] і яго вытворныя. Праграма даступная праз веб-інтэрфейс. На малюнку 2.1 паказана працоўная вобласць запытаў да гэтатай праграмы. Праграма з падобным інтэрфейсам BLASTP існуе і для пошуку і параўнання бялок-бялок.

 

Малюнак 2.1, Працоўная вобласць BLASTN

§2 Параўнанне структур бялкоў

 

За апошняе дзесяцігоддзе было распрацавана шмат алгарытмаў і праграмных сродкаў для апрацоўкі біялагічных бялковых даных. Сярод іх вылучаюць два галоўных накірункі: прадказанне структуры бялка і параўнанне структур бялкоў. Першы звязаны з вызначэннем другаснай ці трэцічнай структуры па паслядоўнасці амінакіслот. А другі звязаны з параўнаннем атрыманых эксперыментальна ці тэарэтычна структур біялагічных аб'ектаў. Гэтае параўнанне можа быць выкарыстана для вызначэння функцый новых бялкоў на аснове падабенства з ужо даследаванымі, групіроўкі іх у сямействы, а таксама для ацэнкі прадказаных структур, пры параўнанні іх са структурамі атрыманымі эксперыментальна.

У аснове гэтага праграмнага забеспячэння ляжыць інфармацыя пра структуры бялкоў, якая захоўваецца ў спецыяльных базах даных. Існуе некалькі сховішчаў такой інфармацыі. Найбуйнейшым з іх з'яўляецца PDB. Зараз у ім сабраная інфармацыя больш чым на 50000 бялкоў. Захоўваецца яна ў тэкставых файлах спецыяльнага фармату і знаходзіцца ў свабодным доступе. На малюнку 2.2 паказана сціслае апісанне бялка-звязкі пеніцыліну 1TVF з сайта PDB. Акрамя PDB існуе база даных SCOP (структурная класіфікацыя бялкоў), усе бялкі ў якой звязаныя паміж сабой адносінамі падабенства ці эвалюцыйнымі. Бялкі аб'ядноўноўваюцца ў сямействы і суперсямействы. Таму гэтая база прадастаўляе хуткі пошук бялкоў, блізкіх да зададзенага.

 

Малюнак 2.2. Бялок-звязка для пеніцыліну

 

Задача параўнання бялкоў па іх структурах з'яўляецца ў агульным выпадку NP-поўнай. Таму нядзіўна, што акрамя дакладных алгарытмаў пры ўваходных даных з нейкімі абмежаваннямі, існуе цэлы шэраг прыблізных алгарытмаў, заснаваных на розных эўрыстычных падыходах.

Найбольш вядомымі з'яўляюцца алгарытмы MaxSub, GDT, 3dSearch, TM-align, DALI. Агульным для большасці алгарытмаў у гэтай вобласці з'яўляецца тое, што яны не з'яўляюцца прыблізнымі (гэта значыць не даюць рашэнне, якое ляжыць у гарантаванай блізкасці ад дакладнага рашэння), а з'яўляюцца эўрыстыкамі, якія заснаваны на нейкіх рацыянальных ідэях, што змяншаюць прастору пошуку рашэння.

На аснове гэтых алгарытмаў з’яўвіўся шэраг праграм, якія дапамагаюць біяёлагам параўноўваць трохмерныя структуры не толькі інтуітыўна, а з дапамогай вылічальных машын. Адным з прадстаўнікоў такога праграмнага забеспячэння з’яўляецца сервіс 3-Dimesional Structural Superposition (3DSS)[7], які прадстаўляе праз веб-інтэрфейс функцыянальнасць для параўнання бялкоў з PDB. Інтэрфейс рэсурса нескладаны і ўся аперацыя займае некалькі крокаў. Спачатку трэба выбраць якія бялкі мы параўноўваем. Для гэтага неабходна ўвесці ідэнтыфікатары бялкоў з PDB ці загрузіць любы файл у PDB-фармаце. Потым выбраць часткі бялка для параўнання і параметры суперпазіцыі. І, нарэшце, ў браўзеры можна будзе ўбачыць трохмерную выяву, дзе будзе зроблена суперпазіцыя бялкоў і іх можна адрозніць па колеры. Вынік працы праграмы можна ўбачыць на малюнку 2.3 (параўноўваліся бялкі 1SDB i 1HOE).

 

Малюнак 2.3. Суперпазіцыя бялкоў у 3DSS

 

Яшчэ адным вядомым анлайнавым сервісам, які прадастаўляе паслугі па супастаўленні трэцічных структур бялкоў, з’ўялецца MATRAS. Ён уключае ў сябе набор праграм для структурнага параўнання. Туды ўваходзяць праграмы для папарнага параўнання бялкоў, множнага параўнання, знаходжання падобных участкаў на адным бялку, параўнанне бялка з цэлай бібліятэкай бялкоў, а таксама пошук паслядоўнасці амінакіслотаў у PDB. Інтэрфейс таксама дастаткова просты і дазваляе хутка параўнаць бялкі і атрымаць шмат карыснай інфармацыі пра іх падабенства, не толькі візуальнай, але і лікавай. Таксама прадастаўлена магчымасць візуалізацыі з дапамогай разнастайных плагінаў, напрыклад, з дапамогай Java аплета Jmol. Вывад тэкставай інфармацыі прадастаўлены на малюнку 2.4 (параўноўваліся бялкі з ідэнтыфікатарамі 1MDB i 4HHB)

 

Малюнак 2.4. Вынік працы MATRAS

 


Дата добавления: 2020-12-12; просмотров: 89; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!