БУМАЖНЫй НОМЕР
![]() |
01.09.2001
Илья Кашпаров
Чуть
более года назад американская компания Celera Genomics и международный проект «Геном
человека», покончив с междоусобицей, объявили о расшифровке человеческого генома.
Точнее, к тому времени был готов «черновик» (working draft), описывающий около
90% человеческих генов. Расшифровка «самой лучшей на свете книги, которую
невыразимо скучно читать», как выразился один из зачинателей проекта, стала
настоящим триумфом. Между тем, несмотря на торжество и громкие заявления о
скорой победе человечества над болезнями, путь от гена до лекарства не так прост,
как может показаться.
Ведь геном - лишь хранилище биологической информации, тех исходников, по которым в конечном счете «компилируется» организм. Причем исходников, по нормам современного программирования, очень странных, со множеством закомментированных фрагментов, запутанных и завязанных друг на друга #if define, огромным количеством балласта, часть которого при ближайшем рассмотрении балластом не является. И, само собой, безо всяких пояснений. Вопрос в том, каким способом материализуется весь этот «генетический спам». Что является «исполняемым кодом», ломовой лошадью, которая ответственна за выполнение той или иной биологической функции?
Ответ прост: гены в подавляющем большинстве случаев хранят информацию о химической структуре макромолекул белков, самых сложных биологических полимеров. Белки (которые по кальке с английского в последнее время почему-то называют протеинами) - и есть то активное начало, которое реализует генетическую информацию в виде конкретных функций организма. Можно даже сказать, что белок не молекула, но феномен, так широки выполняемые им функции: прием и передача сигналов, защита организма, молекулярный транспорт, движение, регуляция, ускорение химических реакций - все эти процессы в любом живом организме осуществляются белками. Ген лишь кодирует набор аминокислот - «молекулярных кирпичей», из которых состоит молекула белка. В свою очередь, линейная последовательность аминокислот в живой клетке сворачивается в белковую молекулу со строго определенной пространственной структурой. Именно эта структура делает белок молекулярной машиной, которая может выполнять некую функцию - например, связывание чужеродных субстанций или распад алкоголя в печени. Такой процесс самосборки называется фолдингом (от английского to fold - сворачиваться) и представляет огромный интерес для биологии и медицины. Правильная структура обеспечивает правильную работу, и наоборот - нарушение пространственной структуры (скажем, из-за повреждения гена) может приводить к неспособности белка работать и, как следствие, к развитию патологии.
Ложку дегтя в триумф «Генома человека» вносит то, что проект позволил получить исчерпывающие карты генов в хромосомах, но не структуры белков, кодируемых этими генами. На сегодняшний день лишь приблизительно для одной трети генов установлена ассоциированная с ними биологическая функция, тогда как две оставшиеся трети представляют собой загадку, определяющую огромный разрыв между знанием карты генов и пониманием кодируемых этими генами белков (то есть механизмов их самосборки и функционирования).
Умея предсказывать структуру белка по уже известному гену можно догадаться, какую функцию он выполняет в организме, с какими молекулами взаимодействует, каким лекарством будет узнаваться. Обладание же информацией лишь о структуре гена подобно обладанию новеньким конструктором с перемешанными детальками.
Между тем задача инвентаризации белков человеческого организма (так
называемая протеома) как в теории, так и на практике неизмеримо сложнее, чем уже
решенная задача инвентаризации генома. Прежде всего это касается понимания
принципов самоорганизации белковых молекул - Священного Грааля для молекулярных
биофизиков, способного открыть неограниченные возможности влияния на
биологические функции организма вплоть до достижения биологического бессмертия
человека. Решить эту проблему нельзя без привлечения лучших интеллектуальных
ресурсов, равно как и без использования последних технологий, среди которых на
первый план выходят
технологии
информационные. Основным инструментом здесь может стать молекулярное
компьютерное моделирование, позволяющее предсказывать многие свойства белковых
макромолекул.
Специалисты корпорации IBM оценивают сегодняшние потребности биоинформатики в $3,5 млрд. и ожидают, что к 2003 году они вырастут до $9 млрд. Считается, что биоинформатика может сформировать самый крупный рынок сбыта для ИТ-компаний. Не случайно IBM выделила около $100 млн. на разработку и конструирование мощнейшего суперкомпьютера, нацеленного как раз на решение проблемы белкового фолдинга.
Необходимость хранения и анализа огромных объемов генетических и иных биологических данных вкупе со все возрастающей ролью молекулярного моделирования и его ненасытностью по отношению к вычислительным ресурсам предопределили рождение новой области науки - биоинформатики.
В молекулярных расчетах действует правило: чем больше вычислительная мощность, тем лучше (при любых алгоритмах, совершенствование которых еще более актуально, чем совершенствование техники). Для компьютерной отрасли это, само собой, большой плюс. В том числе и для производителей суперЭВМ. Но у молекулярных расчетов есть одна особенность, которая может быстро продвинуть их «в народ»: исключительная пригодность для массивных распределенных вычислений. То есть математически сложные и ресурсоемкие задачи можно разбивать на множество мелких, распыляемых по большому числу относительно слабых вычислителей, а затем собирать результаты в единую базу данных.
Скажем, сборка небольших белков в клетке может протекать довольно быстро - за несколько сотых секунды. Между тем при моделировании каждый шаг фолдинга математически настолько сложен, что любая современная рабочая станция не может перебрать необходимое количество вариантов сборки за разумное время. Так, 400-мегагерцовый «Пентиум» способен за сутки рассчитать траекторию сборки длиной в одну миллионную секунды. То есть тысяча пользователей смогла бы смоделировать простой белок за десять дней. Но расчет более сложных белков требует куда больше времени.
Универсальной, хотя отнюдь не идеальной, средой для таких расчетов является Интернет. Примеры - на расстоянии клика мышкой. В сентябре прошлого года исследовательская группа профессора Виджая Пандэ (Vijay Pande) из Стэнфорда запустила проект FOLDING@home (foldingathome.stanford.edu), названный так в пику нашумевшему и весьма успешному SETI@home. Вместо поиска абстрактных братьев по разуму Пандэ предлагает заняться делом, а именно изучением проблемы самосборки белков, ответственных за вполне земные недуги, такие как коровье бешенство или болезнь Альцгеймера. Предполагается, что посредством молекулярного моделирования удастся понять, как тот или иной белок принимает патогенную форму, а значит, и найти ключ к лечению страдающих этими заболеваниями людей.
С технической точки зрения проект во многом аналогичен SETI@home. Программа-клиент маскируется под симпатичный скринсэйвер, активирующийся лишь в моменты простоя компьютера и, таким образом, не мешающий другим приложениям. Порции данных для расчета скачиваются автоматически по мере надобности с сервера исследовательской группы, туда же отправляются результаты. Для анализа молекулярно-динамических траекторий в качестве вычислительного движка используется широко известный в узких кругах «молекулярных модельеров» бесплатный программный комплекс TINKER.
Немало приятных минут участникам проекта может доставить статистика, доступная на сайте и показывающая, чего и сколько рассчитал пользователь, вплоть до графических и видеоматериалов симуляции белка, а также его рейтинг по числу «набранных фрагов», то бишь проанализированных пакетов.
Еще одним примером распределенных вычислений является проект компании United Devices под называнием Cancer Research Project (CRP), направленный на поиск потенциальных лекарственных средств для антираковой терапии. Как и в FOLDING@home, в нем участвуют добровольцы, но в отличие от первого, CRP моделирует процессы молекулярного узнавания белков, причастных, как считается, к патогенезу ряда форм рака. Каждый индивидуальный компьютер анализирует несколько молекул и отправляет результаты на центральный сервер для анализа учеными Оксфордского университета.
CRP примечателен тем, что существует при финансовой поддержке корпорации Intel, в последнее время активно продвигающей идею распределенных вычислений. И кто знает, может, когда-нибудь наши чада, устав играть в стрелялку, запустят пакет под названием, скажем, Microsoft Molecule и будут увлеченно конструировать новое лекарство от бессонницы для любимой бабушки.
Миоглобин
Рассказ о структуре белка естественно начать с миоглобина, поскольку именно от него отсчитывается история молекулярной топографии. Теперь, когда новых белковых структур появляется каждый день по несколько штук, мы можем понять, но нам трудно пережить тот восторг, с которым научный мир принял пространственную структуру миоглобина в 1960 году.
Миоглобин - маленький красный белок - выполняет в мышцах ту же роль, что и гемоглобин в крови - запасает и переносит кислород.
Миоглобин состоит из белковой цепи и гема - группы, содержащей железо. На картинке атом кислорода, связанный с железом, увидеть нельзя - он полностью скрыт атомами белка. Как же он попадает внутрь и выходит наружу? В действительности картинка, которую мы видим - лишь моментальная «фотография» (самая дорогая в мире фотография, стоит заметить) структуры, которая колеблется, «дышит», в то же время сохраняя свою форму. Теряет ее лишь в экстремальных условиях - тогда мы говорим, что белок «свертывается». Хотя на самом деле она переходит в состояние беспорядочного клубка, который мы называем денатурированным.