КАТАЛОГ ДИССЕРТАЦИЙ     
   ГЛАВНАЯ   ОПЛАТА И ДОСТАВКА   КАТАЛОГ РАБОТ   НА ЗАКАЗ   ПОДТВЕРЖДЕНИЕ ОПЛАТЫ   ГАРАНТИИ ДОСТАВКИ   КОНТАКТЫ  
 

Каталог работ

Тема: Молекулярная таксономия биоинформатика и эксперимент

Содержание
НЕТ
Введение
Благодарности
Я очень благодарен моему научному руководителю, профессору Д. Таутцу (D.Tautz), за предоставленную возможность работать в его группе и удовлетворить мою тягу к исследованиям. Также я благодарен ему за то, что он обеспечил мне достаточную степень свободы и, в то же время, • деликатно руководил мной при подготовке работы. Я хотел бы еще поблагодарить профессоров Т. Вихе (T.Wiehe), Д. Шомбурга (D.Schomburg) и Р. Вюнширса (R.Wunschiers) за то, что они согласились войти в ученый совет по моей диссертации.
Мой лучший друг, Томислав Домазет (Tomislav Domazet), многократно сдерживал мои порывы и помогал мне придерживаться реалистичных и разумных взглядов на результаты и методы работы. Наши длительные дискуссии были крайне плодотворны. Я благодарен также Хиллари Дав (Hilary Dove) за ее доброту и поддержку.
Я признателен доктору Лысову из Института Молекулярной Биологии им. В. А. Энгельгардта Российской Академии Наук за поддержку на начальной стадии данной работы. Я благодарен профессору Спекенмейеру (Speckenmeyer) из Institute of Informatics, University of Cologne, за предоставленный доступ к кластеру компьютеров под управлением ОС Linux, и Дж. Рюмкорфу (J.Ruhmkorf) за помощь при установке параллельной версии программы. Д. Аштон (D.Ashton) (Argonne National Lab) очень помог мне при подготовке версии программы для Windows. Также я хотел бы поблагодарить доктора М. Гаевски (M.Gajewski) за помощь при создании биочипов.
Я выражаю особенную благодарность доктору X. Фуссвинкелю (H.Fusswinkel) за помощь в решении некоторых крайне сложных административных вопросов. Также мне очень помогли Е. Зигмунд (E.Sigmund) и Г. Мейер (G.Meyer).
Я чрезвычайно благодарен моим жене и матери за поощрение моей работы. Мой отец также очень помог мне прояснить некоторые технические аспекты.
Эта работа была выполнена при поддержке гранта Ministerium fur Schule Wissenschaft und Forschung des Landes Nordrhein-Westfalen.
ч
Аббревиатуры:
ДНК дезоксирибонуклеиновая кислота
РНК рибонуклеиновая кислота
рРНК рибосомальная рибонуклеиновая кислота
CPU ¦ центральный процессор
GUI графический интерфейс
ОС операционная система
PC персональный компьютер
DIY (do-it-yourself) «сделай сам»
Обзор
Молекулярная таксономия — наука о классификации организмов на основании молекулярных маркеров. Данная работа посвящена разработке методологии молекулярной таксономии мелких организмов. В качестве молекулярного маркера используется рибосомальная РНК (рРНК), поскольку ее нуклеотидная последовательность включает в себя области различной степени сохранности, которые могут быть использованы как видо-, родо- и таксоноспецифичные участки.
Организмы живут в сложных сообществах. Для определения структуры этих экосистем проводят гибридизацию с олигонуклеотидными биочипами. При этом можно определить наличие конкретной рРНК в исследуемом образце. В данной работе предлагается дополнительный метод, основанный на процессе пиросеквенирования. При этом секвенируется смесь рРНК, а относительное количество различных последовательностей вычисляется затем из полученной пирограммы.
Данная работа содержит две части: теоретическая биоинформатика и оценка возможности практического применения. Первая часть посвящена проблеме определения стабильности дуплекса ДНК-РНК. В результате предлагается специальная функция для оценки стабильности. Разработан алгоритм и написана программа для построения олигонуклеотидов, применяемых при анализе с биочипами. При этом принималась в расчет и кинетика диссоциации дуплекса ДНК-РНК. Также детально проработана формальная сторона подхода с использованием пиросеквенирования.
Экспериментальная часть посвящена вопросам создания олигонуклеотидных биочипов, в том числе конструированию, иммобилизации, гибридизации и сканированию. Была разработана система для наблюдения за диссоциацией дуплекса ДНК-РНК в реальном времени. Произведена оценка с практической точки зрения результатов теоретических изысканий и качества выбранных олигонуклеотидов. Результаты показывают, что теория хорошо согласуется с экспериментом. Также был опробован подход с использованием
пироссквенирования. Показано, что он может определить состав сложной смеси рРНК.
Введение
Молекулярная таксономия удобна тем, что позволяет исследовать природу мелких организмов без культивации и визуального определения. Основой для развития молекулярной таксономии служит тот факт, что каждый организм содержит рибосомы. С одной стороны, структурная РНК рибосом в достаточной степени отличается у разных видов, а с другой стороны, содержит участки, общие для всего таксона. Определение видов или групп видов бактерий с помощью специфичных олигонуклеотидов становится все более популярным. Тем не менее, этот метод также выглядит многообещающим и для других мелких организмов, классифицировать которых довольно затруднительно. Биочипы ДНК используются сегодня для анализа экспрессии генов [1, 2], секвенирования ДНК [3], скрининга [4], диагностики заболеваний [5, 6] и генотипирования [7], как правило, в клинической практике. Применение технологии биочипов для определения наличия и анализа 16S рРНК в сложных сообществах микроорганизмов может позволить определить состав сообщества, выявить патогенные микроорганизмы, а также наблюдать за происходящими процессами. Такие возможности весьма востребованы в естественных науках, а также в их прикладных аспектах [8-10]. На сегодняшний день на рынке присутствуют несколько типов биочипов, в том числе и олигонуклеотидные. Как теоретическая, так и практическая части данной работы полностью посвящены олигонуклеотидным биочипам. Две основные проблемы, обсуждаемые в этой работе: (i) поиск оптимального олигонуклеотида с желаемой специфичностью и (п) оценка возможности практического применения найденных цепочек.
В данной работе представлен алгоритм, который направлен на выделение оптимальных олигонуклеотидов из любого набора последовательностей. Описанной программе необходимо лишь приблизительное выравнивание последовательностей. Также программа оптимизирована для работы с большими базами данных. При выборе олигонуклеотидов алгоритм учитывает расположение мисматчей в цепочках, а также осуществляет проверку на выпетливание единичного нуклеотида. Программа реализована как для ОС Linux (текстовая версия), так и для Windows (версии с текстовым и графическим
интерфейсом). Правильность результатов работы программы была проверена экспериментально.
Кроме этого, в данной работе рассматривается новый подход, не связанный с применением биочипов. Он основывается на секвенировании смеси различных генов. Этот подход использует новый метод пиросеквенирования и количественно определяет состав смеси. В данной работе содержится лишь принципиальное обоснование применимости нового метода. Метод был проверен экспериментально на искусственной смеси ДНК, кодирующих рРНК.
Работа состоит из пяти глав. Первая глава посвящена биоинформатике выбора олигонуклеотида. Вторая глава описывает новый принцип использования графического интерфейса программ в применении к выбору цепочек. Третья глава в основном содержит информацию о технической стороне создания биочипов. В четвертой главе приведены результаты экспериментальной проверки олигонуклеотидов, отобранных программой. Наконец, пятая глава посвящена разработке метода, не использующего биочипы.
Глава 1 Алгоритм и программа для поиска специфичных олигонуклеотидных ¦
последовательностей для идентификации видов
Введение
Идентификация видов с использованием молекулярных проб, скорее всего, коренным образом изменит таксономию, в первую очередь для тех организмов, у которых трудно иначе определить морфологические различия. К1 ним относятся одноклеточные эукариоты, например, ресничные и биченосцы, а также множество других мелких организмов, таких как нематоды, коловратки, ракообразные, клещи, кольчатые черви и личинки насекомых. Эти организмы составляют мейофауну воды и почвы, которая играет чрезвычайно важную роль в экосистеме. Эффективные методы наблюдения за разнообразием видов мейофауны и их численностью должны существенно облегчить понимание экологических процессов.
Впервые молекулярная таксономия с использованием специфичных олигонуклеотидных последовательностей была опробована на бактериях [10,11]. Последовательности нуклеотидов, специфичные для конкретного вида или группы близких видов, используются для флуоресцентной гибридизации in situ. Это исследование позволяет определить наличие таких организмов в неоднородных средах или среди других видов, к которым они являются симбионтами [12,13]. С другой стороны, все более широкое распространение получает технология биочипов, позволяющая проводить анализ нескольких различных видов параллельно. Большая часть используемых сегодня специфичных нуклеотидных последовательностей выделены из рибосомальной РНК. Тем не менее, в принципе возможно использование любой другой последовательности, например последовательности D-петель из митохондрий эукариотов.
Видоспецифичные последовательности обычно определяются при сравнении аналогичных участков. При этом непосредственно видны совпадающие и несовпадающие области. Для рибосомальных последовательностей была разработана программа, помогающая построить достаточную базу данных и
выбрать подходящие специфичные последовательности (ARB [14]). Для этого очень важно выявить точное соответствие последовательностей, что сложно сделать в плохо сохраняющихся участках. С другой стороны, такие участки с гораздо более высокой вероятностью содержат специфичные последовательности. К тому же современные реализации механизма поиска соответствующих последовательностей определяют разницу между ними, как количество мисматчей. При этом в расчет не берется расположение мисматчей в последовательности, которое может влиять на процесс гибридизации. Поэтому мы разработали новый алгоритм, позволяющий работать с последовательностями, которые не обязательно точно соответствуют друг другу. Также наш алгоритм учитывает расположение мисматчей в оцениваемых последовательностях.
Алгоритм
Алгоритм состоит из трех частей. Цель первой из них - вычислить относительную стабильность пары соединенных олигонуклеотидов в зависимости от количества и расположения мисматчей. Вторая часть предоставляет методику поиска совпадений. Она оценивает все возможные комбинации последовательностей, однако работает достаточно быстро. Третья часть алгоритма имеет дело с совпадениями, вызванными выпетливанием одиночного нуклеотида в последовательности.
Вычисление стабильности
Существуют всесторонние исследования, посвященные оценке термодинамических последствий внутренних мисматчей в коротких нуклеотидных последовательностях (см., например, [15,16]). Эти исследования показывают, что простого правила оценки не существует, а точный масштаб воздействия на стабильность гибрида зависит от природы мисматча и окружающих нуклеотидов. Например, мисматчи, включающие G (т.е. G-G, G-T и G-A), оказывают меньшее дестабилизирующее влияние, чем другие типы мисматчей [16], хотя это и нельзя прямо вывести из пространственных соображений. Систематические сравнительные исследования относительного влияния расположения мисматча в нуклеотидной последовательности до сих
10
пор не проводились. Тем не менее, достаточно очевидно, что если мисматч находится на концах последовательности, воздействие слабее, чем при расположении в центре [16, 18]. Предварительные исследования, в которых мисматч А располагался в цепочке dT, позволяют предположить, что зависимость от позиции может выражаться непрерывной функцией [17]. Поэтому мы решили использовать особый подход к вычислению стабильности, направленный, в первую очередь, на то, чтобы выделять последовательности с мисматчами, расположенными ближе к центру.
Мы использовали следующую модель относительной стабильности при мисматче нуклеотидов. Необходимо определить, является ли место мисматча «слабой точкой». Место расположения «слабой точки» определяется вероятностной функцией, которая принимает в расчет различный вклад точек, расположенных в середине или на краях. Вероятность того, что «слабая точка» находится в месте х равна pi. При расплавлении, в экспериментальных условиях, «слабая точка» существует, что выражается равенством: [сумма(р1) для всех х] = 1.
Мы предполагаем, что соответствующая вероятностная функция имеет Гауссово распределение с максимумом в середине последовательности. При этом интеграл функции по всему дуплексу приравнен 1 (Уравнение 1-1).
1
рЛх)=

Уравнение 1-1. Вероятность расположения «слабой точки». L - длина дуплекса, о. -параметр распределения, х - точка на спирали.
Необходимо отметить, что функция в Уравнении 1-1 определена на дискретном множестве значений х, а распределение Гаусса непрерывно. При этом интеграл распределения от -оо до +оо приравнен 1. Поэтому параметр о выбирается таким образом, чтобы дискретная сумма приближала 1 с любой заранее заданной точностью. В программе, описанной ниже, сумма была равна 0.999.
11
Хотя предварительные экспериментальные исследования [17J и показывают, что функция дестабилизации может быть приближена Гауссовой кривой, реализация программы допускает использование равномерного распределения. Т.е. в качестве альтернативы рассматривается случай, когда воздействие на расплавление не зависит от расположения мисматча. Это позволяет; сравнить данные, полученные при двух различных предположениях.
Для ¦ оценки относительной дестабилизации, вызываемой конкретным мисматчем, мы предполагаем, что мисматч нарушает окружающие пары оснований расположенные от (у-n) до (у+n). Таким образом, п можно назвать граничным параметром, который необходимо экспериментально уточнить в будущем. Поскольку на настоящий момент мы можем только предполагать значение п, в нашей программе п по умолчанию равно 5. п также может зависеть от типа мисматча, т.е. некоторые типы мисматчей могут меньше влиять на окружающие пары оснований. Поэтому в программу были введены дополнительные переменные, позволяющие установить различные значения п для каждого типа мисматча.
После этого можно выразить общую относительную нестабильность данной спирали в виде вероятностной функции. Функция представляет собой сумму для каждой позиции произведений вероятностей pi (определяется функцией стабильности) и р2 (определяется граничным параметром). Значение р2 - это вероятность «расплавления» вследствие нарушения в «слабой точке» (Уравнение 1-2).
1-1
О
Уравнение 1-2. L - длина спирали, pi - вероятность наличия «слабой точки», р2 -вероятность «расплавления» ввиду нарушения «слабой точки».
р2 это условная вероятность «расплавления». р2 = 1, если есть нарушение «слабой точки» (мисматч в пределах уПп), р2 = 0, если мисматч не влияет на «слабую точку». Ввиду этого можно переписать Уравнение 1-2 в следующем виде (Уравнение 1-3).
12
У+п
у-п
Уравнение 1-3. у - расположение мисматча, п - граничный параметр.
Затем pi можно заменить функцией из Уравнения 1-1, что'.даст нам Уравнение 1-4.
у+п
-I
/г—L — Р
у-п (7^2ТГ
Уравнение 1-4. х - место на спирали, у - расположение мисматча, п - граничный параметр.
В случае нескольких мисматчей суммирование производится по всем участкам влияния мисматчей. Если мисматчи расположены рядом, участки, на которые они влияют, просто перекрываются, а суммирование производится по соответствующему отрезку.
Выделение специфических последовательностей
Методика поиска последовательности разработана таким образом, чтобы:
(i) избежать необходимости точно выравнивать последовательности (ii) проверить специфичность на всем протяжении последовательности (iii) оптимизировать производительность
13
Databa se
7_
Fragment 1st of all Candidate probes
___/ Diabase of /__
/ In-group organisns I
Array of fragment lists
for each In-group organism
Similarity calculation
Sdect probes that fit
each of
In-group organsra.
Melting probabiity
isl ess than25%
T
/
Database without In-group orgamsms
Datatese of /
Rdated group ^----
organisns
Fragment list
/ Remove \ \duplicates/
Seled probes that do not match in the
Related group M &шц probability is greater than 75%
/ Databasewithout ' In-group and without Rdatedgroup organiany
Fragment list
Select probes that do not match in the . restofШеПзйаЬяяе Melting probability is greater than 75%
Рисунок 1-1. Схема алгоритма поиска последовательности. Более детально алгоритм описан в тексте.
Программа начинает работу с базой данных, в которой каждый организм представлен одной непрерывной последовательностью, например, определенной областью генов 18S или 28S рибосом. Из этих данных программа выбирает группу организмов (возможно, один организм), для которой необходимо найти специфичную последовательность. Затем последовательности, соответствующие организмам данной группы, делятся на
14
кусочки одинаковой длины (задается переменной в программе), в соответствии с подходом, предложенным Бавыкиным и др. [20]. Разбиение производится по схеме с рамкой считывания, сдвигающейся на 1 нуклеотид и пробегающей всю последовательность. В результате получается два списка. Первый список состоит из всевозможных кусочков фиксированной длины, содержащихся во всех организмах заданной группы. Второй список - это набор множеств кусочков для каждого из организмов группы (эти два списка идентичны, если группа состоит из одного организма). Затем из первого списка удаляются все повторы. После этого для всех олигонуклеотидов из первого списка проверяется, содержится ли он во всех организмах группы. Сравнение считается положительным, если относительная вероятность расплавления, вычисленная с помощью Уравнения 1-4, находится в пределах 0 - 25%. Таким образом, первый шаг заключается в том, чтобы выбрать только те олигонуклеотиды, которые присутствуют во всех организмах заданной группы. Этот шаг, в общем-то, несущественен в случае, когда в группе только один организм.
Следующим шагом мы удаляем из рассмотрения все олигонуклеотиды, встречающиеся в каком-либо организме не из группы. Чтобы избежать трудоемкого сравнивания всех олигонуклеотидов-кандидатов со всеми последовательностями базы, мы сначала выделяем несколько организмов, достаточно близких к организмам заданной группы. Для вычисления процента сходства нам и нужно грубое выравнивание всех цепочек. Заметим, что это необходимо только для ускорения вычислений путем'выделения подгруппы последовательностей, то есть, ошибки выравнивания не играют никакой роли. Выделение подгруппы происходит путем простого сравнения последовательностей при имеющемся выравнивании и вычисления процента совпадений. Все последовательности, совпадающие с последовательностями группы хотя бы на 90% считаются схожими. Граничный процент определяется переменной в программе и должен быть выбран таким образом, чтобы схожие последовательности составляли 5-10% всех цепочек.
Из схожих последовательностей, аналогично описанному выше, создается список кусочков. Из списка убираются повторы, а затем кусочки сравниваются с тестируемыми олигонуклеотидами. Теперь у нас остаются только те
15
олигонуклеотиды, которые имеют вероятность расплавления не менее 75% (ограничение на процент - переменная в программе). Основное количество олигонуклеотидов удаляется на этом шаге. Затем оставшиеся сравниваются со всеми цепочками организмов, не входящих в выбранную группу. Критерий отбора такой же, как описано выше.
Такой пошаговый способ отбора позволяет значительно повысить скорость вычислений даже для очень больших баз данных и, тем не менее, гарантирует, что все олигонуклеотиды необходимой длины прямо или косвенно сравниваются со всеми остальными олигонуклеотидами в базе данных.
Выпетливание единичного нуклеотида
Структурный анализ, проведенный на экспериментальных олигонуклеотидах, показал, что в паре гибридизированных цепочек единичный нуклеотид может выпетливаться. При этом он не оказывает значительного влияния на стабильность дуплекса [21]. Таким образом, одно основание из одной цепочки дуплекса выпетливается, а оставшаяся часть олигонуклеотида смещается на одну позицию. Графически это отображено на Рисунке 1-2.
GCATGACGCTGACGTACGAT GCATGACGC-TGACGTACGAT
I I I I I I I I I*********** ----------> II III II II MM MM Ml
CGTACTGCGGACTGCATGCTA CGTACTGCG ACTGCATGCTA
G
Рисунок 1-2 Схема возможной ситуации, возникающей при выпетливании одного нуклеотида; мисматчи обозначены звездочками, совпадения - вертикальными черточками.
Обычный алгоритм линейного считывания найдет в левой картинке 11 мисматчей, и обозначит олигонуклеотид, как специфичный. Однако если мы примем во внимание выпетливание одного нуклеотида, совпадение станет идеальным, а последовательность следует считать неспецифичной. Наш сканирующий алгоритм устраняет эту проблему с помощью перепроверки всех олигонуклеотидов после выполнения фильтрования. Перепроверка выполняется путем последовательного исключения нуклеотидов из тестируемой цепочки и сдвига остатка на одну позицию. Затем вычисляется вероятность расплавления
16
нового олигонуклеотида. После этого исключенное основание возвращается на прежнее место, а цикл повторяется со следующим. Аналогичная процедура выполняется и для второй цепочки дуплекса, поскольку выпетливание может происходить и там. Необходимо отметить, что выпетливание двух нуклеотидов, видимо, вызывает слишком сильную дестабилизацию спирали., Поэтому аналогичные вычисления для такого случая не проводятся.
Параллельное вычисление
Версия программы для параллельных вычислений позволяет проводить поиск с одновременным использованием нескольких процессоров. Используется практически тот же алгоритм, работа разбивается на параллельные процессы на шаге сравнения. Каждый процесс обрабатывает отдельную часть базы данных, сравнивая олигонуклеотиды и проводя вычисление стабильности. Затем результаты объединяются корневым процессом и обобщаются.
Реализация программы
Алгоритм реализован в. программе под названием PROBE. Программа состоит из трех модулей, которые могут быть использованы независимо друг от друга. Первый из них ищет специфичный олигонуклеотид, основываясь на определенных входных данных (выделенная группа, длина специфичной последовательности, база данных последовательностей).
Второй модуль - аналитический. Его можно использовать в тех случаях, когда подобрать специфичный олигонуклеотид для выделенной группы не удается. Этот модуль описывает возникшую ситуацию и позволяет отыскать близкую по составу группу, для которой задача имеет решение. Этот модуль используется, когда PROBE не может отыскать олигонуклеотидов, специфичных для выделенной группы. Такая ситуация возможна по двум причинам: либо не существует олигонуклеотида, принадлежащего всем последовательностям группы, либо существует организм вне группы, который содержит все подходящие олигонуклеотиды.
В первом случае, заданная группа должна быть разбита на несколько подгрупп. Далее специфичные олигонуклеотиды определяются для подгрупп
17
Тип работы: Диссертация
Год: 2003
Страниц: 150



Подобные работы:

  • Молекулярная детекция представителей зипертермофильнык аркей и характеристика аркейной термостаБильной ДНК-полимеразы 2.2. ПЦР-анализ накопительной культуры КР4На разных этапах очистки накопительной культуры гипертермофильных микроорганизмов из нее выделяли общую геномную ДНК и проводили ПЦР-анализ с Рисунок 7. Электронные фотографии культуры КР4. Негативное окрашивание ФВК.
  • Филогения и таксономия жужелиц подсемейства Patrobiпае (Coleoptera, Carabidae) Определенную ценность для выявления наиболее общих закономерностей фауногенеза представляет построение кладограмм консенсуса на основе всех, полученных с использование критериев минимизации "количество добавленных листьев" и "количество потерь" (рис. 70, 71).
  • Повесть "Альберт" как художественный эксперимент Л. Н. Толстого Специфичность нового взгляда Толстого на искусство проявляется в сравнительно поздней метафоре "вылущивания ядра". "Вылущивать" нельзя группами, массами, как переживать энергетическое заражение под воздействием, например, музыки. Это дело тех, кто "видит" (см.
  • Молекулярная характеристика древней ДНК человека и животных из коллекционного материала и археологических находок Bubalina, потому что такая топология дерева получена при использовании более реальной модели эволюции нуклеотидных последовательностей с учетом гетерогенности позиций по скорости эволюции. В любом случае близкое родство последовательностей гена 12S рРНК этого вида с такими же последовательностями буйволов можно считать надежно установленным, потому что оно подтверждается также анализами с использованием метода четырехкластерного филогенетического картирования [155], реализованного в программе PUZZLE.
  • Таксономия и метаболизм новых термофильных и галофильной сульфатвосстанавливающих бактерий, выделенных из месторождений углеводородов
  • Распространение лазерный пучков в турбулентной струе авиационного двигателя эксперимент и численная модель
  • Байкальские эндемичные моллюски семейства AcroloKidae (Gastropoda: Pulmonata): морфология, таксономия, распределение и формирование фауны Сведения о морфологии яйцевых кладок байкальских акролоксид приведены всего в двух работах. В монографии М.М. Кожова [1936] кратко описаны синкапсулы Pseudancylastrum troscheli (W. Dybowski, 1875) = Gerstfeldtiancylus renardii (W. Dybowski, 1884) no Shirokaya et al.
  • Поливариантный демонстрационный эксперимент как дидактическое средство при организации деятельности учащихся на занятиях по химии
  • Учебный физический эксперимент как средство организации учебного и научного познания при изучении основ физической оптики 1. Условия1.1. Оборудование. На данном этапе школьниками решается проблема подбора и, если необходимо, изготовления экспериментального оборудования. В ходе беседы с учащимися выясняется, что для постановки эксперимента нужно иметь рабочее поле, модель преломляющей сферической поверхности и модель светового луча.
    © 2006-11г. Планета диссертаций.