Разработка и применение методов полногеномного анализа генетических ассоциаций сложных признаков (12.07.2010)

Автор: Аульченко Юрий Сергеевич

. Доля дисперсии, объясненной различными профилями.

Профиль Популяция N Доля объяснен-ной дисперсии,

% ?5, 95, см*

Профиль на основе 54 геномных локусов Роттердамское исследование 5748 3.8 4.95

Гипотетический профиль Роттердамское исследование 5748 80.0 23.4 ± 0.01

Среднеродительский профиль Гальтона ERF 550 40.1 17.68

Среднеродительский профиль Гальтона ERF 257 44.9 21.18

Профиль Гальтона + 54 локуса ERF 257 46.2 21.28

* ?5,95 – разница между средними значениями роста в верхних и нижних 5% распределения профиля. Два последних профиля тестировались на выборке участников ERF с известными фенотипами родителей (N = 257).

Однако для таких признаков как артериальное давление крови известно буквально несколько локусов, объясняющих лишь небольшую долю дисперсии; для таких признаков перспективы применения геномных профилей на данном этапе развития генетики значительно хуже.

Нами, как и другими исследователями, было показано, что при использовании строгих критериев полногеномной значимости (поправка Бонферрони или использование фиксированного граничного значения

, на выборке Роттердамского исследования 34 из 54 SNP были значимо ассоциированы при ? = 0.05, и только для двух SNP направление (не значимой) ассоциации с ростом не соответствовало описанному в первоначальных работах. При этом следует отметить, что при исследовании роста выборка Роттердамского исследования не являлась достаточно мощной для подтверждения всех ассоциаций, и, таким образом, отсутствие значимой ассоциации для некоторых локусов (с малым эффектом) не могло считаться доказательством отсутствия эффекта этих локусов. Сходным образом, 18 из 33-х ранее идентифицированных SNP, которые могли быть протестированы на ассоциацию с ростом в выборке EUROSPAN, показали ассоциацию с

p-value < 5% – результат, показывающий действительную насыщенность этого набора SNP реальными сигналами ассоциаций.

Таким образом, на основании наших исследований можно сделать заключение, что полногеномный анализ ассоциаций является мощным и надежным методом идентификации локусов, вариация которых ассоциирована со значениями сложных признаков; результаты, полученные с использованием метода полногеномного анализа ассоциаций, в целом хорошо воспроизводимы. На основании знания этих локусов возможно конструирование генетических профилей риска, которые (уже или в перспективе) могут предсказывать долговременный риск развития заболевания.

Заключение

Основной целью исследований, описанных в данной работе, являлась разработка методов полногеномного анализа ассоциаций в выборках произвольной структуры из аутбредных популяций, апробация этих методов на реальных данных и идентификация новых локусов, контролирующих сложные признаки человека.

). Эти успехи в большой степени обусловлены применением нового метода – полногеномного анализа ассоциаций.

и так далее.

Было показано, что в молодых генетически изолированных популяциях, представленных в Европе в большом количестве, частота редких (начальная частота <1%) аллелей может быть как резко (в разы) повышена, так и резко (вплоть до полного исчезновения) снижена, что приводит к повышению мощности генетического анализа в таких популяциях. Относительно распространенных аллелей, нами было показано, что генетические варианты с начальной частотой 5% или выше будут присутствовать как в молодых генетических изолятах, так и в открытых популяциях. Следовательно, результаты геномного сканирования, проведенного с использованием ДНК-чипов в молодых генетически изолированных популяциях, могут быть обобщены на открытую популяцию, и наоборот. Далее, нами было показано, что в изолированных популяциях, недавно переживших период быстрого роста и берущих начало от небольшой популяции основателей, неравновесие по сцеплению распространяется на значительно большие дистанции по сравнению с большими открытыми популяциями; в частности, для хромосомы 22 карта неравновесия по сцеплению для генетических изолятов на ~20–45% короче, чем для открытых популяций, что приводит к аналогичному повышению ожидаемой мощности полногеномного анализа ассоциаций. Таким образом, на основании наших исследований можно сделать заключение, что молодые генетически изолированные популяции представляют ценный ресурс для картирования локусов сложных признаков методом полногеномного анализа ассоциаций.

Далее, нами был разработан и реализован ряд новых, быстрых и простых методов, позволяющих проводить полногеномный анализ ассоциаций признаков в выборках родственников. Разработанные нами методы не требуют априорного знания степени родства между исследуемыми особями (родословной), так как для оценки генетического родства используются геномные данные. Мощность новых методов практически не уступает мощности «золотого стандарта» для методов исследования ассоциаций по выборкам родственников (классический метод измеренных генотипов). Разработанные методы были реализованы в пакете прикладных программ для анализа полногеномных данных, GenABEL.

На основании результатов, полученных нами при исследовании молодых изолятов, было решено проводить исследование генетики сложных признаков человека в генетически изолированных популяциях Европы (например, консорциум EUROSPAN). Полногеномный анализ ассоциаций в этих эмпирических исследованиях проводился с использованием разработанных нами методов. В настоящее время возможность использования генетически изолированных популяций для идентификации локусов сложных признаков с использованием метода полногеномного анализа ассоциаций не вызывает сомнения, а методы, описанные и реализованные нами, вошли в стандартный арсенал полногеномных исследований ассоциаций.

Следует отдельно отметить, что применение методов, разработанных нами для анализа генетически изолированных популяций человека, не ограничено только этими популяциями. В первую очередь, наши методы применимы для анализа любых семейных выборок человека. Принимая во внимание то, что при субтотальном (>10%) обследовании любой популяции в выборке обязательно начинают встречаться родственные особи, и что многие исследования в настоящий момент выходят на субтотальный уровень, роль разработанных нами методов в дальнейшем будет повышаться. Более того, сконструированные нами методы могут применяться при полногеномном анализе признаков сельскохозяйственных и домашних животных. В частности, нам известно, что в настоящий момент разработанные нами методы и пакеты программ применяются при исследовании генетики крупного рогатого скота и собак.

В целом, результаты работ по созданию новых методов полногеномного анализа ассоциаций следует признать одними из наиболее успешных из представленных в данной диссертации. Так, число пользователей, которые обращались с вопросами к разработчикам нашего пакета полногеномного анализа ассоциаций GenABEL составляет более двухсот пятидесяти человек, число опубликованных работ, использовавших пакет, составляет более 50; наш пакет был упомянут в статье New York Times, посвященной вычислительной среде R.

Методологически, нами, как и другими исследователями, было показано, что полногеномный анализ ассоциаций является мощным методом идентификации распространенных аллелей, контролирующих сложные признаки. Результаты, полученные с использованием метода полногеномного анализа ассоциаций, в целом хорошо воспроизводимы при использовании строгих критериев полногеномной значимости и адекватных объемов репликационных выборок. Эти результаты оправдывают дальнейшее широкое применение метода полногеномного анализа ассоциаций – метода, который за последние несколько лет стал de-facto стандартом идентификации локусов сложных признаков человека.

оценка предсказательной мощности генетического профиля площадью под кривой, показывающей соотношение между ложно-положительными и истинно-положительными результатами теста – стала стандартной, и используется во многих работах, представляющих результаты полногеномного анализа. Мы показали, что знание локусов, идентифицированных в ходе полногеномных анализов ассоциаций, позволяет конструировать генетические профили риска, которые (уже или в перспективе) могут предсказывать значение количественных признаков и долговременный риск развития заболевания. С ростом числа известных локусов геномное профилирование может стать стандартной процедурой при предсказании некоторых признаков. Однако потенциал этого метода в значительной степени зависит от генетической архитектуры признака.

– 165 раз (ISI Web of Knowledge, запрос произведен 27 апреля 2010). В сумме работы автора данной диссертации (в том числе работы, не включенные в данную диссертацию), цитируются более тысячи раз (из них более 400 цитирований за 2009 год).

Следует отметить, что хотя идентификация локусов сложных признаков с помощью метода полногеномного анализа ассоциаций и является важным этапом генетического анализа, этот метод зачастую не дает окончательного ответа на вопрос, продукт какого гена вовлечен в контроль признака. Для ответа на этот несомненно биологически важный вопрос необходимо проведение функциональных, молекулярно-генетических и физиологических исследований. Однако рассмотрение вопроса функциональности идентифицированных полиморфизмов находится за рамками поставленной нами цели.

Разрешающая способность метода полногеномного анализа ассоциаций ограничена распространенными аллелями (с частотой редкого аллеля >5%). В то же время, в контроле многих признаков, судя по всему, велика роль множественных редких аллелей (гипотеза «распространенная болезнь – множество редких аллелей», CDMRV). Такие аллели можно детектировать с помощью современных технологий, которые уже позволяют ресеквенировать индивидуальные геномы; цена таких исследований стремительно снижается. Однако генетический анализ редких аллелей представляет собой большую методическую проблему, так как статистическая мощность оценки эффекта редкого фактора чрезвычайно мала. Чтобы успешно решить эту проблему и определить роль редких аллелей в детерминации сложных признаков, потребуется создать принципиально новые методы анализа, которые, скорее всего, будут лишь в малой степени сходны с методами классической эпидемиологии.

Исследован эффект дрейфа генов в молодых генетически изолированных популяциях человека. Показано, что в таких популяциях эффект дрейфа генов мал для распространенных (частота >5%) аллелей и выражен для аллелей, имеющих начальную частоту <1%.

Проведен сравнительный анализ структуры неравновесия по сцеплению в различных популяциях человека. Показано, что длины карт неравновесия по сцеплению для молодых генетически изолированных популяций на ~30% меньше, чем для открытых популяций человека.

Разработаны новые методы для проведения полногеномного анализа ассоциаций в выборках произвольной структуры из аутбредных популяций человека, сельскохозяйственных и домашних животных. Эти методы являются статистически мощными и вычислительно эффективными.

Разработано новое программное обеспечение для проведения полногеномного анализа ассоциаций. Разработанный пакет программ GenABEL реализует большое число современных методов полногеномного анализа ассоциаций и позволяет анализировать миллионы SNP, типированных в тысячах образцов, на персональных компьютерах.

С использованием разработанных методов и программ проведен полногеномный анализ ассоциаций уровней липидов в крови человека. Впервые в мире, такой анализ проведен на популяционных выборках. Также впервые проведен полногеномный анализ ассоциаций уровней общего холестерина. Идентифицированы шесть новых локусов, контролирующих уровни липидов.

Проведен полногеномный анализ сцепления с последующим анализом генетических ассоциаций с ростом человека. Идентифицирован новый локус, JAZF1, контролирующий рост тела, и имеющий плейотропное влияние на ряд других признаков, в том числе патологических.

Оценен потенциал метода предсказания значения сложного признака на основе генотипических данных и проведено практическое исследование возможности использования геномных данных для предсказания таких признаков человека, как роста тела, уровень липидов в крови и риск дислипидемии. Показано, что геномные профили объясняют 4–6% дисперсии роста и 1–7% дисперсии липидов. Также показано, что геномный профиль холестерина является статистически значимым, независимым от уровня циркулирующего холестерина, предиктором толщины интима-медиа и дислипидемии.

Список публикаций по теме диссертации

Аксенович, Т. И., Г. Р. Свищева и Ю. С. Аульченко, 2000 Картирование генов, детерминирующих количественные признаки животных: метод разложения дисперсий. Генетика 36: 986–993.

АУЛЬЧЕНКО, Ю. С. и Т. И. АКСЕНОВИЧ, 2006 Методологические подходы и стратегии картирования генов, контролирующих комплексные признаки человека. Вестник ВОГиС 10: 189-202.

Тимофеева, О. А., М. Л. Филипенко, Ю. С., Аульченко, Е. А. Воронина, А. Б., Масленников и Н. П. Мертвецов, 1999 Анализ распределения аллелей тетрануклеотидного повтора в интроне 6 гена липопротеинлипазы среди населения г. Новосибирска. Генетика 35: 862-864.

AMIN, N., C. M. VAN DUIJN and Y. S. AULCHENKO, 2007 A genomic background based method for association analysis in related individuals. PLoS ONE 2: e1274.


загрузка...