Высокопроизводительный и чувствительный подход помогает выявить, что “ реально ” в данных общегеномных ассоциаций

В исследовании, проведенном учеными из Института Броуда Массачусетского технологического института и Гарварда, Гарвардского университета и Дана-Фарбер / Бостонского детского центра рака и заболеваний крови и представленного в двух статьях, опубликованных 2 июня в Cell, используется экспериментальная методика, названная " массивно-параллельный репортерный анализ."Этот метод позволяет исследователям исследовать тысячи вариантов ДНК, чтобы определить те, которые влияют на регуляцию генов – как гены включаются и выключаются.
Проблема, с которой генетики сталкиваются с болезнетворными вариантами, – это переизбыток кандидатов.

За последнее десятилетие исследователи во всем мире идентифицировали многочисленные участки ДНК человека, связанные с риском широкого спектра заболеваний, а также с другими важными физическими характеристиками, в рамках подхода, известного как исследования ассоциаций на уровне всего генома (GWAS). Загвоздка в том, что в каждом регионе могут быть сотни генетических вариантов, и очень трудно сказать, какой из них на самом деле увеличивает вероятность заболевания людей.

«С помощью GWAS вы получаете набор сигналов, которые могут сказать вам, какие области генома связаны с определенным заболеванием или признаком», – сказал Виджай Шанкаран, ассоциированный член Института Броуда, детский гематолог / онколог в Dana-Farber / Boston Children’s и старший автор одной из двух статей о Cell. "Но трудно понять, какие попадания являются причинными, а какие просто проходят."
Картина становится особенно сложной, когда речь идет о вариантах в некодирующей ДНК, включая обширные участки ДНК, содержащие последовательности, которые контролируют экспрессию генов. По некоторым оценкам, от 85 до 90 процентов вариантов, выбранных GWAS, находятся в таких регионах. Таким образом, ученые ищут способы соединить точки между некодирующими вариантами GWAS, биологией человека и, в конечном итоге, человеческим заболеванием.

«Мы хотим перейти от понимания составных частей генома к пониманию того, что делают изменения в этих компонентах», – сказал Пардис Сабети, член Института Броуда, компьютерный генетик и эволюционный биолог из Гарварда и старший автор второго исследования. чья лаборатория исследует роль генетической изменчивости, в целом, в эволюции человека и микробов. "Нам нужны очень чувствительные технологии, чтобы иметь возможность идентифицировать эти функциональные изменения, особенно если они незначительны."
Становится массовым

Репортерные анализы, являющиеся основным продуктом инструментария геномики на протяжении десятилетий, помогают ученым анализировать данные GWAS, чтобы найти варианты, которые действительно влияют на экспрессию или функцию генов. Исследователь берет фрагмент ДНК из того, что может быть энхансером, соединяет его в плазмиде с «репортерным» геном, который обеспечивает считывание (e.грамм., ген люциферазы) и вставляет плазмиду в клетки.

Если показание материализуется (e.грамм., если клетки светятся), энхансерная последовательность приводила к экспрессии репортера. При проведении анализа с различными вариантами одного и того же фрагмента можно выявить закономерность, предполагающую, влияют ли определенные варианты на экспрессию.

Однако у таких анализов есть один серьезный недостаток: они не масштабируются до уровня, необходимого для исследования от тысяч до десятков тысяч вариантов, которые могут появиться в GWAS.
Броуд квасцы Тарьей Миккельсен (ныне работающий в биотехнологической компании 10X Genomics) и ученый-исследователь Broad Александр Мельников разработали принципы одного вида MPRA, работая в лаборатории директора-основателя и президента Broad Эрика Ландера. В статье Nature Biotechnology 2012 года они отметили, что пометка каждой плазмиды коротким уникальным штрих-кодом ДНК обеспечивает второе считывание.

Посредством секвенирования и подсчета мРНК, продуцируемых каждой плазмидой, они могли легко идентифицировать вариант (ы) с наибольшим влиянием на экспрессию гена и количественно оценить величину этого влияния.
А поскольку каждый штрих-код был уникальным для каждой плазмиды, команда Миккельсена и Мельникова могла объединить и проанализировать тысячи вариантов одновременно.

Ориентация на черты кровяных телец
Лаборатория Шанкарана использовала систему MPRA Миккельсена и Мельникова для тщательного изучения более 2750 некодирующих вариантов в 75 совпадениях GWAS, связанных с признаками красных кровяных телец. И, как он, Миккельсен и соавторы Якоб Улирш и Сатиш Нандакумар сообщили в своей статье о Cell, данные MPRA выявили 32 совпадения, которые фактически повлияли на экспрессию генов. Используя дополнительные вычислительные и функциональные анализы для дальнейшего изучения влияния подмножества этих вариантов на черты эритроцитов, команда обнаружила, что несколько известных генов могут иметь до сих пор неизвестную роль в развитии клеток крови.

«Один из неожиданных уроков, который мы извлекли, заключался в том, что многие варианты изменяли основной регулятор развития крови, GATA1, – сказал Улирш, штатный научный сотрудник лаборатории Шанкарана. "Была общая закономерность. Идя один за другим, вариант за вариантом, мы бы никогда не увидели этого."
Здание MPRA 2.0
Хотя оригинальный метод Миккельсена и Мельникова достаточно эффективен, лаборатория Сабети хотела посмотреть, смогут ли они сделать его еще более надежным.

«Исходная версия MPRA ограничена количеством вариантов, которые вы можете протестировать», – сказал Райан Тьюхи, научный сотрудник лаборатории Сабети и первый автор второй статьи о Cell. "Мы хотели знать, можете ли вы расширить эту технологию? Можете ли вы протестировать сразу несколько десятков тысяч вариантов? И можете ли вы сделать его более чувствительным?"
Тьюхи, Сабети и их команда удвоили длину каждого штрих-кода ДНК и увеличили количество штрих-кодов до 350 на вариант.

Затем они использовали свой расширенный анализ для изучения более 32000 возможных вариантов регуляции В-клеток, выявленных в рамках проекта 1000 Genomes Project, глубоко охарактеризовав один из них, связанный с риском анкилозирующего спондилита (аутоиммунного заболевания). Они также выделили еще 842 варианта-кандидата, в том числе 53 особенно многообещающих, связанных с человеческими особенностями и заболеваниями.

Как они обсуждали в своей статье Cell, добавленные штрих-коды уменьшили шум в их данных и повысили общую чувствительность анализа.
«С большим количеством штрих-кодов вы можете начать обнаруживать более тонкие изменения в экспрессии, включая изменения, которые могут возникнуть из-за различий между аллелями», – добавил Тьюхи.

Другой взгляд на регулирование
MPRA – не единственный подход для извлечения причинных игл из стогов сена GWAS, и Тьюи реалистично считает, что это не панацея для изучения всех клеточных механизмов регуляции экспрессии.

"Мы знаем, что для промоутеров и энхансеров это хорошо", – сказал он. "Мы не так уверены в том, что касается связи на большом расстоянии или формы генома. "
Шанкаран отмечает, что MPRA действительно сияет своей способностью находить темы в генетических вариациях, которые исследователи могут сочетать с другими генетическими, структурными или функциональными данными.
«Когда вы начинаете собирать все эти независимые части вместе, вы получаете прекрасное представление о том, что важно», – сказал он.