Примерно через год, с использованием секвенатора нанопор PromethION, аналогичные усилия оказались значительно быстрее, дешевле и проще, примерно за неделю. «Мы секвенировали одиннадцать геномов человека за девять дней, что было беспрецедентным для того времени», – сказал научный сотрудник Калифорнийского университета в Санта-Крус Митен Джайн.
Теперь исследователи из Калифорнийского университета в Санта-Крус сотрудничали над алгоритмом, предназначенным для точной и точной сборки отдельных полных геномов человека из данных долгого секвенирования примерно за шесть часов и примерно за 70 долларов.
Исследователи заявили, что надеются, что их ассемблер увеличит темпы исследований в области геномики и откроет возможности. Это включает в себя предоставление возможности исследованиям пангенома представить истинные масштабы человеческого разнообразия, что, безусловно, является более практическим занятием.
До недавнего времени геномные исследования полагались исключительно на эталонный геном одного человека, выбранного для представления всего вида. Чтобы отразить истинное человеческое разнообразие, Калифорнийский университет в Санта-Крус приступил к пангеномной инициативе по секвенированию 350 новых индивидуальных геномов человека.
В рамках этой работы исследователи из Института геномики Калифорнийского университета в Санта-Крус разработали протокол секвенирования с длинным считыванием нанопор, который последовательно обеспечивает ~ 60-кратное покрытие (~ 200 гигабаз) человеческого генома на беспрецедентных длинах (медиана чтения N50 составляет 42 кб) с использованием трех PromethION. проточные кюветы. Кроме того, ~ 7-кратный охват генома при чтении превышает 100 kb. Этот метод хорошо масштабируется как с точки зрения стоимости, так и количества геномов, которые можно обрабатывать одновременно. В настоящее время мы улучшаем этот метод для увеличения длины чтения и пропускной способности, что еще больше облегчит нашу задачу по достижению полных, поэтапных геномов эталонного качества.
Этот большой поток данных потребовал разработки высокоэффективных программных инструментов, начиная с ассемблера. «Наш новый ассемблер был разработан, чтобы быть дешевым и быстрым, с целью работать в облаке», – сказал Бенедикт Патен из Калифорнийского университета в Санта-Крус. "Это дает нам возможность масштабировать секвенирование нанопор. Теперь я уверен, что в ближайшие пару лет мы легко соберем сотни геномов de novo."
Обширная группа исследователей и разработчиков, возглавляемая Паоло Карневали из Инициативы Чана Цукерберга (CZI), в том числе многие сотрудники Лаборатории вычислительной геномики в Институте геномики Калифорнийского университета в Санта-Крус, внесли свой вклад в это решение.
«Когда я увидел статью Jain 2018, я был впечатлен и понял, что могу внести свой вклад в вычислительную сторону этого направления исследования», – сказал Паоло Карневали. «Я недавно встретился с Бенедиктом Патеном и решил, что хочу работать с его командой в UCSC.
Вскоре команда начала сотрудничать. В течение нескольких месяцев они разработали и протестировали специальный алгоритмический соус, который они назвали Шаста.
По словам авторов, Shasta – это алгоритм, управляемый вычислениями в оперативной памяти, который теперь может помочь завершить сборку de novo (нового, никогда ранее не обрабатываемого) генома человека менее чем за шесть часов при средней стоимости 70 долларов за образец.
В своей статье «Секвенирование нанопор и инструментарий Shasta обеспечивает эффективную сборку de novo одиннадцати человеческих геномов», опубликованной сегодня в Nature Biotechnology, они описывают, как Shasta не только обеспечивает сопоставимую или лучшую точность, чем ее современники, но и имеет наименьшее количество ошибочных сборок.
Не удовлетворившись этим достижением, команда увидела возможность улучшить черновую сборку по доступной цене и времени на оборачиваемость. «Чтобы улучшить качество сборок на базовом уровне, мы использовали полировщик последовательности, основанный на глубокой нейронной сети, в качестве финального этапа сборки», – пояснил ведущий автор Кишвар Шафин. «Это привело к тому, что общая стоимость процесса сборки составила менее 200 долларов США и 37 часов, что еще больше снизило вычислительные затраты на создание сборок с длительным считыванием – в пять раз."
Исследователи оценили точность, а затем подтвердили точность и отметили, что они достигли 99.Сборка с точностью 9% с использованием только данных нанопор, впервые в геноме человека.
Кроме того, они создали каркасы на уровне хромосом для этих полированных сборок, используя данные секвенирования HiC.
Ученый-исследователь и соавтор Карен Мига, которая руководит центром производства данных в UCSC для проекта Human Pangenome Project, отмечает важность достижений команды в повышении точности. «Наша цель – не только расширить разнообразие эталонного генома, но и устранить сотни пробелов, которые сохраняются в геноме», – объясняет Мига. "Теперь, когда мы можем регулярно включать эти неизведанные области, у нас есть действительно полная сборка человеческого генома, и мы можем начать исследовать варианты с неизвестными последствиями."
