Самый большой зверь в лесу больших данных? Поразительный рост одной области – «геномный»

Нет, альфа-зверь в лесу больших данных, как утверждают эксперты в выпуске PLOS Biology от 7 июля, оказывается геномикой – наукой, которой не было 15 лет назад, и только сейчас она только начинает вырываться из поле для генерации наибольшего количества электронных байтов в год по сравнению со всеми другими полями. Признание того, что он скоро уйдет от других огромных накопителей данных, по словам экспертов, является необходимым первым шагом в решении грандиозной проблемы – выяснения того, как собирать, хранить, обрабатывать и интерпретировать всю эту закодированную в геноме биологическую информацию, урезанный до символических и, само по себе бессмысленных, единиц и нулей.
«В течение очень долгого времени люди использовали прилагательное« астрономический », чтобы говорить о действительно, действительно огромных вещах», – говорит Майкл Шац, доцент Центра количественной биологии Саймонса в лаборатории Колд-Спринг-Харбор (CSHL) и соавтор статьи PLOS. "Но, указывая на невероятные темпы роста генерации данных в биологических науках, мои коллеги и я предполагаем, что нам, возможно, придется начать называть действительно огромные вещи" геномными "в ближайшие годы."
Все области, которые сравнивала команда, от социальных сетей в Интернете до астрономии, генерируют огромные объемы электронных данных – от десятков до сотен петабайт в год.

Петабайт – это один квадриллион байт – 10 с 15 нулями; это в 1000 раз больше байтов, чем терабайт, объем памяти, который у вас может быть на вашем домашнем компьютере. И, по словам команды, которая также состоит из ряда экспертов по данным из Университета Иллинойса в Шампейн-Урбана, все месторождения находятся на быстро восходящих кривых роста.

На самом деле YouTube сейчас генерирует больше всего данных, около 100 петабайт в год. Но геномика не отстает и растет гораздо быстрее.

При нынешних темпах количество данных по геномике, производимых ежедневно, удваивается каждые 7 месяцев. К 2025 году эта цифра будет составлять от 2 до 40 эксабайт в год, по оценке команды, в зависимости от скорости удвоения.

Один эксабайт эквивалентен 1000 петабайт, что примерно в миллион раз больше данных, чем вы можете хранить на своем домашнем компьютере.
Шац и его коллеги описывают геномику как «четырехголового зверя».«Они относятся к отдельным проблемам сбора, хранения, распространения и анализа данных. Подобно данным, которые передаются через Интернет, биологические данные, являющиеся сырьем для геномики, широко распространены.

Это означает, что он генерируется и потребляется во многих местах. Однако в отличие от данных Интернета, которые отформатированы в соответствии с несколькими стандартными протоколами, геномные данные компилируются во многих различных форматах, что ставит под угрозу их широкую понятность и полезность.
Эта проблема приобретает все большее значение по мере увеличения количества данных.

Как объясняет Шац, большая часть потока больших данных из биологии будет принимать форму последовательностей генома человека, а также соответствующей медицинской информации, которая также зависит от технологии секвенирования. Эта связанная информация принимает форму как моментальных снимков, так и эквивалента фильмов и касается, например, уровней генных сообщений или транскриптов в конкретных образцах тканей, а также идентичности и уровней белка в образцах.
Если бы все данные о человеческих последовательностях, сгенерированные до сих пор, были помещены в одно место – около 250 000 последовательностей – для этого потребовалось бы около 25 петабайт дискового пространства.

Это управляемая проблема, говорит Шац. Но к 2025 году команда ожидает, что полные геномы будут секвенированы у 1 миллиарда человек (в основном это люди из сравнительно богатых стран). Это создает проблему хранения на уровне эксабайта.
В какой-то момент целые последовательности могут не сохраняться.

В физике элементарных частиц данные считываются и фильтруются по мере их создания, что значительно снижает требования к хранению. Но этот синтаксический анализ не совсем практичен для биологической информации, главным образом потому, что вопрос о том, какие последовательности могут быть безопасно выброшены, гораздо труднее решить. Возможно, потребуется сохранить миллиард наборов индивидуальных данных, чтобы они могли помочь будущим врачам.

Шатца особенно интересует проблема, связанная с получением сотен миллионов, даже миллиардов полноразмерных последовательностей генома человека. Проблема заключается не в скорости, которая будет быстро и предсказуемо расти, говорит он, а в том, чтобы выяснить, как выровнять и представить различные геномы, чтобы их можно было сравнивать – и сравнивать очень эффективными и умными способами.

«Суть секвенирования миллиарда геномов на самом деле не в том, чтобы составить миллиард отдельных списков, в которых говорится:« Если у вас есть эти варианты, у вас есть следующие риски.Конечно, люди захотят взглянуть на список имеющихся у них вариантов ДНК. Но реальная сила 1 миллиарда человеческих геномов заключается в их сравнении и объединении слоев анализа. Мы верим, что, объединив всю эту информацию, будут возникать закономерности – точно так же, как когда Мендель выращивал десятки тысяч растений гороха на заре генетики 150 лет назад, он смог сформулировать законы наследования, глядя на закономерности наследования конкретных черт."
«Геномика – это наука, меняющая правила игры во многих отношениях», – говорит Шац. «Мы с коллегами говорим, что важно думать о будущем, чтобы быть к нему готовыми."