Ученые из новой, но быстрорастущей области вычислительной геномики сталкиваются с аналогичной дилеммой. В последние десятилетия эти исследователи начали собирать химические схемы ДНК, обнаруженной у людей, животных, растений и микробов, открывая дверь, которая, вероятно, приведет к улучшению здравоохранения и значительному расширению знаний в области наук о жизни. Но сейчас серьезное препятствие угрожает быстрому перемещению секретов ДНК в исследовательские лаборатории, предупреждают два исследователя в этой области.
По словам исследователей, этот тупик произошел из-за того, что поток несобранных генетических данных производится намного быстрее, чем современные компьютеры могут превратить их в полезную информацию.
Это предпосылка новой статьи, написанной в соавторстве с экспертом по биоинформатике Джона Хопкинса и опубликованной в июльском выпуске IEEE Spectrum за 2013 год. Статья под названием «ДНК и поток данных» была написана в соавторстве с Майклом С. Шац, доцент кафедры количественной биологии в лаборатории Колд-Спринг-Харбор, штат Нью-Йорк; и Бен Лэнгмид, доцент кафедры информатики инженерной школы Джона Хопкинса.
В своей статье авторы прослеживают быстро растущую скорость и снижение стоимости машин, называемых секвенаторами ДНК, которые нарезают чрезвычайно длинные цепочки биохимических компонентов на более управляемые небольшие сегменты. Но, как отмечают авторы, эти секвенаторы не дают важной биологической информации, которую исследователи "могут прочитать как книгу"."
Вместо этого, говорится в статье, машины для секвенирования «генерируют что-то вроде огромной стопки измельченных газет без какой-либо организации фрагментов. Стек слишком велик, чтобы работать с ним вручную, поэтому задача просеивания всех фрагментов делегируется компьютерным программам."
Другими словами, секвенсоры производят генетические фрагменты мозаики, а для сборки картины необходим компьютер. В этом и заключается проблема, говорят Шац и Лэнгмид: улучшения компьютерных программ не поспевают за улучшениями и широким использованием секвенсоров, которые обрабатывают огромные объемы данных. В результате пазл невозможно собрать вовремя.
«Это проблема, которая грозит сдержать эту революционную технологию», – пишут авторы в своей статье. "Компьютерные вычисления, а не секвенирование, теперь являются более медленным и дорогостоящим аспектом исследований в области геномики."
Затем авторы подробно описывают возможные вычислительные решения, которые могут помочь устранить это цифровое узкое место. В своем собственном исследовании, проведенном в Johns Hopkins, соавтор Лэнгмид работает над некоторыми из этих средств.
«Битва действительно идет на два фронта», – сказал он. «Нам нужны более умные алгоритмы для решения этих проблем с данными, и нам нужно использовать больше вычислительных мощностей."
Алгоритм – это рецепт или серия шагов, таких как поиск данных или выполнение математических вычислений, которые компьютер должен выполнить для выполнения задачи.
«С более умными алгоритмами, – сказал Лэнгмид, – вы можете выполнять больше шагов с фиксированным количеством вычислительной мощности и времени – и выполнять больше работы."
Исследователь из Джона Хопкинса также имеет обширный опыт во второй зоне цифровой битвы: сборка большей вычислительной мощности.
Этого можно добиться, поставив несколько компьютеров на сборку пазла из ДНК. Связанные машины могут находиться в одном месте или на нескольких сайтах, подключенных через Интернет через облачные вычисления.
Что касается последнего варианта, сказал Лэнгмид, ученые смогут быстрее выполнять свою работу, подключившись к огромным вычислительным центрам, управляемым такими компаниями, как Amazon, и «арендуя» время на этих системах.
Лэнгмид сказал, что он и Шац написали статью IEEE Spectrum, чтобы привлечь внимание к серьезной вычислительной проблеме и дать импульс усилиям по ее решению.
Журнал позиционирует себя как ведущее издание IEEE, крупнейшей в мире ассоциации профессиональных технологий.
«Мы надеемся, что люди, прочитавшие нашу статью, смогут внести свой вклад в некоторые решения и значительно упростить работу ученого-геномиста», – сказал он.
