Биологические базы данных: Обзор и перспективы на будущее

Биологические базы данных появились как ответ на огромное количество данных, полученных с помощью недорогих технологий секвенирования ДНК. Одной из первых появившихся баз данных был GenBank, представляющий собой коллекцию всех доступных последовательностей белков и ДНК. Он поддерживается Национальным институтом здравоохранения (NIH) и Национальным центром биотехнологической информации (NCBI). GenBank проложил путь к проекту «Геном человека» (HGP). HGP позволил выполнить полное секвенирование и чтение генетической программы. Данные, хранящиеся в биологических базах данных, организованы для оптимального анализа и делятся на два типа: необработанные и проверенные (или аннотированные). Биологические базы данных являются сложными, разнородными, динамичными, и в то же время противоречивыми. Несоответствие связано с отсутствием стандартов на онтологическом уровне.

Почему это важно?

Ранее базы данных и банки данных считались совершенно различными. Однако со временем база данных стала более предпочтительным термином. Данные передаются непосредственно в биологические базы данных для индексации, организации и оптимизации данных. Они помогают исследователям находить соответствующие биологические данные, делая их доступными в формате, удобном для чтения на компьютере. Вся биологическая информация легко доступна через инструменты интеллектуального анализа данных, которые экономят время и ресурсы. Биологические базы данных можно в широком смысле классифицировать как базы данных последовательностей и структур. Базы данных структур предназначены для белковых структур, а базы данных последовательностей – для последовательностей нуклеиновых кислот и белков.

Виды биологических баз данных

Биологические базы данных могут быть далее классифицированы как первичные, вторичные и составные базы данных.

Первичные базы данных содержат информацию только для последовательности или структуры. Примеры первичных биологических баз данных включают в себя:

  • Swiss-Prot и PIR для белковых последовательностей
  • GenBank и DDBJ для последовательностей генома
  • Protein Data для структуры белков

Вторичные базы данных содержат информацию, полученную из первичных баз данных. Вторичные базы данных хранят информацию, такую как консервативные последовательности, остатки активного сайта и сигнатурные последовательности. Данные, принадлежащие базе данных Protein хранятся во вторичных базах данных. Примеры включают в себя:

  • SCOP в Кембриджском университете
  • CATH в Университетском колледже Лондона
  • PROSITE Швейцарского института биоинформатики
  • eMOTIF в Стэнфорде

Составные базы данных содержат множество первичных баз данных, что исключает необходимость поиска каждой из них в отдельности. Каждая составная база данных имеет разные алгоритмы поиска и разные структуры данных. NCBI размещает эти базы данных на своих ресурсах, где находятся ссылки на онлайн-каталог фенетических маркеров у человека (OMIM).

Будущее

Благодаря высокопроизводительным вычислительным платформам эти базы данных стали важными в обеспечении инфраструктуры, необходимой для биологических исследований, от подготовки данных до извлечения данных. Моделирование биологических систем также требует вычислительных платформ, что дополнительно подчеркивает необходимость в биологических базах данных. Будущее биологических баз данных выглядит блестящим, отчасти благодаря цифровому миру.

С точки зрения исследований, инструменты биоинформатики должны быть оптимизированы для анализа растущего количества данных, полученных от геномики, метаболомики, протеомики и метагеномики. Другой будущей тенденцией станет аннотация существующих данных и лучшая интеграция баз данных.

При наличии большого количества биологических баз данных существует первостепенная необходимость в интеграции, продвижении и улучшениях в биоинформатике. Биоинформатика будет неуклонно развиваться, когда будут решаться проблемы номенклатуры и стандартизации. Рост биологических баз данных откроет путь для дальнейших исследований белков и нуклеиновых кислот, исследований, влияющих на терапевтические, биомедицинские и смежные области. Если вы используете биологические базы данных и хотели бы поделиться своими мыслями, оставьте комментарий в разделе ниже!

X

Подпишитесь, чтобы продолжить чтение

нашим бесплатным ресурсам по написанию исследований и публикации статей, включая:

  • 100 + статей
  • 50+ вебинаров
  • 10+ подкастов с экспертами
  • 10+ электронных книг
  • 10+ чеклистов
  • 50+ таблиц с инфографикой