Биологические базы данных: Обзор и перспективы на будущее
Биологические базы данных появились как ответ на огромное количество данных, полученных с помощью недорогих технологий секвенирования ДНК. Одной из первых появившихся баз данных был GenBank, представляющий собой коллекцию всех доступных последовательностей белков и ДНК. Он поддерживается Национальным институтом здравоохранения (NIH) и Национальным центром биотехнологической информации (NCBI). GenBank проложил путь к проекту «Геном человека» (HGP). HGP позволил выполнить полное секвенирование и чтение генетической программы. Данные, хранящиеся в биологических базах данных, организованы для оптимального анализа и делятся на два типа: необработанные и проверенные (или аннотированные). Биологические базы данных являются сложными, разнородными, динамичными, и в то же время противоречивыми. Несоответствие связано с отсутствием стандартов на онтологическом уровне.
Почему это важно?
Ранее базы данных и банки данных считались совершенно различными. Однако со временем база данных стала более предпочтительным термином. Данные передаются непосредственно в биологические базы данных для индексации, организации и оптимизации данных. Они помогают исследователям находить соответствующие биологические данные, делая их доступными в формате, удобном для чтения на компьютере. Вся биологическая информация легко доступна через инструменты интеллектуального анализа данных, которые экономят время и ресурсы. Биологические базы данных можно в широком смысле классифицировать как базы данных последовательностей и структур. Базы данных структур предназначены для белковых структур, а базы данных последовательностей – для последовательностей нуклеиновых кислот и белков.
Виды биологических баз данных
Биологические базы данных могут быть далее классифицированы как первичные, вторичные и составные базы данных.
Первичные базы данных содержат информацию только для последовательности или структуры. Примеры первичных биологических баз данных включают в себя:
- Swiss-Prot и PIR для белковых последовательностей
- GenBank и DDBJ для последовательностей генома
- Protein Data для структуры белков
Вторичные базы данных содержат информацию, полученную из первичных баз данных. Вторичные базы данных хранят информацию, такую как консервативные последовательности, остатки активного сайта и сигнатурные последовательности. Данные, принадлежащие базе данных Protein хранятся во вторичных базах данных. Примеры включают в себя:
- SCOP в Кембриджском университете
- CATH в Университетском колледже Лондона
- PROSITE Швейцарского института биоинформатики
- eMOTIF в Стэнфорде
Составные базы данных содержат множество первичных баз данных, что исключает необходимость поиска каждой из них в отдельности. Каждая составная база данных имеет разные алгоритмы поиска и разные структуры данных. NCBI размещает эти базы данных на своих ресурсах, где находятся ссылки на онлайн-каталог фенетических маркеров у человека (OMIM).
Будущее
Благодаря высокопроизводительным вычислительным платформам эти базы данных стали важными в обеспечении инфраструктуры, необходимой для биологических исследований, от подготовки данных до извлечения данных. Моделирование биологических систем также требует вычислительных платформ, что дополнительно подчеркивает необходимость в биологических базах данных. Будущее биологических баз данных выглядит блестящим, отчасти благодаря цифровому миру.
С точки зрения исследований, инструменты биоинформатики должны быть оптимизированы для анализа растущего количества данных, полученных от геномики, метаболомики, протеомики и метагеномики. Другой будущей тенденцией станет аннотация существующих данных и лучшая интеграция баз данных.
При наличии большого количества биологических баз данных существует первостепенная необходимость в интеграции, продвижении и улучшениях в биоинформатике. Биоинформатика будет неуклонно развиваться, когда будут решаться проблемы номенклатуры и стандартизации. Рост биологических баз данных откроет путь для дальнейших исследований белков и нуклеиновых кислот, исследований, влияющих на терапевтические, биомедицинские и смежные области. Если вы используете биологические базы данных и хотели бы поделиться своими мыслями, оставьте комментарий в разделе ниже!