Bases de datos biológicos: Una visión general y una perspectiva de futuro
Las bases de datos biológicas surgieron como una respuesta a los enormes volúmenes de datos generados por las tecnologías de secuenciación de ADN de bajo costo. Una de las primeras bases de datos que surgió fue GenBank, que es una colección de todas las secuencias de ADN y proteínas disponibles. Es mantenido por los Institutos Nacionales de Salud (NIH) y el Centro Nacional de Información de Biotecnología (NCBI). GenBank allanó el camino para el Proyecto Genoma Humano (HGP). El HGP permitió la secuenciación completa y la lectura del plano genético. Los datos almacenados en bases de datos biológicas se organizan para un análisis óptimo y se componen de dos tipos: sin procesar y curados (o anotados). Las bases de datos biológicas son complejas, heterogéneas, dinámicas y, sin embargo, inconsistentes. La inconsistencia se debe a la falta de estándares a nivel ontológico.
¿Por qué son importantes?
Anteriormente, las bases de datos y los bancos de datos se consideraban bastante diferentes. Sin embargo, con el tiempo, “base de datos” se convirtió en un término preferible. Los datos se envían directamente a las bases de datos biológicas para la indexación, organización y optimización de datos. Ayudan a los investigadores a encontrar datos biológicos relevantes al ponerlos a disposición en un formato legible en una computadora. Toda la información biológica es fácilmente accesible a través de herramientas de minería de datos que ahorran tiempo y recursos. Las bases de datos biológicas pueden clasificarse ampliamente como bases de datos de secuencia y estructura. Las bases de datos de estructuras son para estructuras de proteínas, mientras que las bases de datos de secuencias son para secuencias de ácidos nucleicos y proteínas.
Tipos de bases de datos biológicas
Las bases de datos biológicas pueden clasificarse además como bases de datos primarias, secundarias y compuestas.
Las bases de datos primarias contienen información solo para secuencia o estructura. Ejemplos de bases de datos biológicas primarias incluyen:
- Swiss-Prot y PIR para secuencias de proteínas
- GenBank y DDBJ para secuencias genómicas
- Banco de datos de proteínas para estructuras de proteínas
Las bases de datos secundarias contienen información derivada de bases de datos primarias. Las bases de datos secundarias almacenan información, como secuencias conservadas, residuos de sitios activos y secuencias de firmas. Los datos del banco de datos de proteínas se almacenan en bases de datos secundarias. Ejemplos incluyen:
- SCOP en la Universidad de Cambridge
- CATH en el University College de Londres
- PROSITE del Instituto Suizo de Bioinformática
- eMOTIF en Stanford
Las bases de datos compuestas contienen una variedad de bases de datos primarias, lo que elimina la necesidad de buscar cada una por separado. Cada base de datos compuesta tiene diferentes algoritmos de búsqueda y estructuras de datos. El NCBI alberga estas bases de datos, donde se encuentran enlaces a la Herencia Mendeliana en el Hombre en Línea (OMIM).
El futuro
Debido a las plataformas computacionales de alto rendimiento, estas bases de datos se han vuelto importantes para proporcionar la infraestructura necesaria para la investigación biológica, desde la preparación de datos hasta la extracción de datos. La simulación de sistemas biológicos también requiere plataformas computacionales, lo que subraya aún más la necesidad de bases de datos biológicas. El futuro de las bases de datos biológicas se ve brillante, en parte debido al mundo digital.
En términos de investigación, las herramientas de bioinformática deben racionalizarse para analizar la creciente cantidad de datos generados a partir de genómica, metabolómica, proteómica y metagenómica. Otra tendencia futura será la anotación de los datos existentes y una mejor integración de las bases de datos.
Con una gran cantidad de bases de datos biológicas disponibles, la necesidad de integración, avances y mejoras en bioinformática es primordial. La bioinformática avanzará de manera constante cuando se aborden los problemas relacionados con la nomenclatura y la estandarización. El crecimiento de las bases de datos biológicas allanará el camino para estudios adicionales sobre proteínas y ácidos nucleicos, que afectan a los campos terapéuticos, biomédicos y relacionados. Si utiliza bases de datos biológicas y desea compartir alguna información, ¡comente en la sección a continuación!