Las proteínas son moléculas esenciales para la vida, desempeñan un papel fundamental en muchos procesos biológicos. Están presentes en todas las células vivas y cumplen una variedad de funciones cruciales. Están compuestas por aminoácidos y se pliegan en estructuras tridimensionales específicas que determinan su función.
Estas estructuras complejas permiten que las proteínas interactúen con otras moléculas, catalicen reacciones químicas, transmitan señales celulares y proporcionen soporte estructural a las células y tejidos.
However, predecir con exactitud la estructura de una proteína a partir de su secuencia de aminoácidos ha sido, por mucho tiempo, un gran desafío en la biología y bioquímica. Entender esta estructura es esencial, ya que facilita una mejor comprensión del mecanismo de acción de las proteínas y desarrollar estrategias para modular su función, lo cual es crucial para el desarrollo de nuevas medicinas y tratamientos.
En este contexto es donde sobresale AlphaFold, un avance revolucionario en el campo de la inteligencia artificial.
¿Qué es AlphaFold?
AlphaFold es un programa de inteligencia artificial (IA) desarrollado por DeepMind, una subsidiaria de Google especializada en deep learning. AlphaFold emplea redes neuronales para predecir con exactitud la estructura tridimensional de las proteínas a partir de sus secuencias de aminoácidos. Esta innovación tiene el potencial de transformar nuestro entendimiento de los procesos biológicos fundamentales y acelerar avances en medicina y biotecnología.
Los desafíos de la predicción de la estructura de las proteínas
La predicción de la estructura de las proteínas representa un significativo desafío en la biología molecular debido a varios factores complejos.
1. Diversidad de secuencias y estructuras:
Hasta la fecha, se han identificado más de 200 millones de proteínas, y muchas más son descubiertas cada año. Cada una de estas presenta una forma tridimensional única.
De hecho, las proteínas están formadas por 20 tipos de aminoácidos distintos, organizados en secuencias que pueden variar en longitud y composición. Esta diversidad genera una amplia gama de estructuras tridimensionales posibles, haciendo extremadamente difícil la predicción precisa de estas estructuras.
2. Limitaciones de los métodos experimentales:
Para determinar la estructura de las proteínas, existen distintos métodos experimentales como la cristalografía de rayos X o la resonancia magnética nuclear (RMN). No obstante, estas técnicas son costosas, tardadas y no siempre exitosas.
Además, existen proteínas para las cuales es difícil, sino imposible, obtener datos estructurales exactos utilizando métodos experimentales tradicionales. Estas proteínas incluyen aquellas que son muy grandes, muy flexibles o que no cristalizan fácilmente.
Por ello, durante décadas, los científicos han buscado un método que permita determinar de manera confiable la estructura de una proteína usando únicamente su secuencia de aminoácidos.
El éxito de AlphaFold
La competencia CASP (Critical Assessment of Structure Prediction) es un evento organizado cada dos años que tiene como propósito evaluar los métodos de predicción de estructuras tridimensionales de las proteínas.
Para esto, se seleccionan como objetivos estructuras de proteínas recientemente determinadas de manera experimental (pero aún no publicadas). En las semanas subsecuentes, los diferentes equipos participantes deben proporcionar las estructuras de estas proteínas predichas por su método. Las predicciones son luego comparadas con las estructuras experimentales reales, lo que permite evaluar la precisión de los diferentes métodos de predicción.
En 2018, DeepMind emergió entre los equipos participantes. Desde esa sesión (CASP13), AlphaFold demostró ser más eficiente que todos sus competidores.
En CASP14, en 2020, AlphaFold superó a todos los otros equipos con una precisión sin precedentes, alcanzando niveles similares a los de los métodos experimentales convencionales. Este éxito fue celebrado como una ruptura significativa en el campo.
¿Cómo funciona AlphaFold?
AlphaFold combina técnicas de deep learning y modelado estructural para predecir las estructuras de proteínas. Estas son las principales etapas del proceso:
- Entrada de datos: La secuencia lineal de aminoácidos de la proteína objetivo se ingresa como información preliminar. AlphaFold genera alineaciones de secuencias múltiples (MSA) para encontrar secuencias similares en las bases de datos de proteínas, brindando contextos evolutivos.
- Modelado: AlphaFold utiliza modelos de deep learning, incluyendo transformadores, para analizar las relaciones entre los aminoácidos. Los transformadores son capaces de manejar relaciones a larga distancia en las secuencias, lo cual es crucial para predecir las interacciones entre residuos distantes en la secuencia lineal pero cercanos en la estructura 3D.
- Predicción de distancias y ángulos: AlphaFold predice las distancias entre pares de aminoácidos y los ángulos de los enlaces químicos, lo que ayuda a establecer la forma 3D de la proteína.
- Ensamblaje estructural: Utilizando las predicciones de distancias y ángulos, AlphaFold ensambla la estructura tridimensional de la proteína minimizando una función de energía que penaliza configuraciones no realistas.
- Evaluación de la predicción: La estructura predicha es evaluada por su precisión en comparación con datos experimentales disponibles, utilizando técnicas de refinamiento para mejorar la calidad del modelo.
Aplicaciones de AlphaFold
Permitiendo una predicción rápida y precisa de las estructuras de proteínas, AlphaFold abre nuevas perspectivas para la investigación biomédica y farmacéutica. Por ejemplo:
- Desarrollo de fármacos: El conocimiento de las estructuras de proteínas facilita el diseño de medicamentos que interactúen con proteínas específicas involucradas en enfermedades.
- Biología sintética: Los científicos pueden crear proteínas nuevas con funciones específicas para aplicaciones industriales o medioambientales.
- Investigación básica: Entender la estructura de las proteínas ayuda a explicar los mecanismos biológicos subyacentes y a descubrir nuevos objetivos terapéuticos.
Compartiendo a través de la base de datos AlphaFold
Comprometido con la compartición de su tecnología, AlphaFold ha sido hecho disponible a la comunidad científica por parte de DeepMind a través de la base de datos AlphaFold Protein Structure que alberga las predicciones generadas por AlphaFold.
Esta base de datos está disponible de forma gratuita, permitiendo a investigadores de todo el mundo consultar y utilizar esta información para sus propios estudios.
Contiene más de 350 000 estructuras, incluyendo 20 000 proteínas humanas conocidas, así como los proteomas de otros organismos relevantes para la investigación biológica, como la levadura y el ratón.
Conclusión
Por lo tanto, el éxito de AlphaFold en la predicción de la estructura de las proteínas demuestra el potencial revolucionario de la inteligencia artificial y el deep learning en la ciencia.
Para saber más sobre las tecnologías de deep learning y formarte en el campo de la Data Science, únete a DataScientest.