La humanidad lleva medio siglo enfrentada a un desafío descomunal: averiguar la forma de los ladrillos básicos de la vida, un conocimiento esencial para curar enfermedades hoy letales. El agua es muy fácil de imaginar. Son solo dos átomos de hidrógeno unidos a otro de oxígeno: H₂O. Pero la proteína que enrojece la sangre, la hemoglobina, responde a la endiablada fórmula C₂₉₅₂H₄₆₆₄N₈₁₂O₈₃₂S₈Fe₄. El biólogo estadounidense Cyrus Levinthal calculó en 1969 que se necesitaría más tiempo del transcurrido desde el origen del universo —unos 14.000 millones de años— para desentrañar todas las configuraciones posibles de una única proteína a partir de su secuencia de aminoácidos, que son los eslabones de esas macromoléculas. Sin embargo, un sistema de inteligencia artificial del conglomerado de Google ha logrado hacerlo en unos minutos. Sus predicciones para prácticamente todas las proteínas humanas se hacen públicas este jueves. Es un salto de gigante para la biología. La humanidad se quita una venda de los ojos.
En el ADN de cada célula están escritas las recetas de todas las proteínas que necesita para funcionar. El sistema de DeepMind, bautizado AlphaFold, lee esa información —una secuencia de aminoácidos— y predice la estructura de cada proteína. Su precisión es similar a la lograda con experimentos en el laboratorio, que requieren muchísimo más tiempo y dinero. Es como adivinar la forma de una tortilla al ver por primera vez una receta con huevos, patatas, cebolla, aceite y sal.
DeepMind y el Laboratorio Europeo de Biología Molecular han publicado este jueves más de 350.000 estructuras, incluyendo las de unas 20.000 proteínas humanas y las de otros 20 organismos, como el ratón de laboratorio y la bacteria de la tuberculosis. El científico Venki Ramakrishnan, ganador del Nobel de Química en 2009, afirma que es “un avance asombroso”, de consecuencias impredecibles. “Ha ocurrido mucho antes de lo que muchos expertos habrían predicho. Va a ser emocionante ver las muchas maneras en las que va a cambiar radicalmente la investigación biológica”, ha señalado Ramakrishnan, del Laboratorio de Biología Molecular de Cambridge (Reino Unido), en un comunicado.
Algunas organizaciones ya están trabajando con la nueva base de datos. La Iniciativa Medicamentos para Enfermedades Olvidadas, una entidad sin ánimo de lucro impulsada por Médicos Sin Fronteras, utiliza la estructura de las proteínas para buscar nuevos tratamientos. Prácticamente todas las enfermedades, desde el cáncer al alzhéimer, pasando por la covid, están relacionadas con la forma de alguna proteína. Otras instituciones, como la Universidad de Portsmouth (Reino Unido), están empleando el programa para intentar diseñar proteínas capaces de reciclar plásticos.
Demis Hassabis, director ejecutivo de DeepMind, ha anunciado que su plan es publicar 100 millones de estructuras en los próximos meses. Eso supondría ofrecer gratis la predicción de la forma de prácticamente todas las proteínas con una secuencia de aminoácidos conocida. “Creemos que esta es la contribución más importante hasta ahora de la inteligencia artificial al conocimiento científico”, ha proclamado Hassabis. En su estudio, publicado este jueves en la revista Nature, ha participado el español Bernardino Romera Paredes, un ingeniero informático de DeepMind nacido en Murcia hace 35 años.
Para determinar la estructura real de una proteína se necesitan carísimas infraestructuras, como el Laboratorio Europeo de Radiación Sincrotrón, una instalación circular de casi un kilómetro de circunferencia en Grenoble (Francia). La radiación emitida por los electrones que circulan por el anillo, compuesta básicamente por rayos X, permite observar los secretos de la materia. El biólogo español José Antonio Márquez explica que dilucidar la forma de una proteína con un sincrotrón, o con el método alternativo de la criomicroscopía electrónica, puede requerir “meses o incluso años”. AlphaFold lo consigue en minutos, pero con errores.
“Se trata de predicciones de ordenador, no de la determinación experimental de la estructura. Y la precisión es del 58%”, subraya Márquez, un investigador valenciano de 52 años que dirige la Plataforma de Cristalografía del Laboratorio Europeo de Biología Molecular, en Grenoble. Hoy en día, si un científico quiere estudiar una proteína implicada en el cáncer, tiene que esperar meses o años para analizar su forma. En las bases de datos solo hay unas 180.000 estructuras. La información publicada este jueves duplica esa cifra. Y en unos meses serán millones. “Lo normal hoy es no encontrar una proteína en las bases de datos. Con AlphaFold puedes tener una predicción con un 58% de fiabilidad. Te ahorra una cantidad de tiempo enorme”, opina Márquez, que no ha participado en el proyecto. Las imprecisiones del sistema se concentran en unas determinadas regiones de las proteínas, desestructuradas para adaptarse al ambiente.