
imagen./Adam Zewé | Oficina de noticias del MIT
2023-04-20
El sistema de IA puede generar proteínas novedosas que cumplen con los objetivos de diseño estructural
Los investigadores del MIT están utilizando inteligencia artificial para diseñar nuevas proteínas que van más allá de las que se encuentran en la naturaleza.
Desarrollaron algoritmos de aprendizaje automático que pueden generar proteínas con características estructurales específicas, que podrían usarse para fabricar materiales que tengan ciertas propiedades mecánicas, como rigidez o elasticidad. Dichos materiales inspirados en la biología podrían reemplazar potencialmente a los materiales hechos de petróleo o cerámica, pero con una huella de carbono mucho menor.
Los investigadores del MIT, el MIT-IBM Watson AI Lab y la Universidad de Tufts emplearon un modelo generativo, que es el mismo tipo de arquitectura de modelo de aprendizaje automático que se usa en sistemas de IA como DALL-E 2. Pero en lugar de usarlo para generar Imágenes de indicaciones de lenguaje natural, como lo hace DALL-E 2, adaptaron la arquitectura del modelo para que pudiera predecir secuencias de aminoácidos de proteínas que logran objetivos estructurales específicos.
En un artículo publicado hoy en Chem, los investigadores demuestran cómo estos modelos pueden generar proteínas realistas pero novedosas. Los modelos, que aprenden las relaciones bioquímicas que controlan cómo se forman las proteínas, pueden producir nuevas proteínas que podrían permitir aplicaciones únicas, dice el autor principal Markus Buehler, profesor de Ingeniería Jerry McAfee y profesor de ingeniería civil y ambiental y de ingeniería mecánica.
Por ejemplo, esta herramienta podría usarse para desarrollar recubrimientos de alimentos inspirados en proteínas, que podrían mantener los productos frescos por más tiempo y ser seguros para que los humanos los coman. Y los modelos pueden generar millones de proteínas en unos pocos días, brindando rápidamente a los científicos una cartera de nuevas ideas para explorar, agrega.
“Cuando piensas en el diseño de proteínas que la naturaleza aún no ha descubierto, es un espacio de diseño tan grande que no puedes resolverlo con lápiz y papel. Tienes que descubrir el lenguaje de la vida, la forma en que el ADN codifica los aminoácidos y luego se unen para formar estructuras de proteínas. Antes de que tuviéramos el aprendizaje profundo, realmente no podíamos hacer esto”, dice Buehler, quien también es miembro del MIT-IBM Watson AI Lab.
Junto a Buehler en el artículo están el autor principal Bo Ni, un postdoctorado en el Laboratorio de Mecánica Atómica y Molecular de Buehler; y David Kaplan, profesor de ingeniería de la familia Stern y profesor de bioingeniería en Tufts.
Adaptación de nuevas herramientas para la tarea.
Las proteínas están formadas por cadenas de aminoácidos, plegadas juntas en patrones 3D. La secuencia de aminoácidos determina las propiedades mecánicas de la proteína. Si bien los científicos han identificado miles de proteínas creadas a través de la evolución, estiman que aún queda por descubrir una enorme cantidad de secuencias de aminoácidos.
Para agilizar el descubrimiento de proteínas, los investigadores han desarrollado recientemente modelos de aprendizaje profundo que pueden predecir la estructura 3D de una proteína para un conjunto de secuencias de aminoácidos. Pero el problema inverso, predecir una secuencia de estructuras de aminoácidos que cumplan con los objetivos de diseño, ha demostrado ser aún más desafiante.
Un nuevo advenimiento en el aprendizaje automático permitió a Buehler y sus colegas abordar este espinoso desafío: los modelos de difusión basados en la atención.
Los modelos basados en la atención pueden aprender relaciones de muy largo alcance, lo cual es clave para desarrollar proteínas porque una mutación en una secuencia larga de aminoácidos puede hacer o deshacer todo el diseño, dice Buehler. Un modelo de difusión aprende a generar nuevos datos a través de un proceso que implica agregar ruido a los datos de entrenamiento y luego aprender a recuperar los datos eliminando el ruido. A menudo son más efectivos que otros modelos para generar datos realistas de alta calidad que pueden condicionarse para cumplir con un conjunto de objetivos para satisfacer una demanda de diseño.
Los investigadores utilizaron esta arquitectura para construir dos modelos de aprendizaje automático que pueden predecir una variedad de nuevas secuencias de aminoácidos que forman proteínas que cumplen con los objetivos de diseño estructural.
“En la industria biomédica, es posible que no quieras una proteína que sea completamente desconocida porque entonces no conoces sus propiedades. Pero en algunas aplicaciones, es posible que desee una proteína nueva que sea similar a la que se encuentra en la naturaleza, pero que haga algo diferente. Podemos generar un espectro con estos modelos, que controlamos ajustando ciertas perillas”, dice Buehler.
Los patrones de plegamiento comunes de los aminoácidos, conocidos como estructuras secundarias, producen diferentes propiedades mecánicas. Por ejemplo, las proteínas con estructuras de hélice alfa producen materiales elásticos, mientras que las que tienen estructuras de hoja beta producen materiales rígidos. La combinación de hélices alfa y láminas beta puede crear materiales elásticos y fuertes, como la seda.
Los investigadores desarrollaron dos modelos, uno que opera sobre las propiedades estructurales generales de la proteína y otro que opera a nivel de aminoácidos. Ambos modelos funcionan combinando estas estructuras de aminoácidos para generar proteínas. Para el modelo que opera en las propiedades estructurales generales, un usuario ingresa un porcentaje deseado de diferentes estructuras (40 por ciento de hélice alfa y 60 por ciento de hoja beta, por ejemplo). Luego, el modelo genera secuencias que cumplen con esos objetivos. Para el segundo modelo, el científico también especifica el orden de las estructuras de aminoácidos, lo que proporciona un control mucho más detallado.
Los modelos están conectados a un algoritmo que predice el plegamiento de proteínas, que los investigadores utilizan para determinar la estructura 3D de la proteína. Luego calculan sus propiedades resultantes y las comparan con las especificaciones de diseño.
Diseños realistas pero novedosos.
Probaron sus modelos comparando las nuevas proteínas con proteínas conocidas que tienen propiedades estructurales similares. Muchos tenían cierta superposición con las secuencias de aminoácidos existentes, alrededor del 50 al 60 por ciento en la mayoría de los casos, pero también algunas secuencias completamente nuevas. El nivel de similitud sugiere que muchas de las proteínas generadas son sintetizables, agrega Buehler.
Para garantizar que las proteínas predichas sean razonables, los investigadores intentaron engañar a los modelos ingresando objetivos de diseño físicamente imposibles. Quedaron impresionados al ver que, en lugar de producir proteínas improbables, los modelos generaron la solución sintetizable más cercana.
“El algoritmo de aprendizaje puede detectar las relaciones ocultas en la naturaleza. Esto nos da confianza para decir que cualquier resultado de nuestro modelo es muy probable que sea realista”, dice Ni.
A continuación, los investigadores planean validar experimentalmente algunos de los nuevos diseños de proteínas haciéndolos en un laboratorio. También quieren seguir aumentando y refinando los modelos para poder desarrollar secuencias de aminoácidos que cumplan con más criterios, como funciones biológicas.
“Para las aplicaciones que nos interesan, como la sustentabilidad, la medicina, los alimentos, la salud y el diseño de materiales, necesitaremos ir más allá de lo que ha hecho la naturaleza. Aquí hay una nueva herramienta de diseño que podemos usar para crear posibles soluciones que podrían ayudarnos a resolver algunos de los problemas sociales realmente apremiantes que enfrentamos”, dice Buehler.
“Además de su función natural en las células vivas, las proteínas desempeñan cada vez más un papel clave en aplicaciones tecnológicas que van desde fármacos biológicos hasta materiales funcionales. En este contexto, un desafío clave es diseñar secuencias de proteínas con las propiedades deseadas adecuadas para aplicaciones específicas. Los enfoques de aprendizaje automático generativo, incluidos los que aprovechan los modelos de difusión, han surgido recientemente como herramientas poderosas en este espacio”, dice Tuomas Knowles, profesor de química física y biofísica en la Universidad de Cambridge, que no participó en esta investigación. “Buehler y sus colegas demuestran un avance crucial en esta área al proporcionar un enfoque de diseño que permite adaptar la estructura secundaria de la proteína diseñada. Este es un avance emocionante con implicaciones para muchas áreas potenciales,
“Este trabajo en particular es fascinante porque está examinando la creación de nuevas proteínas que en su mayoría no existen, pero luego examina cuáles serían sus características desde una dirección basada en la mecánica”, agrega Philip LeDuc, profesor de Mecánica William J. Brown. Ingeniería en la Universidad Carnegie Mellon, quien tampoco participó en este trabajo. “Personalmente me ha fascinado la idea de crear moléculas que no existen y que tienen una funcionalidad que ni siquiera hemos imaginado todavía. Este es un gran paso en esa dirección”.
Esta investigación fue apoyada, en parte, por MIT-IBM Watson AI Lab, el Departamento de Agricultura de EE. UU., el Departamento de Energía de EE. UU., la Oficina de Investigación del Ejército, los Institutos Nacionales de Salud y la Oficina de Investigación Naval.

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...