Máquina | Grupo de bolas LED 3D de Hangzhou

Imagen anterior Imagen siguiente

ChatGPT ha aparecido en los titulares de todo el mundo por su capacidad para escribir ensayos, correos electrónicos y códigos informáticos basándose en algunas indicaciones de un usuario. Ahora, un equipo liderado por el MIT informa sobre un sistema que podría conducir a programas de aprendizaje automático varios órdenes de magnitud más poderosos que el que está detrás de ChatGPT. El sistema que desarrollaron también podría utilizar varios órdenes de magnitud menos de energía que las supercomputadoras de última generación detrás de los modelos de aprendizaje automático actuales.

En la edición del 17 de julio de Nature Photonics, los investigadores informan sobre la primera demostración experimental del nuevo sistema, que realiza sus cálculos basándose en el movimiento de la luz, en lugar de los electrones, utilizando cientos de láseres de escala micrométrica. Con el nuevo sistema, el equipo informa una mejora de más de 100 veces en la eficiencia energética y una mejora de 25 veces en la densidad informática, una medida de la potencia de un sistema, en comparación con las computadoras digitales de última generación para el aprendizaje automático. .

Hacia el futuro

En el documento, el equipo también cita "sustancialmente varios órdenes de magnitud más para mejoras futuras". Como resultado, continúan los autores, la técnica "abre una vía para que los procesadores optoelectrónicos a gran escala aceleren las tareas de aprendizaje automático desde los centros de datos hasta los dispositivos de borde descentralizados". En otras palabras, los teléfonos móviles y otros dispositivos pequeños podrían llegar a ser capaces de ejecutar programas que actualmente sólo pueden computarse en grandes centros de datos.

Además, como los componentes del sistema pueden crearse utilizando procesos de fabricación que ya se utilizan hoy en día, “esperamos que pueda ampliarse para uso comercial en unos pocos años. Por ejemplo, los conjuntos de láser involucrados se usan ampliamente en la identificación facial de teléfonos celulares y en la comunicación de datos”, dice Zaijun Chen, primer autor, quien realizó el trabajo mientras era postdoctorado en el Laboratorio de Investigación de Electrónica (RLE) del MIT y ahora es un Profesor asistente en la Universidad del Sur de California.

Dice Dirk Englund, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y líder del trabajo: “ChatGPT tiene un tamaño limitado por el poder de las supercomputadoras actuales. Simplemente no es económicamente viable entrenar modelos mucho más grandes. Nuestra nueva tecnología podría hacer posible dar un salto hacia modelos de aprendizaje automático que de otro modo no serían alcanzables en un futuro próximo”.

Y continúa: "No sabemos qué capacidades tendrá el ChatGPT de próxima generación si es 100 veces más potente, pero ese es el régimen de descubrimiento que este tipo de tecnología puede permitir". Englund también es líder del Laboratorio de Fotónica Cuántica del MIT y está afiliado al RLE y al Laboratorio de Investigación de Materiales.

Un tamborileo de progreso

El trabajo actual es el último logro de un ritmo de progreso en los últimos años por parte de Englund y muchos de los mismos colegas. Por ejemplo, en 2019 un equipo de Englund informó sobre el trabajo teórico que condujo a la demostración actual. El primer autor de ese artículo, Ryan Hamerly, ahora de RLE y NTT Research Inc., también es autor del artículo actual.

Otros coautores del artículo actual de Nature Photonics son Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein y Lamia Ateshian, todos de RLE; y Tobias Heuser, Niels Heermeier, James A. Lott y Stephan Reitzensttein de la Technische Universitat Berlin.

Las redes neuronales profundas (DNN), como la que está detrás de ChatGPT, se basan en enormes modelos de aprendizaje automático que simulan cómo el cerebro procesa la información. Sin embargo, las tecnologías digitales detrás de las DNN actuales están llegando a sus límites incluso cuando el campo del aprendizaje automático está creciendo. Además, requieren enormes cantidades de energía y se limitan en gran medida a grandes centros de datos. Esto está motivando el desarrollo de nuevos paradigmas informáticos.

El uso de luz en lugar de electrones para ejecutar cálculos DNN tiene el potencial de superar los cuellos de botella actuales. Los cálculos que utilizan la óptica, por ejemplo, tienen el potencial de utilizar mucha menos energía que los basados en la electrónica. Además, con la óptica, “se pueden tener anchos de banda” o densidades de computación mucho mayores, afirma Chen. La luz puede transferir mucha más información en un área mucho más pequeña.

Pero las redes neuronales ópticas (ONN) actuales enfrentan desafíos importantes. Por ejemplo, utilizan una gran cantidad de energía porque son ineficientes a la hora de convertir en luz los datos entrantes basados en energía eléctrica. Además, los componentes implicados son voluminosos y ocupan mucho espacio. Y si bien los ONN son bastante buenos en cálculos lineales como la suma, no son buenos en cálculos no lineales como la multiplicación y las declaraciones "si".

En el trabajo actual, los investigadores presentan una arquitectura compacta que, por primera vez, resuelve todos estos desafíos y dos más simultáneamente. Esa arquitectura se basa en conjuntos de última generación de láseres emisores de superficie verticales (VCSEL), una tecnología relativamente nueva utilizada en aplicaciones que incluyen la detección remota lidar y la impresión láser. Los VCEL particulares reportados en el artículo de Nature Photonics fueron desarrollados por el grupo Reitzenstein de la Technische Universitat Berlin. "Este fue un proyecto colaborativo que no habría sido posible sin ellos", dice Hamerly.

Logan Wright, profesor asistente de la Universidad de Yale que no participó en la investigación actual, comenta: “El trabajo de Zaijun Chen et al. Es inspirador, animándome a mí y probablemente a muchos otros investigadores en esta área a pensar que los sistemas basados en matrices VCSEL moduladas podrían ser una ruta viable hacia redes neuronales ópticas de alta velocidad y gran escala. Por supuesto, el estado de la técnica aquí todavía está lejos de la escala y el costo que serían necesarios para dispositivos prácticamente útiles, pero soy optimista sobre lo que se puede lograr en los próximos años, especialmente teniendo en cuenta el potencial que tienen estos sistemas para acelerar. los sistemas de inteligencia artificial muy costosos y a gran escala, como los que se utilizan en los populares sistemas textuales 'GPT' como ChatGPT”.

Chen, Hamerly y Englund solicitaron una patente para el trabajo, que fue patrocinado por la Oficina de Investigación del Ejército de EE. UU., NTT Research, el Programa de Becas para Graduados en Ciencias e Ingeniería de la Defensa Nacional de EE. UU., la Fundación Nacional de Ciencias de EE. UU. y la Fundación de Ciencias Naturales e Ingeniería. Consejo de Investigación de Canadá y la Fundación Volkswagen.

Artículo anterior Artículo siguiente

Hacia el futuroUn tamborileo de progreso