Los chatbots populares como ChatGPT, Claude y Gemini tienen la tarea de responder a una amplia gama de consultas de los usuarios sobre prácticamente cualquier tema imaginable. Pero lograr una experiencia amplia y profunda en tantos temas es un desafío incluso para los modelos de aprendizaje automático más grandes.

Los modelos de combinación de expertos están diseñados para abordar este desafío. Las arquitecturas MoE combinan las capacidades de múltiples modelos especializados, conocidos como expertos, dentro de un único sistema global. La idea detrás de la arquitectura MoE es dividir tareas complejas en partes más pequeñas y simples, que luego las completa el experto más adecuado para cada subtarea.

El enfoque MoE difiere de una arquitectura monolítica de aprendizaje automático, donde el mismo modelo completa todas las tareas. Los modelos monolíticos a veces luchan con diversos insumos que requieren diferentes tipos de experiencia, un escenario común para muchas herramientas de IA generativa orientadas al consumidor. Al combinar las capacidades de varios expertos más pequeños, en lugar de depender de un modelo enorme para completar todas las tareas, los modelos MoE pueden ofrecer una mayor precisión y eficiencia generales.

Es similar al concepto de microservicios versus arquitectura monolítica en el desarrollo de software. Dividir un sistema grande en componentes más pequeños y flexibles diseñados para cumplir propósitos específicos puede mejorar el rendimiento y la escalabilidad. Para poner un ejemplo menos técnico, pensemos en un modelo de MoE como algo similar a un panel de expertos humanos convocados para revisar un borrador de política. Cada experto brinda información sobre su área de enfoque: un médico opina sobre asuntos médicos, un abogado se ocupa de cuestiones legales, etc.

¿Cómo funcionan los modelos de combinación de expertos?

MoE es una forma de aprendizaje conjunto, una técnica de aprendizaje automático que combina predicciones de múltiples modelos para mejorar la precisión general. Un sistema MoE tiene dos componentes principales:

Expertos. Estos modelos más pequeños están entrenados para funcionar bien en un determinado dominio o en un tipo específico de problema. Pueden tener prácticamente cualquier algoritmo subyacente, desde una red neuronal compleja hasta un simple árbol de decisión, según el propósito previsto. La cantidad de expertos en un modelo MoE puede variar ampliamente según la complejidad del sistema general y los datos y la computación disponibles. Mecanismos de compuerta. El mecanismo de activación en un modelo MoE, a veces denominado red de activación, funciona de manera similar a un enrutador, decidiendo qué expertos activar en respuesta a una entrada determinada y combinando sus salidas para generar el resultado final. Después de evaluar la entrada, el mecanismo de activación calcula una distribución de probabilidad que indica la idoneidad de cada experto para la tarea. Luego, el sistema selecciona a los expertos más apropiados, asigna ponderaciones a sus contribuciones e integra sus resultados en una respuesta final.

Cuando el modelo MoE recibe una entrada, el mecanismo de activación la evalúa para determinar qué expertos deben encargarse de la tarea y luego dirige la entrada a los expertos seleccionados. A continuación, los expertos analizan los insumos y generan sus respectivos resultados, que se combinan mediante una suma ponderada para formar la decisión final.

Al asignar dinámicamente tareas a diferentes expertos, la arquitectura MoE puede aprovechar las fortalezas de cada experto, mejorando la adaptabilidad y el rendimiento generales del sistema. En particular, el sistema del Ministerio de Educación puede involucrar a múltiples expertos en distintos grados para la misma tarea. El mecanismo de activación gestiona este proceso dirigiendo las consultas a los expertos adecuados y decidiendo cuánta importancia asignar a la contribución de cada experto en el resultado final.

Entrenar un modelo MoE implica optimizar tanto los modelos expertos como el mecanismo de activación. Cada experto recibe capacitación en un subconjunto diferente de los datos de capacitación generales, lo que permite que estos modelos desarrollen bases de conocimiento especializadas y capacidades de resolución de problemas. Mientras tanto, se enseña al mecanismo de activación cómo evaluar eficazmente las entradas para que pueda asignar tareas a los expertos más adecuados.

Ejemplos de aplicaciones del modelo de combinación de expertos

Los modelos MoE tienen una amplia gama de casos de uso:

Procesamiento del lenguaje natural. La capacidad de asignar tareas como traducción, análisis de sentimientos y respuesta a preguntas a expertos especializados hace que los modelos MoE sean útiles para problemas relacionados con el lenguaje. Por ejemplo, los informes sugieren que el modelo de lenguaje grande GPT-4 de OpenAI utiliza una arquitectura MoE que comprende 16 expertos, aunque OpenAI no ha confirmado oficialmente los detalles del diseño del modelo. Visión por computadora. Los modelos MoE pueden ayudar en el procesamiento de imágenes y la visión artificial asignando subtareas a diferentes expertos en imágenes, por ejemplo, para manejar categorías de objetos específicas, tipos de características visuales o regiones de imágenes. Sistemas de recomendación. Los motores de recomendación impulsados ​​por modelos MoE pueden adaptarse a los intereses y preferencias de los usuarios. Por ejemplo, un recomendador impulsado por el MoE podría asignar diferentes expertos para responder a varios segmentos de clientes, manejar categorías de productos y tener en cuenta factores contextuales. Detección de anomalías. Dado que los expertos en un sistema MoE están capacitados en subconjuntos de datos más limitados, pueden aprender a especializarse en la detección de tipos específicos de anomalías. Esto mejora la sensibilidad general y permite que el modelo de detección de anomalías maneje más tipos de entradas de datos.

Pros y contras de los modelos de combinación de expertos

En comparación con los modelos monolíticos, los modelos MoE tienen varias ventajas:

Actuación. La capacidad de recurrir a expertos especializados es clave para la eficacia y eficiencia de los modelos del Ministerio de Educación. Debido a que solo se activan los expertos relevantes para una tarea determinada, no todos los componentes del modelo normalmente se ejecutan al mismo tiempo. Esto conduce a un procesamiento computacional y un uso de la memoria más eficientes. Adaptabilidad. Las amplias capacidades de los expertos hacen que los modelos MoE sean muy flexibles. Al recurrir a expertos con capacidades especializadas, el modelo MoE puede tener éxito en una gama más amplia de tareas. Modularidad y tolerancia a fallos. Como se analizó anteriormente, las arquitecturas de microservicios pueden mejorar la flexibilidad y la disponibilidad del software, y una estructura MoE puede desempeñar un papel similar en contextos de aprendizaje automático. Si un experto falla, el sistema aún puede generar respuestas útiles combinando los resultados de otros expertos. Del mismo modo, los desarrolladores de modelos pueden agregar, eliminar o actualizar expertos según sea necesario en respuesta a los datos cambiantes y las necesidades cambiantes de los usuarios. Escalabilidad. Descomponer problemas complejos en tareas más pequeñas y manejables ayuda a los modelos MoE a manejar entradas cada vez más difíciles o complicadas. Y gracias a su modularidad, los modelos MoE también se pueden ampliar para manejar tipos adicionales de problemas agregando nuevos expertos o reentrenando a los existentes.

Sin embargo, a pesar de estas ventajas, los modelos MoE también presentan ciertos desafíos y limitaciones:

Complejidad. Los modelos MoE requieren una gran cantidad de recursos de infraestructura, tanto para la capacitación como para la inferencia, porque la gestión de múltiples expertos, así como el mecanismo de activación, es computacionalmente costosa. La complejidad de los modelos MoE también hace que sea más difícil entrenarlos y mantenerlos, ya que los desarrolladores deben integrar y actualizar múltiples modelos más pequeños y garantizar que funcionen bien juntos dentro de un todo cohesivo. Sobreajuste. Si bien la naturaleza especializada de los expertos es clave para la utilidad de los sistemas del Ministerio de Educación, demasiada especialización puede ser perjudicial. Si el conjunto de datos de entrenamiento no es lo suficientemente diverso o si el experto está capacitado en un subconjunto demasiado limitado de los datos generales, el experto podría sobreajustarse a su dominio específico, reduciendo su precisión en datos nunca antes vistos y degradando el rendimiento general del sistema. Interpretabilidad. La opacidad ya es un problema notable en la IA, incluso para los principales LLM. Una arquitectura MoE puede empeorar este problema porque añade complejidad; En lugar de seguir únicamente el proceso de toma de decisiones de un modelo monolítico, quienes intentan comprender la decisión de un modelo de Ministerio de Educación también deben analizar las complejas interacciones entre los diversos expertos y el mecanismo de activación. Requisitos de datos. Para capacitar a los expertos y optimizar el mecanismo de activación, los modelos MoE requieren datos de capacitación extensos, diversos y bien estructurados. Adquirir, almacenar y preparar esos datos puede ser un desafío, especialmente para entidades con menos recursos, como organizaciones más pequeñas e investigadores académicos.

Direcciones futuras en la investigación mixta de expertos

En los próximos años, es probable que la investigación del Ministerio de Educación se centre en mejorar la eficiencia y la interpretabilidad, optimizar la forma en que los expertos colaboran entre sí y desarrollar mejores métodos para la asignación de tareas.

Con respecto a la complejidad y las necesidades de recursos de los modelos MoE, los desarrolladores están explorando técnicas para mejorar el hardware y la eficiencia algorítmica. Por ejemplo, las arquitecturas informáticas distribuidas distribuyen la carga computacional del sistema MoE entre múltiples máquinas, y la compresión de modelos puede reducir el tamaño de los modelos expertos sin afectar significativamente su rendimiento. En el momento de la inferencia, los desarrolladores también pueden reducir las demandas computacionales incorporando técnicas como la dispersión, que activa solo un pequeño subconjunto de expertos en respuesta a cada entrada.

En términos de interpretabilidad, la investigación en IA explicable, un campo centrado en hacer más claros los procesos de toma de decisiones de los modelos, podría potencialmente aplicarse a los modelos MoE. La comprensión de la toma de decisiones tanto de los expertos como de los mecanismos de activación ofrecería una mayor claridad sobre cómo los sistemas MoE llegan a su resultado final. Esto podría significar, por ejemplo, desarrollar mecanismos de activación que muestren cómo se eligieron determinados expertos o construir expertos que puedan ofrecer explicaciones para sus decisiones.

Lev Craig cubre la IA y el aprendizaje automático como editor del sitio de Enterprise AI. Craig se graduó de la Universidad de Harvard con una licenciatura en inglés y anteriormente escribió sobre TI empresarial, desarrollo de software y ciberseguridad.