Se han lanzado siete modelos GPT gratuitos y de código abierto

La firma de inteligencia artificial de Silicon Valley, Cerebras, ha lanzado siete modelos GPT de código abierto para proporcionar una alternativa a los sistemas patentados y estrictamente controlados disponibles en la actualidad.

Los modelos GPT de código abierto y libres de regalías, incluidos los pesos y la receta de entrenamiento, han sido lanzados bajo la licencia Apache 2.0 altamente permisiva de Cerebras, una empresa de infraestructura de IA para aplicaciones de IA con sede en Silicon Valley.

Hasta cierto punto, los siete modelos GPT son una prueba de concepto para la supercomputadora Cerebras Andromeda AI.

La infraestructura de Cerebras permite a sus clientes, como Jasper AI Copywriter, entrenar rápidamente sus propios modelos de lenguaje personalizados.

Una publicación de blog de Cerebras sobre tecnología de hardware señaló:

“Entrenamos todos los modelos Cerebras-GPT en un clúster de escala de obleas Cerebras CS-2 16x llamado Andromeda.

El clúster permitió que todos los experimentos se completaran rápidamente, sin la ingeniería de sistemas distribuidos tradicional y el ajuste de modelos paralelos requeridos en los clústeres de GPU.

Más importante aún, permitió a nuestros investigadores centrarse en el diseño de ML en lugar del sistema distribuido. Creemos que poder entrenar fácilmente modelos grandes es un factor clave para la comunidad en general, por lo que hemos hecho que Cerebras Wafer-Scale Cluster esté disponible en la nube a través de Cerebras AI Model Studio”.

Contenido del Articulo

Cerebras GPT Modelos y Transparencia

Cerebras cita la concentración de la propiedad de la tecnología de IA en unas pocas empresas como razón para crear siete modelos GPT de código abierto.

OpenAI, Meta y Deepmind mantienen grandes cantidades de información sobre sus sistemas privados y estrictamente controlados, lo que limita la innovación a lo que las tres empresas decidan hacer con sus datos.

¿Es un sistema de código cerrado lo mejor para la innovación de IA? ¿O es el código abierto el futuro?

Cerebrás escribe:

“Para que los LLM sean una tecnología abierta y accesible, creemos que es importante tener acceso a modelos de vanguardia que sean abiertos, reproducibles y libres de regalías tanto para investigación como para aplicaciones comerciales.

Para ello, hemos entrenado una familia de modelos de transformadores utilizando las últimas técnicas y conjuntos de datos abiertos que llamamos Cerebras-GPT.

Estos modelos son la primera familia de modelos GPT entrenados con el tipo Chinchilla y lanzados bajo la licencia Apache 2.0.

Por lo tanto, estos siete modelos se publican en Hugging Face y GitHub para fomentar una mayor investigación a través del acceso abierto a la tecnología de IA.

Estos modelos fueron entrenados en la supercomputadora Andromeda AI de Cerebras, un proceso que tardó solo unas semanas en completarse.

Cerebras-GPT es totalmente abierto y transparente, a diferencia de los últimos modelos GPT de OpenAI (GPT-4), Deepmind y Meta OPT.

OpenAI y Deepmind Chinchilla no licencian los modelos. Meta OPT ofrece solo una licencia no comercial.

GPT-4 de OpenAI no tiene absolutamente ninguna transparencia sobre sus datos de entrenamiento. ¿Usaron datos de Common Crawl? ¿Escribieron Internet y crearon su propio conjunto de datos?

OpenAI mantiene esta información (y más) en secreto, lo que contrasta con el enfoque Cerebras-GPT que es completamente transparente.

Los siguientes son todos abiertos y transparentes:

  • modelo de arquitectura
  • Datos de entrenamiento
  • Pesos modelo
  • Puntos de control
  • Cálculo del estado óptimo de entrenamiento (sí)
  • Licencia: Licencia Apache 2.0

Las siete versiones están disponibles en los modelos 111M, 256M, 590M, 1.3B, 2.7B, 6.7B y 13B.

Anunciado:

“Por primera vez para las empresas de hardware de IA, los investigadores de Cerebras entrenaron, en la supercomputadora Andromeda AI, una serie de siete modelos GPT con parámetros 111M, 256M, 590M, 1.3B, 2.7B, 6.7B y 13B.

Por lo general, una empresa de varios meses, este proyecto se completó en cuestión de semanas gracias a la increíble velocidad de los sistemas Cerebras CS-2 que componen Andromeda y la capacidad de la arquitectura de flujo de peso de Cerebras para eliminar el dolor de la computación distribuida.

Estos resultados demuestran que los sistemas de Cerebras pueden entrenar las cargas de trabajo de IA más grandes y complejas de la actualidad.

Esta es la primera vez que se hace público un conjunto de modelos GPT, entrenados utilizando técnicas de rendimiento de entrenamiento de última generación.

Estos modelos se entrenan con la mayor precisión para un presupuesto computacional dado (es decir, entrenamiento eficiente usando la receta de Chinchilla), por lo que tienen menos tiempo de entrenamiento, menor costo de entrenamiento y usan menos energía que cualquier modelo público existente.

IA de código abierto

La Fundación Mozilla, creadores del software de código abierto Firefox, fundó una empresa llamada Mozilla.ai para crear sistemas GPT de código abierto y recomendaciones que sean confiables y respeten la privacidad.

Databricks también lanzó recientemente un clon de GPT de código abierto llamado Dolly que tiene como objetivo democratizar “la magia de ChatGPT”.

Además de estos siete modelos Cerebras GPT, otra empresa, llamada Nomic AI, ha lanzado GPT4All, un GPT de código abierto que se puede ejecutar en una computadora portátil.

El movimiento de IA de código abierto está en su infancia, pero está cobrando impulso.

La tecnología GPT está impulsando un cambio masivo en todas las industrias, y es posible, tal vez inevitable, que las contribuciones de código abierto cambien la cara de las industrias que impulsan ese cambio.

Si el movimiento de código abierto sigue avanzando a este ritmo, es posible que estemos a punto de ver un cambio en la innovación de la IA que evite que se concentre en manos de unas pocas empresas.

Lea el anuncio oficial:

Cerebras Systems lanza siete nuevos modelos GPT entrenados en sistemas de escala de obleas CS-2

Imagen destacada de Shutterstock/Merkushev Vasiliy

Previous post Google planea integrar IA conversacional en su motor de búsqueda
Next post SEO vs. Desarrolladores web: ¿Quién debe liderar la implementación?

Deja una respuesta