GPT-4: Hechos, rumores y expectativas para el modelo de IA de próxima generación | Nick Babich | diciembre 2022

GPT-4 es la cuarta versión de GPT, uno de los modelos de IA más avanzados y esperados. GPT-3 tuvo un aumento de rendimiento significativo sobre GPT-2. Si GPT-4 puede llevar el modelo de IA al siguiente nivel, será como un salto cuántico en capacidad. Y lo más destacable es que GPT-4 está casi listo. Lo más probable es que podamos probar el GPT-4 en los próximos meses. Debería estar listo a principios de 2023.

Los detalles específicos de las especificaciones del GPT-4 aún se desconocen porque OpenAI, la empresa que desarrolló el GPT-4, no revela mucha información sobre el modelo.

En este artículo, quiero resumir lo que sabemos sobre GPT-4 hasta el momento: hechos, rumores y expectativas generales con respecto al modelo de IA de próxima generación.

Antes de entrar en detalles, es importante describir qué es GPT. GPT (Generative Pre-trained Transformer) es un modelo de inteligencia artificial para la generación de texto entrenado en datos disponibles en Internet. GPT es para generar texto humano.

Piense en GPT como inteligencia bajo demanda. Puede usarlo siempre que necesite resolver problemas que normalmente requerirían la participación humana.

Las aplicaciones de los modelos GPT son ilimitadas. Se puede usar para preguntas y respuestas, resúmenes de texto, traducción, clasificación, generación de código, etc. Algunos creen que GPT o un modelo de IA similar podría reemplazar a Google en el futuro.

GPT ofrece muchas oportunidades para los dueños de negocios. Es posible ajustar un modelo con datos específicos para lograr excelentes resultados en un área en particular (un procedimiento conocido como transferencia de aprendizaje). Las empresas emergentes y empresariales utilizarán GPT como base para los productos que crean, eliminando la necesidad de entrenar sus propios modelos de IA.

Un parámetro es una variable de configuración interna del modelo de IA y cuyo valor se puede recuperar a partir de los datos proporcionados. Los modelos de IA usan parámetros cuando hacen predicciones.

La cantidad de parámetros que tiene un modelo de IA es una métrica de rendimiento muy utilizada. La hipótesis de escala establece que el rendimiento del modelado del lenguaje mejora de manera suave y predecible a medida que aumentamos el tamaño del modelo, los datos y la potencia de procesamiento de manera adecuada. Esta es la razón por la que muchos creadores de modelos de IA se han centrado en aumentar la cantidad de parámetros en sus modelos.

Leyes de escala para modelos de lenguaje neural. Autor de la imagen Universidad de Cornell.

Desde 2018, cuando se lanzó GPT-1, OpenAI ha seguido una estrategia de “más es mejor”. GPT-1 tenía 117 millones de parámetros, GPT-2 tenía 1200 millones de parámetros y GPT-3 aumentó ese número a 175 mil millones de parámetros. Esto significa que el modelo GPT-3 tiene 100 veces más parámetros que el GPT-2. GPT-3 es un modelo muy grande con 175 mil millones de parámetros.

En una entrevista con Wired en agosto de 2021, Andrew Feldman, fundador y director ejecutivo de Cerebras, una empresa que se está asociando con OpenAI para entrenar el modelo GPT, mencionó que GPT-4 contendrá alrededor de 100 billones de parámetros. Puede parecer que GPT-4 será 100 veces más potente que GPT-3.

100 billones de parámetros es una estimación baja del número de conexiones neuronales en el cerebro humano. Si GPT-4 tiene 100 billones de parámetros, coincidirá con los parámetros del cerebro humano.

No es de extrañar que haya entusiasmado tanto a la gente.

Comparación del número de parámetros en GPT-3 y GPT-4. Autor de la imagen yo desayuno

De hecho, el tamaño del modelo no está directamente relacionado con la calidad del resultado. La cantidad de parámetros no se correlaciona necesariamente con el rendimiento del modelo de IA. Este es solo un factor que afecta el rendimiento del modelo. Ahora mismo tenemos modelos de IA mucho más grandes que GPT-3, pero no son los mejores en términos de rendimiento. Por ejemplo, Megatron-Turing NLG, creado por Nvidia y Microsoft, tiene más de 500 mil millones de parámetros y es el modelo más grande hasta el momento. Pero a pesar de esto, MT-NLG no es el mejor en términos de rendimiento. El modelo más pequeño puede alcanzar niveles de rendimiento más altos.

Tamaño del modelo (en miles de millones de parámetros). Autor de la imagen nvidia.

Además, cuanto más grande es el modelo, más caro es su refinamiento. GPT3 fue bastante complejo y costoso de entrenar, pero si aumenta el tamaño del modelo por un factor de 100, será extremadamente costoso en términos de potencia de procesamiento y la cantidad de datos de entrenamiento necesarios para el modelo.

Es poco probable que OpenAI tenga parámetros de 100T en GPT-4, porque simplemente aumentar la cantidad de parámetros de entrenamiento no conducirá a una mejora dramática a menos que los datos de entrenamiento también aumenten proporcionalmente. Los modelos más grandes a menudo no están optimizados (tome el Megatron-Turing NLG como ejemplo). La capacitación de modelos es muy costosa y, a menudo, las empresas tienen que hacer concesiones entre la precisión de un modelo de IA y el costo de la capacitación. Por ejemplo, GPT-3 solo se entrenó una vez y, a pesar de los errores en el modelo de IA, OpenAI no pudo volver a entrenar el modelo debido a los costos insoportables.

Todo esto significa que es probable que OpenAI comience a evitar el enfoque de “más es mejor” y se centre en la calidad del modelo en sí. Lo más probable es que GPT-4 tenga aproximadamente el mismo tamaño que GPT-3.

Más interesante aún, es probable que OpenAI cambie su enfoque a otros aspectos que afectan el rendimiento del modelo, como los algoritmos y la alineación. GPT-4 puede ser el primer modelo importante de IA basado en la escasez. Los modelos dispersos utilizan la evaluación condicional para reducir la sobrecarga computacional: no todas las neuronas en un modelo de IA están activas en un momento dado. El modelo se puede escalar fácilmente más allá de un billón de parámetros sin un alto costo computacional. Los modelos dispersos también comprenden mejor el contexto: pueden tener muchas más opciones de “siguiente palabra/frase” según lo que haya proporcionado el usuario. Como resultado, los modelos dispersos se parecen más al pensamiento humano real que sus predecesores.

Los modelos de IA solo pueden ser de texto o multimodales. Los modelos de texto toman texto como entrada y producen texto como salida. GPT-3 es un modelo de texto. El modelo multimodal acepta texto, audio, imágenes e incluso video. Esto brinda a los usuarios la capacidad de usar IA para crear contenido audiovisual. La multimodalidad es el futuro de la IA porque el mundo en el que vivimos es multimodal. DALL-E es un modelo multimodal.

Uso de DALL-E para crear efectos visuales con una pista de texto.

Los buenos modelos multimodales son mucho más difíciles de construir que los buenos modelos de lenguaje, porque los modelos multimodales deben poder combinar información textual y visual en una sola representación. Por lo que puedo ver, OpenAI está tratando de encontrar las limitaciones que solo tienen los modelos de lenguaje, y es probable que continúen en esa dirección con GPT-4 en lugar de intentar crear un poderoso modelo multimodal. Entonces GPT-4 probablemente será un modelo de texto.

Cualquiera que tenga experiencia con GPT-3 sabe lo importante que son las buenas sugerencias. Cuando te cuesta encontrar la pista correcta, el resultado final no será lo suficientemente bueno. Una expectativa que muchas personas tienen para GPT-4 es que este modelo dependa menos de buenas señales, dando a los usuarios más libertad para formular intenciones como quieran y tener más confianza en que el sistema los entenderá. .

El objetivo que persigue OpenAI es obligar a los modelos de lenguaje a seguir las intenciones humanas. Es muy probable que GPT-4 sea más preciso que GPT-3. Antes de lanzar ChatGPT, la empresa invirtió en InstructGPT, un modelo GPT-3 entrenado en la retroalimentación humana para seguir instrucciones. InstructGPT aprende de un gran conjunto de textos instructivos, incluidas instrucciones de recetas, guías prácticas y otros tipos de instrucciones escritas. El objetivo de InstructGPT es generar texto en lenguaje natural que sea claro, conciso y fácil de leer.

¿GPT-4 afectará a la sociedad de la misma forma que el Covid?

GPT-4 definitivamente afectará la forma en que las personas hacen su trabajo, pero eso no significa que será comparable a Covid (al menos no durante los primeros años). Lo más probable es que GPT-4 aumente la productividad para que las personas puedan trabajar con IA más rápido que sin ella. Al mismo tiempo, solo estamos al comienzo de la introducción de herramientas de IA, las herramientas de IA deben ganarse la confianza de las personas, y solo después de eso, las personas comenzarán a usarlas en su trabajo diario.

Experiencia personal. He estado usando ChatGPT, un chatbot avanzado basado en el modelo de lenguaje GPT-3.5, para trabajar desde el día que se hizo público, y debo decir que tiene muchos beneficios. Sin embargo, la salida que genera esta herramienta a menudo necesita ser revisada y corregida. Por ejemplo, la herramienta puede generar algo o usar enlaces incorrectos. A veces, crear texto con ChatGPT lleva más tiempo que escribirlo usted mismo desde cero. El modelo aún no ha alcanzado la comprensión humana de los matices y complejidades de la experiencia de la vida real.

Usando ChatGPT para explicar la diferencia entre “complejo” y “complejo”.

Si bien GPT-4 ofrece un salto cualitativo en términos de rendimiento, la velocidad de implementación del sistema no se notará durante el primer año. Tomará varios años para que una audiencia general acepte este cambio. Y al principio, probablemente tendremos muchas áreas en las que las personas estarán significativamente mejor.

Referencias: Puente algorítmico (Alberto Romero), Reddit (hilo OpenAI), Wired (entrevista con Andrew Feldman), Desayuno AIGreylock (Entrevista realizada por Sam Altman).

Publicado originalmente en babich.biz

Previous post Los 10 mejores artículos de UX de 2022
Next post 6 predicciones de tendencias de marketing digital para 2023

Deja una respuesta