Modelo de lenguaje de código abierto llamado Dolly 2.0 Entrenado similar a ChatGPT

Databricks ha anunciado el lanzamiento de su primer modelo de lenguaje ajustado a directivas de código abierto, llamado Dolly 2.0. Capacitado utilizando una metodología similar a InstructGPT, pero con un conjunto de datos robusto y de mayor calidad que es 100% de código abierto.

Este modelo es de uso gratuito, incluso con fines comerciales, porque cada parte del modelo es 100 % de código abierto.

Contenido del Articulo

Capacitación de instrucción de código abierto

Lo que hace que ChatGPT pueda seguir instrucciones es la capacitación que recibe utilizando las técnicas descritas en el artículo de investigación de InstructGPT.

El descubrimiento realizado con InstructGPT es que los modelos de lenguaje no necesitan conjuntos de entrenamiento cada vez más grandes.

Con el entrenamiento de preguntas y respuestas calificadas por humanos, OpenAI pudo entrenar un mejor modelo de lenguaje usando cien veces menos parámetros que el modelo anterior, GPT-3.

Databricks utilizó un enfoque similar para crear conjuntos de datos de solicitud y respuesta llamados call databricks-dolly-15k.

Su conjunto de datos de solicitud/respuesta se creó sin raspar foros web o Reddit.

databricks-dolly-15k es un conjunto de datos creado por empleados de Databricks, 15 000 pares de respuestas rápidas, 100 % originales y generados por humanos, diseñados para entrenar el modelo de lenguaje Dolly 2.0 de la misma manera que el modelo ChatGPT se creó con InstructGPT.

La página de GitHub para el conjunto de datos explica cómo lo hicieron:

“databricks-dolly-15k es un conjunto de datos de código abierto de registros de seguimiento de instrucciones que se usa para entrenar databricks/dolly-v2-12b creado por miles de empleados de Databricks en varias de las categorías de comportamiento descritas en el documento InstructGPT, incluida la tormenta de ideas, clasificación, QA cerrado, generación, extracción de información, QA abierto y resumen.

…Se invitó a los empleados de Databricks a crear pares de mensaje/respuesta en cada una de las ocho categorías de instrucción diferentes, incluidas las siete descritas en el documento InstructGPT, así como una categoría de formato libre de código abierto.

Se instruyó a los colaboradores para que evitaran el uso de información de cualquier fuente en la web, con la excepción de Wikipedia (para subconjuntos específicos de categorías de comandos), y se les instruyó específicamente para evitar el uso de inteligencia artificial genética al formular instrucciones o respuestas. Se proporcionaron ejemplos de cada comportamiento para generar los tipos de preguntas e instrucciones apropiadas para cada categoría.

A la mitad del proceso de generación de datos, a los colaboradores se les dio la opción de responder a las preguntas planteadas por otros colaboradores. Se les pidió que reformularan la pregunta original y seleccionaran solo las preguntas que razonablemente se podía esperar que respondieran correctamente”.

Databricks afirma que este puede ser el primer conjunto de datos de comando generado por humanos creado para entrenar un modelo de lenguaje para seguir instrucciones, tal como lo hace ChatGPT.

El desafío era crear un conjunto de datos 100% original que no tuviera nada que ver con ChatGPT o cualquier otra fuente con licencia restrictiva.

Los empleados estaban motivados por una competencia para ayudar a crear 15 000 indicaciones/respuestas en siete categorías de tareas, que incluyen lluvia de ideas, clasificación y escritura creativa.

Databricks afirma que el conjunto de entrenamiento databricks-dolly-15k puede ser superior al conjunto de datos utilizado para entrenar ChatGPT.

Señalan que aunque su conjunto de datos es más pequeño que el utilizado para entrenar el modelo Stanford Alpaca, su modelo funcionó mejor porque sus datos son de mayor calidad.

Escriben:

“El modelo Dolly 2.0, basado en pythia-12b de EleutherAI, presentó instrucciones posteriores al comportamiento de alta calidad. En retrospectiva, esto no es sorprendente.

Muchos de los conjuntos de datos de ajuste de comandos publicados en los últimos meses contienen datos sintéticos, que a menudo contienen ilusiones y errores de hecho.

databricks-dolly-15k, por otro lado, está construido por profesionales, es de alta calidad y contiene excelentes respuestas para la mayoría de las tareas.

…no esperamos que Dolly sea lo último en términos de eficiencia.

Sin embargo, esperamos que Dolly y el conjunto de datos de código abierto actúen como la semilla para una gran cantidad de trabajo posterior, que puede servir para lanzar modelos de lenguaje aún más poderosos”.

Limitaciones del conjunto de datos

La página de GitHub para el conjunto de datos reconoce que puede haber algunas deficiencias en el conjunto de datos.

Los datos de Wikipedia se utilizaron como parte de la capacitación para generar indicaciones y respuestas. Por lo tanto, es posible que cualquier sesgo contenido en Wikipedia termine reflejándose en el conjunto de datos resultante.

Algunos de los empleados que trabajaron para crear el conjunto de datos no eran hablantes nativos de inglés, lo que podría introducir algunas anomalías en el conjunto de datos.

La composición demográfica de los empleados que crearon el conjunto de datos puede influir en el propio conjunto de datos para que contenga sesgos que son particulares de esos empleados.

A pesar de las posibles deficiencias en el conjunto de datos, Databricks expresó que el suyo es de la más alta calidad.

Además, Dolly 2.0 pretende servir como punto de partida para que otros creen e innoven versiones aún mejores.

Databricks insiste en que la IA de código abierto es mejor

Una de las motivaciones detrás de la creación de Dolly 2.0 es que los usuarios de los datos pueden poseer los modelos que crearon y pueden proteger mejor sus datos sin tener que compartirlos con terceros.

También creen que la seguridad de la IA no debe concentrarse en manos de tres grandes empresas, sino distribuirse entre todas las partes interesadas.

El código abierto está cobrando impulso y será interesante ver dónde se encuentra esta industria en los próximos años.

Puede encontrar más información sobre dónde descargar el modelo Dolly 2.0 y cómo usarlo en su anuncio.

Free Dolly: Presentamos el primer programa LLM verdaderamente abierto del mundo

Imagen destacada de Shutterstock/Kamil Macniak

Previous post Por qué no puedes permitirte ignorarlo en 2023
Next post Google está reduciendo lo que activa las miniaturas de video en las SERP

Deja una respuesta