
El CEO de Microsoft Alemania, Andreas Braun, confirmó que GPT-4 llegará dentro de una semana del 9 de marzo de 2023 y que será multimodal. AI multimodal significa que podrá trabajar en múltiples tipos de entrada, como video, imágenes y audio.
Contenido del Articulo
Modelos multimodales de lenguajes grandes
La gran conclusión del anuncio es que GPT-4 es multimodal (SEJ predijo que GPT-4 será multimodal en enero de 2023).
La modalidad es una referencia al tipo de entrada que (en este caso) trata un modelo de lenguaje grande.
Multimodal puede incluir texto, voz, imágenes y video.
GPT-3 y GPT-3.5 solo funcionaban en un modo, texto.
Según el informe alemán, GPT-4 puede funcionar en al menos cuatro modos, imágenes, sonido (audio), texto y video.
Dr. Andreas Braun, CTO de Microsoft Alemania afirma:
“Presentaremos GPT-4 la próxima semana, donde tendremos modelos multimodales que ofrecerán capacidades completamente diferentes, por ejemplo, video…”
El informe no detalló GPT-4, por lo que no está claro si lo que se compartió sobre la multimodalidad era específico de GPT-4 o general.
El director de estrategia empresarial de Microsoft, Holger Kenn, explicó las multimodalidades, pero el informe no dejaba claro si se refería a la multimodalidad oa la multimodalidad GPT-4 en general.
Creo que sus referencias a la multimodalidad eran específicas de GPT-4.
El informe fue compartido por:
“Kenn explicó qué es la inteligencia artificial multimodal, que puede traducir no solo texto en imágenes, sino también música y video”.
Otro dato interesante es que Microsoft está trabajando en “métricas de confianza‘, con el fin de respaldar su IA con hechos para hacerla más confiable.
microsoft kosmos-1
Algo aparentemente poco reportado en Estados Unidos es que Microsoft lanzó un modelo de lenguaje multimodal llamado Kosmos-1 a principios de marzo de 2023.
Según el informe del sitio de noticias alemán, Heise.de:
“…el equipo sometió el modelo previamente entrenado a varias pruebas, con buenos resultados en la clasificación de imágenes, respondiendo preguntas sobre el contenido de la imagen, etiquetado automatizado de imágenes, reconocimiento de texto visual y tareas de generación de voz.
…El razonamiento visual, es decir, hacer inferencias sobre imágenes sin utilizar el lenguaje como paso intermedio, parece ser clave aquí…»
Kosmos-1 es un modal multimodal que integra los modos de texto e imágenes.
GPT-4 va más allá que Kosmos-1 porque agrega un tercer formato, video, y también parece incluir funcionalidad de audio.
Funciona en varios idiomas.
GPT-4 parece funcionar en todos los idiomas. Se describe como poder recibir una pregunta en alemán y responder en italiano.
Este es un ejemplo extraño porque, ¿quién haría una pregunta en alemán y querría obtener una respuesta en italiano?
Esto fue confirmado:
“…la tecnología ha llegado tan lejos que básicamente “funciona en todos los idiomas”: puedes hacer una pregunta en alemán y obtener una respuesta en italiano.
Con la multimodalidad, Microsoft (-OpenAI) “hará modelos completos”.
Creo que el punto del descubrimiento es que el modelo trasciende el lenguaje en su capacidad de extraer conocimiento entre idiomas. Entonces, si la respuesta está en italiano, la sabrá y podrá dar la respuesta en el idioma en el que se hizo la pregunta.
Esto lo haría similar al objetivo de la IA multimodal de Google llamada MUM. Se dice que mamá puede proporcionar respuestas en inglés para las cuales solo existen datos en otro idioma, como el japonés.
Aplicaciones GPT-4
No hay ningún anuncio actual de dónde aparecerá GPT-4. Pero se mencionó específicamente Azure-OpenAI.
Google está luchando por ponerse al día con Microsoft mediante la incorporación de una tecnología competidora en su propio motor de búsqueda. Este desarrollo exacerba aún más la percepción de que Google se está quedando atrás y carece de liderazgo en la IA orientada al consumidor.
Google ya incorpora IA en muchos productos como Google Lens, Google Maps y otras áreas donde los consumidores interactúan con Google. Este enfoque consiste en utilizar la inteligencia artificial como tecnología de asistencia, para ayudar a las personas con pequeñas tareas.
La forma en que Microsoft lo implementa es más visible y, por lo tanto, atrae toda la atención y refuerza la imagen de Google como débil y que lucha por ponerse al día.
Lea el informe alemán original aquí:
GPT-4 llegará la próxima semana, y será multimodal, dice Microsoft Alemania
Imagen destacada de Shutterstock/Master1305
window.addEventListener( 'load2', function() { console.log('load_fin');
if( sopp != 'yes' && !window.ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'gpt-4-is-multimodal', content_category: 'news seo' }); } });