El algoritmo SMITH de Google supera a BERT – Usabilidad web y seo

El algoritmo SMITH de Google supera a BERT

Vistas: 97
0 0
Tiempo de lectura:10 Minutos, 24 Segundos


Google publicó recientemente un artículo de investigación sobre un nuevo algoritmo llamado SMITH, que, según afirma, supera a BERT en la comprensión de consultas y documentos extensos. En particular, lo que hace que este nuevo modelo sea mejor es que es capaz de comprender pasajes de documentos de la misma manera que BERT comprende palabras y oraciones, lo que permite que el algoritmo comprenda documentos más largos.

El 3 de noviembre de 2020, leí acerca de un algoritmo de Google llamado Smith que afirma superar a BERT. Cubrí esto brevemente el 25 de noviembre en el episodio 395 del podcast SEO 101 a finales de noviembre.

Esperé hasta que tuve algo de tiempo para escribir un resumen de esto, ya que SMITH parece ser un algoritmo importante y merecía una descripción reflexiva que intenté humildemente.

Así que espero que les guste y si es así por favor compartan este artículo.

¿Utiliza Google el algoritmo SMITH?

Google generalmente no dice qué algoritmos específicos utiliza. Aunque los investigadores dicen que este algoritmo supera a BERT hasta que Google declara formalmente que el algoritmo SMITH se está utilizando para comprender los fragmentos de páginas web, determinar si se está utilizando o no es puramente especulativo.

anuncio

Continuar leyendo a continuación

¿Qué es el algoritmo SMITH?

SMITH es un nuevo modelo para intentar comprender documentos completos. Los modelos como BERT están entrenados para comprender palabras en el contexto de oraciones.

En una descripción muy simplificada, el modelo SMITH aprende a comprender pasajes en el contexto de todo el documento.

Mientras que los algoritmos como BERT están entrenados en conjuntos de datos para predecir palabras ocultas al azar del contexto en oraciones, el algoritmo SMITH está entrenado para predecir el siguiente bloque de oraciones.

Según los investigadores, este tipo de formación ayuda al algoritmo a comprender los documentos más grandes mejor que el algoritmo BERT.

El algoritmo BERT tiene limitaciones

Así es como representan las desventajas de BERT:

“En los últimos años, modelos de autodefinición como Transformers … y BERT … han logrado resultados de vanguardia en la coincidencia de texto. Sin embargo, estos modelos aún se limitan a textos breves, como unas pocas oraciones o un párrafo, debido a la complejidad computacional cuadrática del autocontrol con respecto a la longitud del texto de entrada.

En este artículo, resolvemos este problema proponiendo un codificador jerárquico siamés basado en un transformador de múltiples sumideros (SMITH) para la coincidencia de documentos largos. Nuestro modelo incluye varias innovaciones para adaptar los modelos de autocontrol a la entrada de texto más larga “.

anuncio

Continuar leyendo a continuación

Según los investigadores, el algoritmo BERT se limita a comprender documentos breves. Por diversas razones explicadas en el artículo de investigación, BERT no es adecuado para comprender documentos extensos.

Los científicos proponen un nuevo algoritmo que, según dicen, supera al BERT en documentos más largos.

Luego explican por qué los documentos largos son difíciles:

“… La coincidencia semántica de textos largos es una tarea más difícil por varias razones:

1) Cuando ambos textos son largos, emparejarlos requiere una comprensión más profunda de las relaciones semánticas, incluida la coincidencia de patrones entre fragmentos de texto de larga distancia;

2) Los documentos extensos contienen una estructura interna como secciones, pasajes y oraciones. Para los lectores humanos, la estructura del documento generalmente juega un papel clave en la comprensión del contenido. Asimismo, el modelo también debe incluir información sobre la estructura del documento para que se ajuste mejor a los documentos;

3) Es más probable que el procesamiento de textos largos cause problemas prácticos como la falta de memoria TPU / GPU sin un diseño de modelo cuidadoso “.

Texto de entrada más grande

BERT se limita a la extensión de los documentos. SMITH, como verá a continuación, funciona mejor cuanto más largo es el documento.

Ésta es una desventaja conocida de BERT.

Así es como lo explican:

“Los resultados experimentales de varios datos comparativos para la coincidencia de texto de formato largo … muestran que nuestro modelo SMITH propuesto supera los modelos de última generación anteriores y aumenta la longitud máxima del texto de entrada de 512 a 2048 en comparación con las líneas de base basadas en BERT”.

El hecho de que SMITH sea capaz de hacer algo que BERT no puede hacer hace que el modelo SMITH sea intrigante.

El modelo SMITH no reemplaza a BERT.

El modelo SMITH complementa a BERT realizando un trabajo pesado que BERT no puede realizar.

Los científicos lo probaron y dijeron:

“Los resultados de nuestros experimentos en varios conjuntos de datos de referencia de coincidencia de documentos de formato largo muestran que el modelo SMITH que proponemos supera los modelos anteriores de última generación, incluida la atención jerárquica …, la red neuronal repetitiva jerárquica basada en una mentalidad de profundidad múltiple … y BERT .

En comparación con las líneas de base basadas en BERT, nuestro modelo puede aumentar la longitud máxima del texto de entrada de 512 a 2048 ”.

Ajuste de largo a largo

Si entiendo correctamente el artículo de investigación, el artículo concluye que el problema de hacer coincidir consultas largas con contenido extenso no se ha investigado adecuadamente.

anuncio

Continuar leyendo a continuación

Según los científicos:

“Hasta donde sabemos, la coincidencia semántica entre pares largos de documentos que tienen muchos usos importantes, como recomendaciones de noticias, recomendaciones de artículos y agrupación de documentos, está menos investigada y requiere más esfuerzo de investigación”.

Más adelante en el documento, afirman que se han realizado varios estudios que se acercan a lo que están investigando.

Pero, en general, parece haber una laguna en el estudio de las formas de hacer coincidir consultas largas con documentos largos. Este es un problema que los científicos resuelven con el algoritmo SMITH.

Detalles de SMITH de Google

No entraré en detalles del algoritmo, pero seleccionaré algunas funciones generales que transmitan la imagen general de lo que es.

El documento explica que utilizan un modelo de preentrenamiento que es similar al BERT y muchos otros algoritmos.

Primero, algunos antecedentes para que el documento sea más significativo.

Algoritmo de preentrenamiento

La formación inicial consiste en enseñar un algoritmo sobre un conjunto de datos. En la formación introductoria típica para este tipo de algoritmo, los ingenieros enmascaran (ocultan) palabras al azar en oraciones. El algoritmo intenta predecir palabras enmascaradas.

anuncio

Continuar leyendo a continuación

Por ejemplo, si la oración se escribe como “El viejo McDonald’s tenía ____,“Un algoritmo completamente entrenado puede predecir”granja”Esa es la palabra que falta.

A medida que el algoritmo aprende, finalmente se optimiza para cometer menos errores en los datos de entrenamiento.

El entrenamiento inicial consiste en entrenar la máquina para que sea precisa y cometa menos errores.

Esto es lo que dice el artículo:

“Inspirado por el reciente éxito de los métodos preescolares basados ​​en modelos de lenguaje, como BERT, SMITH también está adoptando”antes de entrenar sin supervisión + puesta a punto“Modelo de paradigma de formación.

Como parte del entrenamiento inicial del modelo de Smith, proponemos una tarea de modelado de lenguaje de bloques de oraciones de enmascaramiento además de la tarea de modelado de lenguaje de palabras enmascaradas original utilizada en BERT para ingresar textos largos “.

Los bloques de oraciones están ocultos del entrenamiento

Aquí, los investigadores explican una parte clave del algoritmo de cómo se utilizan las relaciones entre bloques de oraciones en un documento para comprender de qué se trata el documento en el proceso de preentrenamiento.

anuncio

Continuar leyendo a continuación

“Cuando el texto de entrada se vuelve largo, tanto las relaciones entre las palabras en un bloque de oraciones como las relaciones entre los bloques de oraciones en el documento se vuelven importantes para comprender el contenido.

Así que enmascaramos tanto palabras al azar como bloques de oraciones durante nuestro entrenamiento inicial del modelo “.

Luego, los investigadores describen con más detalle cómo este algoritmo va más allá del algoritmo BERT.

Lo que hacen es intensificar su entrenamiento para ir más allá del entrenamiento de palabras y asumir bloques de oraciones.

Así es como se describe en el artículo de investigación:

“Además de la tarea de predicción de palabras enmascaradas en BERT, proponemos la tarea de predicción de bloques de oraciones enmascaradas para comprender la relación entre diferentes bloques de oraciones”.

El algoritmo SMITH está capacitado para predecir bloques de oraciones. Mi propio presentimiento sobre esto es … es muy bueno.

Este algoritmo aprende la relación entre palabras y luego sube de nivel para comprender el contexto de los bloques de oraciones y cómo se relacionan entre sí en un documento extenso.

anuncio

Continuar leyendo a continuación

La sección 4.2.2 sobre “Predecir un bloque de oraciones enmascaradas” proporciona más detalles sobre este proceso (artículo de investigación vinculado a continuación).

Resultados de la prueba SMITH

Los investigadores descubrieron que SMITH es mejor para trabajar con documentos de texto más largos.

“El modelo SMITH, que disfruta de una longitud de entrada más larga en comparación con otros modelos de autocontrol estándar, es una mejor opción para aprender y ajustar documentos largos”.

Finalmente, los investigadores concluyeron que el algoritmo SMITH funciona mejor que BERT en documentos largos.

Por qué es importante el artículo de investigación de SMITH

Una de las razones por las que prefiero leer artículos científicos en lugar de patentes es que los artículos científicos proporcionan detalles sobre si el modelo propuesto funciona mejor que los modelos existentes y de última generación.

Muchos artículos de investigación terminan diciendo que es necesario trabajar más. Para mí, esto significa que el experimento del algoritmo es prometedor, pero probablemente no esté listo para ser colocado en un entorno vivo.

Un porcentaje menor de estudios de investigación dice que los resultados están por encima del estado del arte. Estos son trabajos de investigación a los que creo que vale la pena prestar atención porque es más probable que terminen en el algoritmo de Google.

anuncio

Continuar leyendo a continuación

Cuando digo más probable, no me refiero a que el algoritmo esté o estará en el algoritmo de Google.

Mi punto es que, en comparación con otros experimentos de algoritmos, es más probable que los trabajos de investigación que afirman ser superiores a los más modernos lo conviertan en un algoritmo de Google.

SMITH supera a BERT para documentos largos

Según las conclusiones del trabajo de investigación, el modelo SMITH supera a muchos modelos, incluido BERT, en términos de comprensión del contenido extenso.

“Los resultados experimentales de varios conjuntos de datos de referencia muestran que nuestro modelo SMITH propuesto supera los modelos anteriores de emparejamiento siamés de última generación, incluidos HAN, SMASH y BERT en el emparejamiento de documentos de formato largo.

Además, nuestro modelo propuesto aumenta la longitud máxima del texto de entrada de 512 a 2048 en comparación con los métodos base basados ​​en BERT “.

¿SMITH está en uso?

Como se escribió anteriormente, hasta que Google indique específicamente que está usando SMITH, no hay forma de decir con precisión que Google está usando el modelo SMITH.

Dicho esto, los artículos de investigación que es poco probable que se utilicen son los que establecen claramente que los hallazgos son el primer paso hacia un nuevo tipo de algoritmo y que se necesita más investigación.

anuncio

Continuar leyendo a continuación

Este no es el caso de este artículo de investigación. Los autores del artículo de investigación afirman con seguridad que SMITH supera el estado del arte en la comprensión de contenido extenso.

Es la confianza en los resultados y el hecho de no afirmar que se necesita más investigación lo que hace que este artículo sea más interesante que los demás y, por lo tanto, vale la pena conocerlo en caso de que se incluya en el algoritmo de Google en el futuro o en el presente.

Cotización

Lea el artículo de investigación original:

Descripción del algoritmo SMITH

Descargue el documento de investigación en PDF del algoritmo SMITH:

Más de 512 tokens: codificador jerárquico siamés basado en un transformador de profundidad múltiple para hacer coincidir documentos largos (PDF)



Happy
Happy
0
Sad
Sad
0
Excited
Excited
0
Sleepy
Sleepy
0
Angry
Angry
0
Surprise
Surprise
0
Previous post Organice un taller de emparejamiento de marcas con esta plataforma
Next post Lightsome – Limpiar el desorden en el buzón de su instituto: un ejemplo de UI / UX

Average Rating

5 Star
0%
4 Star
0%
3 Star
0%
2 Star
0%
1 Star
0%

Deja una respuesta