Google mejora en 38 por ciento la detección de spam en Gmail gracias a esta herramienta
La firma desarrolló un mecanismo que fortalece el clasificador de mensajes no deseados en el servicio de correo electrónicoMADRID (Portaltic/EP).- Google anunció que ha logrado mejorar la detección de 'spam' en Gmail en un 38 por ciento el contenido 'spam' en Gmail gracias a la implementación de una herramienta o vectorizador de texto multilingüe llamado RETVec.
La compañía comentó que sistemas como Gmail, YouTube y Google Play se basan en modelos de clasificación de texto para identificar contenido perjudicial para los usuarios, como ataques de 'phishing', comentarios dañinos o estafas.
Estos tipos de textos son más difíciles de clasificar para los modelos de aprendizaje automático, puesto que los malos actores pueden manipular el contenido para evadir este tipo de herramientas, mediante el uso de homoglifos o caracteres invisibles, entre otros ejemplos.
Con el objetivo de mejorar las condiciones de los clasificadores de texto y hacerlos "más sólidos y edicientes", la firma ha desarrollado un vectorizador de texto multilingüe, "resistente y eficiente", RETVec, que también es de código abierto.
Con él, se "reduce drásticamente el costo computacional" y se fortalece el clasificador de 'spam' del servicio de correo electrónico de Google hasta el punto de que se ha mejorado en un 38 por ciento la detección de este tipo de contenido en Gmail.
Asimismo, con RETVec, Google ha reconocido que ha logrado reducir la tasa de falsos positivos en un 19.4 por ciento, según ha compartido en un documento en su blog, donde también ha comentado que el uso de RETVec redujo el uso de TPU del modelo en un 83 por ciento.
Para Google, estos datos convierten "la implementación de RETVec en una de las mayores actualizaciones de defensa de los últimos años, logrando estas mejoras al combinar "un codificador de caracteres novedoso y altamente compacto, un régimen de entrenamiento basado en aumentos y el uso de aprendizaje métrico".
Debido a que consta de un arquitectura novedosa, funciona de inmediato en todos los idiomas y caracteres UTF-8 sin necesidad de preprocesamiento de texto, "lo que lo convierte en el candidato ideal para implementaciones de clasificación de texto en dispositivos, web y a gran escala".
Google también ha matizado que los modelos entrenados con esta herramienta exhiben una velocidad de inferencia más rápida, puesto que precisan de una representación compacta. Además, se puden convertir a TFLite para dispositivos móviles.