Resumen
La capacidad de búsqueda de contenido es crucial para ofrecer experiencias del usuario personalizadas en el contexto actual de los medios de comunicación, en rápida evolución. La solución Advanced Video Search (AVS) de Globant, impulsada por Google Cloud y tecnologías de IA como Vertex AI y Gemini Pro Vision, está diseñada para transformar el descubrimiento de contenido y la innovación.
Con décadas de experiencia en tecnologías de punta, AVS de Globant ofrece a las empresas una solución robusta y escalable para mantenerse a la vanguardia en la era cloud-first y ayuda a los clientes a alcanzar sus objetivos de transformación digital. La innovación de Globant y la IA de Google Cloud aportan capacidades de búsqueda de video, imagen y audio de alto rendimiento a las plataformas de medios modernas.
Características principales de AVS de Globant para los medios
- Profundo conocimiento del cliente
AVS de Globant se construye con un profundo conocimiento de las necesidades del usuario, lo que permite experiencias de búsqueda de contenido personalizadas. - Flexible y personalizable
La solución es muy flexible, ya que funciona en la instancia del cliente con sus propios datos, lo que garantiza un enfoque a medida y adaptable. - Compatibilidad con varios tipos de activos
AVS admite varios tipos de activos, como audio, imágenes, video y texto, lo que la convierte en una herramienta integral para la búsqueda de contenido. - Capacidades de búsqueda avanzada
Utilizando modelos de IA de última generación de Google Cloud, la solución admite funciones de búsqueda avanzada, como:- Búsqueda por texto
- Búsqueda por imágenes
- Búsqueda de metadatos de audio y video
- Rápida comercialización
Gracias a las API escalables y a las tecnologías de IA avanzadas de Google Cloud, la solución permite una implementación más rápida y una mejora continua, lo que facilita a las empresas la rápida innovación.
Cómo funciona: Ejemplos de casos de uso
- Plataformas de streaming multimedia:
AVS puede mejorar significativamente la experiencia del usuario proporcionando búsquedas de video muy precisas basadas en descripciones, fotogramas específicos o transcripciones. - Análisis deportivo:
Con AVS, los analistas pueden localizar los momentos clave de los acontecimientos deportivos mediante la búsqueda de acciones específicas, jugadores o momentos destacados de los partidos. - Producción de cine y televisión:
Permite la búsqueda de actores, directores o escenas concretas a partir de descripciones detalladas, lo que aumenta la rapidez y eficacia de la investigación.
La tecnología detrás de Advanced Video Search (AVS) de Globant
La solución AVS de Globant está desarrollada sobre una arquitectura moderna y desacoplada que se basa en la suite de IA de Google Cloud para potenciar sus capacidades de búsqueda avanzada. Este enfoque garantiza escalabilidad, flexibilidad y alto rendimiento. Veamos el stack técnico y los procesos involucrados:
1. Ingesta y almacenamiento de activos multimedia
El primer paso en la implementación de AVS es la ingesta del contenido multimedia en Google Cloud Storage. Este componente actúa como una ubicación escalable y segura para almacenar activos multimedia sin procesar, como:
- Archivos de video sin procesar (películas, eventos deportivos, etc.)
- Archivos de audio (música, podcasts, etc.)
- Archivos de imágenes (carteles, miniaturas, etc.)
La naturaleza desacoplada de la arquitectura permite una ingesta flexible, en la que cada componente puede sustituirse o actualizarse en función de las necesidades del cliente o de cualquier nuevo lanzamiento de Google Cloud.
2. Preprocesamiento y enriquecimiento de contenido
Una vez ingestados los activos, se inicia la fase de preprocesamiento. Esto implica varias operaciones que extraen valiosos metadatos de los activos en bruto, lo que hace que el contenido se pueda buscar y proporciona estructura a los datos. Estas son las operaciones fundamentales:
- Generación de fotogramas: El sistema descompone los videos en fotogramas individuales a intervalos establecidos para los archivos de video. Esto ayuda a identificar momentos visuales específicos dentro del contenido.
- Transcripciones: El contenido de audio se transcribe utilizando la Speech-to-Text API de Google Cloud, para así generar texto que puede indexarse y buscarse.
- Generación de descripciones: Se crean descripciones automatizadas para videos e imágenes utilizando Google Cloud Vision API y Google Video Intelligence API. Estos metadatos incluyen información sobre objetos, personas, lugares y actividades detectados en los archivos multimedia.
Estos pasos de preprocesamiento son fundamentales porque sientan las bases de la búsqueda avanzada al proporcionar datos de texto y visuales que pueden indexarse.
3. Generación de incrustaciones para la búsqueda de contenido
Una vez completado el preprocesamiento, el sistema utiliza la suite de IA de Google (que incluye Vertex AI y Gemini Pro Vision) para convertir el contenido multimedia en incrustaciones. Las incrustaciones son representaciones vectoriales que captan la esencia del activo multimedia, ya sea un fotograma de un video, una transcripción o una imagen.
Así es como se utilizan las incrustaciones:
- Incrustaciones de video e imágenes: Estas incrustaciones representan fotogramas de video o imágenes y son cruciales para la búsqueda basada en imágenes. Por ejemplo, si un usuario busca una jugada de baloncesto concreta, el sistema compara la imagen consultada con estas incrustaciones para devolver resultados relevantes.
- Incrustaciones de texto y audio: Las transcripciones de contenido de audio o texto también se convierten en incrustaciones. Esto permite realizar búsquedas muy precisas basadas en texto, de modo que los usuarios puedan buscar una frase pronunciada en el video o una palabra clave relacionada con el contenido.
Estas incrustaciones se almacenan en una base de datos vectorial, lo que posibilita técnicas de búsqueda basadas en vectores, que permiten recuperar contenido multimedia de forma rápida y precisa, incluso de forma masiva.
4. Búsqueda avanzada de videos
AVS de Globant permite a los usuarios buscar momentos de videos a partir de inputs específicos, como texto o imágenes. El sistema es compatible con lo siguiente:
- Búsqueda por texto: Los usuarios pueden ingresar una descripción o una palabra clave y el motor de búsqueda explora el contenido del video en busca de los metadatos correspondientes (transcripciones, descripciones, etiquetas) que coincidan con la consulta.
- Búsqueda por imágenes: Los usuarios pueden cargar o seleccionar una imagen. Luego, el sistema la compara con las incrustaciones basadas en fotogramas y devuelve resultados donde aparezca esa escena o algo visualmente similar.
La búsqueda se realiza en tiempo real, gracias a la eficaz indexación y el almacenamiento integrado en la infraestructura de Google Cloud.
5. Indexación y exposición de API
Una vez configuradas las funciones de generación y búsqueda de incrustaciones, el contenido multimedia se indexa y es accesible a través de las API. Las API están diseñadas para ser escalables y seguras, y garantizan que las plataformas de medios puedan integrar la solución AVS de Globant sin problemas en sus sistemas.
- Las API expuestas permiten a las plataformas de medios:
- Acceder a momentos multimedia específicos mediante consultas con texto, imágenes o metadatos.
- Recuperar contenido indexado e interactuar con él.
- Integrar las funciones de búsqueda directamente en sus plataformas existentes, haciéndolas fáciles de usar y brindándoles una gran capacidad de respuesta.
Componentes y tecnologías clave
Para lograr estas capacidades, la solución AVS de Globant se basa en una combinación de tecnologías de Google Cloud:
- Google Cloud Storage: Para almacenar de forma segura activos multimedia sin procesar a escala.
- Google Cloud Video Intelligence API: Se utiliza para analizar contenido de video, extrayendo metadatos significativos como objetos, acciones y transiciones de escenas.
- Google Cloud Vision API: Proporciona reconocimiento de imágenes y generación de metadatos para imágenes y fotogramas de video.
- Google Speech-to-Text API: Se utiliza para convertir contenido de audio en transcripciones que permiten realizar búsquedas.
- Vertex AI: Facilita la formación e implementación de modelos de aprendizaje automático, en particular para generar incrustaciones a partir del contenido multimedia.
- Gemini Pro Vision: Mejora el procesamiento de medios visuales y de audio con IA de vanguardia, lo que permite generar incrustaciones de alta calidad para búsquedas avanzadas.
- Multimodal Embeddings API: Se utiliza para generar incrustaciones que combinan información de diferentes formatos multimedia (texto, audio, imagen).
- Vector Search Databases: Almacena las incrustaciones, lo que permite realizar búsquedas vectoriales en tiempo real.
Cómo AVS permite la búsqueda personalizada en tiempo real
Al combinar la potencia de la búsqueda basada en vectores con incrustaciones generadas por IA, AVS de Globant permite a las plataformas de medios ofrecer lo siguiente:
- Búsqueda en tiempo real de momentos específicos de video o audio mediante input basado en texto o imágenes.
- Resultados de búsqueda altamente personalizados, con la posibilidad de buscar en función de las relaciones entre los personajes, las acciones o incluso el estado de ánimo de una escena.
Esta combinación de búsqueda en tiempo real y personalización mejora la experiencia del usuario y optimiza el descubrimiento de contenido para plataformas como los servicios de streaming, las herramientas de análisis deportivo y los estudios de producción de contenido.
Una nueva generación de soluciones de búsqueda de contenido
AVS de Globant proporciona una solución moderna y escalable ante la creciente necesidad de capacidades avanzadas de búsqueda de contenido. Al aprovechar los modelos de IA de Google Cloud y la experiencia de Globant en transformación digital, las empresas de medios de comunicación pueden ofrecer funciones de búsqueda personalizadas y en tiempo real que mejoran la participación de los usuarios y el descubrimiento de contenido.
Con la capacidad de buscar en múltiples tipos de activos (video, audio e imágenes) utilizando consultas de texto o imagen, AVS de Globant fija el estándar para la innovación de medios en la era cloud.