Conheça o Advanced Video Search (AVS) da Globant para uma exploração de mídia de nível superior

novembro 14, 2024

Resumo

Os recursos de pesquisa de conteúdo são cruciais para oferecer experiências de usuário personalizadas no atual cenário de mídia em rápida evolução. A solução Advanced Video Search (AVS) da Globant, alimentada pelo Google Cloud e tecnologias de IA, como Vertex AI e Gemini Pro Vision, foi projetada para transformar a descoberta e a inovação de conteúdo.

Com décadas de experiência em tecnologias de ponta, o AVS da Globant oferece às empresas uma solução robusta e escalável para permanecer à frente na era Cloud e ajuda os clientes a atingir suas metas de transformação digital. A inovação da Globant e a IA do Google Cloud trazem recursos de pesquisa de vídeo, imagem e áudio de alto desempenho para plataformas de mídia modernas.

Principais recursos do AVS for Media da Globant

    1. Percepção profunda do cliente:  Globant AVS é construído com uma profunda compreensão das necessidades do usuário, permitindo experiências de busca de conteúdo personalizado.

    2. Flexível e personalizável: A solução é altamente flexível, pois é executada na instância do cliente com seus próprios dados, garantindo uma abordagem personalizada e adaptável.

    3. Suporte a vários tipos de ativos: O AVS oferece suporte a vários tipos de ativos, como áudio, imagens, vídeo e texto, o que o torna uma ferramenta abrangente para a pesquisa de conteúdo.

    4. Recursos avançados de pesquisa: Usando modelos de IA de última geração do Google Cloud, a solução oferece suporte a recursos avançados de pesquisa, como:

      • Pesquisa de texto

      • Pesquisa de imagens

      • Pesquisa de metadados de áudio e vídeo

    5. Tempo rápido de lançamento no mercado: Graças às APIs escalonáveis e às tecnologias avançadas de IA do Google Cloud, a solução permite uma implantação mais rápida e um aprimoramento contínuo, facilitando a inovação rápida das empresas.

Como funciona: alguns exemplos de casos de uso

  • Plataformas de mídia de streaming: O AVS pode melhorar significativamente a experiência do usuário, fornecendo pesquisas de vídeo altamente precisas com base em descrições, quadros específicos ou transcrições.

  • Análise de esportes: Com o AVS, os analistas podem identificar momentos importantes em eventos esportivos pesquisando ações específicas, jogadores ou destaques de partidas.

  • Produção de filmes e TV: Permite a busca de atores, diretores ou cenas específicas a partir de descrições detalhadas, aumentando a velocidade e a eficiência da pesquisa.

A tecnologia por trás do Globant Advanced Video Search (AVS)

A solução AVS da Globant é construída em uma arquitetura moderna e desacoplada que se baseia no conjunto de IA do Google Cloud para alimentar seus recursos de pesquisa avançada. Essa abordagem garante escalabilidade, flexibilidade e alto desempenho. Vamos dar uma olhada na pilha técnica e nos processos envolvidos:

1. Ingestão e armazenamento de ativos multimídia

A primeira etapa da implementação do AVS é a ingestão do conteúdo multimídia no Google Cloud Storage. Esse componente funciona como um local dimensionável e seguro para armazenar ativos de mídia bruta, como:

  • Arquivos de vídeo brutos (filmes, eventos esportivos, etc.).

  • Arquivos de áudio (música, podcasts, etc.)

  • Arquivos de imagem (pôsteres, miniaturas, etc.)

A natureza desacoplada da arquitetura permite a ingestão flexível, em que cada componente pode ser substituído ou atualizado com base nas necessidades do cliente ou em qualquer nova versão do Google Cloud.

2. Pré-processamento e enriquecimento de conteúdo

Depois que os ativos são ingeridos, começa a fase de pré-processamento. Isso envolve várias operações que extraem metadados valiosos dos ativos brutos, tornando o conteúdo pesquisável e fornecendo estrutura aos dados. Essas são as operações fundamentais:

  • Geração de quadros: O sistema decompõe os vídeos em quadros individuais em intervalos definidos para arquivos de vídeo. Isso ajuda a identificar momentos visuais específicos no conteúdo.

  • Transcrições: O conteúdo de áudio é transcrito usando a API Google Cloud Speech-to-Text para gerar texto que pode ser indexado e pesquisado.

  • Geração de descrições: As descrições automatizadas são criadas para vídeos e imagens usando a API Google Cloud Vision e a API Google Video Intelligence. Esses metadados incluem informações sobre objetos, pessoas, lugares e atividades detectados nos arquivos de mídia.

Essas etapas de pré-processamento são essenciais porque estabelecem a base para a pesquisa avançada, fornecendo dados visuais e de texto que podem ser indexados.

3. Geração de incorporação para pesquisa de conteúdo

Após a conclusão do pré-processamento, o sistema usa o conjunto de IA do Google (que inclui o Vertex AI e o Gemini Pro Vision) para converter o conteúdo de mídia em incorporações. Os embeddings são representações vetoriais que capturam a essência do ativo de mídia, seja um quadro de um vídeo, uma transcrição ou uma imagem. E é assim que as incorporações são usadas:

  • Incorporações de vídeo e imagem: essas incorporações representam quadros de vídeo ou imagem e são essenciais para a pesquisa baseada em imagens. Por exemplo, se um usuário pesquisar uma jogada de basquete específica, o sistema compara à imagem consultada com essas incorporações para retornar resultados relevantes.

  • Incorporações de texto e áudio: as transcrições de conteúdo de áudio ou texto também são convertidas em incorporações. Isso permite pesquisas baseadas em texto muito precisas, para que os usuários possam pesquisar uma frase falada no vídeo ou uma palavra-chave relacionada ao conteúdo.

Essas incorporações são armazenadas em um banco de dados vetorial, possibilitando técnicas de pesquisa baseadas em vetores que permitem a recuperação rápida e precisa de conteúdo multimídia, mesmo em grande escala.

4. Pesquisa avançada de vídeo

O Globant AVS permite que os usuários pesquisem momentos de vídeo com base em entradas específicas, como texto ou imagens. O sistema suporta o seguinte:

  • Pesquisa de texto: Os usuários podem digitar uma descrição ou palavra-chave e o mecanismo de busca procura no conteúdo do vídeo os metadados correspondentes (transcrições, descrições, tags) que correspondem à consulta.

  • Pesquisa de imagens: os usuários podem carregar ou selecionar uma imagem. Em seguida, o sistema a compara com os embeddings baseados em quadros e retorna resultados em que essa cena ou algo visualmente semelhante aparece.

A pesquisa é realizada em tempo real, graças à indexação eficiente e ao armazenamento integrado na infraestrutura do Google Cloud.

  1. Indexação e exposição à API

Depois que a geração de incorporação e as funções de pesquisa são configuradas, o conteúdo de mídia é indexado e acessível por meio de APIs. As APIs são projetadas para serem escalonáveis e seguras, e garantem que as plataformas de mídia possam integrar perfeitamente a solução AVS da Globant em seus sistemas.

  • As APIs expostas permitem que as plataformas de mídia:
    • Acessar momentos específicos da mídia por meio de consultas de texto, imagem ou metadados.
    • Recuperem e interajam com o conteúdo indexado.
    • Integrar funções de pesquisa diretamente em suas plataformas existentes, facilitando o uso e proporcionando alta capacidade de resposta.

Principais componentes e tecnologias

Para alcançar esses recursos, a solução AVS da Globant conta com uma combinação de tecnologias do Google Cloud:

  1. Google Cloud Storage: para armazenar com segurança ativos de mídia bruta em escala.
  2. API de inteligência de vídeo do Google Cloud: usada para analisar o conteúdo de vídeo, extraindo metadados significativos, como objetos, ações e transições de cena.
  3. API Google Cloud Vision: fornece reconhecimento de imagem e geração de metadados para imagens e quadros de vídeo.
  4. API Google Speech-to-Text: usada para converter conteúdo de áudio em transcrições pesquisáveis.
  5. Vertex AI: facilita o treinamento e a implementação de modelos de aprendizado de máquina, especialmente para gerar embeddings a partir de conteúdo multimídia.
  6. Gemini Pro Vision: aprimora o processamento de mídia visual e de áudio com IA de última geração, permitindo a geração de embeddings de alta qualidade para pesquisa avançada.
  7. API Multimodal Embeddings: usada para gerar embeddings que combinam informações de diferentes formatos de mídia (texto, áudio, imagem).
  8. Bancos de dados de pesquisa vetorial: Armazena as incorporações, permitindo que as pesquisas vetoriais sejam realizadas em tempo real.

Como o AVS permite a pesquisa personalizada em tempo real

Ao combinar o poder da pesquisa baseada em vetores com incorporações geradas por IA, o AVS da Globant permite que as plataformas de mídia forneçam o seguinte:

  • Pesquisa em tempo real de momentos específicos de vídeo ou áudio usando entrada baseada em texto ou imagem.

  • Resultados de pesquisa altamente personalizados, com a capacidade de pesquisar com base em relacionamentos entre personagens, ações ou até mesmo o clima de uma cena.

Essa combinação de pesquisa em tempo real e personalização aprimora a experiência do usuário e otimiza a descoberta de conteúdo para plataformas como serviços de streaming, ferramentas de análise de esportes e estúdios de produção de conteúdo.

Uma nova geração de soluções de pesquisa de conteúdo

O AVS da Globant fornece uma solução moderna e escalável para a crescente necessidade de recursos avançados de pesquisa de conteúdo. Ao aproveitar os modelos de IA do Google Cloud e a experiência da Globant em transformação digital, as empresas de mídia podem oferecer recursos de pesquisa personalizados e em tempo real que melhoram o envolvimento do usuário e a descoberta de conteúdo.

Com a capacidade de pesquisar em vários tipos de ativos (vídeo, áudio e imagens) usando consultas de texto ou imagem, o AVS da Globant define o padrão para a inovação de mídia na era da nuvem.

Tópicos em alta
Data & AI
Finance
Globant Experience
Healthcare & Life Sciences
Media & Entertainment
Salesforce

Inscreva-se na nossa newsletter

Receba as últimas notícias, postagens selecionadas e destaques. A gente promete nunca enviar spam.

O Estúdio de Dados e Inteligência Artificial aproveita o poder dos grandes volumes de dados e da inteligência artificial para criar experiências e serviços novos e melhores, indo além da extração de valor dos dados e da automação. Nosso objetivo é capacitar os clientes com uma vantagem competitiva, desbloqueando o verdadeiro valor dos dados e da IA para criar decisões de negócios significativas, em que se pode agir, e oportunas.