Modelo VASA-1 AI da Microsoft pode criar vídeos com apenas uma foto e um arquivo de áudio; saiba mais sobre a novidade
A Microsoft introduziu um novo modelo de inteligência artificial, AI, capaz de gerar vídeos hiper-realistas de rostos humanos. Chamado de VASA-1, a novidade pode gerar clipes a partir de apenas uma foto ou áudio de fala.
A promessa da empresa vídeos com movimentos labiais sincronizados, expressões faciais e movimentos da cabeça, tudo para parecerem mais naturais.
Como funciona o VASA-1 da Microsoft
- Na sua página de anúncios de pesquisa, a Microsoft detalhou como funciona o seu modelo de IA em desenvolvimento;
- A empresa afirma que o modelo VASA-1 pode gerar vídeos com resolução 512 x 512 pixels a até 40 FPS;
- O modelo de IA também suporta a geração de vídeos online com baixa latência, destaca a big tech.
Alguns exemplos de vídeos criados com o modelo de IA da Microsoft são compartilhados no X (antigo Twitter).
Além de renderizar vídeos de até um minuto em alta qualidade a partir de uma única imagem, a Microsoft também destacou a capacidade do VASA-1 de gerar movimentos labiais que correspondam ao arquivo de áudio, bem como expressões faciais.
O modelo de geração de vídeo AI, também oferece ajustes granulares ao usuário para controlar diferentes aspectos do vídeo, como direção do olhar, distância da cabeça, compensações emocionais e mais. Por enquanto, a gigante da tecnologia diz que não planeja lançar um produto alimentado pelo VASA-1.
Preocupação com segurança
A geração de vídeo hiper-realista de pessoas reais com qualquer áudio, também levanta uma questão sobre seu uso antiético, especialmente para criar deepfakes.
A empresa, contudo, destacou que não cogita divulgar o modelo de IA ao público. Assim, a ideia é apenas criar personagens virtuais interativos a partir dele “melhorando a acessibilidade para indivíduos com dificuldades de comunicação e oferecendo companhia ou apoio terapêutico aos necessitados”.