A Stability AI, empresa responsável pelo conhecido modelo de aprendizado profundo Stable Diffusion, anunciou recentemente o lançamento do Stable Video Diffusion. Esse marco representa o primeiro modelo fundamental para a geração de vídeos, baseado no modelo de imagens Stable Diffusion.
O novo modelo de vídeo lançado pode ser adaptado para uma variedade de tarefas posteriores. Notavelmente, ele pode ser ajustado em conjuntos de dados de múltiplas visualizações para realizar síntese de visualizações a partir de uma única imagem. A Stability AI pretende desenvolver uma variedade de modelos que se baseiem e expandam essa base, com o objetivo de criar um ecossistema semelhante ao que envolve o Stable Diffusion.
A Stability AI disponibilizou o Stable Video Diffusion na forma de dois modelos de imagem para vídeo. Esses modelos podem gerar 14 e 25 quadros, respectivamente, com taxas de quadros personalizáveis variando de 3 a 30 quadros por segundo.
Após o lançamento, avaliações externas revelaram que esses modelos superam os principais modelos fechados (como Pika Labs e Runway) em estudos de preferência do usuário, de acordo com a Stability AI. No entanto, a empresa esclareceu que esse modelo não se destina a aplicações do mundo real ou comerciais nesta fase atual.
O código do Stable Video Diffusion está acessível no GitHub. Os pesos necessários para executar o modelo localmente estão disponíveis na página do Hugging Face.