Nova fase da inteligência artificial permite criar vídeos a partir de frases curtas

10 de abril de 2023

0 4 minutos de leitura

chatgpt-lionel-bonaventure-afp-599x400 Nova fase da inteligência artificial permite criar vídeos a partir de frases curtas

A água corrente do rio brilhava ao sol enquanto corria entre árvores e samambaias, virava uma esquina e batia suavemente sobre as rochas. (Foto: Reprodução)

Ian Sansavera, arquiteto de software de uma startup de Nova York chamada Runway AI, digitou uma breve descrição do que queria ver em um vídeo: “Um rio tranquilo na floresta”. Menos de dois minutos depois, um serviço experimental de internet gerou um pequeno vídeo de um rio tranquilo em uma floresta. A água corrente do rio brilhava ao sol enquanto corria entre árvores e samambaias, virava uma esquina e batia suavemente sobre as rochas.

Em breve, qualquer pessoa poderá criar vídeos apenas digitando várias palavras em uma caixa na tela do computador. É nisso que empresas de tecnologia de inteligência artificial trabalham. Uma delas, a Runway, deve começar a fase de testes ainda esta semana, permitindo que alguns internautas selecionados possam usar o software para dar feedbacks.

Tais vídeos representam o próximo estágio em uma corrida da indústria – que inclui gigantes como Microsoft e Google, bem como startups muito menores – para criar novos tipos de sistemas de inteligência artificial que alguns acreditam que podem ser a próxima grande novidade em tecnologia, tão importante quanto os navegadores da web ou o iPhone.

Real ou falso?

Se por um lado os novos sistemas de geração de vídeo podem acelerar o trabalho de cineastas e outros artistas digitais, podem também ser uma maneira nova e rápida de criar conteúdos digitais falsos, fazendo ser ainda mais difícil dizer o que é real ou não na internet.

Os sistemas são exemplos do que é conhecido como IA generativa, que pode criar instantaneamente texto, imagens e sons. Outro exemplo é o ChatGPT, o chatbot on-line feito por uma startup de São Francisco, OpenAI, que surpreendeu a indústria de tecnologia com suas habilidades no fim do ano passado.

Google e Meta, empresa controladora do Facebook, revelaram os primeiros sistemas de geração de vídeo em 2022, mas não os compartilharam com o público porque temiam que eles pudessem eventualmente ser usados para espalhar desinformação muito rapidamente.

Já o CEO da Runway, Cristóbal Valenzuela, disse acreditar que a tecnologia era importante demais para ser mantida em um laboratório de pesquisa, apesar de seus riscos.

– Esta é uma das tecnologias mais impressionantes que construímos nos últimos cem anos – disse ele. – Você precisa ter pessoas realmente usando isso.

A capacidade de editar e manipular filmes e vídeos não é novidade. Os cineastas fazem isso há mais de um século. Nos últimos anos, pesquisadores e artistas digitais têm usado várias tecnologias de IA e programas de software para criar e editar vídeos que costumam ser chamados de deepfakes. Sistemas como o que a Runway criou, no entanto, poderiam, com o tempo, substituir as habilidades de edição com o apertar de um botão.

A tecnologia da Runway gera vídeos a partir de qualquer descrição curta. Para começar, basta digitar uma descrição da mesma forma que digitaria uma nota rápida. Por enquanto, funciona melhor se a cena tiver alguma ação – mas não muita–, algo como “um dia chuvoso na cidade grande” ou “um cachorro com um celular no parque”. Depois, basta pressionar o enter para que o sistema gera um vídeo em um ou dois minutos.

A tecnologia pode reproduzir imagens comuns, como um gato dormindo em um tapete, ou combinar conceitos díspares para gerar vídeos estranhamente divertidos, como uma vaca em uma festa de aniversário.

Os vídeos têm apenas quatro segundos de duração e, a princípio, são instáveis e embaçados se olhar de perto. Às vezes, as imagens são estranhas, distorcidas e perturbadoras. O sistema tem uma forma de mesclar animais, como cachorros e gatos, com objetos inanimados, como bolas e celulares. Se o comando certo for dado, a ferramenta produz vídeos que mostram para onde a tecnologia está indo.

– Neste ponto, se eu vir um vídeo de alta resolução, provavelmente vou confiar nele – disse Phillip Isola, professor do Instituto de Tecnologia de Massachusetts especializado em IA. – Mas isso vai mudar muito rapidamente.

Como outras tecnologias generativas de IA, o sistema da Runway aprende analisando dados digitais, como fotos, vídeos e legendas que descrevem o que essas imagens contêm. Ao treinar esse tipo de tecnologia em quantidades cada vez maiores de dados, os pesquisadores estão confiantes de que podem melhorar e expandir rapidamente suas habilidades. Em breve, acreditam, eles gerarão minifilmes com aparência profissional, completos com música e diálogos.

Várias startups, incluindo a OpenAI, lançaram tecnologia semelhante que pode gerar imagens estáticas a partir de comandos curtos como “foto de um ursinho de pelúcia andando de skate na Times Square”.

No mês passado, os serviços de mídia social estavam repletos de imagens do Papa Francisco em um casaco branco Balenciaga – traje surpreendentemente moderno para um pontífice de 86 anos. Mas as imagens não eram reais. Um trabalhador da construção civil de 31 anos de Chicago criou a sensação viral usando uma ferramenta popular de IA chamada Midjourney, um dos muitos serviços que podem gerar imagens realistas a partir de um curto comando.

Isola passou anos construindo e testando esse tipo de tecnologia, primeiro como pesquisador na Universidade da Califórnia, em Berkeley, e na OpenAI, e depois como professora no MIT. Ainda assim, ele foi enganado pelas imagens nítidas, de alta resolução, mas completamente falsas, do Papa Francisco.

– Houve um tempo em que as pessoas postavam deepfakes e não me enganavam, porque eram muito bizarras ou pouco realistas. Agora, não podemos pegar nenhuma das imagens que vemos na internet pelo valor de face.

Como funciona?

Quando alguém descreve uma imagem para o sistema, ele gera uma lista de recursos que a imagem pode incluir. Uma característica pode ser a curva no topo da orelha de um cachorro. Outra pode ser a borda de um celular. Em seguida, uma segunda rede neural, chamada de modelo de difusão, cria a imagem e gera os pixels necessários para os recursos. Ele eventualmente transforma os pixels em uma imagem coerente.

Empresas como a Runway, que tem cerca de 40 funcionários e arrecadou US$ 95,5 milhões, estão usando essa técnica para gerar imagens em movimento. Ao analisar milhares de vídeos, sua tecnologia pode aprender a encadear muitas imagens estáticas de maneira igualmente coerente.

– Um vídeo é apenas uma série de quadros – imagens estáticas – que são combinadas de forma a dar a ilusão de movimento – disse Valenzuela. – O truque está em treinar um modelo que entenda a relação e a consistência entre cada quadro.

Para os especialistas, as falhas que existem nessas ferramentas poderão ser resolvidas com treinamentos e com mais dados no sistema. Eles acreditam que a tecnologia acabará tornando a criação de um vídeo tão fácil quanto escrever uma frase.

O Globo