Whisk: Google lança IA que junta várias imagens em uma só

O Google Labs, braço experimental do Google, vem testando um novo gerador de imagens chamado Whisk, com uma proposta bastante inovadora para o ramo da IA generativa.

Segundo divulgado pela empresa, a ferramenta permite que as pessoas enviem prompts com imagens em vez de texto, permitindo que elas remixem uma foto alterando o assunto, a cena e o estilo.

O Whisk usa o modelo de geração de imagens do Google, Imagen 3, para combinar três imagens: uma para o assunto, outra para a cena e uma para o estilo. Por exemplo, você pode selecionar uma foto sua como o assunto, uma paisagem futurística como a cena e um estilo de anime para o visual final.

Leia mais:

A partir das três imagens fornecidas, o Google gera uma nova imagem que extrai elementos de todas – Imagem: Google

Usando o Google Whisk

  • O modelo gera automaticamente uma legenda detalhada de suas imagens, que é então usada para orientar o Imagen 3 na criação de um remix da foto.
  • Você também poderá inserir prompts de texto para definir melhor o resultado desejado.
  • Desse modo, é possível utilizar descrições detalhadas, como “O assunto está pilotando uma bicicleta voadora”.

Como o Whisk foca apenas em algumas características principais de cada imagem, a empresa explica que os resultados podem nem sempre atender às suas expectativas. Por exemplo, o assunto gerado pode diferir em altura, peso, penteado ou tom de pele

O Google diz que, fazendo uso da ferramenta, será possível visualizar e editar os prompts subjacentes a qualquer momento.

Por enquanto, o Whisk só está disponível aos usuários dos Estados Unidos, através deste site.

O post Whisk: Google lança IA que junta várias imagens em uma só apareceu primeiro em Olhar Digital.

Rolar para cima