O que é difusão estável, como instalá-lo e usá-lo

imagens geradas com difusão estável

Isso é uma guia para aprender sobre difusão estável e ensinar como você pode usar esta ferramenta.

A imagem acima é gerada com Difusão Estável. Ele foi gerado a partir do seguinte texto (prompt)

Skyline da cidade com arranha-céus, por Stanislav Sidorov, arte digital, ultra realista, ultra detalhado, fotorrealista, 4k, conceito de personagem, luz suave, blade runner, futurista

A difusão estável é um modelo de aprendizado de máquina de texto para imagem. Um modelo de deep learning, de inteligência artificial que nos permite gerar imagens a partir de texto que colocamos como entrada ou entrada.

Não é o primeiro modelo ou a primeira ferramenta deste estilo, neste momento fala-se muito em Dall-e 2, MidJourney, Google Image, mas é o mais importante pelo que representa. Stable Diffusion é um projeto de código aberto, portanto, qualquer pessoa pode usá-lo e modificá-lo. Na versão 1.4 temos um arquivo 4G .cpxt de onde vem todo o modelo pré-treinado, e isso é uma verdadeira revolução.

Tanto que em apenas 2 ou 3 semanas desde o seu lançamento, encontramos plugins para PhotoShop, GIMP, Krita, WordPress, Blender, etc. praticamente todas as ferramentas que vêm com imagens estão implementando a difusão estável, tanto que até concorrentes como a Midjourney a estão usando para aprimorar suas ferramentas. Mas não é usado apenas para gerar ferramentas, mas nós, como usuários, podemos instalá-lo em nosso PC e executá-lo para obter as imagens localmente.

Porque além de ser Open Source não significa que seja menos poderoso que os anteriores. É uma verdadeira maravilha. Para mim agora é a melhor ferramenta que podemos usar se quisermos gerar nossas imagens para qualquer projeto.

Maneiras de instalar e usar a difusão estável

Existem diferentes maneiras de usá-lo. Neste momento recomendo 2. Se o seu computador tiver a potência necessária, ou seja, uma placa gráfica com cerca de 8Gb de RAM, instale-a no seu computador. Se o seu hardware não for poderoso o suficiente, use um Colaboração do Google, neste momento recomendo o Altryne, pois vem com uma interface gráfica e é mais fácil de usar.

passo ao detalhe.

Altryne's Colab

Esta é a opção que recomendo se o seu computador não for suficientemente potente (GPU com 8Gb de RAM) ou se quiser experimentá-lo com todas as suas funcionalidades sem ter de instalar nada.

Eu recomendo porque tem uma interface gráfica muito confortável com muitas opções para controlar as imagens e outras ferramentas de modelo, como imagem a imagem e upscale.

Nós usamos o Colaboração do Google criada por Altryne e Google Drive para salvar o modelo e os resultados.

É tudo grátis. Deixo um vídeo de todo o processo que como vão ver é muito simples.

Instalar no PC

Para instalá-lo a partir do PC, você pode seguir as instruções fornecidas em seu GitHub, https://github.com/CompVis/stable-diffusion ou em sua versão com interface gráfica que gosto muito mais https://github.com/AUTOMATIC1111/stable-diffusion-webui e no windows e linux você pode usar este executável para instalá-lo IU de difusão estável v2

Você já sabe que precisa de uma GPU poderosa com um mínimo de 8Gb de RAM para que funcione sem problemas. Você pode fazê-lo puxar CPU, mas é muito mais lento e também dependerá do processador que você possui. Portanto, se seu equipamento for antigo, você terá que se resignar a usar o Colab ou algum método de pagamento para usar o Stable Diffusion

As vantagens de tê-lo em seu PC é que é muito mais rápido de usar, você não precisa instalar ou configurar nada, basta fazer uma vez, a partir daí tudo é muito mais rápido.

Além disso, outro motivo pelo qual gosto muito é porque posso integrá-lo a outros scripts e aproveitar as imagens geradas inserindo-as diretamente no fluxo de trabalho das tarefas, o que é um ponto muito importante.

Difusores oficiais de colaboração

É muito parecido com o Colab que recomendei acima, roda quase o mesmo, você NÃO precisa fazer upload do modelo, mas não possui interface gráfica e para modificar qualquer opção você precisa alterar as opções do código blocos e modificá-los para ajustá-lo ao que precisamos.

Além disso, não podemos usar a opção imagem a imagem, que é muito atraente.

Você pode acessar a partir deste https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb

Temos um filtro para imagens adultas, o famoso NSFW, mas você pode desativá-lo usando este código, ou seja, criando uma célula no documento com

def dummy_checker(images, **kwargs): return images, False
http://pipe.safety_checker = dummy_checker

Você tem que colocá-lo logo após a célula

pipe = pipe.to("cuda")

e executá-lo

Colab Stable Diffusion Infinity

Neste Colab podemos utilizar a ferramenta Infinity, que nos permite completar imagens. Crie conteúdo a partir da imagem existente. Um verdadeiro passe.

https://colab.research.google.com/github/lkwq007/stablediffusion-infinity/blob/master/stablediffusion_infinity_colab.ipynb#scrollTo=lVLSD0Dh0i-L

Dreamboth com difusão estável

Esta é a implementação do Google Dreamboth com Stable Diffusion que permite, a partir de algumas imagens de uma pessoa, obter resultados personalizados com o rosto que as demos.

Uma maneira incrível de personalizar imagens

https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

Outras colabs

Você já sabe como trabalhar no Colab, bem, vou deixar outros que estou encontrando para que você possa usar o que mais gosta. Mesmo que você queira, pode fazer uma cópia e modificá-la ao seu gosto para ter sua própria versão

Do seu site oficial

Uma maneira simples de usar, como se você usasse o Dall-e 2 no OpenAI, mas se você usar a plataforma o serviço é pago. https://stability.ai/

De HuggingFace

Uma opção interessante para testá-lo rapidamente e tirar algumas fotos, apenas para ver como funciona, mas existem muitas opções que usaremos se formos levar isso a sério.

https://huggingface.co/spaces/stabilityai/stable-diffusion

Usando AWS ou algum serviço de nuvem

O modelo Stable Diffusion pode ser usado executando-o em hardware na nuvem, um serviço clássico é o AWS da Amazon. No momento estou testando com instâncias do EC2 para trabalhar com diferentes algoritmos. Eu vou te dizer como é.

Outros serviços de pagamento

Existem muitos e mais e mais estão surgindo, desde implementações em fotos até sites que nos permitem integrar com APIs. No momento isso chamou minha atenção, embora pessoalmente eu vá usar os serviços gratuitos

Ferramentas para engenharia imediata

O prompt de engenharia é a parte que se refere à geração do prompt, ou seja, a frase com a qual alimentamos o modelo para que ele gere nossas imagens. Não é uma questão trivial e é preciso saber muito bem como usá-la para obter ótimos resultados.

Uma ferramenta muito útil para aprender é léxico, onde vemos as imagens e o prompt que usaram, a semente e a escala de orientação.

Navegando ao redor, você aprenderá que tipo de elementos você deve atribuir ao prompt para obter o tipo de resultado que está procurando.

Deixe um comentário