人工智能内容生成(AIGC)的发展与现状

Desenvolvimento e Estado Atual da Geração de Conteúdo por IA (AIGC)

BroadChainBroadChain22/01/2023, 19:51Originais
Este conteúdo foi traduzido por IA
Resumo

A AIGC é uma ferramenta de produtividade na era do Web3.0; ela fornece grande capacidade produtiva, enquanto as aplicações do Web3.0 e da blockchain definem as relações de produção e a soberania do usuário.

Resumo

O AIGC surge como uma ferramenta de produtividade na era Web3.0. Enquanto ele oferece um enorme ganho de eficiência, as aplicações Web3.0 e de blockchain redefinem as relações de produção e a soberania dos usuários.

É importante notar, porém, que AIGC e Web3 são caminhos distintos. Como ferramenta de produção baseada em IA, o AIGC pode ser aplicado tanto no mundo Web2 quanto no Web3. Até agora, a maioria dos projetos desenvolvidos ainda está no domínio Web2, o que torna discutir os dois conceitos como um só algo inadequado. Já a Web3, por meio da blockchain e dos contratos inteligentes, busca garantir aos usuários a soberania sobre seus ativos digitais — um objetivo que, em si, não está diretamente ligado aos modelos de criação de conteúdo.

Este artigo explora o desenvolvimento e o panorama atual do AIGC sob quatro aspectos principais:

  • A evolução das formas de criar conteúdo

  • Uma visão geral da tecnologia

  • Aplicações do AIGC na indústria

  • AIGC e Web3

Parte 1: A evolução das formas de criar conteúdo

Podemos dividir essa evolução em três fases:

A primeira fase é a do PGC (Conteúdo Gerado por Profissionais), onde o conteúdo é produzido por equipes especializadas em suas respectivas áreas. Esse modelo tem custos e barreiras de entrada altos, mas garante um certo padrão de qualidade e busca retorno comercial através de canais como séries e filmes. Exemplos clássicos são as plataformas de vídeo lideradas por iQIYI, Youku e Tencent Video. Nelas, os usuários atuam principalmente como receptores e consumidores de conteúdo audiovisual — um conceito muito próximo da Web1.0.

Nessa fase, porém, o poder criativo ficava concentrado nas mãos de poucos profissionais, dificultando que criadores comuns ganhassem visibilidade. Na segunda fase, surgiram diversas plataformas de UGC (Conteúdo Gerado pelo Usuário), como Twitter e YouTube, além das próprias plataformas de vídeo chinesas. Aqui, os usuários deixam de ser apenas consumidores passivos e passam também a fornecer conteúdo, expandindo drasticamente a escala de produção. No entanto, a qualidade do conteúdo gerado pelos usuários é bastante variável — uma característica típica da era Web2.0.

Então, como seria o ecossistema de criação de conteúdo na era Web3.0? Onde exatamente o AIGC se conecta com a Web3?

O AIGC (Conteúdo Gerado por Inteligência Artificial) se refere à criação de conteúdo assistida ou totalmente realizada por IA. É uma ferramenta de produtividade poderosa, capaz de resolver diversos desafios práticos no contexto da Web3.0 e do metaverso. Ele permite produzir conteúdo com maior frequência, personalizar estilos conforme a necessidade e gerar inspirações criativas em uma escala praticamente ilimitada, mantendo uma qualidade consistentemente satisfatória.

Imagem

Imagem

Parte 2: Visão geral da tecnologia

O avanço acelerado da tecnologia AIGC começou com a publicação do modelo GAN (Rede Generativa Adversária) em 2014. Esse modelo é composto por duas redes: um gerador e um discriminador. O gerador cria dados "falsos" para tentar enganar o discriminador, enquanto o discriminador avalia esses dados e tenta identificar corretamente todas as falsificações. Em um processo iterativo de treinamento, as duas redes melhoram continuamente através dessa competição até alcançarem um equilíbrio.

Imagem

Nos anos seguintes à publicação do GAN, a indústria realizou inúmeras adaptações e aplicações práticas do modelo. Entre 2016 e 2017, surgiram diversas aplicações reais em áreas como síntese de voz, detecção de emoções e deepfake (troca de rostos).

O modelo Transformer, desenvolvido pelo Google em 2017, gradualmente substituiu modelos tradicionais de RNN, como a rede LSTM (Memória de Longo e Curto Prazo), tornando-se o preferido para tarefas de Processamento de Linguagem Natural (NLP).

Como um modelo Seq2seq, ele introduziu o mecanismo de atenção, que calcula a relevância de cada palavra em relação ao seu contexto para determinar quais informações são mais importantes para a tarefa. Comparado a outros modelos, o Transformer opera com maior velocidade e consegue reter informações úteis por mais tempo.

O BERT (Representações Bidirecionais de Codificadores a partir do Transformer, 2018) utiliza a arquitetura do Transformer para construir um modelo completo voltado para NLP, superando modelos anteriores em uma ampla gama de tarefas.

Imagem

A partir daí, o tamanho dos modelos só cresceu, culminando nos últimos dois anos no surgimento de grandes modelos como GPT-3, InstructGPT e ChatGPT, cujos custos de desenvolvimento aumentaram exponencialmente.

Atualmente, os modelos de linguagem possuem três características principais: grande escala, grandes volumes de dados e alta capacidade computacional. No gráfico acima, vemos a velocidade com que o número de parâmetros dos modelos tem crescido. Alguns especialistas chegaram a propor uma "Lei de Moore para modelos de linguagem", sugerindo que seu tamanho aumenta dez vezes ao ano. O recém-lançado ChatGPT possui 175 bilhões de parâmetros — é difícil imaginar quantos terá o GPT-4.

Imagem

Vantagens do ChatGPT:

  1. Reforço por Feedback Humano (HFRL): Introduzido em março de 2022, essa técnica incorpora feedback humano ao conjunto de dados de treinamento, otimizando o modelo com base nessas avaliações. No entanto, como exige uma quantidade significativa de anotações humanas, os custos aumentam consideravelmente.

  2. Princípios de Resposta: Diferente de chatbots anteriores que podiam aprender e reproduzir conteúdos negativos ou sensíveis, o ChatGPT é capaz de identificar mensagens maliciosas e se recusar a fornecer respostas inadequadas.

  3. Memória Contextual: O ChatGPT suporta diálogos contínuos, lembrando o conteúdo de interações anteriores com o usuário. Isso faz com que, após várias trocas, a qualidade das respostas melhore progressivamente.

Parte 3: Aplicações do AIGC na indústria

No Acampamento de Outono de 2022 da Y Combinator China, entre as 55 empresas participantes, 19 tinham foco em IA, 15 em metaverso e 16 em grandes modelos linguísticos. Mais de dez projetos estavam ligados à Geração de Conteúdo por IA (AIGC), sendo a maioria voltada para imagens. Os detalhes de cada iniciativa podem ser acessados no link abaixo:

Link: https://new.qq.com/rain/a/20221121A04ZNE00

Dentro do AIGC, a área mais quente no momento é a de geração de imagens. O impulso veio com a aplicação industrial do Stable Diffusion, que levou a um crescimento explosivo desse segmento em 2022. A geração de imagens por IA se destaca por algumas vantagens:

  1. Comparados aos grandes modelos de linguagem (NLP), os modelos de visão computacional (CV) têm uma escala menor e se integram melhor ao ecossistema Web3, combinando-se naturalmente com NFTs e metaverso.

  2. O esforço para consumir uma imagem é menor do que para ler um texto, tornando-a uma forma de comunicação mais intuitiva e de fácil assimilação.

  3. As imagens oferecem mais variedade e apelo lúdico. Além disso, a tecnologia já atingiu um nível considerável de maturidade e continua avançando rapidamente.

Modelos de Difusão

Imagem

Artigo da CVPR 2022: “High-Resolution Image Synthesis with Latent Diffusion Models”

A ideia central é a seguinte: ao adicionar ruído a uma imagem, ela se transforma em um borrão aleatório. Os modelos de difusão aprendem a fazer o caminho inverso — removem esse ruído. Aplicando esse processo de "limpeza" a uma imagem inicial de ruído puro, o modelo é capaz de gerar imagens realistas.

No entanto, o campo de geração de imagens por IA ainda enfrenta alguns desafios:

  1. É difícil equilibrar desempenho e eficiência. Gerar resultados personalizados e precisos em tempo real (na casa de segundos), como os usuários esperam, ainda é um obstáculo.

  2. Os custos operacionais e de manutenção são altos, exigindo um grande parque de GPUs para rodar os modelos.

  3. Muitas startups surgiram recentemente, aumentando a competição, mas ainda falta uma aplicação definitiva que domine o mercado (um "killer app").

Agora, vamos falar do AIGC 3D — um segmento com enorme potencial. Embora os modelos ainda não estejam maduros, no futuro eles se tornarão uma infraestrutura essencial para o metaverso.

Assim como na geração de imagens 2D, os projetos de AIGC 3D são capazes de criar objetos tridimensionais e, a partir deles, renderizar e construir cenas completas automaticamente. Conforme o metaverso ganhar escala, a demanda por ativos virtuais 3D será massiva. Em ambientes tridimensionais, os usuários não vão querer apenas imagens planas, mas objetos e cenários imersivos.

Criar um ativo virtual 3D é mais complexo do que uma imagem 2D. Um objeto desses tem duas partes principais: a sua forma geométrica tridimensional e os padrões visuais aplicados à sua superfície — o que chamamos de "textura".

Portanto, a geração de um ativo 3D pode ser dividida em duas etapas. Primeiro, obtém-se a geometria do objeto. Depois, aplica-se a textura usando técnicas como mapeamento de textura e environment maps.

Imagem

Para descrever a forma geométrica de um objeto 3D, existem diferentes formas de representação: explícitas (como malhas poligonais e nuvens de pontos) e implícitas (como funções algébricas ou campos de radiação neural — NeRF). A escolha depende do modelo específico que está sendo usado.

Resumindo, o objetivo é integrar todos esses processos em um único fluxo (pipeline) que gere conteúdo 3D a partir de um texto. Esse pipeline é longo e, por enquanto, ainda não existem modelos prontos para o usuário final. No entanto, a popularidade dos modelos de difusão está incentivando muitos pesquisadores a se aprofundarem na geração 3D. Atualmente, os modelos nessa área também evoluem em ritmo acelerado.

Comparado a tecnologias como VR e XR, que exigem interação humana em tempo real com baixíssima latência, o AIGC 3D tem requisitos de tempo de resposta muito mais flexíveis. Isso significa barreiras de entrada mais baixas e uma adoção potencialmente mais rápida.

Parte 4: AIGC e Web3

Dizem que o AIGC é a ferramenta de produção da era Web3. A lógica é que o AIGC fornece a produtividade em escala, enquanto as aplicações Web3 e a blockchain definem as novas relações de produção e a soberania do usuário.

É preciso reconhecer, porém, que AIGC e Web3 são caminhos distintos. O AIGC é uma ferramenta de criação baseada em IA que pode ser usada tanto no mundo Web2 quanto no Web3. Até agora, a maioria dos projetos desenvolvidos ainda opera no ecossistema Web2. Portanto, tratá-los como uma coisa só não faz sentido. Já o Web3, por meio da blockchain e dos contratos inteligentes, busca garantir aos usuários o controle sobre seus ativos digitais — um objetivo que, em si, não está diretamente ligado ao método de criação.

Ainda assim, existem pontos de convergência importantes:

  • Ambos dependem de software para otimizar os modelos atuais de produção e criação. O AIGC substitui o trabalho humano criativo pela IA, enquanto o Web3 substitui instituições centralizadas por programas descentralizados, como contratos inteligentes. Automatizar processos reduz erros e vieses subjetivos, aumentando drasticamente a eficiência.

  • Por outro lado, o Web3 e o metaverso vão demandar uma quantidade enorme de conteúdo — imagens e áudio 2D, além de objetos e cenários 3D. É aí que o AIGC se encaixa perfeitamente.

No entanto, como o conceito de Web3 ainda não é amplamente compreendido pelo público, a maioria dos novos projetos continua no modelo Web2. Atualmente, as aplicações de AIGC no ecossistema Web3 ainda se concentram principalmente na geração de imagens, especialmente para a criação de NFTs.

Na prática, a conexão entre AIGC e Web3 na camada de aplicação não pode se basear apenas na relação abstrata entre "forças produtivas" e "relações de produção". Afinal, o AIGC também pode turbinar a produtividade de projetos Web2, enquanto as vantagens concretas dos projetos Web3 ainda não são tão claras.

Portanto, para aproveitar as oportunidades trazidas pelo AIGC, os projetos Web3 devem focar em duas frentes principais:

Primeiro, buscar projetos nativos do Web3 impulsionados pelo AIGC — ou seja, soluções que só fazem sentido e só podem ser realizadas dentro do ambiente Web3. A pergunta-chave é: como o AIGC pode resolver problemas reais que os projetos Web3 enfrentam hoje? A resposta será, por definição, uma inovação nativa. Um exemplo é o ReadOn, que usa AIGC para criar questionários baseados em artigos, estabelecendo um novo paradigma chamado Proof of Read. Isso resolve um problema crônico do ReadFi — o "farm de tokens" — ao recompensar apenas os usuários que de fato leram o conteúdo. É um desafio complexo, mas é exatamente esse tipo de inovação que o Web3 precisa.

Imagem

Em segundo lugar, a AIGC pode ser usada para otimizar a eficiência e a experiência do usuário em aplicações Web3 já existentes. Hoje, os usos da AIGC focam principalmente em imagens e NFTs, mas a criação é um conceito muito mais amplo. A já mencionada AIGC 3D é um caminho promissor para o metaverso, enquanto a geração automática de questionários é outra ideia inovadora e inspiradora. Plataformas como a eduDAO e outras voltadas para desenvolvedores podem explorar a AIGC para impulsionar a educação — por exemplo, na criação de questões, na modificação de módulos de código ou na geração de testes unitários. No GameFi, a AIGC poderia ser usada para criar NPCs (personagens não jogadores) dentro dos jogos. Até mesmo a capacidade de codificação da AIGC poderia ser aplicada na geração de contratos inteligentes.

Agradecimentos:

A DAOrayaki, uma organização de mídia descentralizada e de pesquisa, concedeu um financiamento público ao THUBADAO para a realização de uma pesquisa independente, cujos resultados são compartilhados abertamente. O foco da pesquisa está principalmente em áreas relacionadas ao Web3 e a DAOs. Este artigo é a sexta publicação da série que divulga os resultados desse financiamento.

A DAOrayaki é uma plataforma de mídia e organização de pesquisa descentralizada e totalmente funcional, que representa a vontade da comunidade. Seu objetivo é conectar criadores, financiadores e leitores, oferecendo diversas ferramentas de governança — como Bounties, Grants e mercados de previsão — para incentivar a comunidade a realizar livremente pesquisas, curadoria e cobertura jornalística sobre uma variedade de temas.

O THUBA DAO é uma organização descentralizada iniciada por membros da Associação de Blockchain da Universidade de Tsinghua (THUBA). Sua missão é apresentar o mundo Web3 aos estudantes, servindo como uma ponte entre as comunidades blockchain nacionais e internacionais, além de formar a próxima geração de jovens talentos e pioneiros no Web3.