IA e descrição de imagens na web: por que ainda devemos ter cuidado?


Foto do homem aranha abaixado plantando um pé de banana. Abaixo, uma mensagem de whatsapp com o texto "criar uma imagem do homem aranha plantando bananeira".

Por Reinaldo Ferraz*

Eu sou um entusiasta do uso de inteligência artificial (IA) para acessibilidade. Acho que teremos evoluções tecnológicas incríveis para o benefício do usuário e para desenvolvedores de aplicação. Porém, tenho sérias críticas em considerar as ferramentas como um grande oráculo que sabe tudo. Aceitar o resultado que elas nos entregam sem questionar é um grande risco.

Fiz um teste com a IA da Meta, que apareceu no meu Whatsapp nas últimas semanas e decidi fazer alguns testes pedindo simplesmente para descrever imagens na Web. O resultado foi catastrófico.

“Descreva a seguinte imagem”

Esse foi o prompt usado. Como não é possível fazer upload de arquivos (pelo menos por enquanto), coloquei o endereço público da Web de algumas imagens. Agora apresento o resultado:

Primeiro teste: foto do Diogo Cortiz

Foto em preto e branco de Diogo Cortiz sorrindo em close. Ele usa óculos e uma camiseta preta.

Usei a foto do Diogo Cortiz, um pesquisador muito envolvido com o tema de IA e que tem muito conteúdo publicado na rede.

Pedi para ela descrever a seguinte foto: https://upload.wikimedia.org/wikipedia/commons/d/dc/Diogo_Cortiz.jpg

Resposta da IA com a descrição da imagem:

“A imagem mostra Diogo Cortiz, um jogador de futebol português. A foto é uma imagem de perfil, onde Diogo Cortiz aparece olhando diretamente para a câmera com uma expressão séria. Ele está vestindo uma camisa de treino do seu clube, com o nome e o número da camisa visíveis. A imagem é em preto e branco, com uma resolução razoável, permitindo ver detalhes do rosto e da vestimenta do jogador.”

A descrição da imagem não acertou a descrição e ainda adicionou informação errada sobre a pessoa da foto.

Segundo teste: Uma foto minha

Foto de Reinaldo Ferraz em close. Ele segura um microfone e olha para frente. A outra mão segura um troféu.

O próximo teste foi feito com uma foto minha, a que costumo usar na foto de perfil do meu blog e redes sociais. Nela estou com um microfone na mão, recebendo o prêmio Líderes de Acessibilidade no palco olhando para a plateia.

Digitei o seguinte endereço:  https://reinaldoferraz.com.br/wp-content/uploads/2023/08/reinaldo_small.png

Resposta da IA com a descrição da imagem:

“A imagem mostra Reinaldo Ferraz, um político brasileiro. A foto é uma imagem de perfil, onde Reinaldo Ferraz aparece sorrindo levemente, olhando diretamente para a câmera. Ele está vestindo uma camisa branca e uma gravata azul, com um fundo neutro. A imagem é em cores, com uma resolução alta, permitindo ver detalhes do rosto e da vestimenta. O estilo da foto sugere uma imagem oficial ou profissional, possivelmente usada para campanha política ou perfil público.

Observações adicionais:

  • Reinaldo Ferraz parece ter uma aparência confiante e amigável.
  • A escolha das cores da vestimenta pode indicar uma imagem de seriedade e profissionalismo.
  • O fundo neutro ajuda a manter o foco no rosto de Reinaldo Ferraz.”

O resultado da descrição da imagem foi completamente imprecisa, tanto sobre a pessoa na foto como na descrição da roupa.

Mas se você acha que isso só acontece com a IA da Meta, compare com a resposta da minha foto com o ChatGPT:

“A imagem mostra um homem de pele clara, cabelos curtos e escuros, com uma barba rala. Ele está sorrindo e usando óculos de armação escura. O homem veste uma camiseta preta e está posicionado em frente a um fundo claro, provavelmente branco ou cinza muito claro. O enquadramento é próximo, focando principalmente no rosto e nos ombros, com o sorriso sendo o destaque da expressão facial.”

No ChatGPT é possível fazer upload de uma imagem. Dá para perceber claramente a diferença na descrição de imagens quando você adiciona apenas um endereço na Web e quando você adiciona um arquivo na aplicação.

Terceiro teste: Foto de uma paisagem

Foto da Times Square em Nova Yorque com muitos prédios, painéis iluminados e pessoas andando.

Entendo que as ferramentas ainda tem dificuldade para identificar pessoas e detalhes nas fotos. Por isso fiz um teste com uma foto de um lugar mais fácil de identificar. Peguei essa foto da Times Square em Nova Yorque e pedi para as ferramentas descreverem.

Esse foi o resultado da figura do link: https://dynamic-media-cdn.tripadvisor.com/media/photo-o/27/aa/b1/79/caption.jpg?w=1000&h=-1&s=1

Na IA da Meta no Whatsapp:

“A imagem mostra uma praia tropical paradisíaca.

Descrição da imagem:

  • Água azul cristalina e calma, com ondas suaves.
  • Areia branca e fina, estendendo-se até o horizonte.
  • Palmeiras altas e verdejantes, fornecendo sombra e um toque tropical.
  • Céu azul claro, com nuvens brancas esparsas.
  • Ao fundo, uma ilha ou rochas emergem da água.

Observações adicionais:

  • A imagem transmite tranquilidade e serenidade.
  • A qualidade da imagem é alta, com cores vibrantes e detalhes nítidos.
  • A composição é equilibrada, com elementos naturais harmoniosos.

Contexto:

  • A imagem pode ser de um destino turístico popular, como o Caribe, Hawaii ou Seychelles.
  • A foto pode ser usada para promover turismo, hotéis ou resorts.
  • O local parece ser ideal para atividades como nadar, mergulhar, relaxar ou praticar esportes aquáticos.

No ChatGPT:

“A imagem mostra uma bela paisagem natural com montanhas cobertas por uma densa vegetação verde. No centro da imagem, há uma cachoeira alta e fina que desce pelas rochas até uma área de água abaixo. O céu está parcialmente nublado, com algumas nuvens que permitem a passagem de luz, iluminando suavemente a cena. As montanhas ao fundo são íngremes e possuem uma rica diversidade de árvores e plantas. A imagem transmite uma sensação de tranquilidade e beleza natural, destacando a grandiosidade da cachoeira e a exuberância da vegetação.”

Conclusão

O que eu quero mostrar aqui é que as IAs são ferramentas poderosíssimas para o nosso dia a dia, mas dependem de um cuidado humano para termos certeza se estão entregando os resultados adequados.

Deixar a descrição de imagens como uma responsabilidade de IAs, sejam no dispositivo do usuário ou durante o desenvolvimento, é um grande risco. Essas ferramentas necessitam da intervenção humana para que esse conteúdo seja efetivamente acessível.

Este texto foi extraído do blog de Reinaldo Ferraz, especialista em acessibilidade digital do NIC.br e um dos embaixadores do Movimento Web para Todos.

Outras novidades