Por Reinaldo Ferraz*
Eu sou um entusiasta do uso de inteligência artificial (IA) para acessibilidade. Acho que teremos evoluções tecnológicas incríveis para o benefício do usuário e para desenvolvedores de aplicação. Porém, tenho sérias críticas em considerar as ferramentas como um grande oráculo que sabe tudo. Aceitar o resultado que elas nos entregam sem questionar é um grande risco.
Fiz um teste com a IA da Meta, que apareceu no meu Whatsapp nas últimas semanas e decidi fazer alguns testes pedindo simplesmente para descrever imagens na Web. O resultado foi catastrófico.
“Descreva a seguinte imagem”
Esse foi o prompt usado. Como não é possível fazer upload de arquivos (pelo menos por enquanto), coloquei o endereço público da Web de algumas imagens. Agora apresento o resultado:
Primeiro teste: foto do Diogo Cortiz
Usei a foto do Diogo Cortiz, um pesquisador muito envolvido com o tema de IA e que tem muito conteúdo publicado na rede.
Pedi para ela descrever a seguinte foto: https://upload.wikimedia.org/wikipedia/commons/d/dc/Diogo_Cortiz.jpg
Resposta da IA com a descrição da imagem:
“A imagem mostra Diogo Cortiz, um jogador de futebol português. A foto é uma imagem de perfil, onde Diogo Cortiz aparece olhando diretamente para a câmera com uma expressão séria. Ele está vestindo uma camisa de treino do seu clube, com o nome e o número da camisa visíveis. A imagem é em preto e branco, com uma resolução razoável, permitindo ver detalhes do rosto e da vestimenta do jogador.”
A descrição da imagem não acertou a descrição e ainda adicionou informação errada sobre a pessoa da foto.
Segundo teste: Uma foto minha
O próximo teste foi feito com uma foto minha, a que costumo usar na foto de perfil do meu blog e redes sociais. Nela estou com um microfone na mão, recebendo o prêmio Líderes de Acessibilidade no palco olhando para a plateia.
Digitei o seguinte endereço: https://reinaldoferraz.com.br/wp-content/uploads/2023/08/reinaldo_small.png
Resposta da IA com a descrição da imagem:
“A imagem mostra Reinaldo Ferraz, um político brasileiro. A foto é uma imagem de perfil, onde Reinaldo Ferraz aparece sorrindo levemente, olhando diretamente para a câmera. Ele está vestindo uma camisa branca e uma gravata azul, com um fundo neutro. A imagem é em cores, com uma resolução alta, permitindo ver detalhes do rosto e da vestimenta. O estilo da foto sugere uma imagem oficial ou profissional, possivelmente usada para campanha política ou perfil público.
Observações adicionais:
- Reinaldo Ferraz parece ter uma aparência confiante e amigável.
- A escolha das cores da vestimenta pode indicar uma imagem de seriedade e profissionalismo.
- O fundo neutro ajuda a manter o foco no rosto de Reinaldo Ferraz.”
O resultado da descrição da imagem foi completamente imprecisa, tanto sobre a pessoa na foto como na descrição da roupa.
Mas se você acha que isso só acontece com a IA da Meta, compare com a resposta da minha foto com o ChatGPT:
“A imagem mostra um homem de pele clara, cabelos curtos e escuros, com uma barba rala. Ele está sorrindo e usando óculos de armação escura. O homem veste uma camiseta preta e está posicionado em frente a um fundo claro, provavelmente branco ou cinza muito claro. O enquadramento é próximo, focando principalmente no rosto e nos ombros, com o sorriso sendo o destaque da expressão facial.”
No ChatGPT é possível fazer upload de uma imagem. Dá para perceber claramente a diferença na descrição de imagens quando você adiciona apenas um endereço na Web e quando você adiciona um arquivo na aplicação.
Terceiro teste: Foto de uma paisagem
Entendo que as ferramentas ainda tem dificuldade para identificar pessoas e detalhes nas fotos. Por isso fiz um teste com uma foto de um lugar mais fácil de identificar. Peguei essa foto da Times Square em Nova Yorque e pedi para as ferramentas descreverem.
Esse foi o resultado da figura do link: https://dynamic-media-cdn.tripadvisor.com/media/photo-o/27/aa/b1/79/caption.jpg?w=1000&h=-1&s=1
Na IA da Meta no Whatsapp:
“A imagem mostra uma praia tropical paradisíaca.
Descrição da imagem:
- Água azul cristalina e calma, com ondas suaves.
- Areia branca e fina, estendendo-se até o horizonte.
- Palmeiras altas e verdejantes, fornecendo sombra e um toque tropical.
- Céu azul claro, com nuvens brancas esparsas.
- Ao fundo, uma ilha ou rochas emergem da água.
Observações adicionais:
- A imagem transmite tranquilidade e serenidade.
- A qualidade da imagem é alta, com cores vibrantes e detalhes nítidos.
- A composição é equilibrada, com elementos naturais harmoniosos.
Contexto:
- A imagem pode ser de um destino turístico popular, como o Caribe, Hawaii ou Seychelles.
- A foto pode ser usada para promover turismo, hotéis ou resorts.
- O local parece ser ideal para atividades como nadar, mergulhar, relaxar ou praticar esportes aquáticos.
No ChatGPT:
“A imagem mostra uma bela paisagem natural com montanhas cobertas por uma densa vegetação verde. No centro da imagem, há uma cachoeira alta e fina que desce pelas rochas até uma área de água abaixo. O céu está parcialmente nublado, com algumas nuvens que permitem a passagem de luz, iluminando suavemente a cena. As montanhas ao fundo são íngremes e possuem uma rica diversidade de árvores e plantas. A imagem transmite uma sensação de tranquilidade e beleza natural, destacando a grandiosidade da cachoeira e a exuberância da vegetação.”
Conclusão
O que eu quero mostrar aqui é que as IAs são ferramentas poderosíssimas para o nosso dia a dia, mas dependem de um cuidado humano para termos certeza se estão entregando os resultados adequados.
Deixar a descrição de imagens como uma responsabilidade de IAs, sejam no dispositivo do usuário ou durante o desenvolvimento, é um grande risco. Essas ferramentas necessitam da intervenção humana para que esse conteúdo seja efetivamente acessível.
* Este texto foi extraído do blog de Reinaldo Ferraz, especialista em acessibilidade digital do NIC.br e um dos embaixadores do Movimento Web para Todos.