Metodologia utilizada no estudo de acessibilidade em sites ativos (Brasil, 2019)

Ilustração de uma tela de computador que mostra cinco ícones diferentes dentro de pentágonos. Os ícones demonstram representações diferentes de gráficos. — Tela de computador. Imagem: Pixabay.

INTRODUÇÃO

Em uma ação conjunta com a BigData Corp, o Movimento Web para Todos (MWPT) analisou a experiência de navegação das pessoas com deficiência no País.

Foram realizados testes em vários elementos das páginas web para verificar algumas barreiras em milhares de sites ativos do Brasil. Esta é a primeira vez que um estudo é realizado com tamanha abrangência.

Este terceiro estudo contou também com o apoio técnico do CeWeb.br, Centro de Estudos sobre Tecnologias Web do NIC.br, que tem, entre suas atribuições, disseminar conhecimento sobre acessibilidade na web.

METODOLOGIA DE COLETA

A BigData Corp realizou a coleta dos sites para esse estudo a partir de uma base de dados com endereços (URIs). Essa base foi construída por um processo que roda há sete anos e que visita mais de 1,5 bilhão de sites no mundo inteiro.

A empresa utilizou o processo de captura de dados da internet extraídos de visitas a mais 24 milhões de sites brasileiros, dos quais são obtidos informações estruturadas e seus links. Os sites são acessados e se faz o download dos documentos HTML, nos quais os testes definidos pelo MWPT (que serão detalhados mais adiante) são executados. Essa verificação foi feita utilizando software desenvolvido pela BigData Corp exclusivamente para essa pesquisa.

Foram desconsiderados os sites inativos, ou seja, os que estavam fora do ar ou que não responderam a visitas por quatro semanas seguidas. Também foram desprezados os que, por oito semanas consecutivas, não fizeram qualquer alteração em seu conteúdo.

Assim, foram considerados neste estudo cerca de 14 milhões de sites. É importante destacar que foram aplicados apenas os testes válidos para cada tipo de site de acordo com o conteúdo nele publicado.

A ferramenta coletou os sites e verificou em todas as páginas se existia, por exemplo, formulários e imagens, e se estão de acordo com os critérios selecionados para a verificação.

Definição de um Site vs. Domínio

O conceito de site é, antes de mais nada, diferente do conceito de um domínio. Um domínio pode ser facilmente identificado pelo endereço de internet (a URL, ou ao menos uma parte dela) que o representa. Na grande maioria dos casos, um site pode ser definido como o conjunto de páginas (e/ou outros conteúdos) que estão localizadas em um mesmo domínio. Ao longo de nosso processo de captura, no entanto, deparamos com duas situações que fogem dessa definição simples: domínios que contêm múltiplos sites, e sites que estão espalhados em múltiplos domínios.

A primeira situação é a mais corriqueira, e de fácil entendimento. Basta lembrar, por exemplo, de todos os blogs que são hospedados dentro do domínio “WordPress.com”. Estamos falando de centenas de milhares, talvez milhões, de blogs totalmente diferentes, que pertencem a pessoas completamente distintas, e, no geral, não relacionadas. Cada um desses blogs, portanto, deve ser tratado como uma entidade separada, ou seja, como um site independente. Mapeamos hoje mais de 400 plataformas diferentes que permitem a criação e hospedagem de sites dentro de seus domínios, e tratamos as URLs dessas plataformas para identificar sites distintos.

A segunda situação é mais complexa. Imagine, por exemplo, o site de uma empresa que também contém um blog, mas com o blog hospedado em um domínio diferente (ou até dentro de uma plataforma separada, como o WordPress). Embora estejam em domínios diferentes, fazem parte de uma mesma entidade única, um único site. Para identificar esse tipo de situação, desenvolvemos um algoritmo baseado na contagem de links de referência entre as páginas e comparação de similaridade de URLs, que decide se dois domínios diferentes fazem parte de um mesmo site ou não.

Decidindo se um site é “brasileiro” ou não

Utilizamos três mecanismos diferentes para decidir se um site é brasileiro ou não. Primeiro, olhamos para o nome do domínio. Se a terminação do nome é “.br”, naturalmente assumimos que o site é do Brasil. Segundo, olhamos para o idioma utilizado no conteúdo do site. Se o idioma for português do Brasil, também consideramos o site como brasileiro. Ainda no escopo do conteúdo, buscamos por endereços ou telefones do Brasil que sejam indicativos da página pertencer a uma empresa ou pessoa do Brasil, mesmo que o conteúdo não esteja diretamente em português. Finalmente, para domínios fora do Brasil, olhamos para o conteúdo do registro do domínio, e se ele estiver registrado no nome de uma pessoa ou empresa brasileira, consideramos o site como brasileiro.

ANÁLISE DOS DADOS

Sites são conjuntos de páginas dentro de um determinado domínio. Foram investigados sites de todos os ccTLDs e TLDs, de diversas formas:

– Sites de todos os ccTLDs/TLDs (Ex: sites.com, sites.com.ar, sites.org.au)
– Sites em plataformas de gerenciamento de conteúdo (como WordPress, Joomla, etc)
– Subdomínios de sites (Ex: calendar.google.com e drive.google.com)

Para determinar se são sites brasileiros, os seguintes critérios foram utilizados:

– Sites dentro do domínio “.br”
– Sites em língua portuguesa em toda a web
– Sites com endereço da empresa e número de telefone do Brasil
– Sites registrados no nome de uma pessoa ou empresa do Brasil

Com base nesses critérios, foram coletados 13.985.763 sites considerados “brasileiros”.

Desse total de sites coletados, foram aplicados os testes em 88% da base. Os 12% restantes são sites sem conteúdo, tags ou links em suas páginas.
Foram aplicados os seguintes testes:

– Verificação da acessibilidade em formulários
– Verificação de acessibilidade em imagens
– Verificação de acessibilidade em links
– Verificação de conformidade com padrão HTML do W3C

Os resultados apresentam os percentuais de toda a base de sites coletados. Deve-se considerar que alguns sites podem não ter formulários ou imagens.

– Sucesso em todos os testes aplicáveis: 0,61%
– Falhas em todos os testes aplicáveis: 5,60%
– Falhas em parte dos testes aplicáveis: 93,79%
– Pelo menos uma falha: 99,39%

O resultado mostra que menos de 1% dos sites passou sem erros nas verificações propostas. Isso significa que todas as páginas verificadas neste site passaram nos testes. Apesar do número pequeno de sites com falhas em todos os testes (aproximadamente 5%), um número grande de sites registrou falha em ao menos uma parte dos testes (quase 94%).

A seguir, apresentamos o resultado detalhado por critério e o detalhamento do processo de pesquisa.

CRITÉRIO: Verificação de formulários

Foram verificados se os formulários foram codificados seguindo boas práticas de acessibilidade, como:

Os elementos de formulário devem ser associados a um elemento label para que possam ser identificados pelas tecnologias assistivas. Essa associação deve ser feita por meio do atributo for (para o label) e do atributo id (para os elementos de formulário).

Análise de todos os elementos de formulário que precisam de identificação: input, select e textarea.

1 – Existe um atributo id e ele está associado a um elemento label presente na página por meio de um atributo for?
ou
2 – Existe um atributo title no elemento e ele não está vazio?
ou
3 – Existe um atributo aria-labelledby no elemento, ele se relaciona a um elemento da página por meio do id e é suportado pela tecnologia assistiva.
ou
4- Existe um atributo aria-label no elemento e é suportado pela tecnologia assistiva.

Se todos os passos forem falsos, o conteúdo não atende às diretrizes de acessibilidade.

Resultado: 52,38% dos sites avaliados não atendem aos critérios para acessibilidade de formulários.

CRITÉRIO: Verificação de imagens

O estudo também analisou se as imagens publicadas nos sites têm alternativa textual.

Todas as imagens devem ter um texto alternativo. Caso não exista uma fonte de texto alternativo, a tecnologia assistiva não conseguirá identificar a imagem e passar o seu propósito para o usuário. Apesar de existirem outras técnicas possíveis, o atributo alt ainda é o formato principal para aplicar textos alternativos em imagens, e por isso ele é normativo.

Algumas tecnologias assistivas tentam compensar a falta de textos alternativos lendo o nome do arquivo da imagem, mas, por várias razões, é insuficiente confiar simplesmente no nome do arquivo. Por exemplo, nomes de arquivos costumam ser não-descritivos (ex: images/nav01.gif), e as especificações da tecnologia não exigem nomes descritivos para os arquivos. Algumas tecnologias assistivas não leem o nome do arquivo se o texto alternativo não está disponível via atributos HTML.

Análise de todos os elementos img, area e input[type=”image”]

1 – Existe um atributo alt no elemento.
ou
2 – Existe um atributo title no elemento e ele não está vazio.
ou
3 – Existe um atributo aria-labelledby no elemento, ele se relaciona a um elemento da página por meio do id e é suportado pela tecnologia assistiva.
ou
4 – Existe um atributo aria-label no elemento e é suportado pela tecnologia assistiva.
Se todos os passos forem falsos, o conteúdo não atende às diretrizes de acessibilidade.

Resultado: 83,25% dos sites avaliados não atendem aos critérios para acessibilidade em imagens.

CRITÉRIO: Verificação dos links

A navegação por links é a principal forma de acionar novas páginas. O estudo verificou se os links abrem uma nova janela sem avisar ao usuário e se os links em JavaScript funcionam quando navegados por teclado.

Abrir os links em uma nova janela deve ser uma escolha do usuário, se não for, isso deve ser informado para o usuário antes da ação.

1 – O link não é aberto em uma nova janela, ou seja, não usa o target=”_blank”.
2 – Se o link se encaixa no passo 1, um aviso de link externo em nova janela existe.

Se o passo 1 for verdadeiro e o 2 for falso, o conteúdo não atende às diretrizes de acessibilidade.

Links em Javascript

Encontramos alguns elementos de navegação em Javascript com o intuito de emular o funcionamento de links. Se utilizar eventos para emular links, tecnologias assistivas podem não conseguir identificar os links como links.

1 – O papel inicial do elemento é de um link clássico, ele está marcado com uma tag a ou area e não depende de Javascript para o seu funcionamento.
2 – O funcionamento do link continua mesmo sendo operado por teclado.

VERDADEIRO/FALSO

Se todos os passos forem falsos, o conteúdo não atende às diretrizes de acessibilidade.

Resultado: 83,56% dos sites avaliados não atendem aos critérios para acessibilidade em links.

CRITÉRIO: Verificação de conformidade com padrões W3C

Foi verificado se a marcação do HTML está de acordo com os padrões do W3C. Essa não é uma verificação de acessibilidade, mas não fazer uso das boas práticas da documentação pode acarretar problemas de acessibilidade.

Validador W3C

Todas as páginas devem ser testadas e validadas pelo validador automático do W3C: http://validator.w3.org/
1 – Todas as páginas do site passaram nos testes do validador do W3C.
Se todos os passos forem falsos, o conteúdo não atende às diretrizes de acessibilidade.

Resultado: 95% dos sites avaliados não estão em conformidade com o padrão HTML do W3C.

CRITÉRIO: Sites governamentais

Os testes foram feitos também em sites governamentais (considere sites governamentais os que estão sob o ccTLD “.gov.br”).

Resultado: 99,66% dos sites governamentais não atendem os critérios verificados por essa coleta.

Esse número é muito próximo ao pesquisado pelo CGI.br, que conduz a pesquisa TIC Web, verificando padrões e acessibilidade dos sites governamentais. Segundo os dados de 2016, sites governamentais que não atendiam os padrões do eMag eram 99,52%.