Metodologia de coleta e análise de websites
INTRODUÇÃO
Em uma ação conjunta com a BigData Corp, o Movimento Web para Todos (MWPT) analisou em abril de 2021 a experiência de navegação das pessoas com deficiência no País.
Foram realizados testes em vários elementos das páginas web para verificar algumas barreiras em milhares de sites ativos do Brasil. Para este estudo foram escolhidos três recursos de páginas Web: imagens, links e formulários, que se tornam barreiras ao acesso se não aplicados corretamente. O resultado apresentado nos números a seguir revela ainda enorme dificuldade em adequação aos padrões técnicos de desenvolvimento Web.O estudo de abril de 2021 contou também com o apoio técnico do Centro de Estudos sobre Tecnologias Web (Ceweb.br), do NIC.br, que tem, entre suas atribuições, disseminar conhecimento sobre acessibilidade na web.
METODOLOGIA DE COLETA
A BigData Corp realizou a coleta dos sites para esse estudo a partir de uma base de dados com endereços (URIs). Essa base foi construída por um processo que roda há sete anos e que visita mais de 1,5 bilhão de sites no mundo inteiro.
A empresa utilizou o processo de captura de dados da internet extraídos de visitas a mais de 30 milhões de sites brasileiros, dos quais são obtidas informações estruturadas e seus links. Os sites são acessados e se faz o download dos documentos HTML, nos quais os testes definidos pelo MWPT (que serão detalhados mais adiante) são executados. Essa verificação foi feita utilizando software desenvolvido pela BigData Corp exclusivamente para essa pesquisa.
Foram desconsiderados os sites inativos, ou seja, os que estavam fora do ar ou que não responderam a visitas por quatro semanas seguidas. Também foram desprezados os que, por oito semanas consecutivas, não fizeram qualquer alteração em seu conteúdo.
Assim, foram considerados neste estudo 16,89 milhões de sites. É importante destacar que foram aplicados apenas os testes válidos para cada tipo de site de acordo com o conteúdo nele publicado. A ferramenta coletou os sites e verificou em todas as páginas se existia, por exemplo, formulários e imagens, e se estão de acordo com os critérios selecionados para a verificação.
DEFINIÇÃO DE UM SITE VS. DOMÍNIO
O conceito de site é, antes de mais nada, diferente do conceito de um domínio. Um domínio pode ser facilmente identificado pelo endereço de internet (a URL, ou ao menos uma parte dela) que o representa. Na grande maioria dos casos, um site pode ser definido como o conjunto de páginas (e/ou outros conteúdos) que estão localizadas em um mesmo domínio. Ao longo de nosso processo de captura, no entanto, deparamos com duas situações que fogem dessa definição simples: domínios que contêm múltiplos sites, e sites que estão espalhados em múltiplos domínios.
A primeira situação é a mais corriqueira, e de fácil entendimento. Basta lembrar, por exemplo, de todos os blogs que são hospedados dentro do domínio “WordPress.com”. Estamos falando de centenas de milhares, talvez milhões, de blogs totalmente diferentes, que pertencem a pessoas completamente distintas, e, no geral, não relacionadas. Cada um desses blogs, portanto, deve ser tratado como uma entidade separada, ou seja, como um site independente. Mapeamos hoje mais de 400 plataformas diferentes que permitem a criação e hospedagem de sites dentro de seus domínios, e tratamos as URLs dessas plataformas para identificar sites distintos. A segunda situação é mais complexa. Imagine, por exemplo, o site de uma empresa que também contém um blog, mas com o blog hospedado em um domínio diferente (ou até dentro de uma plataforma separada, como o WordPress). Embora estejam em domínios diferentes, fazem parte de uma mesma entidade única, um único site. Para identificar esse tipo de situação, desenvolvemos um algoritmo baseado na contagem de links de referência entre as páginas e comparação de similaridade de URLs, que decide se dois domínios diferentes fazem parte de um mesmo site ou não.
DECIDINDO SE UM SITE É “BRASILEIRO” OU NÃO
Utilizamos três mecanismos diferentes para decidir se um site é brasileiro ou não. Primeiro, olhamos para o nome do domínio. Se a terminação do nome é “.br”, naturalmente assumimos que o site é do Brasil. Segundo, olhamos para o idioma utilizado no conteúdo do site. Se o idioma for português do Brasil, também consideramos o site como brasileiro. Ainda no escopo do conteúdo, buscamos por endereços ou telefones do Brasil que sejam indicativos da página pertencer a uma empresa ou pessoa do Brasil, mesmo que o conteúdo não esteja diretamente em português. Finalmente, para domínios fora do Brasil, olhamos para o conteúdo do registro do domínio, e se ele estiver registrado no nome de uma pessoa ou empresa brasileira, consideramos o site como brasileiro.
ANÁLISE DOS DADOS
Sites são conjuntos de páginas dentro de um determinado domínio. Foram investigados sites de todos os ccTLDs e TLDs, de diversas formas:
- Sites de todos os ccTLDs/TLDs (Ex: sites.com, sites.com.ar, sites.org.au)
- Sites em plataformas de gerenciamento de conteúdo (como WordPress, Joomla, etc)
- Subdomínios de sites (Ex: calendar.google.com e drive.google.com)
Para determinar se são sites brasileiros, os seguintes critérios foram utilizados:
- Sites dentro do domínio “.br”
- Sites em língua portuguesa em toda a web
- Sites com endereço da empresa e número de telefone do Brasil
- Sites registrados no nome de uma pessoa ou empresa do Brasil
Com base nesses critérios, foram coletados 16.893.257 sites considerados “brasileiros”.
Desse total de sites coletados, foram aplicados os testes em 72,96% da base. Os 27.04% restantes são sites sem conteúdo, tags ou links em suas páginas.
Foram aplicados os seguintes testes:
- Verificação da acessibilidade em formulários
- Verificação de acessibilidade em imagens
- Verificação de acessibilidade em links
- Verificação de conformidade com padrão HTML do W3C
Os resultados apresentam os percentuais de toda a base de sites coletados. Deve-se considerar que alguns sites podem não ter formulários ou imagens.
- Sucesso em todos os testes aplicáveis: 0,89%
- Falhas em todos os testes aplicáveis: 2.31%
- Falhas em parte dos testes aplicáveis: 96,79%
- Pelo menos uma falha: 99,11%
O resultado mostra que menos de 1% dos sites passou sem erros nas verificações propostas. Isso significa que todas as páginas verificadas neste site passaram nos testes. Apesar do número pequeno de sites com falhas em todos os testes (aproximadamente 2,31%), um número grande de sites registrou falha em ao menos uma parte dos testes (aproximadamente 99,11%).
A seguir, apresentamos o resultado detalhado por critério e o detalhamento do processo de pesquisa
CRITÉRIO: VERIFICAÇÃO DE FORMULÁRIOS
Foram verificados se os formulários foram codificados seguindo boas práticas de acessibilidade, como:
Os elementos de formulário devem ser associados a um elemento label para que possam ser identificados pelas tecnologias assistivas. Essa associação deve ser feita por meio do atributo for (para o label) e do atributo id (para os elementos de formulário).
Análise de todos os elementos de formulário que precisam de identificação: input, select e textarea.
1 – Existe um atributo id e ele está associado a um elemento label presente na página por meio de um atributo for?
ou
2 – Existe um atributo title no elemento e ele não está vazio?
ou
3 – Existe um atributo aria-labelledby no elemento, ele se relaciona a um elemento da página por meio do id e é suportado pela tecnologia assistiva.
ou
4 – Existe um atributo aria-label no elemento e é suportado pela tecnologia assistiva.
Se todos os passos forem falsos, o conteúdo não atende às diretrizes de acessibilidade.
RESULTADO: 70,84% dos sites avaliados não atendem aos critérios para acessibilidade de formulários.
CRITÉRIO: VERIFICAÇÃO DE IMAGENS
O estudo também analisou se as imagens publicadas nos sites têm alternativa textual.
Todas as imagens devem ter um texto alternativo. Caso não exista uma fonte de texto alternativo, a tecnologia assistiva não conseguirá identificar a imagem e passar o seu propósito para o usuário. Apesar de existirem outras técnicas possíveis, o atributo alt ainda é o formato principal para aplicar textos alternativos em imagens, e por isso ele é normativo.
Algumas tecnologias assistivas tentam compensar a falta de textos alternativos lendo o nome do arquivo da imagem, mas, por várias razões, é insuficiente confiar simplesmente no nome do arquivo. Por exemplo, nomes de arquivos costumam ser não-descritivos (ex: images/nav01.gif), e as especificações da tecnologia não exigem nomes descritivos para os arquivos. Algumas tecnologias assistivas não leem o nome do arquivo se o texto alternativo não está disponível via atributos HTML.
Análise de todos os elementos img, area e input[type=”image”]
1 – Existe um atributo alt no elemento.
ou
2 – Existe um atributo title no elemento e ele não está vazio.
ou
3 – Existe um atributo aria-labelledby no elemento, ele se relaciona a um elemento da página por meio do id e é suportado pela tecnologia assistiva.
ou
4 – Existe um atributo aria-label no elemento e é suportado pela tecnologia assistiva.
Se todos os passos forem falsos, o conteúdo não atende às diretrizes de acessibilidade.
RESULTADO: 71,98% dos sites avaliados não atendem aos critérios para acessibilidade em imagens.
CRITÉRIO: VERIFICAÇÃO DOS LINKS
A navegação por links é a principal forma de acionar novas páginas. O estudo verificou se os links abrem uma nova janela sem avisar ao usuário e se os links em JavaScript funcionam quando navegados por teclado.
Abrir os links em uma nova janela deve ser uma escolha do usuário, se não for, isso deve ser informado para o usuário antes da ação.
1 – O link é aberto em uma nova janela, ou seja, utiliza o target=”_blank”.
2 – Se o link se encaixa no passo 1, um aviso de link externo em nova janela existe.
Se o passo 1 for verdadeiro e o 2 for falso, o conteúdo não atende às diretrizes de acessibilidade.
Links em Javascript
Encontramos alguns elementos de navegação em Javascript com o intuito de emular o funcionamento de links. Se utilizar eventos para emular links, tecnologias assistivas podem não conseguir identificar os links como links.
1 – O papel inicial do elemento é de um link clássico, ele está marcado com uma tag a ou area e não depende de Javascript para o seu funcionamento.
2 – O funcionamento do link continua mesmo sendo operado por teclado
VERDADEIRO/FALSO
Se todos os passos forem falsos, o conteúdo não atende às diretrizes de acessibilidade.
RESULTADO: 77,28% dos sites avaliados não atendem aos critérios para acessibilidade em links
CRITÉRIO: VERIFICAÇÃO DE CONFORMIDADE COM PADRÕES W3C
Foi verificado se a marcação do HTML está de acordo com os padrões do W3C. Essa não é uma verificação de acessibilidade, mas não fazer uso das boas práticas da documentação pode acarretar problemas de acessibilidade.
Validador W3C
Todas as páginas devem ser testadas e validadas pelo validador automático do W3C: http://validator.w3.org/
1 – Todas as páginas do site passaram nos testes do validador do W3C.
Se todos os passos forem falsos, o conteúdo não atende às diretrizes de acessibilidade.
RESULTADO: 9,34% dos sites tiveram sucesso no teste de marcação do HTML do W3C
CRITÉRIO: SITES GOVERNAMENTAIS
Os testes foram feitos também em sites governamentais (considere sites governamentais os que estão sob o ccTLD “.gov.br”).
RESULTADO: 90,66% dos sites governamentais não atendem os critérios verificados por essa coleta.
Metodologia de coleta e análise para aplicativos de dispositivos móveis
INTRODUÇÃO
Em uma ação conjunta com a BigDataCorp, o Movimento Web para Todos (MWPT) analisou alguns critérios de acessibilidade de aplicativos para dispositivos móveis.
Foram realizados testes para verificar a existência de textos que descrevem imagens, botões e elementos interativos em 2.369 aplicativos disponíveis na Play Store para a plataforma Android que alcançaram mais de 10 milhões de downloads no Brasil.
Este estudo com a BigDataCorp contou também com o apoio técnico do CeWeb.br, Centro de Estudos sobre Tecnologias Web do NIC.br, que tem, entre suas atribuições, disseminar conhecimento sobre acessibilidade na web.
METODOLOGIA DE COLETA
A BigDataCorp fez download de 2369 aplicativos da Play Store com mais de 10 milhões de downloads no Brasil no período de 3 a 7 de maio de 2021.
Para identificar quais aplicativos atingiram a marca de 10 milhões de downloads foi feito o processo de captura das informações públicas da App Store do Google (Google Play Store). Essas informações incluem o número estimado de downloads do aplicativo, a quantidade de reviews, bem como informações detalhadas sobre o desenvolver, além de outros dados relevantes.
Após o download de todos os aplicativos, foi feito o processo de extração do código fonte de cada um dos aplicativos para investigação do conteúdo baixado. Não foi possível extrair o código fonte de aproximadamente 30 aplicativos do total baixado.
A coleta verificou se determinados elementos de aplicativos nativos do Android possuem uma descrição, com base na documentação do Google sobre desenvolvimento para Android e nas Diretrizes de Acessibilidade Web do W3C para textos alternativos. Foram verificados três tipos de elementos:
- Imagens: se as imagens possuem algum descritivo ou texto alternativo;
- Botões: se cada botão tem um rótulo que descreve sua função;
- Campos editáveis: se cada campo tem uma descrição que descreve sua finalidade.
ANÁLISE DOS DADOS
A coleta detectou que boa parte dos aplicativos tem pelo menos alguma descrição de algum dos elementos coletados. Foi detectado que, em aproximadamente 94,72% dos aplicativos, pelo menos uma descrição foi localizada, seja em imagens, botões ou campos editáveis.
Porém, quando foi verificado se todos os elementos dos aplicativos possuem um descritivo, esse número cai drasticamente. Menos de 1% tem a maior parte (75% ou mais) dos elementos descritos, porque isso se mantém para todos os elementos (botões, imagens e campos editáveis).
A pesquisa também verificou qual o percentual de elementos descritos com relação ao percentual de apps que possuem esses elementos. O resultado é o seguinte:
Descrição de imagens:
- 57% dos apps coletados têm 0 a 10% de imagens com descrição.
- 28% dos apps coletados têm 11 a 25% de imagens com descrição.
- 10% dos apps coletados têm 25 a 50% de imagens com descrição.
- 2% dos apps coletados têm 50 a 75% de imagens com descrição.
- 3% dos apps coletados tem 75 a 100% de imagens com descrição.
Botões com rótulos:
- 79% dos apps coletados têm 0 a 10% dos botões com rótulo ou descrição.
- 15% dos apps coletados têm 11 a 25% dos botões com rótulo ou descrição.
- 5% dos apps coletados têm 25 a 50% dos botões com rótulo ou descrição.
- 1% dos apps coletados tem 50 a 75% dos botões com rótulo ou descrição.
- Menos de 1% dos apps coletados têm 75 a 100% dos botões com rótulo ou descrição.
Campos editáveis com descrição:
- 98% dos apps coletados têm 0 a 10% dos campos editáveis com descrição.
- 1% dos apps coletados têm 11 a 25% dos campos editáveis com descrição.
- 1% dos apps coletados tem 25 a 50% dos campos editáveis com descrição.
- Menos de 1% dos apps coletados tem 50 a 75% dos campos editáveis com descrição.
- Menos de 1% dos apps coletados têm 75 a 100% dos campos editáveis com descrição.