Leonardo Pereira
CRO10 min de leitura

Testes A/B no E-commerce: O Que Testar, Como Medir e Por Onde Começar

Guia prático de testes A/B para e-commerce: o que é, como funciona a metodologia, o que testar primeiro para maior impacto, como calcular significância estatística e por que a maioria dos testes não gera resultado.

Leonardo Pereira

Especialista VTEX · 8 de junho de 2026

A maioria dos testes A/B em e-commerce não gera resultado. Não porque a metodologia não funcione — funciona. Porque as lojas testam as coisas erradas, com volume insuficiente, por tempo curto demais, ou sem saber interpretar os resultados.

Testes A/B bem conduzidos são uma das ferramentas de CRO com maior ROI: permitem tomar decisões baseadas em dados reais do seu público, não em benchmarks de outro setor ou em opiniões de stakeholders.

O que é um teste A/B?

Um teste A/B (também chamado de split test) é um experimento controlado onde uma variante de uma página ou elemento (versão B) é mostrada a uma porcentagem do tráfego, enquanto o restante continua vendo a versão original (versão A). O objetivo é medir qual versão produz mais conversões — pedidos, add_to_carts, cliques num CTA ou qualquer métrica de negócio relevante.

A lógica estatística é simples: com volume suficiente de usuários em cada variante e tempo suficiente para eliminar sazonalidade, a diferença nas taxas de conversão pode ser atribuída à mudança testada, não ao acaso.

O erro mais comum: testar sem hipótese baseada em dados

Testar a cor do botão de compra porque "li num artigo que botão laranja converte mais" é o exemplo clássico de teste sem hipótese. Isso pode até gerar uma vitória estatística, mas raramente tem impacto real na receita.

Testes A/B com resultado real começam com uma pergunta específica, baseada em dados:

Processo correto:

  1. Analisar o GA4 e identificar a etapa do funil com maior abandono
  2. Usar heatmaps (Clarity, Hotjar) para entender o comportamento nessa página
  3. Formular uma hipótese: "Se removermos o campo 'complemento' obrigatório do checkout, a taxa de conclusão do endereço aumentará porque está causando atrito desnecessário"
  4. Implementar o teste e medir

Hipótese genérica (evitar): "Vamos testar um botão verde"

Hipótese com dados: "Heatmaps mostram que 40% dos usuários mobile não chegam ao botão de compra na PDP — vamos testar fixar o botão na parte inferior da tela"

O que testar primeiro: priorização por impacto

Nem todas as páginas ou elementos têm o mesmo potencial de ganho. A regra geral é testar onde há mais volume de usuários E maior abandono.

Alta prioridade (maior impacto potencial)

  • Checkout — etapa de identificação: mostrar checkout como visitante em destaque vs. login primeiro
  • Checkout — etapa de pagamento: ordem dos métodos de pagamento, destaque para Pix ou parcelamento
  • PDP — botão de compra: texto do CTA, posicionamento acima da dobra, tamanho em mobile
  • PDP — informações de frete: mostrar estimativa antes vs. não mostrar
  • Carrinho — call to action: texto "Finalizar compra" vs. "Comprar agora" com selos de segurança

Média prioridade

  • Ordem dos produtos na página de categoria (relevância vs. margem vs. novidade)
  • Layout de prateleiras de cross-sell no carrinho
  • Formulário de cadastro: campos opcionais vs. obrigatórios
  • Posicionamento de avaliações na PDP

Baixa prioridade (teste raramente gera impacto real)

  • Cores de botões sem fundamento em dados comportamentais
  • Imagens da homepage sem relação com abandono mapeado
  • Mudanças no rodapé ou header

Como calcular o tamanho de amostra necessário

Um erro crítico é encerrar testes antes de atingir significância estatística. Para calcular o tamanho de amostra:

  • Taxa de conversão atual: 1,5%
  • Melhoria mínima detectável (MDE): 10% (você quer detectar uma melhoria de pelo menos 0,15 pp)
  • Significância estatística: 95% (padrão de mercado)
  • Poder estatístico: 80%

Com esses parâmetros, você precisará de aproximadamente 25.000 usuários por variante. Se sua loja tem 10.000 sessões por mês e você vai testar 50% do tráfego, serão ~5.000 usuários/variante/mês — o que significa que o teste precisa rodar 5 meses para ser válido.

Regra prática: lojas com menos de 200 pedidos por mês raramente têm volume suficiente para testes A/B com significância estatística. Para essas lojas, implementações diretas baseadas em heurísticas de CRO têm melhor ROI que testes formais.

Ferramentas de teste A/B para e-commerce

FerramentaModeloIdeal para
Google Optimize (descontinuado)Gratuito
VWOPago (~$200/mês)Equipes com volume médio-alto
AB TastyPagoEnterprise
OptimizelyPago (alto)Enterprise com times dedicados
ConvertPago (~$700/mês)E-commerces médio-grandes
Feature flags (LaunchDarkly, etc.)PagoTestes controlados por feature flag

Para a maioria dos e-commerces de médio porte, o modelo mais prático é usar feature flags de framework (Next.js, VTEX IO workspaces) para implementar variantes e medir no GA4 usando eventos customizados e segmentos de usuário.

Como medir os resultados no GA4

No GA4, crie um segmento de usuário para cada variante (usando um parâmetro customizado enviado via GTM quando o usuário é atribuído a uma variante) e compare as métricas de conversão entre os segmentos.

O relatório de Exploração de Funil segmentado por variante mostra exatamente onde cada grupo diverge no comportamento — muito mais rico do que simplesmente comparar taxas de conversão finais.

Por que a maioria dos testes "não funciona"

Os motivos mais comuns que invalidam resultados:

  1. Tempo insuficiente — encerrar após 1 semana com baixo volume
  2. Peeking — checar os resultados diariamente e encerrar ao ver uma variante "ganhando"
  3. Sazonalidade ignorada — comparar semana normal com semana de promoção
  4. Mudanças simultâneas — alterar dois elementos ao mesmo tempo (o que causou a diferença?)
  5. Métrica errada — medir cliques no botão em vez de pedidos finalizados

Trabalho com CRO baseado em dados em lojas VTEX há 10 anos. Se quiser implementar testes A/B com metodologia correta na sua loja, conheça o serviço de CRO para VTEX ou fala comigo.