Closed captions vs legendas: qual é a diferença?

Closed captions incluem descrições de som e são projetados para espectadores surdos e com deficiência auditiva, enquanto legendas pressupõem que o espectador pode ouvir e apenas transcrevem o diálogo. Apesar de serem usados de forma intercambiável em conversas casuais, esses dois formatos atendem públicos diferentes, seguem padrões diferentes e contêm tipos diferentes de informação.

Entender a distinção importa seja você um criador de conteúdo, educador ou empresa tentando tornar o vídeo acessível. Escolher o formato errado pode deixar espectadores sem contexto crítico ou colocá-lo em desacordo com regulamentações de acessibilidade. Este guia detalha exatamente como closed captions e legendas diferem, quando usar cada um e como ferramentas modernas de IA tornam a criação de ambos muito mais fácil do que costumava ser.

O que são closed captions?

Closed captions são uma sobreposição de texto que representa cada som significativo em um vídeo, não apenas palavras faladas. Foram originalmente desenvolvidos para televisão nos anos 1970 para dar a espectadores surdos e com deficiência auditiva acesso completo ao conteúdo transmitido.

Uma faixa de closed caption tipicamente inclui:

Diálogo com identificação de falante (ex.: "NARRADOR:" ou "SARAH:")
Efeitos sonoros descritos entre colchetes, como [porta batendo], [telefone tocando] ou [passos se aproximando]
Descrições musicais como [música jazz animada] ou [melodia sombria de piano]
Indicadores de tom e modo como [sussurrando], [sarcasticamente] ou [gritando]
Sinais de áudio não-verbal que carregam significado, como [silêncio], [aplausos] ou [estática]

A palavra "closed" (fechado) significa que as legendas podem ser ativadas ou desativadas pelo espectador. Isso as distingue das open captions, que são permanentemente incorporadas no quadro do vídeo. A maioria das plataformas de streaming, televisão aberta e players de vídeo suportam closed captions por meio de um botão CC ou menu de acessibilidade.

Closed captions são sincronizados com a linha do tempo do áudio com marcações de tempo precisas. Cada bloco de legenda aparece e desaparece em momentos específicos, garantindo que o texto corresponda ao que está acontecendo na tela. Os formatos de arquivo padrão para closed captions incluem SRT e VTT, assim como formatos específicos para transmissão como SCC e MCC.

O que são legendas?

Legendas são uma representação em texto do diálogo falado em um vídeo. São projetadas para espectadores que podem ouvir o áudio, mas precisam da fala convertida em texto, mais comumente porque o vídeo está em um idioma estrangeiro.

Legendas tipicamente incluem:

Diálogo falado transcrito literalmente ou traduzido
Tradução de texto na tela quando placas, títulos ou conteúdo escrito aparecem no vídeo
Atribuição de falante em alguns casos, embora isso seja menos consistente do que nas closed captions

O que as legendas geralmente não incluem é a informação de áudio não-verbal que define os closed captions. Uma faixa de legenda não vai informar que uma porta bateu fora da tela, que uma música de suspense está crescendo ou que um personagem está sussurrando. A suposição é que o espectador pode ouvir esses elementos.

Legendas são mais comumente associadas a conteúdo em idioma estrangeiro. Quando você assiste a um filme em francês com texto em português na tela, está lendo legendas. O texto foi traduzido e sincronizado para corresponder ao diálogo original, mas não descreve os sons ambientes ou a trilha sonora musical.

Legendas usam os mesmos formatos de arquivo que as closed captions, principalmente SRT e VTT, o que pode às vezes confundir a linha entre os dois. A diferença está no conteúdo, não no formato.

Principais diferenças entre closed captions e legendas

Característica	Closed captions	Legendas
Público principal	Espectadores surdos e com deficiência auditiva	Espectadores que ouvem assistindo conteúdo em idioma estrangeiro
Diálogo	Sim	Sim
Efeitos sonoros	Sim, descritos entre colchetes	Não
Descrições musicais	Sim	Não
Identificação de falante	Sim, tipicamente rotulada	Às vezes
Idioma	Geralmente o mesmo idioma do áudio	Frequentemente um idioma diferente (tradução)
Alternável	Sim, espectador pode ativar/desativar	Sim
Legalmente obrigatório	Frequentemente sim (ADA, FCC, UE)	Geralmente não

A distinção central se resume à completude. Closed captions visam representar toda a faixa de áudio em forma de texto. Legendas visam tornar o diálogo falado legível em outro idioma ou em forma de texto por conveniência.

Na prática, a terminologia varia por região. Nos Estados Unidos, "closed captions" e "subtitles" são conceitos distintos como descrito acima. No Reino Unido e grande parte da Europa, o termo "subtitles" cobre ambos os casos de uso, e o que os americanos chamam de closed captions é frequentemente referido como "subtitles for the deaf and hard of hearing" (SDH). Se você está distribuindo conteúdo internacionalmente, é útil ser explícito sobre o que sua faixa de texto contém, em vez de depender apenas da terminologia.

Open captions vs closed captions

Além da distinção entre captions e legendas, há uma diferença importante entre open e closed captions.

Closed captions são entregues como uma faixa de dados separada ao lado do vídeo. O espectador pode ativá-las ou desativá-las, redimensioná-las e, às vezes, alterar sua aparência. Serviços de streaming, DVDs e televisão aberta todos usam closed captions.

Open captions (também chamadas de legendas gravadas ou hardcoded) são permanentemente renderizadas na própria imagem do vídeo. Não podem ser desativadas, redimensionadas ou reposicionadas. Uma vez que um vídeo é exportado com open captions, todo espectador as vê.

Quando open captions fazem sentido

Vídeos em redes sociais que iniciam automaticamente sem som, onde os espectadores podem não saber como ativar as legendas na plataforma
Conteúdo de formato curto em plataformas como Instagram Stories ou TikTok onde controles de legenda nem sempre são acessíveis
Apresentações e displays de quiosque onde os espectadores não podem interagir com controles de reprodução
Garantindo visibilidade quando você precisa da certeza de que todo espectador veja o texto

Quando closed captions são melhores

Conteúdo de formato longo onde a preferência do espectador importa
Conformidade de acessibilidade já que regulamentações tipicamente exigem que o espectador controle a exibição das legendas
Distribuição em múltiplos idiomas onde você precisa oferecer faixas de legendas em vários idiomas
Requisitos de plataforma já que YouTube, Vimeo e a maioria dos serviços de streaming esperam arquivos de closed caption

A maioria dos fluxos de trabalho profissionais produz arquivos de closed caption (SRT ou VTT) porque oferecem flexibilidade máxima. Você sempre pode gravá-los no vídeo depois, se necessário, mas não pode extrair open captions de um vídeo uma vez renderizadas.

Requisitos legais para legendas

Regulamentações de acessibilidade em múltiplas jurisdições exigem closed captions em certos tipos de conteúdo de vídeo. Aqui está uma visão geral das principais.

Estados Unidos

Americans with Disabilities Act (ADA): Tribunais interpretaram o ADA como exigindo legendas em conteúdo de vídeo de empresas que se qualificam como locais de acomodação pública. Isso inclui cada vez mais websites e vídeo online.
Seção 508: Agências federais devem tornar o conteúdo eletrônico acessível, incluindo vídeo com legendas.
Regulamentações da FCC: Emissoras de televisão e distribuidores online de conteúdo previamente televisionado devem fornecer closed captions.
CVAA (21st Century Communications and Video Accessibility Act): Estende os requisitos de legendagem a vídeos distribuídos pela internet que foram originalmente exibidos na TV.

União Europeia

European Accessibility Act (EAA): Entrou em vigor em 2025, exigindo que serviços digitais, incluindo plataformas de vídeo, atendam a padrões de acessibilidade. A legendagem é um componente-chave.
EN 301 549: O padrão europeu para acessibilidade de TIC, que referencia o WCAG e inclui requisitos para legendas e descrições de áudio.

Padrões web

WCAG 2.1 Nível AA: As Diretrizes de Acessibilidade para Conteúdo Web exigem legendas para todo conteúdo de áudio pré-gravado em mídia sincronizada (Critério de Sucesso 1.2.2) e para conteúdo de áudio ao vivo (Critério de Sucesso 1.2.4 no Nível AA).

Não fornecer legendas não apenas limita seu público. Expõe organizações a risco legal, particularmente nos Estados Unidos, onde processos relacionados ao ADA envolvendo acessibilidade digital aumentaram significativamente nos últimos anos.

Quando usar closed captions vs legendas

Escolher entre captions e legendas depende do seu público e contexto de distribuição.

Use closed captions quando:

Seu público inclui espectadores surdos ou com deficiência auditiva
Você está publicando em uma plataforma que suporta faixas de texto alternáveis
Conformidade de acessibilidade é exigida ou esperada
Seu conteúdo tem áudio não-verbal significativo (efeitos sonoros, música, sons ambientes)
As legendas estão no mesmo idioma do áudio

Use legendas quando:

Você está traduzindo conteúdo para audiências de idioma estrangeiro
O áudio é claramente audível e o espectador precisa apenas do texto do diálogo
Você está distribuindo para mercados internacionais e precisa de faixas de texto em múltiplos idiomas

Use ambos quando:

Você quer alcance máximo, oferecendo closed captions no mesmo idioma para acessibilidade e legendas traduzidas para espectadores internacionais
Sua plataforma suporta múltiplas faixas de texto (YouTube, Vimeo, maioria dos serviços de streaming)

Em muitos casos, a resposta prática é começar com um arquivo completo de caption no idioma original e depois criar faixas de legendas traduzidas a partir dele. Isso dá cobertura de acessibilidade e alcance internacional.

Como criar captions e legendas com IA

Produzir captions e legendas costumava significar horas de trabalho manual de transcrição ou serviços profissionais caros. Ferramentas de transcrição por IA mudaram essa equação consideravelmente. Uma gravação que levaria de quatro a seis horas para um transcritor humano legendar agora pode ser processada em minutos.

Aqui está um fluxo de trabalho típico para criar captions ou legendas com IA:

Passo 1: Transcreva o áudio

Faça upload do seu arquivo de áudio ou vídeo para uma ferramenta de transcrição por IA como Vocova. A ferramenta usa reconhecimento automático de fala para converter fala em texto com marcações de tempo e, se suportado, rótulos de falante. A precisão depende da qualidade do áudio, então começar com uma gravação limpa ajuda. Se seu áudio tem ruído de fundo, existem técnicas para melhorar os resultados.

Passo 2: Revise e edite

A transcrição por IA não é perfeita. A indústria mede a precisão usando taxa de erro de palavra (WER), e mesmo os melhores modelos produzem alguns erros, especialmente com nomes próprios, termos técnicos ou fala com sotaque. Revise a transcrição e corrija quaisquer erros.

Passo 3: Adicione elementos não-verbais (para captions)

Se você está criando closed captions em vez de legendas, precisa adicionar descrições de efeitos sonoros, indicações musicais e rótulos de falante que a IA pode não ter capturado. Algumas ferramentas fornecem diarização de falantes para ajudar com a identificação, mas descrições de efeitos sonoros tipicamente requerem anotação manual.

Passo 4: Exporte no formato correto

Exporte sua transcrição finalizada como um arquivo SRT ou VTT. Esses são os dois formatos de caption e legenda mais amplamente suportados em plataformas de vídeo. A maioria dos geradores de legendas por IA pode exportar em ambos os formatos. Vocova suporta exportação para SRT, VTT e vários outros formatos incluindo PDF, DOCX e CSV.

Passo 5: Traduza para legendas

Se você precisa de legendas em idiomas adicionais, use o recurso de tradução para gerar versões traduzidas da sua transcrição. Vocova suporta tradução para mais de 140 idiomas, o que torna a criação de faixas de legenda em múltiplos idiomas algo simples. Revise legendas traduzidas quanto à precisão, particularmente para expressões idiomáticas e contexto cultural.

Passo 6: Faça upload para sua plataforma

Adicione seus arquivos SRT ou VTT à sua plataforma de vídeo. YouTube, Vimeo e a maioria dos serviços de hospedagem permitem que você faça upload de múltiplas faixas de caption e legenda, permitindo que os espectadores escolham seu idioma e formato preferidos.

Perguntas frequentes

Closed captions são o mesmo que legendas?

Não. Closed captions incluem descrições de áudio não-verbal como efeitos sonoros, música e identificação de falante. Legendas contêm apenas texto de diálogo e são usadas principalmente para tradução de idioma. A terminologia se sobrepõe em algumas regiões, mas o conteúdo difere.

Preciso de closed captions ou legendas para o YouTube?

O YouTube suporta ambos. Se você quer alcançar o público mais amplo, faça upload de captions no mesmo idioma para acessibilidade e legendas traduzidas para espectadores internacionais. O YouTube também gera captions automaticamente, mas a precisão varia e elas não incluem descrições de áudio não-verbal.

Qual formato de arquivo devo usar para captions?

SRT e VTT são os formatos mais amplamente suportados. SRT funciona em praticamente toda plataforma de vídeo e editor. VTT oferece opções adicionais de estilização e é o padrão para vídeo web HTML5. Para uma comparação detalhada, veja nosso guia sobre formatos SRT vs VTT.

Captions são legalmente obrigatórias?

Em muitos contextos, sim. O ADA, Seção 508, WCAG 2.1 e o European Accessibility Act todos incluem requisitos de legendagem para certos tipos de conteúdo e organizações. Mesmo onde não é legalmente obrigatório, captions melhoram acessibilidade, engajamento e SEO.

A IA pode gerar closed captions automaticamente?

A IA pode gerar transcrições precisas com marcações de tempo e rótulos de falante, o que forma a base de um arquivo de closed caption. No entanto, descrições de áudio não-verbal como [música tocando] ou [porta batendo] tipicamente precisam ser adicionadas manualmente, já que a maioria dos modelos de ASR foca em reconhecimento de fala em vez de detecção geral de eventos de áudio.

Qual é a diferença entre SDH e closed captions?

SDH significa "subtitles for the deaf and hard of hearing" (legendas para surdos e deficientes auditivos). Combina elementos de captions e legendas: inclui descrições de áudio não-verbal como closed captions, mas é formatado e entregue como uma faixa de legenda. SDH é comum em DVDs, Blu-rays e plataformas de streaming, e é frequentemente o padrão em regiões onde "subtitles" é a terminologia padrão para todas as faixas de texto.