Pular para o conteúdo principal

Interface de Preparação

Esta página apresenta a interface de Preparação, a etapa do pipeline que converte documentos importados em segmentos analisáveis. Ela define a unidade de processamento, aplica normalizações opcionais e materializa sentenças ou tokens para a etiquetagem.

Aba Preparacao na página Produção do PHPB Lab

No contexto da Produção, Preparação funciona como a ponte entre corpus bruto e análise linguística: o texto ainda preserva vínculo documental, mas passa a ser dividido e normalizado conforme as decisões do pesquisador. A interface se aplica quando os documentos já foram importados e precisam de unidade estável; configure segmentação, Unicode, pontuação, caixa, hifens e diálogos; use a tabela filtrada para validar exemplos antes de enviar para etiquetagem.

Resumo técnico

AspectoReferência
O que éEtapa de segmentação e normalização do corpus.
O que fazGera sentenças ou tokens e aplica regras textuais controladas.
Como funcionaProcessa documentos do snapshot e grava segmentos preparados.
AplicaçãoDefinir a unidade linguística que será etiquetada e filtrada.
ConfiguraçãoEscolha segmentação e regras de normalização.
UsoConfigure opções, clique em Preparar, revise segmentos e avance para Etiquetar.

Controles

Campo ou controleFunção
SegmentaçãoSentença ou Token.
Unicode (NFD -> NFC)Normaliza composição Unicode.
Remover pontuaçãoRemove pontuação do segmento.
LowercaseConverte segmentos para minúsculas.
Preservar hifenizadosMantém hifens quando a pontuação é removida.
Diálogo por travessãoSegmenta linhas de diálogo iniciadas por travessão.
PrepararMaterializa os segmentos.
DocumentoFiltra a tabela por documento.
EtiquetarEnvia segmentos para a etapa de etiquetagem.