Pular para o conteúdo principal

Interface de Sanitização

Esta página apresenta a interface de Sanitização, a aba de Edição dedicada a remover ruídos técnicos e padronizar textos antes da análise. Ela concentra regras de higienização, normalização, conversão de caixa, privacidade e expressões regulares customizadas.

No contexto do PHPB Lab, a Sanitização funciona como uma etapa de controle de qualidade textual: recebe um texto de origem, aplica regras selecionadas e exibe uma prévia com métricas de alteração. A interface se aplica a OCR, PDFs convertidos, cópias com quebras indevidas e bases com dados sensíveis; configure os grupos de regra e regex conforme o corpus; use a prévia para validar o efeito antes de enviar o texto para análise.

Resumo técnico

AspectoReferência
O que éAba de limpeza e normalização textual no workspace Edição.
O que fazRemove artefatos, normaliza sinais, transforma caixa e oculta dados sensíveis.
Como funcionaAplica regras selecionadas ao texto base e calcula uma prévia sanitizada.
AplicaçãoPreparação de textos ruidosos antes de segmentação, etiquetagem ou anotação.
ConfiguraçãoSelecione regras por grupo e defina regex customizada quando necessário.
UsoCole ou carregue o texto, ative regras, confira a prévia e envie para análise.

Elementos

ElementoFunção
PresetSidebarLista regras agrupadas e presets salvos.
SourceEditorEditor do texto de origem, com desfazer/refazer.
LivePreviewMostra resultado sanitizado, delta de caracteres, sentenças e métricas.
CustomRegexFieldPermite regra regex customizada e salvamento em preset.
Enviar para AnáliseSalva o texto em sessionStorage e navega para /.

Grupos de regras

GrupoRegras
HigienizaçãoHifens de PDF, quebras múltiplas, quebra no meio da frase, espaços extras, remover acentuação, remover pontuação.
NormalizaçãoNormalizar aspas, normalizar travessões.
Conversão de caseMinúsculas, maiúsculas, title case, sentence case, slug/URLify.
PrivacidadeOcultar e-mails, ocultar CPFs.