Pular para o conteúdo principal

Glossário

Este glossário descreve etapas e operações usadas em pipelines de processamento de texto, desde a coleta bruta até a entrega de resultados.

EtapaDescriçãoPor que usarExemplo de aplicação
AquisiçãoColeta de fontes brutas.Obter material de estudo de repositórios digitais ou web.Capturar tweets com uma hashtag ou baixar obras do Domínio Público.
ImportaçãoEntrada de arquivos no sistema.Trazer documentos locais para o ambiente de processamento.Upload de uma pasta de arquivos .txt com entrevistas.
ExtraçãoIsolamento de dados.Remover metadados ou partes específicas.Extrair falas de personagens, descartando rubricas.
TranscriçãoConversão de mídia para texto.Transformar registros não textuais em dados processáveis.Usar OCR em fotos de manuscritos.
ConversãoMudança de formato.Garantir formato compatível com NLP.Converter .docx ou .pdf para .txt.
EstruturaçãoOrganização arquitetural.Definir hierarquia e campos para busca e filtro.Organizar texto em JSON com título, autor, data e corpo.
SanitizaçãoLimpeza de artefatos.Remover lixo digital e caracteres de controle.Eliminar tags HTML e scripts de raspagem.
HigienizaçãoLimpeza de conteúdo.Retirar dados sem valor para a análise linguística.Remover números de página e cabeçalhos repetidos.
PadronizaçãoUniformização de critérios.Estabelecer formato único para dados variáveis.Converter datas para ISO 2022-01-10.
NormalizaçãoPadronização de tokens.Reduzir ruído de variações gráficas ou ortográficas.Converter palavras para minúsculas.
TransformaçãoReestruturação de dados.Adaptar dados para modelos estatísticos ou exibição.Transformar texto corrido em sentenças numeradas.
TokenizaçãoFragmentação textual.Definir unidades de análise.Quebrar uma frase em palavras e pontuação.
LematizaçãoRedução ao lema.Analisar a palavra em contexto e obter forma de dicionário.Converter fomos, era e serão para ser.
RadicalizaçãoRedução ao radical.Cortar afixos para focar na raiz morfológica.Reduzir meninos e menina a menin-.
CodificaçãoAtribuição de índices ou valores.Criar representação técnica para processamento.Atribuir ID a cada termo ou valor a cada variável.
AnotaçãoEnriquecimento linguístico.Adicionar camadas sintáticas, semânticas ou pragmáticas.Marcar Rio de Janeiro como entidade local.
EtiquetagemMarcação por classe ou etiqueta.Classificar palavras por categorias linguísticas.Marcar casa como substantivo e correr como verbo.
PlanejamentoEstruturação do projeto.Definir metas, métodos e tempo de processamento.Escolher lematização em vez de radicalização.
GerenciamentoControle operacional.Administrar versões, acessos e integridade.Restaurar snapshot anterior após erro.
ModelagemEstruturação teórica ou estatística.Representar o texto por modelo interpretável.Criar topic modeling ou regressão logística.
ClassificaçãoCategorização.Agrupar documentos ou trechos em classes.Separar editoriais de política e notícias de esporte.
ComparaçãoAnálise contrastiva.Medir similaridades ou diferenças entre textos.Comparar vocabulário de dois autores.
ExploraçãoInvestigação prévia.Observar padrões iniciais antes de workflows pesados.Gerar lista de palavras frequentes.
RegressãoValidação de consistência ou modelo estatístico.Garantir estabilidade ou estimar relações entre variáveis.Verificar se um tokenizador alterou contagens ou rodar modelo logístico.
SupervisãoMonitoramento humano.Validar se o processamento automático está correto.Revisar classificação de sarcasmo ou clítico.
EdiçãoRefinamento manual.Alterar dado ou código para corrigir imprecisões.Corrigir etiqueta gramatical errada.
VisualizaçãoRepresentação gráfica.Traduzir estatísticas em formas compreensíveis.Criar gráfico de dispersão de efeitos.
ExportaçãoSaída de dados.Gerar arquivos para publicação ou uso externo.Baixar frequências em CSV.
ConfiguraçãoAjuste de parâmetros.Calibrar ferramentas para a necessidade do pesquisador.Definir stopwords ou níveis de referência.

Termos específicos do PHPB Lab

TermoDefinição
CorpusConjunto de documentos analisados como unidade de pesquisa.
UIDIdentificador gerado a partir do prefixo do corpus.
OcorrênciaInstância de fenômeno linguístico detectado em uma sentença.
Rodada MartinsRecorte analítico com critérios de elegibilidade específicos para colocação clítica.
Variável dependenteVariável explicada pelo modelo.
Variável independenteVariável usada para explicar a dependente.
ControleVariável incluída para controlar efeitos.
Efeito aleatórioAgrupamento usado em modelos mistos.
Nível de referênciaCategoria omitida ou usada como base interpretativa.
Matriz analíticaTabela numérica ou codificada usada no modelo.
Relatório exploratórioRelatório sem modelo final, baseado em métricas e evidências parciais.