Glossário

Este glossário descreve etapas e operações usadas em pipelines de processamento de texto, desde a coleta bruta até a entrega de resultados.

Etapa	Descrição	Por que usar	Exemplo de aplicação
Aquisição	Coleta de fontes brutas.	Obter material de estudo de repositórios digitais ou web.	Capturar tweets com uma hashtag ou baixar obras do Domínio Público.
Importação	Entrada de arquivos no sistema.	Trazer documentos locais para o ambiente de processamento.	Upload de uma pasta de arquivos `.txt` com entrevistas.
Extração	Isolamento de dados.	Remover metadados ou partes específicas.	Extrair falas de personagens, descartando rubricas.
Transcrição	Conversão de mídia para texto.	Transformar registros não textuais em dados processáveis.	Usar OCR em fotos de manuscritos.
Conversão	Mudança de formato.	Garantir formato compatível com NLP.	Converter `.docx` ou `.pdf` para `.txt`.
Estruturação	Organização arquitetural.	Definir hierarquia e campos para busca e filtro.	Organizar texto em JSON com título, autor, data e corpo.
Sanitização	Limpeza de artefatos.	Remover lixo digital e caracteres de controle.	Eliminar tags HTML e scripts de raspagem.
Higienização	Limpeza de conteúdo.	Retirar dados sem valor para a análise linguística.	Remover números de página e cabeçalhos repetidos.
Padronização	Uniformização de critérios.	Estabelecer formato único para dados variáveis.	Converter datas para ISO `2022-01-10`.
Normalização	Padronização de tokens.	Reduzir ruído de variações gráficas ou ortográficas.	Converter palavras para minúsculas.
Transformação	Reestruturação de dados.	Adaptar dados para modelos estatísticos ou exibição.	Transformar texto corrido em sentenças numeradas.
Tokenização	Fragmentação textual.	Definir unidades de análise.	Quebrar uma frase em palavras e pontuação.
Lematização	Redução ao lema.	Analisar a palavra em contexto e obter forma de dicionário.	Converter `fomos`, `era` e `serão` para `ser`.
Radicalização	Redução ao radical.	Cortar afixos para focar na raiz morfológica.	Reduzir `meninos` e `menina` a `menin-`.
Codificação	Atribuição de índices ou valores.	Criar representação técnica para processamento.	Atribuir ID a cada termo ou valor a cada variável.
Anotação	Enriquecimento linguístico.	Adicionar camadas sintáticas, semânticas ou pragmáticas.	Marcar `Rio de Janeiro` como entidade local.
Etiquetagem	Marcação por classe ou etiqueta.	Classificar palavras por categorias linguísticas.	Marcar `casa` como substantivo e `correr` como verbo.
Planejamento	Estruturação do projeto.	Definir metas, métodos e tempo de processamento.	Escolher lematização em vez de radicalização.
Gerenciamento	Controle operacional.	Administrar versões, acessos e integridade.	Restaurar snapshot anterior após erro.
Modelagem	Estruturação teórica ou estatística.	Representar o texto por modelo interpretável.	Criar topic modeling ou regressão logística.
Classificação	Categorização.	Agrupar documentos ou trechos em classes.	Separar editoriais de política e notícias de esporte.
Comparação	Análise contrastiva.	Medir similaridades ou diferenças entre textos.	Comparar vocabulário de dois autores.
Exploração	Investigação prévia.	Observar padrões iniciais antes de workflows pesados.	Gerar lista de palavras frequentes.
Regressão	Validação de consistência ou modelo estatístico.	Garantir estabilidade ou estimar relações entre variáveis.	Verificar se um tokenizador alterou contagens ou rodar modelo logístico.
Supervisão	Monitoramento humano.	Validar se o processamento automático está correto.	Revisar classificação de sarcasmo ou clítico.
Edição	Refinamento manual.	Alterar dado ou código para corrigir imprecisões.	Corrigir etiqueta gramatical errada.
Visualização	Representação gráfica.	Traduzir estatísticas em formas compreensíveis.	Criar gráfico de dispersão de efeitos.
Exportação	Saída de dados.	Gerar arquivos para publicação ou uso externo.	Baixar frequências em CSV.
Configuração	Ajuste de parâmetros.	Calibrar ferramentas para a necessidade do pesquisador.	Definir stopwords ou níveis de referência.

Termos específicos do PHPB Lab

Termo	Definição
Corpus	Conjunto de documentos analisados como unidade de pesquisa.
UID	Identificador gerado a partir do prefixo do corpus.
Ocorrência	Instância de fenômeno linguístico detectado em uma sentença.
Rodada Martins	Recorte analítico com critérios de elegibilidade específicos para colocação clítica.
Variável dependente	Variável explicada pelo modelo.
Variável independente	Variável usada para explicar a dependente.
Controle	Variável incluída para controlar efeitos.
Efeito aleatório	Agrupamento usado em modelos mistos.
Nível de referência	Categoria omitida ou usada como base interpretativa.
Matriz analítica	Tabela numérica ou codificada usada no modelo.
Relatório exploratório	Relatório sem modelo final, baseado em métricas e evidências parciais.

Termos específicos do PHPB Lab​

Termos específicos do PHPB Lab