| Aquisição | Coleta de fontes brutas. | Obter material de estudo de repositórios digitais ou web. | Capturar tweets com uma hashtag ou baixar obras do Domínio Público. |
| Importação | Entrada de arquivos no sistema. | Trazer documentos locais para o ambiente de processamento. | Upload de uma pasta de arquivos .txt com entrevistas. |
| Extração | Isolamento de dados. | Remover metadados ou partes específicas. | Extrair falas de personagens, descartando rubricas. |
| Transcrição | Conversão de mídia para texto. | Transformar registros não textuais em dados processáveis. | Usar OCR em fotos de manuscritos. |
| Conversão | Mudança de formato. | Garantir formato compatível com NLP. | Converter .docx ou .pdf para .txt. |
| Estruturação | Organização arquitetural. | Definir hierarquia e campos para busca e filtro. | Organizar texto em JSON com título, autor, data e corpo. |
| Sanitização | Limpeza de artefatos. | Remover lixo digital e caracteres de controle. | Eliminar tags HTML e scripts de raspagem. |
| Higienização | Limpeza de conteúdo. | Retirar dados sem valor para a análise linguística. | Remover números de página e cabeçalhos repetidos. |
| Padronização | Uniformização de critérios. | Estabelecer formato único para dados variáveis. | Converter datas para ISO 2022-01-10. |
| Normalização | Padronização de tokens. | Reduzir ruído de variações gráficas ou ortográficas. | Converter palavras para minúsculas. |
| Transformação | Reestruturação de dados. | Adaptar dados para modelos estatísticos ou exibição. | Transformar texto corrido em sentenças numeradas. |
| Tokenização | Fragmentação textual. | Definir unidades de análise. | Quebrar uma frase em palavras e pontuação. |
| Lematização | Redução ao lema. | Analisar a palavra em contexto e obter forma de dicionário. | Converter fomos, era e serão para ser. |
| Radicalização | Redução ao radical. | Cortar afixos para focar na raiz morfológica. | Reduzir meninos e menina a menin-. |
| Codificação | Atribuição de índices ou valores. | Criar representação técnica para processamento. | Atribuir ID a cada termo ou valor a cada variável. |
| Anotação | Enriquecimento linguístico. | Adicionar camadas sintáticas, semânticas ou pragmáticas. | Marcar Rio de Janeiro como entidade local. |
| Etiquetagem | Marcação por classe ou etiqueta. | Classificar palavras por categorias linguísticas. | Marcar casa como substantivo e correr como verbo. |
| Planejamento | Estruturação do projeto. | Definir metas, métodos e tempo de processamento. | Escolher lematização em vez de radicalização. |
| Gerenciamento | Controle operacional. | Administrar versões, acessos e integridade. | Restaurar snapshot anterior após erro. |
| Modelagem | Estruturação teórica ou estatística. | Representar o texto por modelo interpretável. | Criar topic modeling ou regressão logística. |
| Classificação | Categorização. | Agrupar documentos ou trechos em classes. | Separar editoriais de política e notícias de esporte. |
| Comparação | Análise contrastiva. | Medir similaridades ou diferenças entre textos. | Comparar vocabulário de dois autores. |
| Exploração | Investigação prévia. | Observar padrões iniciais antes de workflows pesados. | Gerar lista de palavras frequentes. |
| Regressão | Validação de consistência ou modelo estatístico. | Garantir estabilidade ou estimar relações entre variáveis. | Verificar se um tokenizador alterou contagens ou rodar modelo logístico. |
| Supervisão | Monitoramento humano. | Validar se o processamento automático está correto. | Revisar classificação de sarcasmo ou clítico. |
| Edição | Refinamento manual. | Alterar dado ou código para corrigir imprecisões. | Corrigir etiqueta gramatical errada. |
| Visualização | Representação gráfica. | Traduzir estatísticas em formas compreensíveis. | Criar gráfico de dispersão de efeitos. |
| Exportação | Saída de dados. | Gerar arquivos para publicação ou uso externo. | Baixar frequências em CSV. |
| Configuração | Ajuste de parâmetros. | Calibrar ferramentas para a necessidade do pesquisador. | Definir stopwords ou níveis de referência. |