Plataforma
O PHPB Lab apoia pesquisas linguísticas que precisam transformar textos brutos em evidências auditáveis. A plataforma combina edição textual, análise NLP, triagem humana, modelagem estatística, visualização e relatório.
Capacidades
| Capacidade | Descrição |
|---|---|
| Ingestão de corpus | Importa documentos .txt, gera UIDs e registra metadados. |
| Preparação textual | Segmenta por sentença ou token e aplica normalizações controladas. |
| Análise linguística | Usa spaCy para sentenças, POS, dependências, entidades, lemas e métricas. |
| Classificação de clíticos | Detecta ocorrências e classifica próclise, ênclise ou mesóclise. |
| Supervisão humana | Permite confirmar, descartar e corrigir ocorrências antes da modelagem. |
| Configuração analítica | Define variável dependente, independentes, controles, efeitos aleatórios e níveis. |
| Codificação | Materializa uma matriz por ocorrência confirmada. |
| Transformação | Gera dummy variables, label encoding ou TF-IDF. |
| Modelagem | Executa modelos logísticos e apresenta coeficientes, p-values, AIC e BIC. |
| Visualização | Resume funil, distribuições, tendências, exclusões e efeitos principais. |
| Relatório | Compila rascunho acadêmico-linguístico a partir de payload sanitizado. |
Funcionalidades por frente de trabalho
| Frente | Função |
|---|---|
Início | Entrada da aplicação. |
Edição | Workbench de sanitização, transcrição, lematização e anotação. |
Produção | Pipeline principal de corpus e estudo variacionista. |
Recursos técnicos
- SPA React/TypeScript com Vite e Tailwind.
- API FastAPI em Python.
- spaCy com modelo
pt_core_news_lg. - OpenAI para análise detalhada e compilação de relatórios.
- Persistência local do projeto em IndexedDB, com fallback em
localStorage. - Exportações CSV, JSON, JSONL, dicionário, relatório de exclusão, GoldVarb TXT e PDF via impressão do navegador.
Por que separar Edição e Produção
O workspace Edição prepara texto em um contexto de intervenção manual. O workspace Produção opera um pipeline auditável, orientado a corpus, com funis, estados e transformações sucessivas. A separação evita misturar correção textual com modelagem estatística.
Papel do pesquisador
O PHPB Lab não substitui a decisão metodológica. A interface automatiza passos repetitivos, mas mantém pontos de supervisão para:
- validar classificações automáticas;
- corrigir variáveis linguísticas;
- decidir exclusões;
- escolher modelos;
- revisar interpretações geradas no relatório.