Primeiros Passos
Antes de criar um projeto no PHPB Lab, confirme que o corpus atende aos requisitos mínimos de entrada.
Requisitos do ambiente
Para rodar a aplicação localmente:
| Componente | Requisito |
|---|---|
| Backend | Python 3.12+, FastAPI, spaCy e modelo pt_core_news_lg. |
| Frontend | Node.js 20+, npm, React/Vite. |
| IA | OPENAI_API_KEY para análise detalhada e compilação de relatórios. |
| API do frontend | VITE_API_URL, quando o backend não estiver em http://localhost:8000. |
Requisitos dos arquivos
Na versão documentada, a importação de corpus aceita apenas arquivos .txt.
| Requisito | Regra |
|---|---|
| Extensão | .txt |
| Codificação | UTF-8 |
| Tamanho máximo | 50 MB por arquivo |
| Leitura | O navegador lê o arquivo como texto UTF-8. |
| Título | Derivado automaticamente do nome do arquivo, mas pode ser editado. |
Arquivos PDF, DOCX, imagens e áudio aparecem no vocabulário conceitual do PHPB Lab, mas a interface de produção documentada importa somente .txt.
Preparação recomendada do corpus
- Salve cada documento em
.txt. - Use UTF-8 para preservar acentos, cedilha e sinais próprios do português.
- Remova binários, cabeçalhos técnicos e artefatos que não fazem parte do texto.
- Separe documentos por unidade analítica coerente, como obra, carta, entrevista ou edição.
- Defina um prefixo de corpus curto, por exemplo
CORPUS,MACHADOouENTREV.
Metadados mínimos
Para avançar a partir da aba Dados, o projeto precisa de:
- pelo menos um documento importado;
- prefixo de corpus preenchido;
- título preenchido para cada documento.
O painel de metadados permite registrar natureza, título, período, país, estado, cidade, campos específicos da natureza textual, notas e tags.
O que acontece com a codificação
O PHPB Lab normaliza Unicode na preparação quando a opção Unicode (NFD -> NFC) está ativa. Isso ajuda a tratar caracteres visualmente iguais que podem estar gravados de formas diferentes. A normalização não substitui a necessidade de arquivos legíveis em UTF-8.
Próximo passo
Com os arquivos preparados, siga para Primeiro Projeto.