Pular para o conteúdo principal

Primeiros Passos

Antes de criar um projeto no PHPB Lab, confirme que o corpus atende aos requisitos mínimos de entrada.

Requisitos do ambiente

Para rodar a aplicação localmente:

ComponenteRequisito
BackendPython 3.12+, FastAPI, spaCy e modelo pt_core_news_lg.
FrontendNode.js 20+, npm, React/Vite.
IAOPENAI_API_KEY para análise detalhada e compilação de relatórios.
API do frontendVITE_API_URL, quando o backend não estiver em http://localhost:8000.

Requisitos dos arquivos

Na versão documentada, a importação de corpus aceita apenas arquivos .txt.

RequisitoRegra
Extensão.txt
CodificaçãoUTF-8
Tamanho máximo50 MB por arquivo
LeituraO navegador lê o arquivo como texto UTF-8.
TítuloDerivado automaticamente do nome do arquivo, mas pode ser editado.
observação

Arquivos PDF, DOCX, imagens e áudio aparecem no vocabulário conceitual do PHPB Lab, mas a interface de produção documentada importa somente .txt.

Preparação recomendada do corpus

  1. Salve cada documento em .txt.
  2. Use UTF-8 para preservar acentos, cedilha e sinais próprios do português.
  3. Remova binários, cabeçalhos técnicos e artefatos que não fazem parte do texto.
  4. Separe documentos por unidade analítica coerente, como obra, carta, entrevista ou edição.
  5. Defina um prefixo de corpus curto, por exemplo CORPUS, MACHADO ou ENTREV.

Metadados mínimos

Para avançar a partir da aba Dados, o projeto precisa de:

  • pelo menos um documento importado;
  • prefixo de corpus preenchido;
  • título preenchido para cada documento.

O painel de metadados permite registrar natureza, título, período, país, estado, cidade, campos específicos da natureza textual, notas e tags.

O que acontece com a codificação

O PHPB Lab normaliza Unicode na preparação quando a opção Unicode (NFD -> NFC) está ativa. Isso ajuda a tratar caracteres visualmente iguais que podem estar gravados de formas diferentes. A normalização não substitui a necessidade de arquivos legíveis em UTF-8.

Próximo passo

Com os arquivos preparados, siga para Primeiro Projeto.