PHPB Hub: uma plataforma de corpora textual eletrônico

10 de maio de 2026 · 3 min para ler

Professor da Universidade Federal de Santa Catarina e pesquisador em Linguística

Pesquisador responsável pelo desenvolvimento do PHPB Lab

O PHPB Hub é a plataforma de consulta e exploração das coleções textuais do Projeto para a História do Português Brasileiro. Seu papel é organizar o acesso ao acervo publicado, preservar o vínculo entre documentos, metadados e fontes, e oferecer ferramentas para leitura, busca, análise exploratória e exportação de dados linguísticos.

A plataforma foi pensada para aproximar duas necessidades que costumam aparecer separadas na pesquisa com corpora históricos: a circulação pública do acervo e a investigação linguística orientada por dados. De um lado, o PHPB Hub apresenta coleções, documentos e amostras com seus metadados editoriais. De outro, oferece recursos de consulta que ajudam o pesquisador a transformar o material disponível em evidência observável.

Na navegação por acervo, o usuário pode localizar coleções por recortes como gênero, estado, século, instituição e referência. Cada coleção mantém relação com suas amostras e documentos, permitindo que a consulta não se reduza a uma lista de textos isolados. Essa rastreabilidade é central para o PHPB Hub: uma ocorrência encontrada na busca precisa continuar ligada ao documento, à coleção, ao contexto histórico e à fonte editorial que lhe dão sentido.

A busca KWIC é uma das capacidades principais da plataforma. Ela permite observar concordâncias por forma, lema, expressão regular, classe gramatical, anotação ou similaridade semântica demonstrativa. Esse tipo de consulta ajuda a passar da leitura linear para a inspeção comparável de padrões, sem perder o retorno ao trecho textual de origem.

O PHPB Hub também reúne análises exploratórias para o primeiro exame do corpus. A plataforma calcula frequências, n-gramas, colocações, séries diacrônicas, comparações entre recortes, distribuição geográfica e padrões de clíticos. Esses recursos não substituem a análise especializada, mas criam uma camada inicial de observação para levantar hipóteses, conferir distribuições e decidir quais fenômenos merecem investigação mais detalhada.

Outro recurso importante é a criação de projetos locais. O pesquisador pode montar subcorpora de trabalho, reunir coleções de interesse e preservar recortes no navegador. Essa funcionalidade ajuda a separar o acervo público da seleção analítica feita para uma pergunta específica, mantendo a consulta organizada sem alterar os dados publicados.

A exportação amplia a interoperabilidade do Hub. Dados podem ser preparados em formatos como JSON, CSV, TSV, CoNLL-U e TEI/XML simplificado, favorecendo auditoria externa, circulação entre equipes e uso em ferramentas complementares. A plataforma, portanto, não prende a pesquisa à interface: ela funciona como ponto de entrada, exploração e saída estruturada dos dados.

Do ponto de vista de arquitetura, o PHPB Hub funciona como um framework multi-tenant. A mesma aplicação pode publicar diferentes distribuições do projeto, como o hub nacional e subprojetos estaduais, preservando uma base técnica comum. Cada tenant define identidade, rota institucional, conteúdo, tema, corpus público e escopo geográfico. Isso permite expandir o ecossistema sem duplicar a aplicação inteira.

A versão pública documentada opera como uma SPA demonstrativa, com dados carregados no navegador e recursos administrativos bloqueados. Áreas como revisão, ingestão e configurações pertencem ao circuito operacional do sistema, mas ficam protegidas na demonstração pública. Essa separação deixa claro o que é consulta aberta e o que pertence à curadoria interna do acervo.

O ponto central é que o PHPB Hub não é apenas uma vitrine de documentos. Ele combina publicação, consulta, análise exploratória, rastreabilidade e exportação em uma mesma superfície de trabalho. Para a história do português brasileiro, isso significa transformar coleções textuais em um acervo navegável, verificável e reutilizável, capaz de apoiar novas perguntas sobre variação, mudança e circulação histórica da língua.