Método

De uma página de 1934 a um trecho citável hoje.

Cada página passa por quatro etapas independentes que combinadas transformam uma imagem em conhecimento perguntável.

Captura

Os scans em alta resolução vêm da Hemeroteca Digital Brasileira da Fundação Biblioteca Nacional. Não refazemos digitalizações — usamos o trabalho público já realizado, sob domínio público de acordo com a Lei 9.610/98.

OCR + Visão computacional

Claude Sonnet 4.6 lê cada página como imagem e devolve, num passe único: a transcrição literal de cada bloco (manchete, notícia, anúncio, foto, nota social), suas coordenadas dentro da imagem (bounding boxes), um resumo curto em português atual e a lista de personagens e lugares mencionados.

Busca híbrida — vetor + texto

Cada bloco vira um vetor de 1.024 dimensões via Voyage AI (multilíngue), armazenado em Postgres com pgvector. Buscas combinam similaridade semântica (entende contexto) com full-text PostgreSQL (entende palavra exata), via Reciprocal Rank Fusion. O resultado: encontramos 'iluminação da praça central' mesmo se o jornal só escreveu 'inaugurou-se a luz elétrica do largo'.

Síntese com citação

Claude Sonnet 4.6 recebe os 3 trechos mais relevantes do passo anterior e produz uma resposta natural ao pesquisador, citando o trecho exato e devolvendo as coordenadas do destaque — que pintamos sobre o scan original. O historiador vê ONDE no jornal a informação está.

Custo por consulta

Cada pergunta do usuário consome aproximadamente R$ 0,20 em chamada ao Claude Sonnet (busca + síntese). Vector search e full-text não custam nada — rodam em Postgres dedicado. Visitantes sem cadastro têm cota gratuita diária; uso intensivo requer assinatura ou pacote de créditos.