L
Legadia
Memória Brasileira · IA
Imprensa & press kit

Material pronto pra reportagem.

A Legadia é um projeto independente de pesquisa em memória brasileira por meio de IA. Esta página reúne descrição, números, contatos e respostas pras perguntas mais frequentes da imprensa.

Descrição curta

Em uma frase, em um parágrafo, em três.

Boilerplate (1 frase)

A Legadia indexa a imprensa histórica brasileira do século XX com inteligência artificial, tornando jornais em domínio público pesquisáveis por contexto, não só por palavra-chave.

Curto (1 parágrafo)

A Legadia é um arquivo digital de imprensa brasileira do século XX que pode ser consultado em linguagem natural. Páginas digitalizadas de jornais e revistas em domínio público passam por OCR, embeddings semânticos e modelos de linguagem, permitindo perguntas como “o que diziam os jornais sobre Vargas em 1942?” com respostas citáveis. Acervo inicial: revista Em Guarda (1941–1945), seguida por Correio da Manhã, A Noite e outros.

Longo (3 parágrafos)

A Legadia é uma plataforma independente de pesquisa em memória brasileira. Indexa páginas históricas de jornais e revistas em domínio público, aplica OCR via visão computacional, gera embeddings semânticos multilíngues e usa modelos de linguagem para responder a perguntas sobre o que aparece em cada página — com fonte, ano e trecho citável. A primeira coleção ativa é a revista Em Guarda (1941–1945), publicada pelos Estados Unidos para circular no Brasil durante a Segunda Guerra Mundial. A partir dela, o acervo expandiu para grandes diários como Correio da Manhã, A Noite, Diário de Notícias e Correio Paulistano, totalizando mais de mil páginas e milhares de pessoas e lugares automaticamente catalogados. O projeto é desenvolvido por Marcelo Santabaia (MEI), em Fortaleza/CE, com financiamento direto via apoiadores e busca por patrocínio cultural via leis de incentivo.

Números

Em produção, atualizados manualmente.

1.021
Páginas indexadas
23.060
Blocos pesquisáveis
190.000+
Menções a personagens/lugares
7
Jornais e revistas
1935–1945
Anos cobertos
20
Livros DP
1.16M
Palavras (biblioteca)
40+
Hinos catalogados

Os números crescem conforme entram contribuições. Para versão atualizada em tempo real, consulte /sobre/metodo e /sobre/fontes.

Perguntas frequentes

FAQ rápido pra jornalistas.

Os documentos são legais? Domínio público?

Sim. Toda obra reproduzida pela Legadia está em domínio público conforme a Lei 9.610/98 — autor falecido há mais de 70 anos ou material governamental sem proteção. As fontes primárias são a Hemeroteca Digital Brasileira (Biblioteca Nacional), Archive.org e UFRRJ.

A IA pode inventar respostas (alucinar)?

A arquitetura é de busca semântica + citação direta: a IA não responde sem trechos reais do acervo como referência. Toda resposta no /buscar mostra a página, o jornal e o ano de origem. Não há geração livre sem fonte.

Quem está por trás?

Marcelo Santabaia (MEI CNPJ 63.421.394/0001-71), Fortaleza/CE. Projeto pessoal, sem investidor, financiado por apoiadores via Pix e busca patrocínio via leis de incentivo cultural.

Pode reproduzir capturas de tela e trechos?

Sim, com crédito “Legadia · legadia.com.br”. As páginas digitalizadas dos jornais permanecem em domínio público — não são propriedade da Legadia, apenas hospedadas e indexadas.

Como o projeto se sustenta?

Hoje: contribuições via Pix de apoiadores e custeio pessoal do criador. Meta: patrocínio cultural via Lei Rouanet, editais (FUNCAP, BNDES Cultural) e parcerias institucionais com universidades.

Tecnologia usada (pra quem se interessa)?

Next.js 16 + React 19 + TypeScript estrito. Neon Postgres com pgvector pra embeddings semânticos. Voyage AI pra embeddings multilíngues (1024d). Anthropic Claude (Sonnet 4.6 e Haiku 4.5) pra OCR de layout e extração de entidades. Mapbox GL pra geolocalização. Vercel pra hospedagem. Código fechado, mas pipeline replicável.

Citação sugerida

Pra menção em reportagem.

“A Legadia (legadia.com.br) é um arquivo digital de imprensa brasileira do século XX indexado por inteligência artificial, que permite pesquisar por contexto — não apenas por palavras — em jornais e revistas em domínio público.”

Contato

Direto, sem assessoria.

Marcelo Santabaia — criador e desenvolvedor

WhatsApp: +55 85 99187-2550

Email: santabaia@gmail.com

Resposta em até 48h. Entrevistas em português (PT-BR), preferencialmente assíncronas ou por chamada agendada. Fortaleza/CE, fuso BRT (UTC−3).