Metodologia
Última execução do pipeline: 2026-04-20.
1. Coleta
- INEP Microdados Enade: download anual dos ZIPs oficiais, extração do CSV principal, agregação em nível curso × IES × ano.
- MEC Dados Abertos SISU: consumo da API pública por edição (2020–2025).
- e-MEC: enriquecimento com dados cadastrais (mantenedora, município, ato regulatório) via consulta pública, respeitando
robots.txte 1 req/s. - IBGE: nomes de município, UF e região para contexto geográfico.
2. Normalização
- Nomes de cursos padronizados para a denominação oficial Enade (ex.: "Engenharia Civil" e não "Engenharia - Civil").
- Notas normalizadas: Enade Conceito entre 1 e 5, Nota Contínua entre 0 e 5, Cortes SISU entre 0 e 1000.
- Cross-check: códigos de curso INEP ↔ códigos e-MEC, rejeitando divergências.
3. Validação (QUALITY GATE)
Cada entidade passa por validação automática antes de virar página publicada:
- Completude: mínimo 10 atributos não-nulos.
- Sanidade: notas dentro dos ranges válidos.
- Frescor: Enade < 24 meses; SISU < 15 meses.
- Originalidade editorial: seções geradas comparadas com top 10 Google da keyword principal; similaridade > 30% aciona reescrita.
Entidades reprovadas vão para data/rejected/ com motivo, sem página publicada.
4. Publicação progressiva (rollout)
Indexação controlada para preservar sinal de crescimento orgânico:
- Semana 1: homepage + 5 pilares + 20 folhas mais fortes
- Semana 2: +50 folhas
- Semana 3: +100 folhas
- Semana 4: +200 folhas
- Semana 5: +300 folhas
- Semana 6+: restante
5. Reindexação e correção
Pipeline roda semanalmente via GitHub Actions (.github/workflows/refresh.yml). Páginas com queda prolongada em impressões no Search Console são movidas para content/review/ para reescrita humana. Páginas com dados corrompidos ou fonte revogada são despublicadas imediatamente.
6. Limites honestos
- Nossos cortes SISU são os cortes finais da primeira chamada. Não refletimos cortes de lista de espera.
- Enade tem granularidade por curso, não por habilitação. Bacharelado e Licenciatura de Matemática aparecem juntos quando o INEP agrega.
- Cursos a distância têm avaliação com metodologia parcialmente distinta; indicamos na página quando aplicável.
7. Estatísticas da última execução do pipeline
| Métrica | Valor |
|---|---|
| Última execução | 2026-04-20 |
| IES catalogadas | 15 |
| Cursos de graduação validados | 65 |
| Áreas do conhecimento | 11 |
| Cursos com Conceito Enade registrado | 65 (100% do total) |
| Cursos com corte SISU 2025 registrado | 54 |
| Cursos com CC (visita in loco) | 65 |
Em cada execução semanal (segundas, 03h BRT, GitHub Actions), o pipeline tenta atualizar o dataset a partir das fontes primárias. Registros que falham a validação são gravados em data/rejected/ com motivo — transparência interna para detectar regressões no dado do INEP ou MEC.
8. Auditoria e correções humanas
A validação descrita na seção 3 é automática. A auditoria editorial (originalidade vs top 10 Google, ausência de cheiro de IA, densidade de dados) é humana, periódica, e documentada publicamente em AUDIT_REPORT.md no repositório do projeto.
SLA de correção: se você identificou um número divergente da fonte oficial, escreva pelo contato com a URL da página e a fonte comprovada do valor correto. Correções entram em até 7 dias úteis. Páginas com erro factual grave são despublicadas imediatamente (404) até serem corrigidas.
9. Onde o dado está
- Pipeline de coleta e scripts:
seo-site/data/pipeline/no repositório público. - Dataset normalizado exportado:
seo-site/src/data/*.json. - Fontes oficiais: ver página de fontes.
- Decisões editoriais: DECISIONS.md.