Metodología

Esta página describe cómo el agente decide qué es noticia, cómo escribe la pieza y cómo se valida antes de publicar. Está pensada para periodistas que quieren entender la lógica antes de citar una pieza, y para evaluadores que quieren auditar el proceso.

El agente opera en dos capas: una capa de análisis que detecta hechos estadísticamente notables, y una capa editorial que los convierte en pieza periodística. Cada capa tiene su propio protocolo de validación.


1. Selección de qué seguir

El agente no procesa los 12.000 indicadores del catálogo Data360 — todavía. La demo trabaja sobre una watchlist de unos 35 indicadores, distribuidos en tres ritmos:

  • Pulse — indicadores sub-anuales que se actualizan con frecuencia: inflación mensual (FAO), balance de pagos trimestral (FMI), fase IPC de seguridad alimentaria. Acá vive la noticia más reciente.
  • Anuales — indicadores que enmarcan estructuralmente al país: PIB per cápita, crecimiento, desempleo, indicadores del Banco Mundial (WDI).
  • Forecast — proyecciones forward-looking del Fondo Monetario Internacional (WEO) y del Banco Mundial (MPO).

La selección busca cubrir cinco dimensiones de cada país: macro, fiscal, social, seguridad alimentaria, gobernanza. Cinco países cubiertos hoy: Argentina, Ecuador, Guatemala, Honduras y México. El roadmap es expandir cobertura por indicador y por país hasta cubrir todo el catálogo.


2. Capa 1 — Análisis estadístico

2.1 Detección de qué merece nota

Cuando un indicador se actualiza, el agente aplica dos estrategias estadísticas sobre la serie:

Cambio abrupto — se calcula el z-score del último valor respecto a la trayectoria histórica del país. Cuando supera el umbral (típicamente |z| ≥ 2), el cambio es estadísticamente notable: o no encaja con la tendencia, o rompe la varianza esperada.

Anomalía cross-país — se compara la posición del país en el indicador contra el patrón regional. Si el país queda fuera del rango esperado para América Latina y el Caribe, el caso amerita análisis comparado.

Estas dos estrategias son las que demuestra la demo. El roadmap suma una tercera: divergencia narrativa-dato, que cruza el discurso oficial (declaraciones, comunicados) con la serie del indicador para detectar contradicciones.

2.2 Salida de la capa de análisis: la "alerta"

Para cada hallazgo, la capa de análisis emite una alerta con:

  • Tipo (abrupt_change o anomaly), país (ISO3) y score.
  • Observación (valor + período + unidad), copiada literal del CSV.
  • Si aplica, valor previo (previous) y delta (Δ absoluto o relativo).
  • Una narrativa corta para el lector ciudadano y otra para el periodista (cada una ≤ 300 caracteres).
  • Un verification_trace con enlace al dataset, descarga del CSV y referencia metodológica.
  • Los claim_tokens de las cifras citadas en las narrativas.

La capa de análisis se autovalida con un protocolo de siete preguntas (Q1–Q7) antes de pasar al editor. Cualquier falla bloquea la alerta.

#PreguntaQué chequea
Q1¿Cada cifra tiene un claim token trazable al contexto?Sin token o sin entrada en la serie, la narrativa se descarta.
Q2¿La alerta tiene todos los campos del esquema?Integridad estructural mínima.
Q3¿El volumen de alertas es razonable?Máximo 2 por país y 7 por corrida — evita inflación artificial.
Q4¿Las narrativas respetan el límite de 300 caracteres?Brevedad obligatoria a nivel alerta.
Q5¿Ninguna observación citada está ausente de la serie real?El modelo no puede inventar valores.
Q6¿El locale numérico es consistente?Coma decimal y punto de miles en es-419.
Q7¿Las hipótesis están marcadas como tales?Lo especulativo se identifica; no se vende como hecho.

3. Capa 2 — Redacción editorial

A partir de las alertas, el agente compone dos formatos de pieza:

  • Noticia — pieza editorial sobre un indicador. Es la unidad mínima publicable.
  • Reportaje — pieza editorial sobre un dataset (conjunto de indicadores). Integra varias noticias previas y suma profundidad histórica y comparativa.

3.1 Contexto que recibe el modelo

Por cada pieza, el modelo recibe un contexto numerado (lo llamamos omnibus):

  • §1 — Definición del indicador: qué mide, cómo se calcula, unidad, fuente primaria, metodología.
  • §2 — Países y trayectorias: series históricas por país, en tablas period | value | unit.
  • §3 — Reglas de detección: umbrales z-score y de anomalía activos en la corrida.
  • §4 — Candidatos detectados: las alertas del paso anterior, con claim_id literales que el modelo debe reutilizar.
  • §5 — Diccionario de datos: columnas del CSV cuando aplica.
  • §6 — Reglas editoriales: largo objetivo, tono, glosario, prohibiciones.
  • §7 — Noticias ya generadas (solo Reportajes): lista de Noticias previas del mismo dataset, con sus claims verificados — el reportaje las integra, no las repite.
  • §8 — Prensa local reciente (GDELT): hasta 8 titulares por país, con autor, fecha y URL. El modelo cita con enlace markdown obligatorio; sin URL, no se cita.
  • §9 — Archivo Abrimos.info (en roadmap): noticias previas del agente sobre el mismo idno o dataset_id, con noticia_id para enlace interno.

3.2 Anclajes de estilo

La capa editorial está atada a dos manuales reconocidos del periodismo internacional:

  • Reuters Handbook of Journalism — estructura del cuerpo: lede de impacto (cifra → fuente → fecha en el primer párrafo), contexto antes que opinión, atribución explícita, voz activa por defecto.
  • AP Stylebook — microestilo: números (cero a nueve en letra, 10+ en cifra, excepto con unidad), porcentajes (5 % en ES, 5% en EN), siglas (spell-out en primera referencia), nada de adjetivos valorativos sin respaldo.

La autoridad viene de la verificación, no de los adjetivos. Sobrio, descriptivo, sin editorializar.

3.3 Eje narrativo obligatorio: país → LAC → mundo

Toda pieza se narra desde el país protagonista. El lector implícito vive en ese país.

  1. Foco país — qué cambió en este país, cuánto, respecto a qué período anterior. Trayectoria histórica del país.
  2. Contexto LAC — posición del país en la región, con al menos un país comparable de América Latina y el Caribe.
  3. Contexto mundo — posición global, rank mundial o mediana global cuando esté en el contexto. Si no está, se declara la ausencia explícitamente.

Los tres ejes deben estar explícitamente presentes en el cuerpo. Si falta el contexto mundo o LAC sin declarar su ausencia, la pieza no se publica.

3.4 Andamiaje de la Noticia (350–500 palabras)

Seis bloques que estructuran el cuerpo:

  1. Lede (40-60 palabras): cifra principal con su trazabilidad + variación respecto al período anterior + fuente con enlace al dataset Data360.
  2. Contexto país (50-80): trayectoria 3-5 años del país, con dos o más puntos históricos citados.
  3. Contexto LAC (60-90): posición regional, mínimo dos países comparables (siempre que tengan candidato).
  4. Contexto mundo (30-60): rank global o mediana mundial, o declaración honesta de ausencia.
  5. Implicancia concreta (40-60): una sola consecuencia anclada al delta. Marcada como [HIPÓTESIS] si no está respaldada por el contexto.
  6. Metodología compacta (1 frase): qué mide el indicador, frecuencia, fuente.

3.5 Andamiaje del Reportaje (1200–1800 palabras)

Ocho bloques:

  1. Lede narrativo — una cifra-ancla o hallazgo del país protagonista que sintetiza la tesis. Enlace al dataset en el primer párrafo.
  2. Síntesis de hallazgos — 3-5 hallazgos clave del dataset, cada uno con su trazabilidad.
  3. Cuerpo por dimensiones — 3-5 sub-secciones (una por sub-indicador o factor) con sub-título propio. Cada dimensión con su delta y comparación intra-LAC.
  4. Comparación LAC dedicada — posición país-por-país en los indicadores del dataset. Tabla cuando aporta.
  5. Contexto mundo — posición global, mejores, peores, comparables fuera de la región si el contexto los lista.
  6. Trayectoria histórica y noticias previas — citas de prensa GDELT (§8) y, cuando esté disponible, noticias previas del archivo Abrimos.info (§9). Nunca cita sin enlace; nunca inventa URL.
  7. Cierre con perspectiva — no resumen. Kicker que abre el horizonte: conecta el patrón con un fenómeno mayor o plantea una pregunta abierta. Sin "en conclusión".
  8. Caja metodológica — una sola caja con qué mide el dataset, número de sub-indicadores, frecuencia, fuente y link a Data360.

3.6 Versión EN: adaptación, no traducción

La versión inglesa de cada pieza no es traducción literal. Es una pieza wire en inglés que se sostiene por sí misma, con AP Stylebook y Reuters Handbook como referencia. El lector implícito anglosajón ya no vive en el país protagonista — son redacciones internacionales, fact-checkers, evaluadores, multilaterales. Los claim tokens (PCN) se preservan idénticos: mismos claim_id, valores reformateados al locale EN.

3.7 Trazabilidad inline (PCN)

Cada cifra que el modelo escribe queda marcada con un claim token que apunta al bloque del contexto del que la sacó. Esto no es decoración: el validador descarta piezas con cifras sin token o con tokens que apuntan a bloques que no contienen la cifra. Detalle completo en Cómo verificar una cifra →.

3.8 Validación editorial — Q1 a Q12

Antes de publicar, cada pieza pasa por un protocolo de hasta doce preguntas. Cualquiera que falle bloquea la publicación. Las preguntas críticas:

#Qué chequea
Q1Todas las cifras del cuerpo tienen claim_id válido, listados en claim_tokens y en el contexto.
Q2El JSON de salida es válido y cumple el esquema (sin campos extra).
Q4Largo dentro de rango (Noticia: 350-500, tolerado 300-550; Reportaje: 1200-1800, tolerado 1000-2000).
Q5Cada observación citada coincide con el período correcto en la serie.
Q6Locale numérico consistente (ES con coma decimal, EN con punto).
Q7Hipótesis marcadas explícitamente.
Q8El titular no tiene cifras ni símbolos de moneda.
Q9La cifra del candidato protagonista en lede y story coincide con la observación canónica del contexto.
Q10Toda mención a una noticia (prensa GDELT §8 o archivo Abrimos.info §9) lleva enlace markdown a su URL original; ninguna URL fue inventada; el dataset Data360 está enlazado en el cuerpo.
Q11Los tres ejes país / LAC / mundo están presentes; si falta el mundo, está declarado explícitamente.
Q12 (solo Reportajes)El cuerpo respeta los 8 bloques del andamiaje.

4. Citas a fuentes externas

Toda mención a una pieza periodística debe incluir enlace markdown a la URL original:

  • Prensa externa (GDELT y otros): "[extracto entre comillas]" — [autor], [Medio](url), [fecha].
  • Noticias previas del archivo Abrimos.info: [ver nota previa](/?noticia=ID) con el noticia_id real.
  • Datasets Data360: enlace al dataset en el primer párrafo del cuerpo, además del verification_trace al pie.

Reglas duras:

  • Sin URL en el contexto, no se cita.
  • No se inventa URL, medio, autor ni fecha bajo ninguna circunstancia.

5. Lo que el agente no hace

Conviene aclararlo:

  • No tiene editor humano por defecto. Las piezas salen como las escribe el agente, validadas algorítmicamente. Cada pieza lleva un aviso al pie sobre esto.
  • No detecta intencionalidad ni juzga el contenido editorial del discurso oficial — solo la consistencia entre la afirmación numérica y el dato fuente.
  • No es un sustituto de la cobertura periodística — es una capa de descubrimiento, contexto y verificación que ahorra el trabajo de monitoreo y la verificación numérica básica.

6. Limitaciones de la demo

La demo opera en replay sobre snapshots históricos: el algoritmo es el de producción, pero los hechos detectados son cambios que ya ocurrieron, recreados con la fecha y los datos del momento. El monitoreo continuo (cron real sobre Data360, almacenamiento canónico de toda la historia de datos y notas para que el agente aprenda de su propio archivo) está en el roadmap inmediato.