<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"><channel><title>DOF-RAG Blog</title><description>Seguimiento y documentación de avances en el desarrollo de sistemas de recuperación y generación aumentada para el Diario Oficial de la Federación.</description><link>https://codeandoguadalajara.github.io/</link><language>es-es</language><item><title>When AI Models Describe Images: The Brilliant, The Absurd, and The Comical</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/04/descripciones-ia-imagenes/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/04/descripciones-ia-imagenes/</guid><description>A comparative analysis of different AI models in the task of describing images for the DOF-RAG project.</description><pubDate>Tue, 29 Apr 2025 00:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>Introduction to the DOF-RAG Project</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/04/introduccion-dof-rag/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/04/introduccion-dof-rag/</guid><description>An initiative to improve the accessibility and understanding of information from the Official Journal of the Federation.</description><pubDate>Fri, 11 Apr 2025 00:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>Giving Context to Embeddings: Structured Headers</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/05/dndole-contexto-a-los-embeddings-los-encabezados-estructurados/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/05/dndole-contexto-a-los-embeddings-los-encabezados-estructurados/</guid><description>How we solved the problem of lack of context in text chunks to improve the accuracy of our RAG system.</description><pubDate>Tue, 06 May 2025 06:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>Integrating Gemini Models in DOF RAG: Challenges and Solutions with Google&apos;s AI Libraries</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/05/integracin-de-modelos-gemini-en-dof-rag-desafos-y-soluciones-con-las-libreras-de-ia-de-google/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/05/integracin-de-modelos-gemini-en-dof-rag-desafos-y-soluciones-con-las-libreras-de-ia-de-google/</guid><description>An analysis of the challenges encountered during the integration of Google&apos;s AI models in the DOF RAG project, managing evolving libraries, and solving API-related issues.</description><pubDate>Fri, 16 May 2025 06:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>The Battle of the Converters: Our Experience Extracting Text from the DOF</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/06/la-batalla-de-los-convertidores-nuestra-experiencia-extrayendo-texto-del-dof/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/06/la-batalla-de-los-convertidores-nuestra-experiencia-extrayendo-texto-del-dof/</guid><description>A comparative analysis of different tools for converting PDFs to markdown and why we chose Marker for our DOF-RAG project.</description><pubDate>Sun, 01 Jun 2025 06:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>The Battle of Embeddings: When Three AI Models Compete to Understand Governmental Spanish</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/08/comparacion-embeddings/la-batalla-de-los-embeddings-cuando-tres-modelos-de-ia-compiten-por-entender-el-espaol-gubernamental/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/08/comparacion-embeddings/la-batalla-de-los-embeddings-cuando-tres-modelos-de-ia-compiten-por-entender-el-espaol-gubernamental/</guid><description>A comparative analysis of three embedding models (Nomic Embed, Gemini, Jina) evaluating speed, quality, and stability in vector search for Mexican official documents.</description><pubDate>Tue, 12 Aug 2025 06:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>Storage Projections for DOF-RAG</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/09/proyecciones-de-almacenamiento-para-dof-rag/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/09/proyecciones-de-almacenamiento-para-dof-rag/</guid><description>A detailed analysis of storage projections for the DOF-RAG project, evaluating different embedding dimensions and their scalability implications over a 25-year horizon.</description><pubDate>Fri, 12 Sep 2025 06:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>Four steps to process the DOF: conversion, cleanup, analysis and structure</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/11/cuatro-pasos-para-domar-el-dof-conversin-limpieza-anlisis-y-estructura/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/11/cuatro-pasos-para-domar-el-dof-conversin-limpieza-anlisis-y-estructura/</guid><description>From the downloaded WORD file to structured Markdown ready for embeddings: a walkthrough of our complete processing pipeline that includes LibreOffice conversion, custom LUA filters, Gemini image analysis, and a robust directory architecture.</description><pubDate>Wed, 19 Nov 2025 06:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>From PDF to WORD: when computational cost dictates a change of strategy</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/11/del-pdf-al-word-cuando-el-costo-computacional-dicta-el-cambio-de-estrategia/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2025/11/del-pdf-al-word-cuando-el-costo-computacional-dicta-el-cambio-de-estrategia/</guid><description>How the reality of massive document processing led us to rethink our strategy: from downloading complete PDFs to obtaining segmented WORD files, dramatically reducing computational cost without sacrificing quality.</description><pubDate>Wed, 19 Nov 2025 06:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>657 thousand documents later: how we converted ALL of the DOF to Markdown</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2026/04/657-mil-documentos-despues-cmo-convertimos-todo-el-dof-a-markdown/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2026/04/657-mil-documentos-despues-cmo-convertimos-todo-el-dof-a-markdown/</guid><description>From 657,867 .doc files from Mexico&apos;s Official Journal of the Federation to clean Markdown: tools, results, and what&apos;s left to do.</description><pubDate>Mon, 20 Apr 2026 06:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>Who Describes DOF Images Best?</title><link>https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2026/05/batalla-modelos-vlm/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/en/blog/2026/05/batalla-modelos-vlm/</guid><description>We compare 6 vision models (Gemini, GPT, Qwen, Claude) on the task of generating image descriptions for RAG indexing of Mexico&apos;s Official Journal of the Federation.</description><pubDate>Tue, 12 May 2026 00:00:00 GMT</pubDate><author>DOF-RAG Team</author></item><item><title>Cuando los modelos de IA describen imágenes: lo brillante, lo absurdo y lo cómico</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/04/descripciones-ia-imagenes/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/04/descripciones-ia-imagenes/</guid><description>Un análisis comparativo de diferentes modelos de IA en la tarea de describir imágenes para el proyecto DOF-RAG.</description><pubDate>Tue, 29 Apr 2025 00:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>Introducción al Proyecto DOF-RAG</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/04/introduccion-dof-rag/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/04/introduccion-dof-rag/</guid><description>Una iniciativa para mejorar la accesibilidad y comprensión de la información del Diario Oficial de la Federación.</description><pubDate>Fri, 11 Apr 2025 00:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>Dándole contexto a los embeddings: Los encabezados estructurados</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/05/dndole-contexto-a-los-embeddings-los-encabezados-estructurados/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/05/dndole-contexto-a-los-embeddings-los-encabezados-estructurados/</guid><description>Cómo resolvimos el problema de la falta de contexto en chunks de texto para mejorar la precisión de nuestro sistema RAG.</description><pubDate>Tue, 06 May 2025 06:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>Integración de Modelos Gemini en DOF RAG: Desafíos y Soluciones con las Librerías de IA de Google</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/05/integracin-de-modelos-gemini-en-dof-rag-desafos-y-soluciones-con-las-libreras-de-ia-de-google/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/05/integracin-de-modelos-gemini-en-dof-rag-desafos-y-soluciones-con-las-libreras-de-ia-de-google/</guid><description>Un análisis de los desafíos encontrados durante la integración de los modelos de IA de Google en el proyecto DOF RAG, el manejo de librerías en evolución y la resolución de problemas con las APIs.</description><pubDate>Fri, 16 May 2025 06:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>La batalla de los convertidores: Nuestra experiencia extrayendo texto del DOF</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/06/la-batalla-de-los-convertidores-nuestra-experiencia-extrayendo-texto-del-dof/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/06/la-batalla-de-los-convertidores-nuestra-experiencia-extrayendo-texto-del-dof/</guid><description>Un análisis comparativo de las diferentes herramientas para convertir PDFs a markdown y por qué elegimos Marker para nuestro proyecto DOF-RAG.</description><pubDate>Sun, 01 Jun 2025 06:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>La batalla de los embeddings: cuando tres modelos de IA compiten por entender el español gubernamental</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/08/comparacion-embeddings/la-batalla-de-los-embeddings-cuando-tres-modelos-de-ia-compiten-por-entender-el-espaol-gubernamental/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/08/comparacion-embeddings/la-batalla-de-los-embeddings-cuando-tres-modelos-de-ia-compiten-por-entender-el-espaol-gubernamental/</guid><description>Un análisis comparativo entre tres modelos de embeddings (Nomic Embed, Gemini, Jina) evaluando velocidad, calidad y estabilidad en búsqueda vectorial para documentos oficiales mexicanos.</description><pubDate>Tue, 12 Aug 2025 06:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>Proyecciones de Almacenamiento para DOF-RAG</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/09/proyecciones-de-almacenamiento-para-dof-rag/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/09/proyecciones-de-almacenamiento-para-dof-rag/</guid><description>Análisis detallado de las proyecciones de almacenamiento para el proyecto DOF-RAG, evaluando diferentes dimensiones de embeddings y sus implicaciones de escalabilidad para un horizonte de 25 años.</description><pubDate>Fri, 12 Sep 2025 06:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>Cuatro pasos para procesar el DOF: conversión, limpieza, análisis y estructura</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/11/cuatro-pasos-para-domar-el-dof-conversin-limpieza-anlisis-y-estructura/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/11/cuatro-pasos-para-domar-el-dof-conversin-limpieza-anlisis-y-estructura/</guid><description>Del archivo WORD descargado al Markdown estructurado listo para embeddings: un recorrido por nuestro pipeline de procesamiento completo que incluye conversión con LibreOffice, filtros LUA personalizados, análisis de imágenes con Gemini y arquitectura de directorios robusta.</description><pubDate>Wed, 19 Nov 2025 06:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>Del PDF al WORD: cuando el costo computacional dicta el cambio de estrategia</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/11/del-pdf-al-word-cuando-el-costo-computacional-dicta-el-cambio-de-estrategia/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2025/11/del-pdf-al-word-cuando-el-costo-computacional-dicta-el-cambio-de-estrategia/</guid><description>Cómo la realidad del procesamiento masivo de documentos nos llevó a replantear nuestra estrategia: de descargar PDFs completos a obtener archivos WORD segmentados, reduciendo dramáticamente el costo computacional sin sacrificar calidad.</description><pubDate>Wed, 19 Nov 2025 06:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>657 mil documentos después: cómo convertimos TODO el DOF a Markdown</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2026/04/657-mil-documentos-despues-cmo-convertimos-todo-el-dof-a-markdown/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2026/04/657-mil-documentos-despues-cmo-convertimos-todo-el-dof-a-markdown/</guid><description>De 657,867 archivos .doc del Diario Oficial de la Federación a Markdown limpio: herramientas, resultados y lo que falta por hacer.</description><pubDate>Mon, 20 Apr 2026 06:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>¿Quién describe mejor las imágenes del DOF?</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2026/05/batalla-modelos-vlm/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2026/05/batalla-modelos-vlm/</guid><description>Comparamos 6 modelos de visión (Gemini, GPT, Qwen, Claude) en la tarea de generar descripciones de imágenes para indexación RAG del Diario Oficial de la Federación.</description><pubDate>Tue, 12 May 2026 00:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>Gemini 2.5 Flash Lite en 100 imágenes del DOF: prueba a escala real</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2026/05/gemini-flash-lite-100-imagenes/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2026/05/gemini-flash-lite-100-imagenes/</guid><description>Probamos Gemini 2.5 Flash Lite con el prompt v3 en 100 imágenes aleatorias del Diario Oficial de la Federación. Cero errores, 2.3s promedio por imagen, y un estimado de $41 USD para procesar las ~97,000 imágenes del corpus completo.</description><pubDate>Sat, 16 May 2026 00:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item><item><title>Iterando el prompt: segunda ronda de comparación de modelos VLM</title><link>https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2026/05/vlm-prompt-v2/</link><guid isPermaLink="true">https://codeandoguadalajara.github.io/dof-rag-website/es/blog/2026/05/vlm-prompt-v2/</guid><description>Segunda iteración del experimento: cambiamos el prompt, ajustamos las imágenes de prueba y reemplazamos Qwen por Grok y Gemma. Comparamos 6 modelos en 14 imágenes del Diario Oficial de la Federación.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><author>Equipo DOF-RAG</author></item></channel></rss>