657 mil documentos después: cómo convertimos TODO el DOF a Markdown
De 657,867 archivos .doc del Diario Oficial de la Federación a Markdown limpio: herramientas, resultados y lo que falta por hacer.
Equipo DOF-RAG Leer más
3 publicaciones con esta etiqueta
De 657,867 archivos .doc del Diario Oficial de la Federación a Markdown limpio: herramientas, resultados y lo que falta por hacer.
Del archivo WORD descargado al Markdown estructurado listo para embeddings: un recorrido por nuestro pipeline de procesamiento completo que incluye conversión con LibreOffice, filtros LUA personalizados, análisis de imágenes con Gemini y arquitectura de directorios robusta.
Un análisis comparativo de las diferentes herramientas para convertir PDFs a markdown y por qué elegimos Marker para nuestro proyecto DOF-RAG.