657 mil documentos después: cómo convertimos TODO el DOF a Markdown
De 657,867 archivos .doc del Diario Oficial de la Federación a Markdown limpio: herramientas, resultados y lo que falta por hacer.
Equipo DOF-RAG Leer más
2 publicaciones con esta etiqueta
De 657,867 archivos .doc del Diario Oficial de la Federación a Markdown limpio: herramientas, resultados y lo que falta por hacer.
Del archivo WORD descargado al Markdown estructurado listo para embeddings: un recorrido por nuestro pipeline de procesamiento completo que incluye conversión con LibreOffice, filtros LUA personalizados, análisis de imágenes con Gemini y arquitectura de directorios robusta.