Herramienta de Traduccion Empresarial & Conversion de Datos de Entrenamiento IA
Una herramienta de traduccion CLI Local-First que traduce con precision solo el texto en prosa, preservando perfectamente bloques de codigo, expresiones matematicas y URLs. Desde la localizacion de documentos empresariales hasta la traduccion de datos JSONL para entrenamiento de IA, todo en un solo pipeline.
Open SourceTraduccion inteligente de documentos sin tocar codigo ni formulas
El parser compatible con CommonMark basado en markdown-it-py identifica y preserva automaticamente bloques de codigo, codigo en linea, formulas, frontmatter y HTML crudo. Solo se traduce el texto en prosa.
| Formatos Soportados | Markdown, HTML, Plain Text, JSONL |
|---|---|
| Elementos Preservados | Bloques de codigo, codigo en linea, formulas ($...$, $$...$$), URLs, frontmatter |
| Parser | markdown-it-py (CommonMark 100%), BeautifulSoup4 (HTML) |
Utiliza Ollama LLM local como motor de traduccion predeterminado. Los documentos confidenciales no salen de su red. Tambien soporta OpenAI API opcionalmente.
| Motor de Traduccion | Ollama (local), OpenAI (opcional) |
|---|---|
| Seguridad de Datos | Todo el procesamiento es local, sin transmision externa |
| Configuracion | Configuracion declarativa YAML, soporte de override CLI |
Pipeline dedicado para traducir datos de entrenamiento JSONL a gran escala
El comando eulerpress traindata traduce datos de entrenamiento JSONL a alta velocidad mediante solicitudes HTTP concurrentes con Ollama.
Verifica automaticamente la calidad de las traducciones y marca resultados problematicos.
5 comandos principales para el flujo completo de traduccion de documentos
translateTraduce documentos segun archivo de configuracion YAML. Permite override de directorio fuente, idioma destino y modelo via CLI.
traindataTraduce datos de entrenamiento JSONL concurrentemente con Ollama. Soporta preservacion de formulas, salida incremental y reanudacion.
validateValida archivo de configuracion YAML sin ejecutar. Imprime errores en formato de 3 lineas si hay problemas.
planEjecucion en seco: previsualiza cantidad de archivos, segmentos y tokens estimados.
doctorVerifica dependencias del sistema (binario Ollama, conexion al servidor, modelos disponibles).
Diseno modular para extender formatos, motores y garantia de calidad independientemente
config | Esquema YAML, carga, validacion |
|---|---|
parsers | Parsers de Markdown, HTML, texto plano |
engine | Proveedores de traduccion (Ollama, OpenAI, Fake) |
core | Orquestador, planificador, doctor, errores |
scoring | Puntuacion de calidad, seleccion de modelo, evaluacion API |
traindata | Traduccion de datos JSONL (procesamiento concurrente Ollama) |
glossary | Busqueda de glosario de dominio (Tavily) |
| Lenguaje | Python 3.12+ |
|---|---|
| Parser Markdown | markdown-it-py + mdformat (CommonMark 100%) |
| Parser HTML | BeautifulSoup4 + lxml |
| Motor de Traduccion | Ollama (local), OpenAI (nube) |
| Estrategia de Chunking | sentence, whitespace, hard |
| Formato de Error | Formato de 3 lineas (Category / Fix / See) |
| Licencia | MIT (incluye todas las dependencias) |
Aprenda EulerPress rapidamente con guias paso a paso
Tutoriales proximamente.
Instale EulerPress y comience su primera traduccion
Python 3.12+
Ollama (para traduccion local)
Local-first, preservacion de codigo, calidad empresarial.
Comenzar en GitHub Contactenos