EulerWeave – Plataforma de Pipeline de Datos

Funcionalidades Principales

Los tres pilares fundamentales de EulerWeave: Fuentes de Datos, Bloques de Procesamiento, Salidas de Produccion

Fuentes de Datos Diversas

Local: JSONL, CSV, Parquet, TXT, HTML, PDF
Remoto: HuggingFace Datasets, HuggingFace Hub, HTTPS, AWS S3
Sistema de plugins extensible

17+ Bloques de Procesamiento de Datos

Normalizacion y filtrado: normalize_text, heuristic_filter
Deduplicacion: MinHash, SHA-256
Construccion de tareas SFT: Generacion de QnA basada en LLM
13+ Bloques de metricas: Perplejidad, PII, Repeticion, Gibberish, etc.
Deteccion y enmascaramiento de PII

Salidas Listas para Produccion

JSONL: Compatible con formato OpenAI Chat
Parquet: Para analisis a gran escala
MDS/StreamingDataset: Optimizado para entrenamiento distribuido
Compatible: Ollama, vLLM, TRL, HuggingFace Transformers

Pistas de Pipeline

Seleccione la pista adecuada segun su caso de uso para procesar datos

Pista	Uso	Descripcion
`pretrain`	Pre-entrenamiento	Normalizacion y refinamiento de datos de rastreo web
`sft`	Ajuste fino supervisado	Convertir PDFs/documentos en datos de entrenamiento QnA
`dpo`	Aprendizaje de preferencias	Preparar datos de comparacion en formato DPO

Inicio Rapido CLI

Cree, valide y ejecute pipelines de datos con un solo comando

# Crear un nuevo manifiesto
eulerweave new manifest.yaml --track sft

# Validar el manifiesto
eulerweave validate manifest.yaml

# Vista previa del plan de ejecucion
eulerweave plan manifest.yaml --records 10000

# Ejecutar el pipeline
eulerweave run manifest.yaml --input data/train.jsonl --artifacts ./artifacts

# Exportar en formato MDS
eulerweave export mds out/result.jsonl ./output/mds/ --shard-size 2000

# Lista de plugins
eulerweave plugins list

Referencia CLI

Lista de comandos principales de EulerWeave CLI

Comando	Descripcion
`eulerweave new`	Crear un nuevo manifiesto YAML
`eulerweave validate`	Validar el manifiesto
`eulerweave plan`	Vista previa del plan de ejecucion y costo estimado
`eulerweave run`	Ejecutar el pipeline
`eulerweave export`	Exportar resultados en varios formatos
`eulerweave plugins list`	Lista de plugins instalados
`eulerweave plugins doctor`	Diagnostico de plugins

Lista de Bloques Integrados

17+ bloques de procesamiento de datos incluidos en EulerWeave

Normalizacion y filtrado

Bloque	Uso
`normalize_text`	Limpieza de espacios, normalizacion de codificacion
`heuristic_filter`	Filtrado basado en longitud y calidad

Deduplicacion

Bloque	Uso
`dedup_minhash`	Deduplicacion aproximada basada en MinHash
`dedup_exact`	Deduplicacion exacta SHA-256

Construccion de Tareas (SFT)

Bloque	Uso
`build_sft_messages`	Generacion de formato SFT mediante mapeo de campos
`build_sft_qna`	Generacion de QnA multiturno basada en LLM
`build_langextract_qna`	Generacion de QnA estilo LangExtract

Metricas

Bloque	Uso
`metrics_text_basic`	Distribucion de longitud, estadisticas de conjunto de caracteres
`metrics_text_repetition`	Deteccion de duplicacion n-gram
`metrics_text_gibberish`	Deteccion de gibberish y anomalias de codificacion
`metrics_text_boilerplate`	Deteccion de boilerplate web
`metrics_perplexity`	Puntuacion de calidad de texto basada en Transformers
`metrics_pii_detect`	Deteccion de correo electronico, telefono, SSN, tarjeta de credito
`metrics_token_stats`	Estadisticas de tokenizacion
`metrics_record_schema_validate`	Validacion de integridad de datos

PII y Exportacion

Bloque	Uso
`filter_pii_redact`	Deteccion y enmascaramiento de PII
`export_jsonl`	Salida JSONL
`export_parquet`	Salida Parquet
`export_mds`	Formato de streaming MDS

Tutoriales

Aprenda EulerWeave rapidamente con guias paso a paso

Tutoriales en coreano | English Tutorials

Tutoriales próximamente.

Ejemplo de Manifiesto

Un manifiesto de pipeline completo que genera datos de entrenamiento SFT a partir de PDF

version: 1 track: sft inputs: - type: pdf uri: data/technical_manual.pdf options: strategy: auto pipeline: - id: normalize type: normalize_text slot: normalize - id: filter type: heuristic_filter slot: filter params: min_length: 100 - id: dedup type: dedup_exact slot: dedup - id: qna type: build_sft_qna slot: build_task params: model: "qwen3:32b" base_url: "http://localhost:11434" - id: export type: export_jsonl slot: export exports: - type: jsonl path: out/training_data.jsonl

Instalacion y Primeros Pasos

Instale EulerWeave y ejecute su primer pipeline

Instalacion

pip install eulerweave

# Instalacion con todas las funciones
pip install eulerweave[pdf,llm,parquet]

Requisitos

Python 3.11+

GitHub

eulerwa/eulerweave

Comience su pipeline de datos con EulerWeave

Codigo abierto, definiciones declarativas en YAML, procesamiento de datos reproducible.

Comenzar en GitHub Contactenos