EulerWeave

Plataforma de Pipeline de Datos de Entrenamiento LLM

Un pipeline de datos basado en manifiestos que transforma datos sin procesar en datos de entrenamiento LLM de alta calidad. Realice procesamiento de datos reproducible con definiciones declarativas en YAML.

Open Source

Funcionalidades Principales

Los tres pilares fundamentales de EulerWeave: Fuentes de Datos, Bloques de Procesamiento, Salidas de Produccion

Fuentes de Datos Diversas

  • Local: JSONL, CSV, Parquet, TXT, HTML, PDF
  • Remoto: HuggingFace Datasets, HuggingFace Hub, HTTPS, AWS S3
  • Sistema de plugins extensible

17+ Bloques de Procesamiento de Datos

  • Normalizacion y filtrado: normalize_text, heuristic_filter
  • Deduplicacion: MinHash, SHA-256
  • Construccion de tareas SFT: Generacion de QnA basada en LLM
  • 13+ Bloques de metricas: Perplejidad, PII, Repeticion, Gibberish, etc.
  • Deteccion y enmascaramiento de PII

Salidas Listas para Produccion

  • JSONL: Compatible con formato OpenAI Chat
  • Parquet: Para analisis a gran escala
  • MDS/StreamingDataset: Optimizado para entrenamiento distribuido
  • Compatible: Ollama, vLLM, TRL, HuggingFace Transformers

Pistas de Pipeline

Seleccione la pista adecuada segun su caso de uso para procesar datos

Pista Uso Descripcion
pretrain Pre-entrenamiento Normalizacion y refinamiento de datos de rastreo web
sft Ajuste fino supervisado Convertir PDFs/documentos en datos de entrenamiento QnA
dpo Aprendizaje de preferencias Preparar datos de comparacion en formato DPO

Inicio Rapido CLI

Cree, valide y ejecute pipelines de datos con un solo comando

# Crear un nuevo manifiesto
eulerweave new manifest.yaml --track sft

# Validar el manifiesto
eulerweave validate manifest.yaml

# Vista previa del plan de ejecucion
eulerweave plan manifest.yaml --records 10000

# Ejecutar el pipeline
eulerweave run manifest.yaml --input data/train.jsonl --artifacts ./artifacts

# Exportar en formato MDS
eulerweave export mds out/result.jsonl ./output/mds/ --shard-size 2000

# Lista de plugins
eulerweave plugins list

Referencia CLI

Lista de comandos principales de EulerWeave CLI

Comando Descripcion
eulerweave new Crear un nuevo manifiesto YAML
eulerweave validate Validar el manifiesto
eulerweave plan Vista previa del plan de ejecucion y costo estimado
eulerweave run Ejecutar el pipeline
eulerweave export Exportar resultados en varios formatos
eulerweave plugins list Lista de plugins instalados
eulerweave plugins doctor Diagnostico de plugins

Lista de Bloques Integrados

17+ bloques de procesamiento de datos incluidos en EulerWeave

Normalizacion y filtrado

Bloque Uso
normalize_text Limpieza de espacios, normalizacion de codificacion
heuristic_filter Filtrado basado en longitud y calidad

Deduplicacion

Bloque Uso
dedup_minhash Deduplicacion aproximada basada en MinHash
dedup_exact Deduplicacion exacta SHA-256

Construccion de Tareas (SFT)

Bloque Uso
build_sft_messages Generacion de formato SFT mediante mapeo de campos
build_sft_qna Generacion de QnA multiturno basada en LLM
build_langextract_qna Generacion de QnA estilo LangExtract

Metricas

Bloque Uso
metrics_text_basic Distribucion de longitud, estadisticas de conjunto de caracteres
metrics_text_repetition Deteccion de duplicacion n-gram
metrics_text_gibberish Deteccion de gibberish y anomalias de codificacion
metrics_text_boilerplate Deteccion de boilerplate web
metrics_perplexity Puntuacion de calidad de texto basada en Transformers
metrics_pii_detect Deteccion de correo electronico, telefono, SSN, tarjeta de credito
metrics_token_stats Estadisticas de tokenizacion
metrics_record_schema_validate Validacion de integridad de datos

PII y Exportacion

Bloque Uso
filter_pii_redact Deteccion y enmascaramiento de PII
export_jsonl Salida JSONL
export_parquet Salida Parquet
export_mds Formato de streaming MDS

Tutoriales

Aprenda EulerWeave rapidamente con guias paso a paso

Tutoriales en coreano | English Tutorials

Tutoriales próximamente.

Ejemplo de Manifiesto

Un manifiesto de pipeline completo que genera datos de entrenamiento SFT a partir de PDF

version: 1 track: sft inputs: - type: pdf uri: data/technical_manual.pdf options: strategy: auto pipeline: - id: normalize type: normalize_text slot: normalize - id: filter type: heuristic_filter slot: filter params: min_length: 100 - id: dedup type: dedup_exact slot: dedup - id: qna type: build_sft_qna slot: build_task params: model: "qwen3:32b" base_url: "http://localhost:11434" - id: export type: export_jsonl slot: export exports: - type: jsonl path: out/training_data.jsonl

Instalacion y Primeros Pasos

Instale EulerWeave y ejecute su primer pipeline

Instalacion

pip install eulerweave

# Instalacion con todas las funciones
pip install eulerweave[pdf,llm,parquet]

Requisitos

Python 3.11+

Comience su pipeline de datos con EulerWeave

Codigo abierto, definiciones declarativas en YAML, procesamiento de datos reproducible.

Comenzar en GitHub Contactenos