EulerWeave – データパイプラインプラットフォーム

主要機能

EulerWeave が提供する3つのコア：データソース、処理ブロック、プロダクション出力

多様なデータソース

ローカル： JSONL, CSV, Parquet, TXT, HTML, PDF
リモート： HuggingFace Datasets, HuggingFace Hub, HTTPS, AWS S3
拡張可能なプラグインシステム

17+ データ処理ブロック

正規化とフィルタリング： normalize_text, heuristic_filter
重複排除： MinHash, SHA-256
SFT タスクビルド： LLM ベースの QnA 生成
13+ メトリクスブロック： パープレキシティ、PII、繰り返し、ギブリッシュなど
PII 検出とマスキング

プロダクション対応出力

JSONL： OpenAI Chat フォーマット互換
Parquet： 大規模分析用
MDS/StreamingDataset： 分散学習に最適化
互換性： Ollama, vLLM, TRL, HuggingFace Transformers

パイプライントラック

用途に合わせたトラックを選択してデータを処理します

トラック	用途	説明
`pretrain`	事前学習	Web クロールデータの正規化と精製
`sft`	教師あり微調整	PDF/ドキュメントを QnA 学習データに変換
`dpo`	選好学習	比較データを DPO フォーマットに準備

CLI クイックスタート

コマンド一つでデータパイプラインを作成、検証、実行します

# 新しいマニフェストを作成
eulerweave new manifest.yaml --track sft

# マニフェストを検証
eulerweave validate manifest.yaml

# 実行計画をプレビュー
eulerweave plan manifest.yaml --records 10000

# パイプラインを実行
eulerweave run manifest.yaml --input data/train.jsonl --artifacts ./artifacts

# MDS フォーマットでエクスポート
eulerweave export mds out/result.jsonl ./output/mds/ --shard-size 2000

# プラグイン一覧
eulerweave plugins list

CLI リファレンス

EulerWeave CLI 主要コマンド一覧

コマンド	説明
`eulerweave new`	新しいマニフェスト YAML を作成
`eulerweave validate`	マニフェストのバリデーション
`eulerweave plan`	実行計画と予想コストのプレビュー
`eulerweave run`	パイプラインの実行
`eulerweave export`	結果を様々なフォーマットでエクスポート
`eulerweave plugins list`	インストール済みプラグイン一覧
`eulerweave plugins doctor`	プラグイン診断

組み込みブロック一覧

EulerWeave に含まれる 17+ データ処理ブロック

正規化とフィルタリング

ブロック	用途
`normalize_text`	空白整理、エンコーディング正規化
`heuristic_filter`	長さと品質に基づくフィルタリング

重複排除

ブロック	用途
`dedup_minhash`	MinHash ベースの近似重複排除
`dedup_exact`	SHA-256 完全重複排除

タスクビルド (SFT)

ブロック	用途
`build_sft_messages`	フィールドマッピングで SFT フォーマット生成
`build_sft_qna`	LLM ベースのマルチターン QnA 生成
`build_langextract_qna`	LangExtract 方式の QnA 生成

メトリクス

ブロック	用途
`metrics_text_basic`	長さ分布、文字セット統計
`metrics_text_repetition`	n-gram 重複検出
`metrics_text_gibberish`	ギブリッシュおよびエンコーディング異常検出
`metrics_text_boilerplate`	Web ボイラープレート検出
`metrics_perplexity`	Transformers ベースのテキスト品質スコアリング
`metrics_pii_detect`	メール、電話、SSN、クレジットカード番号検出
`metrics_token_stats`	トークン化統計
`metrics_record_schema_validate`	データ整合性検証

PII とエクスポート

ブロック	用途
`filter_pii_redact`	PII 検出とマスキング
`export_jsonl`	JSONL 出力
`export_parquet`	Parquet 出力
`export_mds`	MDS ストリーミングフォーマット

チュートリアル

ステップバイステップガイドで EulerWeave を素早く習得しましょう

韓国語版チュートリアル | English Tutorials

チュートリアルは近日公開予定です。

マニフェスト例

PDF から SFT 学習データを生成する完全なパイプラインマニフェスト

version: 1 track: sft inputs: - type: pdf uri: data/technical_manual.pdf options: strategy: auto pipeline: - id: normalize type: normalize_text slot: normalize - id: filter type: heuristic_filter slot: filter params: min_length: 100 - id: dedup type: dedup_exact slot: dedup - id: qna type: build_sft_qna slot: build_task params: model: "qwen3:32b" base_url: "http://localhost:11434" - id: export type: export_jsonl slot: export exports: - type: jsonl path: out/training_data.jsonl

インストールと始め方

EulerWeave をインストールして最初のパイプラインを実行しましょう

インストール

pip install eulerweave

# 全機能インストール
pip install eulerweave[pdf,llm,parquet]

要件

Python 3.11+

GitHub

eulerwa/eulerweave

EulerWeave でデータパイプラインを始めましょう

オープンソース、YAML 宣言的定義、再現可能なデータ処理。

GitHub で始めるお問い合わせ