LLM 学習データパイプラインプラットフォーム
生データを高品質な LLM 学習データに変換するマニフェスト駆動型データパイプライン。YAML 宣言的定義により再現可能なデータ処理を実行します。
Open SourceEulerWeave が提供する3つのコア:データソース、処理ブロック、プロダクション出力
用途に合わせたトラックを選択してデータを処理します
| トラック | 用途 | 説明 |
|---|---|---|
pretrain |
事前学習 | Web クロールデータの正規化と精製 |
sft |
教師あり微調整 | PDF/ドキュメントを QnA 学習データに変換 |
dpo |
選好学習 | 比較データを DPO フォーマットに準備 |
コマンド一つでデータパイプラインを作成、検証、実行します
EulerWeave CLI 主要コマンド一覧
| コマンド | 説明 |
|---|---|
eulerweave new |
新しいマニフェスト YAML を作成 |
eulerweave validate |
マニフェストのバリデーション |
eulerweave plan |
実行計画と予想コストのプレビュー |
eulerweave run |
パイプラインの実行 |
eulerweave export |
結果を様々なフォーマットでエクスポート |
eulerweave plugins list |
インストール済みプラグイン一覧 |
eulerweave plugins doctor |
プラグイン診断 |
EulerWeave に含まれる 17+ データ処理ブロック
| ブロック | 用途 |
|---|---|
normalize_text |
空白整理、エンコーディング正規化 |
heuristic_filter |
長さと品質に基づくフィルタリング |
| ブロック | 用途 |
|---|---|
dedup_minhash |
MinHash ベースの近似重複排除 |
dedup_exact |
SHA-256 完全重複排除 |
| ブロック | 用途 |
|---|---|
build_sft_messages |
フィールドマッピングで SFT フォーマット生成 |
build_sft_qna |
LLM ベースのマルチターン QnA 生成 |
build_langextract_qna |
LangExtract 方式の QnA 生成 |
| ブロック | 用途 |
|---|---|
metrics_text_basic |
長さ分布、文字セット統計 |
metrics_text_repetition |
n-gram 重複検出 |
metrics_text_gibberish |
ギブリッシュおよびエンコーディング異常検出 |
metrics_text_boilerplate |
Web ボイラープレート検出 |
metrics_perplexity |
Transformers ベースのテキスト品質スコアリング |
metrics_pii_detect |
メール、電話、SSN、クレジットカード番号検出 |
metrics_token_stats |
トークン化統計 |
metrics_record_schema_validate |
データ整合性検証 |
| ブロック | 用途 |
|---|---|
filter_pii_redact |
PII 検出とマスキング |
export_jsonl |
JSONL 出力 |
export_parquet |
Parquet 出力 |
export_mds |
MDS ストリーミングフォーマット |
チュートリアルは近日公開予定です。
PDF から SFT 学習データを生成する完全なパイプラインマニフェスト
EulerWeave をインストールして最初のパイプラインを実行しましょう
Python 3.11+