Python ML / データサイエンス

Python + PyTorch + Jupyter のML/データサイエンス向けCLAUDE.md。実験管理と再現性を重視したML開発に最適です。

上級pythonpytorchjupyterml

CLAUDE.md

# プロジェクト名

Python で構築されたML / データサイエンスプロジェクト。

## 技術スタック

- **言語**: Python 3.12+
- **ML**: PyTorch 2.x / scikit-learn 1.x
- **データ処理**: pandas 2.x + polars
- **ノートブック**: Jupyter Lab
- **実験管理**: MLflow / Weights & Biases
- **パッケージ管理**: uv

## コマンド

| コマンド | 用途 |
|---------|------|
| `uv run jupyter lab` | Jupyter Lab起動 |
| `uv run pytest` | テスト実行 |
| `uv run python -m src.train` | モデル学習 |
| `uv run python -m src.evaluate` | モデル評価 |
| `uv run ruff check .` | Lint実行 |
| `uv run ruff format .` | フォーマット |

## ディレクトリ構造

| パス | 役割 |
|-----|------|
| `notebooks/` | 探索的分析・実験ノートブック |
| `src/data/` | データ取得・前処理パイプライン |
| `src/features/` | 特徴量エンジニアリング |
| `src/models/` | モデル定義・学習・評価 |
| `data/raw/` | 生データ（Git管理外） |
| `data/processed/` | 加工済みデータ |
| `models/` | 学習済みモデル（Git管理外） |

## コーディング規約

- 型ヒント必須（NumPy/PyTorchのテンソル型も明示）
- ノートブックは探索用、本番コードは `src/` に整理
- 再現性のためランダムシードを固定
- 実験パラメータは設定ファイル（YAML/TOML）で管理
- データパイプラインは冪等に設計
- 大規模データ・モデルファイルは Git LFS または DVC で管理
- MLflowで実験メトリクスを記録

## Git規約

- ブランチ: `feature/`, `experiment/`, `fix/`
- コミットメッセージ: Conventional Commits形式
- `data/raw/`, `models/` は .gitignore に追加

Python ML / データサイエンス

関連ガイド

検索