RTX 3050 GPU Optimization Lab
Pure CUDA(521× matmul、reduction 0.76ms)+ MNIST 99% + CUDA Extension/Triton。專案已擴充為 GPU Optimization Lab:含 FlashAttention、Transformer kernels、效能儀表板與逐步教學。
看更多 → GPU 專區 GitHub →點擊下方技能可看介紹
Pure CUDA(521× matmul、reduction 0.76ms)+ MNIST 99% + CUDA Extension/Triton。專案已擴充為 GPU Optimization Lab:含 FlashAttention、Transformer kernels、效能儀表板與逐步教學。
看更多 → GPU 專區 GitHub →端到端妝容轉移原型,結合 ViT + FPN + 多尺度臉部特徵 (MFL) + StyleGAN2-ADA, 在頭姿與表情變化下進行妝容遷移。Encoder 以 MSE / ArcFace / SSIM 優化, 並設計 PMGen 風格生成思路;以 TensorRT FP16 在 RTX 3050 上約 45ms 完成單張臉部推論。
Metrics
特色:3 小時 Cursor Pro 完成原型 → 具備生產部署路線,
採用 ML 最佳實踐目錄(src/、docs/、tests/),
提供本地 Gradio Demo,並規劃 NVIDIA Jetson / NIM 部署與 text-guided makeup transfer(CLIP)。
Citation: Inspired by NIU MIT Lab(makeup transfer research方向)。
使用 Gemini + Chroma 的檢索增強生成,可針對自訂知識庫問答。
威斯康辛乳腺癌診斷資料集 · KNN 分類 · 從混淆矩陣、訓練曲線到特徵重要性與 PCA,一頁看懂。
滑到下方圖表,我會簡短解說每個結果。
真陰性 68 · 偽陽性 3 · 偽陰性 3 · 真陽性 40
Loss 下降、Accuracy 上升,典型收斂曲線
基於威斯康辛乳腺癌 30 維特徵之重要性排序
紅正相關 · 藍負相關
良性 vs 惡性 · 前兩主成分
大二資工 · 約 7 小時完成 8 週計劃:從 vector add、matrix multiply、reduction,到 PyTorch MNIST CNN、CUDA Extension 與 Triton kernel,全在筆電 RTX 3050 6GB 上驗證。專案後續擴充為完整 GPU 優化實驗室,含 FlashAttention、Transformer kernels、效能儀表板與教學文件,皆可在 GitHub 一鍵重現。
| Task | Implementation | Performance |
|---|---|---|
| Matrix Multiplication | Pure CUDA (shared memory tiled) | 521× CPU speedup (N=1024) |
| Reduction | Pure CUDA shared memory | 0.763ms (1M elements) |
| MNIST CNN | PyTorch GPU (SmallCNN + AMP) | 99% test accuracy |
| 3×3 Conv FP16 | CUDA Extension | 1.50× PyTorch (B=1024) |
| 3×3 Conv FP16 | Triton Python kernel | 1.27× PyTorch (B=128) |
Device: NVIDIA GeForce RTX 3050 6GB Laptop GPU (Ampere sm_86)
一鍵重現:python tools/performance_dashboard.py 跑完所有 benchmarks 並產出效能報告。
歡迎透過下方 AI 助手提問,或寄信到 poboson316@gmail.com 與我聯繫。