你好，我是黃柏森

專注於前端與 AI 應用，打造流暢的使用體驗。

看專案

3D 技能雲

點擊下方技能可看介紹

AI / RAG / LLM
GPU / CUDA / Triton
前端 / RWD
Python / Flask
資料處理 / 爬蟲
工具開發

專案精選

RTX 3050 GPU Optimization Lab

Pure CUDA（521× matmul、reduction 0.76ms）+ MNIST 99% + CUDA Extension／Triton。專案已擴充為 GPU Optimization Lab：含 FlashAttention、Transformer kernels、效能儀表板與逐步教學。

CUDA 12.4PyTorchTritonFlashAttention

看更多 → GPU 專區 GitHub →

PMT-SM: ViT-GAN Makeup Transfer (夏智賢老師論文實作)

端到端妝容轉移原型，結合 ViT + FPN + 多尺度臉部特徵 (MFL) + StyleGAN2-ADA，在頭姿與表情變化下進行妝容遷移。Encoder 以 MSE / ArcFace / SSIM 優化，並設計 PMGen 風格生成思路；以 TensorRT FP16 在 RTX 3050 上約 45ms 完成單張臉部推論。

PyTorchViTStyleGAN2TensorRTGradioRTX3050

Metrics

PMT-SM：ArcFace 0.94 · SSIM 0.95 · FID 7.93 · BSR 25%
BeautyGAN：ArcFace 0.89 · SSIM 0.91 · FID 12.5 · BSR 18%

特色：3 小時 Cursor Pro 完成原型 → 具備生產部署路線，採用 ML 最佳實踐目錄（src/、docs/、tests/），提供本地 Gradio Demo，並規劃 NVIDIA Jetson / NIM 部署與 text-guided makeup transfer（CLIP）。

GitHub Repo →

Citation: Inspired by NIU MIT Lab（makeup transfer research方向）。

年化報酬率計算機

輸入投資期間與報酬，快速計算年化報酬率（支援多階段與複利）。

HTMLJavaScript

Live 開啟計算機 →

新聞蒐集系統

自動蒐集近期新聞，支援依主題與來源瀏覽。首次開啟有時需等待一陣子（免費主機冷啟動）。

Flask爬蟲

Live 開啟網站 →

PyTorch / ML Demo

訓練 Loss 曲線示意，展示 ML 技能與 Chart.js 視覺化。

PyTorchChart.jsML

看更多 → 混淆矩陣、Feature Importance、PCA

Stable Diffusion 試用

生成式 AI 圖像試玩，可連到免費線上 demo 體驗。

SD生成式 AI

試用 SD（HF Spaces）→

RAG 知識庫聊天（開發中）

使用 Gemini + Chroma 的檢索增強生成，可針對自訂知識庫問答。

PythonGeminiRAG

大二課程專案人工智慧 × 資料科學 — 互動圖表

威斯康辛乳腺癌診斷資料集 · KNN 分類 · 從混淆矩陣、訓練曲線到特徵重要性與 PCA，一頁看懂。

🤖

滑到下方圖表，我會簡短解說每個結果。

Confusion Matrix（KNN, K=9）

真陰性 68 · 偽陽性 3 · 偽陰性 3 · 真陽性 40

Training Loss & Accuracy

Loss 下降、Accuracy 上升，典型收斂曲線

Feature Importance（Top 10）

基於威斯康辛乳腺癌 30 維特徵之重要性排序

Correlation Heatmap（精選特徵）

紅正相關 · 藍負相關

PCA 2D 散點圖

良性 vs 惡性 · 前兩主成分

自學作品集 GPU Optimization Lab — RTX 3050 實作

大二資工 · 約 7 小時完成 8 週計劃：從 vector add、matrix multiply、reduction，到 PyTorch MNIST CNN、CUDA Extension 與 Triton kernel，全在筆電 RTX 3050 6GB 上驗證。專案後續擴充為完整 GPU 優化實驗室，含 FlashAttention、Transformer kernels、效能儀表板與教學文件，皆可在 GitHub 一鍵重現。

CUDA 12.4 PyTorch 2.4 + cuDNN C++ / CUDA Extension Triton Kernel FlashAttention

Task	Implementation	Performance
Matrix Multiplication	Pure CUDA (shared memory tiled)	521× CPU speedup (N=1024)
Reduction	Pure CUDA shared memory	0.763ms (1M elements)
MNIST CNN	PyTorch GPU (SmallCNN + AMP)	99% test accuracy
3×3 Conv FP16	CUDA Extension	1.50× PyTorch (B=1024)
3×3 Conv FP16	Triton Python kernel	1.27× PyTorch (B=128)

Device: NVIDIA GeForce RTX 3050 6GB Laptop GPU (Ampere sm_86)

一鍵重現：python tools/performance_dashboard.py 跑完所有 benchmarks 並產出效能報告。

看完整程式碼（GitHub）

聯絡我

歡迎透過下方 AI 助手提問，或寄信到 poboson316@gmail.com 與我聯繫。