Projects
Data collection · Pipeline · ML Modeling · Production Deployment
Hypothesis TestingStatistics
서울시 PM-2.5 격차 분석
서울 25개 자치구의 녹지·공원 면적이 초미세먼지 농도에 실제로 영향을 미치는지 t-test · ANOVA · 선형회귀로 검증. 자치구 간 공기질 격차 원인을 통계적 유의성으로 규명합니다.
25개 자치구
3종통계 검정
p<0.05유의성 확보
Analysis · Scipy · StatsmodelsVisualization · Matplotlib · SeabornData · 서울 열린데이터광장
View Detail→
Cluster AnalysisRAG
서울시 도시가스 보급 분석
25개 자치구 도시가스 수급 데이터를 K-means 4군집으로 분류. Vector DB + Gemini 임베딩 RAG 파이프라인을 직접 설계해 군집별 특성을 자연어로 질의응답합니다.
25개 자치구
4군집K-means
RAG자연어 Q&A
ML · Scikit-learn · K-meansAI · Gemini Embedding APIBackend · FastAPIDatabase · Supabase (pgvector)Infra · Cloud Run, Docker
View Detail→
Cluster AnalysisRAG
서울시 에너지 소비 분석
자치구별 전력 소비 패턴을 K-means 6군집으로 세분화. 도시가스(4군집) 대비 군집 수 확장으로 소비 다양성을 정밀 포착하고, RAG 기반 AI 인사이트를 제공합니다.
25개 자치구
6군집K-means
RAGAI 인사이트
ML · Scikit-learn · K-meansAI · Gemini Embedding APIBackend · FastAPIDatabase · Supabase (pgvector)Infra · Cloud Run, Docker
View Detail→
Fine-tuningRAGNLP
DART 공시 분류기
KLUE-BERT 파인튜닝으로 금융공시 본문을 6개 카테고리로 자동 분류. 도메인 특화 학습 데이터를 직접 구축·학습하고, Gemini 임베딩 + pgvector 유사 공시 검색을 통합 제공합니다.
6분류 클래스
BERT파인튜닝
pgvector유사 검색
ML · BERT (klue/bert-base · 6클래스)AI · Gemini Embedding APIBackend · FastAPIDatabase · Supabase (pgvector)Infra · Cloud Run, Docker
View Detail→
Fine-tuningQLoRALLM
DART 공시 전문 LLM
DART 공시 7,200건을 수집해 Gemini로 Q&A 합성, 12,996건 학습 데이터 생성. EXAONE-3.5-2.4B를 QLoRA 파인튜닝 후 LoRA merge · GCS 배포. 공시 본문을 입력하면 핵심 내용을 자연어로 요약합니다.
7,200건공시 수집
12,996건Q&A 합성
2.4B파라미터
ML · EXAONE-3.5-2.4B · QLoRA · LoRA mergeData · DART API · Gemini Q&A 합성Backend · FastAPI · transformersInfra · Cloud Run · GCS · Docker
View Detail→
Data EngineeringLakehousePipeline
서울시 지하철 승하차 분석
서울 전 노선 530개 역별 일별·시간대별 승하차를 Spark + Delta Lake MERGE 증분 파이프라인으로 처리. Cloud Scheduler 매일 자동 수집 → FastAPI 서빙 End-to-End Lakehouse를 구현했습니다.
530개역 데이터
매일자동 수집
MERGE증분 파이프라인
Pipeline · Apache Spark · Delta Lake · Cloud SchedulerStorage · Google Cloud Storage (Delta Lake)Backend · FastAPIInfra · Cloud Run · Cloud Run Jobs
View Detail→