1시간봉 ML/DL 분석 목차 분석 목표 데이터셋 피처 엔지니어링 피처 카테고리 각 피처의 통계량 모델 성능 Tree-Based 모델 Deep Learning 모델 Top 30 중요 피처 카테고리별 분포 핵심 발견 1. 이평선 이격도의 중요성 2. 볼린저 밴드 폭 3. 거래량 비율 실전 적용 제안 진입 필터 추가 기대 효과 한계점 개선 방향 5분봉 ML 분석 결과 5분봉 vs 1시간봉 비교 5분봉 ML 성능 Walk-Forward Validation (5분봉) 5분봉 Top Features 결론 분석 목표 SL(손절) vs TP(익절) 거래를 사전에 예측할 수 있는가?
데이터셋 항목 값 전략 설정 MA100, TP10%, SL5%, HC3% 총 샘플 수 165 거래 SL (Label=1) 127 (77.0%) TP (Label=0) 38 (23.0%) 피처 수 177개
클래스 불균형이 심합니다 (77% vs 23%). 해석 시 주의가 필요합니다.
피처 엔지니어링 피처 카테고리 카테고리 피처 수 예시 이평선 이격도 15 ma_100_dist_pct, ma_400_dist_pct 이평선 기울기 15 ma_50_slope, ma_100_slope 이평선 크로스 12 ma_25_50_cross_pct, ma_100_200_cross_pct 이평선 위치 15 above_ma_25, above_ma_100 볼린저 밴드 15 bb_width, bb_upper_dist, bb_pct 모멘텀 18 rsi, macd_slope, momentum 변동성 12 atr_pct, volatility_20 거래량 9 vol_ma_ratio, vol_change 캔들 패턴 12 candle_body_pct, is_hammer 기타 54 cci, mfi, williams_r
각 피처의 통계량 모든 피처에 대해 3가지 통계량 계산 (lookback=20):
_mean: 20봉 평균 _std: 20봉 표준편차 _last: 마지막 값 모델 성능 Tree-Based 모델 Model Accuracy Precision Recall F1 AUC-ROC XGBoost 72.7% 72.7% 100% 0.84 0.50 LightGBM 63.6% 71.4% 83.3% 0.77 0.62 RandomForest 60.6% 69.0% 83.3% 0.75 0.56 LogisticRegression 60.6% 72.0% 75.0% 0.73 0.46
Deep Learning 모델 Model Accuracy Precision Recall F1 AUC-ROC MultiScaleCNN 27.3% 0% 0% 0.00 0.64 BiLSTM 54.5% 69.6% 66.7% 0.68 0.29 CandleCNN 39.4% 66.7% 33.3% 0.44 0.44
LightGBM 이 AUC-ROC 0.62로 가장 의미있는 예측력을 보여줍니다.
Top 30 중요 피처 순위 피처 중요도 카테고리 1 price_change_3_last 27.26 모멘텀 2 ma_100_dist_pct_last 21.69 이평선 이격도 3 ma_400_dist_pct_last 20.76 이평선 이격도 4 bb_width_std 20.44 볼린저 밴드 5 ma_25_50_cross_pct_std 16.85 이평선 크로스 6 rsi_slope_mean 14.81 모멘텀 7 ma_100_200_cross_pct_mean 14.28 이평선 크로스 8 adx_slope_mean 12.67 추세 9 vol_ma_ratio_mean 12.44 거래량 10 ma_50_slope_mean 12.26 이평선 기울기 11 vol_ma_ratio_std 11.01 거래량 12 candle_body_pct_mean 10.35 캔들 패턴 13 lower_shadow_pct_std 10.14 캔들 패턴 14 dist_from_high_20_last 9.60 가격 위치 15 cci_last 9.28 모멘텀
카테고리별 분포 카테고리 Top 30 내 개수 비율 이평선 관련 14 46.7% 모멘텀 6 20.0% 거래량 3 10.0% 볼린저 밴드 1 3.3% 기타 6 20.0%
이평선 이격도 가 가장 중요한 예측 변수입니다. 특히 MA100, MA400과의 거리가 SL/TP 결과에 큰 영향을 미칩니다.
핵심 발견 1. 이평선 이격도의 중요성 MA100 이격도 ↑ → SL 확률 ↑
MA400 이격도 ↑ → SL 확률 ↑
해석 : 이평선과 너무 멀리 떨어진 상태에서 진입하면 손절 확률이 높아집니다.
2. 볼린저 밴드 폭 해석 : 밴드 폭이 급변하는 구간에서는 예측이 어렵습니다.
3. 거래량 비율 거래량 / MA(20) 비율 ↑ → SL 확률 ↑
해석 : 평소보다 높은 거래량은 오히려 부정적 신호일 수 있습니다.
실전 적용 제안 진입 필터 추가 def should_enter ( indicators ):
# MA 이격도 필터
if abs ( indicators [ 'ma_100_dist_pct' ]) > 5 :
return False # 이격도 5% 초과 시 진입 금지
# 거래량 필터
if indicators [ 'vol_ma_ratio' ] > 2.0 :
return False # 거래량 급등 시 진입 금지
# BB 폭 필터
if indicators [ 'bb_width_std' ] > 1.5 :
return False # 밴드 폭 변동성 클 때 진입 금지
return True
기대 효과 필터 SL 감소 예상 거래수 감소 MA 이격도 < 5% -15% -20% 거래량 비율 < 2.0 -10% -15% BB 폭 안정 -8% -10%
한계점 샘플 수 부족 : 165개 샘플로는 딥러닝 모델 학습이 어려움 클래스 불균형 : 77% vs 23%로 정확도가 왜곡될 수 있음 과적합 위험 : 테스트셋이 작아 일반화 성능 검증 어려움 시계열 특성 : Walk-forward validation 필요 개선 방향 더 긴 기간의 데이터 수집 다른 심볼(ETH 등) 추가로 샘플 확대 SMOTE 등 오버샘플링 적용 앙상블 모델 구축 5분봉 ML 분석 결과 5분봉 vs 1시간봉 비교 항목 1시간봉 5분봉 총 캔들 수 43,848 526,176 총 거래 수 165 620 최적 설정 MA100/TP10%/SL5%/HC3% MA48/TP2%/SL1.5% 총 수익 112.5% 50.0% 최대 손실 26% 24.5% 승률 23% 45.2%
5분봉 ML 성능 Model Accuracy Precision Recall F1 AUC-ROC XGBoost 56.5% 53.7% 61.0% 0.57 0.55 RandomForest 42.7% 41.4% 49.2% 0.45 0.47 LightGBM 41.9% 41.3% 52.5% 0.46 0.42 LogisticRegression 46.0% 43.9% 49.2% 0.46 0.41
Walk-Forward Validation (5분봉) Model AUC-ROC (mean ± std) XGBoost 0.56 ± 0.05 RandomForest 0.52 ± 0.05 LightGBM 0.52 ± 0.05 LogisticRegression 0.46 ± 0.03
5분봉 Top Features 순위 피처 중요도 1 candle_body_pct_last 29.76 2 price_change_5_last 28.85 3 ultimate_osc_std 22.57 4 ma_100_dist_pct_last 22.56 5 vol_ma_ratio_std 21.57 6 vol_change_std 21.21 7 rsi_slope_std 20.02 8 adx_std 18.77 9 lower_shadow_pct_mean 17.39 10 ma_50_dist_pct_std 17.15
결론 5분봉 ML 예측력이 1시간봉보다 낮습니다 (AUC 0.55 vs 0.62)
샘플 수는 18배 증가 (165 → 620) 하지만 5분봉은 노이즈가 많아 패턴 학습이 어려움 캔들 패턴(candle_body_pct)이 가장 중요한 피처로 부상 1시간봉의 이평선 이격도 중심 → 5분봉은 단기 모멘텀 중심 권장사항 :
ML 기반 필터링은 1시간봉 사용 권장 5분봉은 진입 타이밍 미세 조정에만 활용