1시간봉 ML/DL 분석

목차

  1. 분석 목표
    1. 데이터셋
  2. 피처 엔지니어링
    1. 피처 카테고리
    2. 각 피처의 통계량
  3. 모델 성능
    1. Tree-Based 모델
    2. Deep Learning 모델
  4. Top 30 중요 피처
    1. 카테고리별 분포
  5. 핵심 발견
    1. 1. 이평선 이격도의 중요성
    2. 2. 볼린저 밴드 폭
    3. 3. 거래량 비율
  6. 실전 적용 제안
    1. 진입 필터 추가
    2. 기대 효과
  7. 한계점
    1. 개선 방향
  8. 5분봉 ML 분석 결과
    1. 5분봉 vs 1시간봉 비교
    2. 5분봉 ML 성능
    3. Walk-Forward Validation (5분봉)
    4. 5분봉 Top Features
    5. 결론

분석 목표

SL(손절) vs TP(익절) 거래를 사전에 예측할 수 있는가?

데이터셋

항목
전략 설정 MA100, TP10%, SL5%, HC3%
총 샘플 수 165 거래
SL (Label=1) 127 (77.0%)
TP (Label=0) 38 (23.0%)
피처 수 177개

클래스 불균형이 심합니다 (77% vs 23%). 해석 시 주의가 필요합니다.


피처 엔지니어링

피처 카테고리

카테고리 피처 수 예시
이평선 이격도 15 ma_100_dist_pct, ma_400_dist_pct
이평선 기울기 15 ma_50_slope, ma_100_slope
이평선 크로스 12 ma_25_50_cross_pct, ma_100_200_cross_pct
이평선 위치 15 above_ma_25, above_ma_100
볼린저 밴드 15 bb_width, bb_upper_dist, bb_pct
모멘텀 18 rsi, macd_slope, momentum
변동성 12 atr_pct, volatility_20
거래량 9 vol_ma_ratio, vol_change
캔들 패턴 12 candle_body_pct, is_hammer
기타 54 cci, mfi, williams_r

각 피처의 통계량

모든 피처에 대해 3가지 통계량 계산 (lookback=20):

  • _mean: 20봉 평균
  • _std: 20봉 표준편차
  • _last: 마지막 값

모델 성능

Tree-Based 모델

Model Accuracy Precision Recall F1 AUC-ROC
XGBoost 72.7% 72.7% 100% 0.84 0.50
LightGBM 63.6% 71.4% 83.3% 0.77 0.62
RandomForest 60.6% 69.0% 83.3% 0.75 0.56
LogisticRegression 60.6% 72.0% 75.0% 0.73 0.46

Deep Learning 모델

Model Accuracy Precision Recall F1 AUC-ROC
MultiScaleCNN 27.3% 0% 0% 0.00 0.64
BiLSTM 54.5% 69.6% 66.7% 0.68 0.29
CandleCNN 39.4% 66.7% 33.3% 0.44 0.44

LightGBM이 AUC-ROC 0.62로 가장 의미있는 예측력을 보여줍니다.


Top 30 중요 피처

순위 피처 중요도 카테고리
1 price_change_3_last 27.26 모멘텀
2 ma_100_dist_pct_last 21.69 이평선 이격도
3 ma_400_dist_pct_last 20.76 이평선 이격도
4 bb_width_std 20.44 볼린저 밴드
5 ma_25_50_cross_pct_std 16.85 이평선 크로스
6 rsi_slope_mean 14.81 모멘텀
7 ma_100_200_cross_pct_mean 14.28 이평선 크로스
8 adx_slope_mean 12.67 추세
9 vol_ma_ratio_mean 12.44 거래량
10 ma_50_slope_mean 12.26 이평선 기울기
11 vol_ma_ratio_std 11.01 거래량
12 candle_body_pct_mean 10.35 캔들 패턴
13 lower_shadow_pct_std 10.14 캔들 패턴
14 dist_from_high_20_last 9.60 가격 위치
15 cci_last 9.28 모멘텀

카테고리별 분포

카테고리 Top 30 내 개수 비율
이평선 관련 14 46.7%
모멘텀 6 20.0%
거래량 3 10.0%
볼린저 밴드 1 3.3%
기타 6 20.0%

이평선 이격도가 가장 중요한 예측 변수입니다. 특히 MA100, MA400과의 거리가 SL/TP 결과에 큰 영향을 미칩니다.


핵심 발견

1. 이평선 이격도의 중요성

MA100 이격도 ↑ → SL 확률 ↑
MA400 이격도 ↑ → SL 확률 ↑

해석: 이평선과 너무 멀리 떨어진 상태에서 진입하면 손절 확률이 높아집니다.

2. 볼린저 밴드 폭

BB 폭 변동성 ↑ → SL 확률 ↑

해석: 밴드 폭이 급변하는 구간에서는 예측이 어렵습니다.

3. 거래량 비율

거래량 / MA(20) 비율 ↑ → SL 확률 ↑

해석: 평소보다 높은 거래량은 오히려 부정적 신호일 수 있습니다.


실전 적용 제안

진입 필터 추가

def should_enter(indicators):
    # MA 이격도 필터
    if abs(indicators['ma_100_dist_pct']) > 5:
        return False  # 이격도 5% 초과 시 진입 금지
    
    # 거래량 필터
    if indicators['vol_ma_ratio'] > 2.0:
        return False  # 거래량 급등 시 진입 금지
    
    # BB 폭 필터
    if indicators['bb_width_std'] > 1.5:
        return False  # 밴드 폭 변동성 클 때 진입 금지
    
    return True

기대 효과

필터 SL 감소 예상 거래수 감소
MA 이격도 < 5% -15% -20%
거래량 비율 < 2.0 -10% -15%
BB 폭 안정 -8% -10%

한계점

  1. 샘플 수 부족: 165개 샘플로는 딥러닝 모델 학습이 어려움
  2. 클래스 불균형: 77% vs 23%로 정확도가 왜곡될 수 있음
  3. 과적합 위험: 테스트셋이 작아 일반화 성능 검증 어려움
  4. 시계열 특성: Walk-forward validation 필요

개선 방향

  • 더 긴 기간의 데이터 수집
  • 다른 심볼(ETH 등) 추가로 샘플 확대
  • SMOTE 등 오버샘플링 적용
  • 앙상블 모델 구축

5분봉 ML 분석 결과

5분봉 vs 1시간봉 비교

항목 1시간봉 5분봉
총 캔들 수 43,848 526,176
총 거래 수 165 620
최적 설정 MA100/TP10%/SL5%/HC3% MA48/TP2%/SL1.5%
총 수익 112.5% 50.0%
최대 손실 26% 24.5%
승률 23% 45.2%

5분봉 ML 성능

Model Accuracy Precision Recall F1 AUC-ROC
XGBoost 56.5% 53.7% 61.0% 0.57 0.55
RandomForest 42.7% 41.4% 49.2% 0.45 0.47
LightGBM 41.9% 41.3% 52.5% 0.46 0.42
LogisticRegression 46.0% 43.9% 49.2% 0.46 0.41

Walk-Forward Validation (5분봉)

Model AUC-ROC (mean ± std)
XGBoost 0.56 ± 0.05
RandomForest 0.52 ± 0.05
LightGBM 0.52 ± 0.05
LogisticRegression 0.46 ± 0.03

5분봉 Top Features

순위 피처 중요도
1 candle_body_pct_last 29.76
2 price_change_5_last 28.85
3 ultimate_osc_std 22.57
4 ma_100_dist_pct_last 22.56
5 vol_ma_ratio_std 21.57
6 vol_change_std 21.21
7 rsi_slope_std 20.02
8 adx_std 18.77
9 lower_shadow_pct_mean 17.39
10 ma_50_dist_pct_std 17.15

결론

5분봉 ML 예측력이 1시간봉보다 낮습니다 (AUC 0.55 vs 0.62)

  • 샘플 수는 18배 증가 (165 → 620)
  • 하지만 5분봉은 노이즈가 많아 패턴 학습이 어려움
  • 캔들 패턴(candle_body_pct)이 가장 중요한 피처로 부상
  • 1시간봉의 이평선 이격도 중심 → 5분봉은 단기 모멘텀 중심

권장사항:

  • ML 기반 필터링은 1시간봉 사용 권장
  • 5분봉은 진입 타이밍 미세 조정에만 활용