1시간봉 ML/DL 분석

분석 목표
1. 데이터셋
피처 엔지니어링
1. 피처 카테고리
2. 각 피처의 통계량
모델 성능
1. Tree-Based 모델
2. Deep Learning 모델
Top 30 중요 피처
1. 카테고리별 분포
핵심 발견
실전 적용 제안
1. 진입 필터 추가
2. 기대 효과
한계점
1. 개선 방향
5분봉 ML 분석 결과

분석 목표

SL(손절) vs TP(익절) 거래를 사전에 예측할 수 있는가?

데이터셋

항목	값
전략 설정	MA100, TP10%, SL5%, HC3%
총 샘플 수	165 거래
SL (Label=1)	127 (77.0%)
TP (Label=0)	38 (23.0%)
피처 수	177개

클래스 불균형이 심합니다 (77% vs 23%). 해석 시 주의가 필요합니다.

피처 엔지니어링

피처 카테고리

카테고리	피처 수	예시
이평선 이격도	15	`ma_100_dist_pct`, `ma_400_dist_pct`
이평선 기울기	15	`ma_50_slope`, `ma_100_slope`
이평선 크로스	12	`ma_25_50_cross_pct`, `ma_100_200_cross_pct`
이평선 위치	15	`above_ma_25`, `above_ma_100`
볼린저 밴드	15	`bb_width`, `bb_upper_dist`, `bb_pct`
모멘텀	18	`rsi`, `macd_slope`, `momentum`
변동성	12	`atr_pct`, `volatility_20`
거래량	9	`vol_ma_ratio`, `vol_change`
캔들 패턴	12	`candle_body_pct`, `is_hammer`
기타	54	`cci`, `mfi`, `williams_r`

각 피처의 통계량

모든 피처에 대해 3가지 통계량 계산 (lookback=20):

_mean: 20봉 평균
_std: 20봉 표준편차
_last: 마지막 값

모델 성능

Tree-Based 모델

Model	Accuracy	Precision	Recall	F1	AUC-ROC
XGBoost	72.7%	72.7%	100%	0.84	0.50
LightGBM	63.6%	71.4%	83.3%	0.77	0.62
RandomForest	60.6%	69.0%	83.3%	0.75	0.56
LogisticRegression	60.6%	72.0%	75.0%	0.73	0.46

Deep Learning 모델

Model	Accuracy	Precision	Recall	F1	AUC-ROC
MultiScaleCNN	27.3%	0%	0%	0.00	0.64
BiLSTM	54.5%	69.6%	66.7%	0.68	0.29
CandleCNN	39.4%	66.7%	33.3%	0.44	0.44

LightGBM이 AUC-ROC 0.62로 가장 의미있는 예측력을 보여줍니다.

Top 30 중요 피처

순위	피처	중요도	카테고리
1	`price_change_3_last`	27.26	모멘텀
2	`ma_100_dist_pct_last`	21.69	이평선 이격도
3	`ma_400_dist_pct_last`	20.76	이평선 이격도
4	`bb_width_std`	20.44	볼린저 밴드
5	`ma_25_50_cross_pct_std`	16.85	이평선 크로스
6	`rsi_slope_mean`	14.81	모멘텀
7	`ma_100_200_cross_pct_mean`	14.28	이평선 크로스
8	`adx_slope_mean`	12.67	추세
9	`vol_ma_ratio_mean`	12.44	거래량
10	`ma_50_slope_mean`	12.26	이평선 기울기
11	`vol_ma_ratio_std`	11.01	거래량
12	`candle_body_pct_mean`	10.35	캔들 패턴
13	`lower_shadow_pct_std`	10.14	캔들 패턴
14	`dist_from_high_20_last`	9.60	가격 위치
15	`cci_last`	9.28	모멘텀

카테고리별 분포

카테고리	Top 30 내 개수	비율
이평선 관련	14	46.7%
모멘텀	6	20.0%
거래량	3	10.0%
볼린저 밴드	1	3.3%
기타	6	20.0%

이평선 이격도가 가장 중요한 예측 변수입니다. 특히 MA100, MA400과의 거리가 SL/TP 결과에 큰 영향을 미칩니다.

핵심 발견

1. 이평선 이격도의 중요성

MA100 이격도 ↑ → SL 확률 ↑
MA400 이격도 ↑ → SL 확률 ↑

해석: 이평선과 너무 멀리 떨어진 상태에서 진입하면 손절 확률이 높아집니다.

2. 볼린저 밴드 폭

BB 폭 변동성 ↑ → SL 확률 ↑

해석: 밴드 폭이 급변하는 구간에서는 예측이 어렵습니다.

3. 거래량 비율

거래량 / MA(20) 비율 ↑ → SL 확률 ↑

해석: 평소보다 높은 거래량은 오히려 부정적 신호일 수 있습니다.

실전 적용 제안

진입 필터 추가

def should_enter(indicators):
    # MA 이격도 필터
    if abs(indicators['ma_100_dist_pct']) > 5:
        return False  # 이격도 5% 초과 시 진입 금지
    
    # 거래량 필터
    if indicators['vol_ma_ratio'] > 2.0:
        return False  # 거래량 급등 시 진입 금지
    
    # BB 폭 필터
    if indicators['bb_width_std'] > 1.5:
        return False  # 밴드 폭 변동성 클 때 진입 금지
    
    return True

기대 효과

필터	SL 감소 예상	거래수 감소
MA 이격도 < 5%	-15%	-20%
거래량 비율 < 2.0	-10%	-15%
BB 폭 안정	-8%	-10%

한계점

샘플 수 부족: 165개 샘플로는 딥러닝 모델 학습이 어려움
클래스 불균형: 77% vs 23%로 정확도가 왜곡될 수 있음
과적합 위험: 테스트셋이 작아 일반화 성능 검증 어려움
시계열 특성: Walk-forward validation 필요

개선 방향

더 긴 기간의 데이터 수집
다른 심볼(ETH 등) 추가로 샘플 확대
SMOTE 등 오버샘플링 적용
앙상블 모델 구축

5분봉 ML 분석 결과

5분봉 vs 1시간봉 비교

항목	1시간봉	5분봉
총 캔들 수	43,848	526,176
총 거래 수	165	620
최적 설정	MA100/TP10%/SL5%/HC3%	MA48/TP2%/SL1.5%
총 수익	112.5%	50.0%
최대 손실	26%	24.5%
승률	23%	45.2%

5분봉 ML 성능

Model	Accuracy	Precision	Recall	F1	AUC-ROC
XGBoost	56.5%	53.7%	61.0%	0.57	0.55
RandomForest	42.7%	41.4%	49.2%	0.45	0.47
LightGBM	41.9%	41.3%	52.5%	0.46	0.42
LogisticRegression	46.0%	43.9%	49.2%	0.46	0.41

Walk-Forward Validation (5분봉)

Model	AUC-ROC (mean ± std)
XGBoost	0.56 ± 0.05
RandomForest	0.52 ± 0.05
LightGBM	0.52 ± 0.05
LogisticRegression	0.46 ± 0.03

5분봉 Top Features

순위	피처	중요도
1	`candle_body_pct_last`	29.76
2	`price_change_5_last`	28.85
3	`ultimate_osc_std`	22.57
4	`ma_100_dist_pct_last`	22.56
5	`vol_ma_ratio_std`	21.57
6	`vol_change_std`	21.21
7	`rsi_slope_std`	20.02
8	`adx_std`	18.77
9	`lower_shadow_pct_mean`	17.39
10	`ma_50_dist_pct_std`	17.15

결론

5분봉 ML 예측력이 1시간봉보다 낮습니다 (AUC 0.55 vs 0.62)

샘플 수는 18배 증가 (165 → 620)

하지만 5분봉은 노이즈가 많아 패턴 학습이 어려움

캔들 패턴(candle_body_pct)이 가장 중요한 피처로 부상

1시간봉의 이평선 이격도 중심 → 5분봉은 단기 모멘텀 중심

권장사항:

ML 기반 필터링은 1시간봉 사용 권장
5분봉은 진입 타이밍 미세 조정에만 활용