투자관련 머신러닝 추천 영상입니다.
금융영역 딥러닝 문제점
문제점 1. 시계열 Feature 자체의 노이즈
다음 주가 = 현재 주가 + 정보 + 노이즈
문제는 노이즈 > 정보
lstm(RNN)을 이용한 주가 예측 -> 비슷하지만 오른쪽으로 Lagging
문제점 2. 시계열 Feature 종류 대비 짧은 시계열 길이 (부족한 데이터)
예) 자산배분
- 자산군 데이터 : 금, 채권, 주식, 리츠, 원자재
- 매크로 데이터 : 금리, 인플레이션, 장단기금리차
- High Level Feature : 자산군 모멘텀 효과, 자산군 평균회귀 효과, 확장적 통화정책,
긴축적 통화정책 분류, 단기부채사이클, 장기부채사이클
- 주로 Monthly Frequency 데이터 -> 40년 데이터 = 겨우 480개의 Sequence 길이
- 고려할 수 있는 요소는 수십 ~ 수백개인데, 고려할 수 있는 데이터 길이는 너무 짧음 -> 차원의 저주
- 고려할 요소가 늘어나면 그것을 사용할지 판단하기 위해서는 필요한 데이터가 기하급수적으로 늘어남
문제점 3. 문제점 1과 문제점 2로 인한 Overfitting
해결 방안
문제점 1. 시계열 Feature 자체의 노이즈
- Time-series denoising
1. Moving Average(MA, EMA, ...) -> 오른쪽으로 Lagging
2. Bilateral Filter(어느 정도 denoising 할지?)
3. CNN Stacked AutoEncoder 기반 Denoising Module (자동)
문제점 2. 시계열 Feature 종류 대비 짧은 시계열 길이
- GAN 기반 데이터 생성
- (간접적으로라도) 경제적 함의점을 내포하는 모델 설계
- 데이터 -> 직관 -> 모델 -> 포트폴리오 생성
문제점 3. 문제점 1과 문제점 2로 인한 Overfitting
1. Asynchronous Multi Network Learning
- Overfitting이라고 해서 단순하게 L1, L2 Norm을 적용하면 안됨
- 여러개 네트워크 학습 -> validation 경쟁 -> 네트워크 탈락, 추가 -> validation -> test -> 앙상블
- 여러개 네트워크 학습 -> 경쟁 -> overfitting 정도에 따라 예측들이 다른 구간 -> 잘모르겠다 -> 보수적 투자
2. Bayesian Inference - Uncertainty Quantification
a. Monte Carlo Dropout -> Tau, Dropout rate, Activation에 따른 영향도 높다는 단점
b. Monte Carlo Batch Normaliztion
c. Deep Learning Regression + Gaussian Process Regression
선지도학습 후 GPR 학습 -> 가장 심플하고 적용하기 간단
마지막 Fully Connected 하기 전의 노드들이
선형 독립적으로 Representation Learning이 잘 됐다는 가정 하에 효과적으로 GPR 학습 가능
금융 머신러닝 전문가들은 '머신러닝으로 투자하기'를 과연 긍정적으로 보는가?
'머신러닝' 카테고리의 다른 글
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 11/11 GPT (0) | 2020.07.23 |
---|---|
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 10/11 Transformer (0) | 2020.07.21 |
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 9/11 Seq2Seq, Attention (0) | 2020.07.15 |
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 8/11 LDA Inference: Collapsed Gibbs Sampling (0) | 2020.07.13 |
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 7/11 토픽모델링 LDA (0) | 2020.07.11 |