영화 트렌드 분석 프로젝트에서 CronJob, Amazon EventBridge 부분을 Airflow DAG를 활용해 고도화
- 수행 기간 : 2023.06.26 - 2023.06.30
- AWS 서비스를 활용한 DL → DW 작업
- Airflow를 이용한 데이터 파이프라인 구축
- Sklearn을 통해 내일 예상 매출액 획득
| 분야 |
stack |
| cloud |
AWS |
| machine learning |
sklearn |
| data pipeline |
airflow |
| container |
docker |
| 협업 툴 |
Trello, Slack, Github |

- 매일 api로 가져온 데이터를 적절히 변환하고 s3 버킷에 적재
- s3(raw_data)버킷에 매일 올라오는 데이터를 바탕으로 머신러닝을 실행. 이를 통해 얻은 예상 매출액을 s3(raw_data)버킷의 movie_sales_pred 폴더에다 업로드
- Data Lake → Data Warehouse
- daily로 들어오는 데이터를 원본 테이블과 합쳐 저장하기 위한 목적
- S3 → Amazon Redshift
- S3(raw data) → glue Crawlers(테이블 생성) → Amazon Athena(쿼리 실행) → S3(accumulated_data)
- 특이 사항 : 처음에는 1번으로 진행했는데 비용이 많이 나가서 2번 방법으로 구축