본문 바로가기
IT 기록/데이터 사이언스

[강의정리] The RED : 데이터 사이언티스트 하용호 Ch.01 시작하는 사람들에게, 돌아보는 사람이 해주는 이야기

by Lazy Quant 2022. 1. 17.
반응형
이 포스팅은 패스트캠퍼스의 강의 'The RED : 데이터 사이언티스트 하용호'를 수강하며, 공부를 위해 정리한 것과 개인적인 생각을 덧붙인 내용입니다. 자세한 내용이 궁금하신 분들은 강의를 수강하시기 바랍니다 : )

 

 데이터 사이언스라는 분야의 일을 해보니, 개별 기술이 아니라 실제로 일이 되도록 하는 것이 중요하다고 느꼈다. 데이터 사이언티스트 하용호님은 이를 '기술 바깥의 기술들'이라고 표현하셨다. 데이터 사이언스 또한 사람들과 일을 하는 것이기 때문에 개별 기술만 가지고서는 성과를 만들어낼 수 없다.

 

 나는 IT회사에서 일을 하는 S/W 엔지니어다. 전문적으로 데이터 사이언스 영역에서 일을 하는 것은 아니다. 그런데 시대가 변하면서(알파고의 등장으로) 고객들도 데이터의 중요성을 알고, 데이터 사이언스 영역의 서비스를 요청한다. 개인적으로 관심도 있었고 스스로 공부하며 관련된 서비스들을 제공하기도 했다.

 

 개별 기술에 대한 강의나 설명은 정말 잘 나와있기 때문에 얼마든지 스스로 익힐 수 있다. 그럼에도 일을 할 때면 마치 고구마를 먹은 듯 답답한 느낌이 들 때가 많았다. 핵심이 되는 데이터의 키를 고객(현업)이 쥐고 있었기 때문이다. 데이터 사이언스 영역은 기존에 하던 S/W 개발, 유지보수, 운영 업무보다 훨씬 더 고객과의 소통이 중요한 영역이었다.

 

 그러던 차에 우연히 하용호 님의 강의를 발견하여 수강하게 되었다. 아직 많은 내용을 들은 것은 아니지만, 내가 원하던 내용의 강의임은 틀림없다. 앞으로의 강의를 기대하며, 개인 공부차원에서 기록을 남겨보려한다.

 

 

 

Ch 01.시작하는 사람들에게, 돌아보는 사람이 해주는 이야기

 지난 10년간 데이터 사이언스 분야는 어떻게 변화되어 왔는가?

 

2010~2012년 : 처음에는 잘 저장하기만 해도 기뻤다.
→ DB가 득세하던 시절. 분산 저장/처리 플랫폼 Hadoop만 설치해도 칭찬받던 시절
→ 처리/분석은 모르겠고, 안 버리고 저장만 잘해도 기뻤다
→ 데이터 사이언티스트는 대체로 백엔드 엔지니어 출신이었다.

2012년~2013년 :집계만 되어도 칭찬받던 시절
→ 큰 데이터 처리를 위해 MR(Map/Reduce) 프로그램을 짜야했다.
→ 대형 SI 업체에서 최고가로 한 프로그램씩 1억씩 요구하기도
→ 분석을 하나 하기 위해 프로그램 하나를 짜는 것은 너무하다.
→ SQL을 작성하면 MR 프로그램이 자동 작성되어 도는 Hive가 인기
→ (상대적으로) 분석이 쉬워졌다. 전문 분석가가 나타나기 시작한다.

2013년~2014년 : 분석 리포트 천국의 시대
→ 대부분의 대용량 분석이 SQL로 가능해졌다. Hive, Impala, Tajo, Presto
→ 좋은 비주얼라이즈 도구들이 나타났다. Tableau, Plotly
→ 데이터를 추려내는 것이 편해지고, 그리기 편해지자 분석이 쏟아졌다.
→ 분석가가 비즈니스 전문가와 일을 많이 하기 시작했다.

 

현재 내가 진행하는 업무가 이 영역에서 다음 영역으로 넘어가는 과정인 듯하다. 데이터 수집과 가공/처리, 분석 시각화는 가능하지만, 그것으로 무엇을 해야 업무적으로 이익을 낼 수 있는가가 명확히 정의되지 않았다. 그러니 S/W 엔지니어인 나도 답답하고, 돈을 쓴 고객도 답답한 상태다.


2014년~2016년 : 실험 중시의 시대
→ 처리도 분석도 잘 되니까, 이제 제대로 업무를 개선하자는 움직임
→ 린스타트업과 엮어서 A/B 테스트가 크게 떴다.
→ 데이터 사이언스의 인기가 대중에게도 부쩍 올라갔다.
→ 회사의 직접적인 이익을 만들어내기 위한 노력

2016년~2018년 : 머신러닝 유행과 데이터의 일반화
→ 알파고의 등장, 머신러닝이 크게 유행하기 시작했다.
→ 데이터를 모아서, 추천을 하겠다는 회사들이 많아졌다.
→ 액세스가 SQL로 표준화되면서 더 많은 직군이 데이터를 접근하기 시작
→ 모든 회사의 대표가 데이터를 가져오라고 닥달하기 시작했다.
(머신러닝과 적합하지 않은 회사들도 머신러닝을 택하다가 실패하기도..)

 

앞서 언급했듯이 지금 고객은 무엇을 해서 이익을 낼지 명확하지 않음에도 '머신러닝', '딥러닝'을 활용해달라고 요청하였다. 머신러닝과 적합하지 않은 회사들도 머신러닝을 택하다가 실패하기도 했다는 말에 뼈를 맞은 기분이다.

2018~2020년 : 대 그로스 시대
→ 굉장히 많은 어렵던 기술들이 '제품화'되어 편리해졌다.
→ 그로스 해킹이 큰 트렌드로 자리 잡았다(더 많은 고객이 있었으면 좋겠어)
→ 스마트스토어, 미디어 커머스 등의 발전으로 퍼포먼스 마케팅이 대 흥행
→ PM, PO, 기획자, 마케터 모든 직군이 데이터를 직접 보기 시작
→ 데이터로 직접 이득을 내는 것에 다들 관심이 많다. 성숙기에 들어섰다.

*그로스 해킹은 창의성, 분석적인 사고, 소셜 망을 이용하여 제품을 팔고, 노출시키는 마케팅 방법으로 스타트업회사들에 의해 개발되었다. 성장을 뜻하는 growth와 해킹이 결합된 단어로 고객의 반응에 따라 제품 및 서비스를 수정해 제품과 시장의 궁합을 높이는 것을 의미한다.

 

 

 

꼭 데이터 사이언스가 아니라도 모든 분야가 공통적으로 변화하는 큰 흐름이 있다.
→ 쓰기 어려운 것은 쓰기 쉬운 것으로 변해간다.
→ 쓰기 쉬워진 것은 제품화 되어 모두에게 보급된다.
→ 제품화 된 것들을 레고블럭처럼 엮는 능력이 중요해진다.
→ 언제나 질문의 끝은 '그래서 우리에게 직접 도움이 되었나'이다.

 

이제는 정말로 결과를 만들어 내야하는 시기이다.

진짜 결과를 내기 위해서는 기술 바깥의 기술들. 일이 되게 하는 법이 더 중요하다. 실제로 데이터를 어떻게 활용할 것이고, 어떤 이익을 낼 것인가가 명확히 정의된다면 기본적인 기술을 써도 충분하다. 다만 영어 단어를 알아도 회화가 어려운 것처럼, 개별 기술을 알아도 비즈니스에서 성과를 내기 어렵다. 기술 바깥의 것들까지 잘 조합했을 때 진짜 성과를 낼 수 있다.

학습을 통해, 다음 오류를 줄이고 개선하는 것이 데이터 사이언스다. 이 강의에서 하용호 님은 오랜 현실의 경험들을 전달해 오류를 줄이고자 한다. 조금 덜 헤매이고 조금 더 마음 편하게 내딛기를 바라면서.

반응형

댓글