오늘 글에서는 빅데이터 전문가로 가고 싶은, 비전공자 또는 현업에 종사하시는 분들을 위한 글을 적어보도록 하려고 한다. 막연하게나마 현업에서 빅데이터를 활용해 어떤 밸류를 얻거나 그를 통해 전문적인 커리어 루트를 하나 더 만들고 싶으신 분들이 읽으면 좋을것 같다.
sns의 수많은 글들, 실시간 추적되는 나의 위치정보, 마케팅에 활용되는 엄청난양의 고객정보들, 우리는 벌써 빅데이터의 시대에 살고 있으나, 아직 실제 현업에서는 충분히 이를 활용고 있지는 않는 것으로 보인다. 그로인해, 빅데이터를 통한 분석의 결과가 기업의 의사결정까지 이어지지도 않는 것 같다. 그 이유는 시티즌 데이터 사이언티스트의 부족이라고 본다. 쉽게 말해 개발자나 엔지니어가 아닌, 현업에서 업무를 하면서 동시에 데이터를 다룰줄 아는 전문가가 부족하다는 것이다.
먼저 빅데이터와 AI의 경계에 대해 정리를 하고 가자면, 빅데이터 분야에 있어 데이터는 요리의 재료가 되고 AI는 그 데이터를 요리로 만들기 위한 요리도구가 될 것이다. 요리과정을 통해 의미없던 데이터들의 집합이 의미있는 분석의 결과물이 되는 것이다. 사람이 데이터를 분석하던것 보다, AI머신러닝에게 데이터를 학습시킴으로서 데이터의 분석의 깊이와 범위가 넓어졌고, 딥러닝까지 도입이 되면서 인간의 분석을 뛰어넘는 수준의 데이터 분석이 가능하게 되었다.
서울대 조성준 교수님의 분류에 의하면 빅데이터의 커리어는 크게 6가지로 분류할 수 있다.
1)데이터 엔지니어
-역할 : 엔지니어링 백그라운드를 가지고 데이터를 정제하고 만드는 사람. ex)각 회사의 전산팀의 개발자, DB 엔지니어
-역량 : 코딩, 데이터베이스, 클라우드 컴퓨팅
2)데이터 사이언티스트
-역할 : 데이터로부터 인사이트를 뽑아내고 분석하는 사람. ex)각 회사의 빅데이터팀, AI전담팀
-역량 : 통계학 or 컴퓨터 공학 지식을 바탕으로 각종 툴이나 AI 엔진 활용
3)데이터 리서처 : 연구원으로서 분석툴과 기법, 라이브러리 등을 연구실에서 개발하는 사람, 쉽게 말해 데이터 사이언티스트가 사용하는 도구를 만드는 사람. ex)각 대학의 AI랩실, 네이버, 카카오, 구글 연구원
4)데이터 애널리스트 : 해당 도메인의 업무를 잘 이해하고 있는 사람으로서, 데이터를 보고 엑셀 등의 기본적인 도구를 활용해 분석하여 밸류를 뽑아내는 사람들. ex)마케팅 팀, 증권가 애널리스트 등.
5)시티즌 데이터사이언티스트 : 데이터사이언티스트 만큼의 전문성이나 깊이있게 데이터를 분석하지는 못하지만, 기초적인 엔지니어링적인 베이스를 바탕으로, 맡고 있는 본인 업무에 대한 지식에서 의미있는 데이터분석을 하는 사람.
6)기획자 : 데이터의 종류와 데이터의 활용 그를 통한 비지니스 모델을 만들고 기획하는 사람. ex)TF팀이나 신사업의 리더, 창업자 등.
이러한 커리어들 중에서 현업에 계신분들이 목표로 했으면 하는 커리어는 시티즌 데이터 사이언티스트이다. 이 글에 관심이 있으신 이분들은 아마도 현업에서 여태까지 엑셀이나 기타 시각화 도구로 나름의 데이터 분석을 했거나, 전산팀이나 빅데이터 부서에서 뽑아준 결과물을 받아서 각자의 업무에 활용했을 것이다. 그러나 본인의 업무만큼은 본인이 가장 전문가이기에, 분석의 skill만 갖춘다면 데이터에서 뽑아내는 value의 퀄리티는 누구도 대체하기 힘든 양질의 것이 될것이다.
이러한 시티즌 데이터 사이언티스트가 우리나라에 부족한 현실이고, 이러한 현실로 우리나라의 빅데이터의 발전이 더뎌지는 상황이다. 그것을 반대로 생각하면 먼저 준비하면, 전문가가 부족한 현실에서 빠르게 전문가가 될 수 있는 기회이기도 하다.
그것을 하기 위해 준비해야 할 부분은 먼저, 파이썬을 배우는 것이다. 데이터 분석의 언어로는 크게 2가지가 있는데, 통계쪽에서 사용하는 R과 컴퓨터사이언스에서 사용하는 파이썬이 있다. R은 전통적으로 통계학에서 사용하는 언어이고, 파이썬에 비해 배우기가 쉽고 더욱 인간친화적인 하이레벨의 언어이다. 그에 비해 파이썬은 로우레벨의 언어이지만, 훨씬 자유도가 넓고 활용할 수 있는 범위가 넓다. 그외에 SAS나 스팟파이어 같은 툴을 사용하는 방법이 있는데, 이것은 코딩을 배울 필요가 없이 해당 프로그램의 기능만 익히면 되기 때문에 논외로 하겠다.
(추천하는 파이썬 기초 강의 자료 : 코딩도장, 점프투파이썬)
파이썬을 통한 각종 빅데이터 관련 데이터 분석 AI라이브러리들이 쏟아져 나오고 있기에, 파이썬을 배우는게 시티즌 데이터사이언스로 인정받을 수 있는 첫번째 발검을이라고 할수 있겠다. 두번째는 데이터의 기초를 배우는 것이다. 데이터가 어떤 기본구조로 저장이 되고, 이를 어떻게 정제하고 통합하는 과정을 거치는지에 대해 아는 것이다. 하지만, 앞서 말한바에 의하면 이 역할은 데이터 엔지니이어에게 맡겨도 좋을 것 같다. 우리는 요리의 재료를 가져다가 요리만 하면 되지 그것을 만드는 것은 사내의 데이터 엔지니어에게 맡겨도 좋을 것 같다. 기초부터 닦고 싶다면 최소한의 데이터 구조에 대해 공부해보는 것도 좋다.
(추천하는 데이터 기초 강의 : 이수안 컴퓨터 연구소 (유튜브 "이수안 컴퓨터 연구소 데이터 분석 기초" 검색))
세번째로는 AI 머신러닝에 대해 배우는 것이다. 파이썬이 준비됐고, 데이터의 기본 형성과 구조과정에 대해 알았다면, 이 데이터를 잘 분석하여 의미있는 결과값을 뽑아내야 하는 단계이다. 이를 위해 공부해야 할 것은, 대표적인 알고리즘, 수학모델 등 머신러닝과 관련된 기초 지식을 닦아야 하는 것이다. 이를 제대로 공부하기 위해서는 대학수학 정도의 수학능력과 각종 이론들을 공부해야 한다. 하지만, 우리는 시티즌 데이터 사이언티스트 이기 때문에 이 부분에 많은 시간을 할애 할 수는 없다.
(추천하는 AI 머신러닝 강의 : 이수안 컴퓨터 연구소 (유튜브 "이수안 컴퓨터 연구소 AI 머신러닝" 검색))
더욱 실용적인 방법은, 구글링을 하면 나오는 수많은 라이브러리들과 블로그나 github의 참고자료를 활용하여 본인이 바로 분석 프로그램을 만들어 보는 것이다. 본인이 증권사 애널리스트라면, 야후 파이낸스, 페이스북 prophet등 많은 IT 대기업에서 제공해주는 주가예측관련 라이브러리들을 활용할 수 있다. 어떤 업무이든 구글링을 한다면, 누군가가 이미 비슷한 작업을 해놓고 블로그에 상세하게 정리해 놓았을 것이다(한글로 없다면 영어로). 차근차근 따라한다면 얼마든지 시작해 볼 수 있다. 누군가가 만든것을 따라서 뭔가를 만들어보고, 그 다음에 본인의 것으로 점차 활용해 나간다면 데이터 분석의 첫걸음을 뗄 수가 있을 것이다.
당장에는 어렵겠지만 위와 같이 차근차근 준비해 나간다면, 자신의 업무에서 AI와 각종 라이브러리를 활용하여 데이터를 분석하고 의미있는 값들을 뽑아내어 업무적으로 새로운 인사이트를 만들어내는 시티즌 데이터 사이언티스트가 될 수 있을 것이다.
'프로그래밍 > 개발자 이야기' 카테고리의 다른 글
자기관리 - 만다라트 (0) | 2023.02.22 |
---|---|
코딩테스트(프로그래머스) 점수, 순위 (0) | 2023.01.20 |
이직할 회사 평균연봉을 정확하게 확인하는 법(feat. Dart시스템) (0) | 2022.12.13 |
프론트엔드 VS 백엔드 (1) | 2022.12.10 |
개발자라는 직업의 장점 (0) | 2022.07.09 |