Chris Choi's Blog

Data Scientist의 생활 데이터 이야기

with 10 comments

2015년에 저에게 뜻 깊었던 일 중 하나는 온라인의 인연이 오프라인으로 이어졌다는 점입니다. 그 중 한 분은 Microsoft에서 Data Scientist로 근무하고 계시는 김진영님입니다. Microsoft의 검색 엔진인 Bing의 검색 결과를 평가하는 업무를 수행하고 계십니다. .우연한 기회에 Twitter를 서로 Follow 하게 되었고 – 제 기억엔 제가 쓴 ‘맞춤 추천의 비법, Netflix’를 보고 김진영님이 Follow 해 주셨고, 제가 바로 김진영님을 Follow 했습니다 – , 김진영님의 Blog를 매개로 온라인으로 소통할 수 있었습니다. 이후에 Silicon Valley-Seattle 기행을 통해 Seattle에서 김진영님을 처음으로 뵙고 이야기를 나누었습니다.

 

헬로 데이터 과학

김진영님은 ‘헬로 데이터 과학’이라는 Blog를 운영하고 계십니다. ‘데이터’, ‘데이터 과학’은 왠지 거리가 느껴지는 단어들입니다. 전공자가 아닌 일반인들도 일상에서 데이터를 수집하고 가공할 수 있으며, 그 과정을 통해 일상과 업무를 개선할 수 있음을 느끼게 해 주는 글들이 담겨 있습니다.

 

Hello Data Science_Image 1.png

[Image 1. 헬로 데이터 과학 출처: 헬로 데이터 과학]

 

흥미롭게 읽은 글들이 많습니다. Blog post들을 출력해 여러 번 읽기도 했고, 동료들에게 Blog를 소개하기도 했습니다. 김진영님은 Blog의 글들을 바탕으로 집필한 『헬로 데이터 과학』이 올 해 초에 출간될 예정입니다.

가장 인상 깊었던 점은, Blog post를 공유하기 전에 독자들에게 Feedback을 받는다는 점이었습니다. 출간될 책에 대해서도 Google Docs를 통해 Feedback을 받고 원고를 보완해 가는 과정이 컨텐츠를 더욱 충실하게 만드는 것은 당연한 일입니다.

 

Hello Data Science_Image 2.jpg

[Image 2. 출력해서 읽은 헬로 데이터 과학의 Blog post]

 

삶과 업무를 개선하는 데이터 과학 이야기

김진영님이 한국에 방문할 기회가 있다는 소식을 듣고 Naver D2 Startup Factory 측에 요청을 드려 ‘삶과 업무를 개선하는 데이터 과학’이라는 주제로 강연이 열리게 되었습니다. (뜻하지 않게 처음으로 행사 주체자가 되었습니다.) 강연 내용을 전해 드립니다.

 

Hello Data Science_Image 3.jpg

[Image 3. Naver D2 Startup Factory에서 열린 ‘삶과 업무를 개선하는 데이터 과학 이야기’]

 

데이터의 수집과 분석은 거창한 일이 아닙니다. 작은 데이터라도 모으고 분석해 보면 의미가 있을 수 있습니다. 작은 데이터라도 활용하다 보면 변화를 만드는 데 도움이 될 수 있습니다. 그러나 어느 때보다 데이터에 관한 관심이 높은 요즘이지만, 막상 시도해 보는 분들은 많지 않습니다.

개인의 행복과 건강에 관심이 많아 데이터를 모으고 분석해 왔습니다. QS Quantified Self 라는 이름으로 개인의 데이터를 수집하고 분석하는 활동이 활성화 되고 있습니다. 분석 내용은 Seattle Times에 실리기도 했습니다.

 

Hello Data Science_Image 4.png

[Image 4. Seattle Times에 실린 김진영님의 QS 이야기 출처: “Analyze this: Quantified Self is not as geeky as you think”, Monica Guzman, Seattle Times, March 2nd, 2013]

 

이번 강연은 네 가지 이야기를 다루게 됩니다.

 

  • 데이터에 관한 오해와 진실
  • 데이터와 데이터 과학의 의미
  • 요리로 이해하는 데이터 과학
  • 데이터 과학으로 책 쓰기

 

데이터에 관한 오해와 진실

왜 많은 사람들이 데이터에 많은 관심을 가지게 되었을까요? 데이터는 어디에나 있습니다. IoT Internet of Things 를 통해 사물과 관련된 데이터도 모을 수 있는 시대가 되었습니다. 데이터를 잘 활용해야 성공합니다. 영화 『Money Ball』과 Barack Obama 대통령의 대선 캠페인이 좋은 사례들입니다. 그리고 데이터는 쓸모가 다양합니다.

 

[Link 1. “Obama 재선, Big Data 통계 분석의 승리]

 

그러나 데이터 활용에 소극적인 분들이 많습니다. 세 가지 편견이 영향을 미쳤다고 생각합니다. 첫째, Big Data를 모르면 데이터 분석을 할 수 없다는 편견입니다. Big Data와 Data를 동일한 것으로 여기고, Big Data를 수단이 아닌 목적으로 여기기 때문입니다. Big Data는 개인화나 추천 등 맞는 쓰임이 있습니다. ‘Small data’를 분석하는 데  Big Data를 사용한다면 비싸고 느리며 번거로운 일이 됩니다. 데이터 분석은 Small data로 시작해도 됩니다. 적절한 신뢰 구간을 확보하는 것이 중요하며, 표본 데이터가 일정 이상 늘어나도 신뢰 구간의 감소 폭은 크게 늘지 않습니다.

둘째, 숫자에 약하면 데이터 분석을 할 수 없다는 편견입니다. 어떤 통계 서적, 어떤 수학 서적을 읽으면 도움이 되는지 문의하는 분들이 많습니다. 막상 일을 하다 보면 고급 통계를 쓰는 경우가 많지 않습니다. 그나마 대부분 작업들은 컴퓨터가 알아서 해 줍니다. 시각화 하나만 잘 해도 큰 도움이 됩니다. 물리학자이자 의사였던 John Snow는 콜레라 사망자 수를 지도에 그래프로 표시했고, 식수원의 오염이 콜레라의 원인이었음을 밝혀냈습니다. 이것이 시각화의 위력이며, 요즘 Infographic이 유행하는 이유입니다.

 

Hello Data Science_Image 5.jpg

[Image 5. 출처: Wikipedia]

 

Small data는 보기만 해도 패턴이 드러나고 Insight를 찾을 수 있는 경우가 많습니다. 수학을 모르기 때문에 데이터 분석을 할 수 없다는 것은 변명일지도 모릅니다.

셋째, 컴퓨터나 Programming에 약하면 데이터 분석을 할 수 없다는 편견입니다. 데이터가 크고 복잡한 연산이 많아 Programming이 필요한 경우는 많지 않습니다. 엑셀로 분석을 할 수 있는 경우도 적지 않습니다. 하나의 예를 들면 아버지의 당뇨병을 15년 간 모눈종이에 기록한 Stefan Hoevenaar씨입니다. PC 없이도 질환을 잘 관리할 수 있었습니다. 이 사례 역시 데이터를 사용해 문제를 해결했으므로 데이터 과학이라 볼 수 있습니다. 우리도 할 수 있습니다.

 

[Video 1. “Stefan Hoevenaar: My Father, a Quantified Diabetic” 출처: Quantified Self Vimeo Channel]

 

데이터와 데이터 과학의 의미

데이터는 현상의 그림자입니다. 현실의 특정 단면을 보여 주므로 데이터는 불완전합니다. 그러나 데이터는 현상을 이해하고 현상을 변화시키는 힘이 있습니다. 데이터는 일종의 지도이기도 합니다. 소통하고 길을 찾아 공동의 목표를 달성하는 데 데이터는 중요한 역할을 합니다.

분석을 하다 보면 데이터가 Table의 형태인 경우가 많습니다. 항목이 행으로 표시되고, 속성이 열로 표시됩니다. 현상을 데이터로 표현할 때 필요한 속성을 현상으로부터 추출합니다. 표본을 추출해 속성의 값들을 나열합니다. 데이터 분석을 하다 보면 Table로 시작해 Table로 끝날 때도 있습니다.

데이터 분석에는 세 가지 유형이 있습니다. ‘탐색적 분석’, ‘인과적 분석’, ‘예측 Modeling’입니다.

 

  • 탐색적 분석: 시작이 되는 단계입니다. 원본에서 표본을 추출합니다. 통계 자료를 요약해 Visualization 합니다. 현상의 실증적 이해를 돕습니다. (e. g. 직원 만족도에 영향을 끼친 요인은?)
  • 인과적 분석: 조직의 의사 결정, 특히 정책의 결정에 사용됩니다. (e. g. 새로운 제도가 직원 만족도를 높였는가?)
  • 예측 Modeling: 예측에 필요한 학습 데이터를 분석해 예측 Model을 제공합니다. (e. g. 직원 만족도 예측 방법은?)

 

표본을 잘 추출해 되도록 편향이 없도록 해야 합니다. 표본의 크기는 처음에는 작게 시작하고, 점점 크기를 늘려 가는 것이 좋습니다.

 

요리로 이해하는 데이터 과학

데이터 과학은 재료-도구-결과물로 이어지는 일종의 요리입니다. 우선 좋은 재료를 준비해야 합니다. 문제의 현상을 정확히 반영하는 오류나 누락이 없는 데이터가 좋은 재료입니다. 공정한 표본 추출 과정을 거쳐 생성되거나, 적절한 질문과 답변을 통해 수집된 데이터의 품질이 높기 마련입니다. 데이터 품질의 검증을 위해서는 Meta data가 필수적입니다. Meta data는 데이터가 어떤 의미를 가지는지, 어떤 과정을 통해 생성되었는지를 설명해 줍니다. 데이터의 편차는 분석보다 오히려 수집 과정에서 더 큰 경우가 많습니다.

데이터의 특성과 분석 과정에 맞는 도구를 사용해 요리를 합니다. 복잡한 도구가 항상 좋은 결과를 낳는 것은 아닙니다. 앞서 설명 드렸던 당뇨병 관리 사례와 같이 모눈종이를 사용해도 좋은 분석으로 이어질 수 있습니다. Small data/Big data 여부, 사용자의 개발 능력 여부 등에 맞는 도구를 사용하면 됩니다.

마지막으로 먹음직스럽게 음식을 차려냅니다. 한 눈에 데이터를 담아 내는 시각화는 큰 도움이 됩니다. 청중의 관심사와 눈높이에 맞는 발표도 중요합니다. 위치 데이터와 시계열 데이터를 잘 활용하면 데이터를 멋지게 시각화 할 수 있습니다. 미국 총기 사망자 수를 그래프로 표현한 서비스입니다. ‘Interactive Visualization’이 대단합니다.

 

Hello Data Science_Image 6.png

[Image 6. “U.S. GUN DEATHS IN 2013” 출처: PERISCOPIC]

 

데이터를 수집하다 보면 누락되거나 불충분할 수 있습니다. 따라서 데이터 수집과 분석의 Cycle을 신속히 수행할 수 있는 Agile process가 필요합니다. 작은 데이터로 분석을 시작해 보고, 보완해 가면 대량 데이터를 처리하는 것이 좋습니다.

Advertisements

Written by Chris Choi

January 10, 2016 at 2:13 am

Posted in IT

10 Responses

Subscribe to comments with RSS.

  1. 소개 감사합니다. 처음부터 끝까지 잘 정리해 주셨네요~ 🙂

    Jin

    January 10, 2016 at 3:52 am

    • 아직 draft인데요..ㅎㅎ 작성 마치면 말씀 드릴게요.^^

      Chris Choi

      January 10, 2016 at 10:05 am

  2. 잘 읽었습니다! 정리 감사드립니다~

    JaeYeon Kim

    January 12, 2016 at 5:34 pm

    • 읽어주셔서 감사합니다~

      Chris Choi

      January 12, 2016 at 5:37 pm

  3. […] (제가 요즘 관심을 갖고 있는 분야는 ‘생활 데이터’입니다. 누구나 카피를 쓸 수 있고 누구나 데이터를 분석할 수 있는 시대입니다.) […]

  4. […] Data Scientist의 생활 데이터 이야기 […]

  5. […] 김진영님 […]

  6. […] [Link 1. ‘Data Scientist의 생활 데이터 이야기’] […]

  7. […] Data Scientist의 생활 데이터 이야기 […]

    Data | Chris Choi's Blog

    February 21, 2017 at 2:21 pm

  8. […] 『헬로 데이터 과학』, 김진영님. 처음으로 저자에게 직접 받은 책. 책 속에 ‘베타 리더’로 내 이름도 실렸다. 초고에 대해 김진영님과 Feedback을 주고 받으면서 배우는 즐거움이 컸다. […]


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: