Chris Choi's Blog

Posts Tagged ‘Big Data

UPS, Big Data로 배송 적시성 확보하기

leave a comment »

택배 트럭 한 대의 배송지는 지역에 따라 차이가 있겠지만 많게는 백 군데가 넘는다고 합니다. 한 장소에서 다른 장소로 이동할 때도 여러 개의 경로가 가능한데, 택배 트럭의 하루 경로는 수 많은 경우의 수가 존재합니다. 효율적인 경로를 선택하는 것은 택배 회사와 기사에게는 물론, 고객에게도 매우 중요한 부분입니다.

또 하나 택배 서비스가 고려해야 할 것은 자동차의 이상 유무의 예측입니다. 한창 배달 중에 자동차가 고장이 난다면 오늘 화물을 받아야 할 고객들은 제 때 받지 못할 수도 있습니다.

미국의 택배 업체인 UPS Unified Parcel Service 는 Big Data 분석을 이용해 위와 같은 문제들을 해결해 가고 있습니다.

UPS and Big Data_Image 1

[Image 1. UPS의 배송 트럭 출처: UPS]

ORION

UPS는 ORION On-Road Integrated Optimization and Navigation 이라는 Platform을 보유하고 있습니다. 최적화된 경로를 계산한 후 트럭 별 배송 위치를 지정하고, 도착 예정 시각까지 제공하는 역할을 합니다. 이를 위해 UPS의 차량에는 GPS Tracking 기기들이 설치되어 있습니다. 배송 적시성 확보를 위해 UPS의 차량들은 좌회전을 하지 않는다는 말을 합니다. 좌회전을 하려면 신호를 기다리며 대기해야 하는 시간이 발생할 수 있으며, 이 시간이 쌓이면 배송이 지연될 수 있다는 것입니다. 따라서 좌회전 보다는 직진이나 우회전을 주로 하도록 경로를 지정합니다.

ORION의 Algorithm은 천 페이지에 달하는 코드로 구성되어 있으며, 20만 개 이상의 대체 경로를 평가합니다. 한 위치에서 다른 위치로 갈 때도 몇 가지 경로가 가능한데, 수 십 군데의 배송지를 하나의 경로로 연결하기 위해서는 엄청난 계산이 필요할 것입니다. 수 많은 경우의 수들을 비교하고, 그 중에 최고의 경로를 뽑아 내는 작업이 Algorithm의 핵심일 것입니다.

그 결과로 2010년에서 2012년 사이에 3백만 갤런의 유류 소비를 줄였고, 3만톤에 달하는 이산화탄소 배출을 줄였습니다.[1] 감이나 경험 대신 데이터에 기반해 작업을 수행함으로써 얻을 수 있는 수익입니다.

차량에는 여러 가지 센서를 부착했습니다. 엔진, 브레이크 등 주요 장치에 설치된 센서는 실시간으로 정보를 서버로 전달합니다. 기존 패턴과 다른 이상 징후가 포착되면 차량이 고장 나기 전에 미리 수리를 할 수 있습니다. 이전에는 2~3년마다 한 번씩 필요 부품들을 교체하는 방식이었으며, 이 과정에서 불필요한 교체도 있었다고 합니다. 데이터에 기반한 예측을 통해 신규로 구매한 차량들의 문제도 발견할 수 있었습니다.[2]

UPS My Choice

정확도가 높은 배송 예측이 가능해지면서 UPS는 My Choice라는 서비스를 제공할 수 있게 되었습니다. My Choice는 Mobile App을 통해 배송 시각이나 배송지를 변경하는 서비스입니다. 고객들의 요청을 받으면 기존에 결정된 경로는 실시간으로 조정됩니다.

UPS and Big Data_Image 2

[Image 2. UPS My Choise 출처: UPS]

Implication

UPS의 사례를 통해 물류 산업의 혁신을 봅니다. 물류 산업의 혁신에 IT가 큰 역할을 할 수 있다는 것을 보여 주는 대목입니다. 이것은 미국만의 이야기는 아닐 것입니다. 한국에서도 여러 물류 기업들이 UPS와 같은 Big Data 활용을 통한 물류 경쟁력 제고의 방법을 고안해 보기를 기대합니다.

References

[1] “ORION Fact Sheet”, UPS

[2] 『빅 데이터가 만드는 세상』, 빅토르 마이어 쇤버거, 케네스 쿠키어, 21세기북스, 2013

Advertisements

Written by Chris Choi

October 15, 2014 at 12:07 am

Posted in Transportation

Tagged with ,

IT 기업에서 언론사까지, 월드컵과 Big Data 분석

leave a comment »

어김 없이 많은 이변을 낳았던 2014년 브라질 월드컵이 막을 내린 지도 세 달 가까이 되었습니다. 늦은 감이 있지만 이번 월드컵이 Big Data를 이용해 어떻게 승부를 예측했는지, 그 결과는 어땠는지 정리해 보려고 합니다. 2018년에는 또 어떠한 새로운 예측 기법이 등장할 지 비교해 보고자 하는 마음에서 정리해 봤습니다.

브라질 월드컵의 예측은 기존에 예측을 수행했던 언론과 데이터 분석가들 외에 IT 기업들과 게임 업체들까지 더욱 적극적으로 가세했다는 점이 특이할 만합니다.

  • 언론: Bloomberg, CBS
  • 게임 업체: EA
  • FIFA
  • IT 기업: Google, Microsoft, SAP
  • 데이터 분석가: 538

Bloomberg and CBS

Bloomberg는 결승에 진출한 두 팀을 맞췄고, 독일을 우승팀으로 지목했습니다. 승패가 조금 다르기는 했지만, 한국을 1무 2패로 전망했습니다.

World Cup과 Big Data_Image 1

[Image 1. “Word Cup 2014 Predictions & Results” 출처: Bloomberg]

각 경기를 Click 하면 경기 예측과 결과, 팀의 공격과 수비, 전체 평점, Key Player 정보가 표시됩니다. 이 예측치에 따르면 독일과 아르헨티나는 결승에서 만날 수밖에 없었으며, 근소한 차로 승부가 갈리게 될 것이었습니다.

World Cup과 Big Data_Image 2

[Image 2. “Word Cup 2014 Predictions & Results” 출처: Bloomberg]

브라질 월드컵 대진표 추첨 이후로 Bloomberg는 32강 토너먼트부터 결승전까지를 10만 번 이상 Simulation 한 결과입니다.

CBS는 축구 전문가 6명의 예측을 실었습니다. 6명 중 5명이 한국의 16강 진출에 회의적이었습니다. 벨기에가 1위로 16강에 진출할 것이라고 모든 전문가가 예측했으나, 알제리가 2위로 16강에 진출할 것이라는 것은 누구도 예측하지 못했습니다.

World Cup과 Big Data_Image 3

[Image 3. “CBSSports.com’s full 2014 World Cup predictions” 출처: CBS Sports]

World Cup과 Big Data_Image 4

[Image 4. “CBSSports.com’s full 2014 World Cup predictions” 출처: CBS Sports]

EA

FIFA 시리즈로 유명한 EA Sports는 ‘EA Sports Football Engine’을 이용해 Simulation을 수행했습니다. EA는 벨기에와 러시아의 16강 진출을 전망했습니다. 4강 진출국 중 독일과 브라질을 맞췄고, 독일의 우승을 예측했습니다.

World Cup과 Big Data_Image 5

[Image 5. “History To Be Made at The 2014 FIFA World Cup” 출처: EA Sports]

요즘 한국 프로축구 경기 중계에 축구 게임을 이용한 경기 Simulation이 유행입니다. 숫자로 보는 것이 아닌, 경기 장면으로 보는 예측이 훨씬 더 가까이 다가옵니다.

FIFA

FIFA는 Tracab, Deltatre, Opta와 협력해 다양한 정보를 제공했습니다. 골, 어시스트, 파울, 활동량, 방향, 패스 성공률 등의 정보를 제공했습니다. Opta는 월드컵에서 발생한 데이터는 물론, 주요 프로 리그 경기의 데이터를 보유하고 있습니다. Opta에서는 ‘Player Comparison’ 기능을 제공합니다. 제가 좋아하는 손흥민 선수와 브라질의 Neymar를 비교해 봤습니다.

World Cup과 Big Data_Image 6

[Image 6 Player Comparison 출처: Opta]

Tracab과 Deltatre는 경기장에 설치된16대의 카메라를 통해 실시간으로 획득한 선수들의 움직임을 데이터화 합니다. Tracab은 전투기의 미사일 추적 기술을 이용하고 있으며, 영상 처리된 선수들의 데이터는 수 십 만 건에 이릅니다. 선수들의 기존 경기 데이터와 결합된다면 몇 분 후에 어떤 선수가 어떤 플레이를 펼칠지도 예측할 수 있는 날이 올 수 있을 거란 생각이 듭니다.

World Cup과 Big Data_Image 7

[Image 7. “Matrics Quality control in action“ 출처: Deltatre News&Blog]

Goldman Sachs

Goldman Sachs는 1998년부터 월드컵 시즌마다 월드컵 결과 예측 모델 및 예상 결과, 월드컵 진출국들의 경제 상황, 기타 월드컵 관련 이슈들을 다루고 있습니다. 브라질 월드컵을 앞두고도 “The World Cup and Economics 2014”라는 제목의 보고서를 발간했습니다. 보고서를 보면 Goldman Sachs의 예측 방법론이 기술되어 있습니다.

  • 수학자인 Árpád Élő 박사가 고안한 Elo System에 기반한 Elo ranking을 이용합니다.
  • 최근 참가한 국제 대회 10경기에서 넣은 골의 수를 분석합니다.
  • 최근 참가한 국제 대회 5경기에서 잃은 골의 수를 분석합니다.
  • Home advantage의 요소가 있는지 확인합니다.
  • 월드컵에서의 선전 여부를 확인합니다.

한국의 16강 진출 확률을 49.1%로 예측했으며, 이는 H조 3위의 결과였습니다. 우승국을 브라질도 예측했습니다.

Google, Microsoft, and SAP

Google은 개발자 회의는 “Google I/O 2014”에서 16강전 결과와 우승국을 예측했습니다. 우승국 예측을 틀리기는 했지만, 대단하게도 8강 진출국을 모두 맞췄습니다. 4강 진출국도 네 팀 중 세 팀을 맞추는 결과를 얻었습니다.

[Video 1. “Google I/O 2014 – Predicting the future with the Google Cloud Platform” 출처: Google Developers YouTube Channel]

Google Cloud Platform과 Big Query 기술[1]을 바탕으로 FIFA에 데이터를 제공하고 있는 축구 통계 전문 서비스 Opta의 데이터를 활용했습니다. 선수들의 이전 경기, 그리고 월드컵 예선 경기의 데이터와 함께 Home advantage, 자국 팀 응원 관중 수 등을 함께 고려했습니다.

Microsoft는 검색 엔진인 Bing을 이용해 월드컵 결과를 예측했습니다. 16강 8경기의 승패를 정확히 예측했습니다.

  • 지역 예선부터 각 팀의 승패 기록
  • 국제 경기 기록
  • 지역별 경기력 편차
  • Home Advantage

SAP은 ‘Match Insights’라는 Solution을 이용해 선수들의 훈련과 경기를 분석하고 준비합니다. 선수들이 훈련 시 착용하는 센서가 수집한 선수들의 데이터를 무선 수신기로 전송하고, Match Insights를 이용해 분석한 결과는 감독과 코치의 Tablet으로 실시간 전송합니다. 이 데이터를 바탕으로 감독은 전술을 결정하게 됩니다.

Match Insights는 SAP HANA Platform 위에서 기동됩니다.

[Video 2. “DFB News from Brazil: Episode 1 Match Insights” 출처: SAP Sport YouTube Channel]

538

Nate Silver가 이끌고 있는 538은 한국의 1승 2패를 예상했습니다.

World Cup과 Big Data_Image 8

[Image 8 출처: 538]

538을 브라질의 우승을 점쳤습니다. 네이마르의 팬으로서 안타까울 뿐입니다. 만약 네이마르가 부상을 입지 않았다면 우승을 할 수 있었을까요? 저는 그랬을 거라 생각합니다.

World Cup과 Big Data_Image 9

[Image 9 출처: 538]

538은 ESPN에 속해 있으며, 월드컵 예측에 ESPN의 SPI Soccer Power Index 를 사용했습니다. 경기와 선수의 플레이를 기반으로 점수를 매기고, 이를 바탕으로 팀의 전체적인 점수를 예측하는 지표입니다. 1만회의 Simulation을 거쳤고, 매 경기가 끝날 때마다 예측 결과를 Update를 했습니다.

Implication

분석의 방법과 도구, 대상 데이터에 따라 예측의 결과는 달랐습니다. 결과에 따라 희비가 엇갈리기는 했지만, 결과의 정확성 여부와 관계 없이 각각의 분석은 나름대로의 의미를 지닌다고 생각합니다. 일회성에 그치지 않고 분석 모델을 정교화 해 간다면 다음 월드컵에서는 훨씬 더 훌륭한 예측을 할 것이라 믿습니다.

Big Data 분석이 있기 전에도, 그리고 분석이 시작된 이후에도 선수들은 쉴 새 없이 데이터를 생산해 왔습니다. Big Data는 IT의 힘을 빌려 기존에는 신경 쓰지 않았던 데이터들을 더 정확하게 수집하고, 승패 예측을 통해 축구팬들의 재미를 더하고 있습니다.

선수들과 대표팀의 경기력 분석은 점점 컨텍스트화 Contextualization 되고 있습니다. 다음 월드컵은 어떤 모습의 데이터 분석을 보여 줄지 벌써부터 기대가 됩니다.

References

[1] Google Cloud Platform (Google Cloud Dataflow, Google BigQuery, iPython, Pandas) 과 Google Compute Engine을 사용했습니다.

Written by Chris Choi

September 30, 2014 at 11:46 am

Posted in Sports

Tagged with ,

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir

with 4 comments

Big Data는 예측의 새로운 장을 열고 있습니다. 전자 제품의 가격을 예측하는 Decide.com[i], 대통령 선거 결과를 예측하는 Obama 대선 캠프[ii]의 예를 들어 볼 수 있습니다. 이제는 그 영역을 넓혀 범죄의 예측에 사용되고 있습니다. 영화 『Minority Report』의 PreCrime이 범죄를 예측하는 장면들이 점점 현실에 가까워지고 있습니다.

범죄 Pattern의 예측은 범죄 예방을 위한 것입니다. 예측을 위해서는 범죄의 가능성을 미리 포착해야 하는데, 각종 범죄에 관련된 Big Data를 이용해 범죄의 Pattern을 분석하고, 도출된 Pattern에 근거해 실시간으로 범죄 예방 활동을 하려는 시도가 이어지고 있습니다.

 

Crime Mapping

LAPD The Los Angeles Police DepartmentSFPD San Francisco Police Department 등은  ‘Crime Mapping’ 서비스를 제공하고 있습니다. Crime Mapping은 Omega Group이 San Francisco시로부터 범죄 Data (Incident Reports) 를 받아 제공하는 기능입니다.

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 1

[Image 1. LAPD와 SFPD 등은 Crime Mapping 서비스를 제공하고 있습니다. 출처: Crime Mapping]

 

지도 상의 Icon을 선택하면 범죄에 대한 상세한 정보가 표시됩니다. 사건 번호와 발생일, 위치와 사건 개요 등을 확인하실 수 있습니다. 직접적인 범죄 예방 활동이 아니라도, 이사 갈 지역을 선택할 때 유용하게 사용될 수도 있습니다.

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 2

[Image 2. Icon을 선택하면 자세한 범죄 정보를 확인할 수 있습니다. 출처: Crime Mapping]

 

iPhone과 iPad에서 Crime Mapping의 동일한 기능을 사용하실 수 있습니다. 아쉽게도 아직 Android는 지원하지 않습니다.

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 3

[Image 3. 출처: CrimeMapping, iTunes]

 

범죄 데이터는 기본적으로 다음과 같이 CSV Comma-separated values 로 구성되어 있습니다. 사건 번호, Category, 사건 설명 등이 순서대로 나열되어 있습니다. 이 데이터를 자유롭게 활용해 범죄 예방을 비롯한 다양한 목적으로 사용할 수 있는 것입니다.

 

================================================================================

IncidntNum,Category,Descript,DayOfWeek,Date,Time,PdDistrict,Resolution,Location,X,Y

030203898,FRAUD,”FORGERY, CREDIT CARD”,Tuesday,02/18/2003,16:30,NORTHERN,NONE,2800 Block of VAN NESS AV,-122.424612993055,37.8014488257836

================================================================================

[Code 1. 범죄 데이터의 예]

 

최근 Big Data의 Trends 중 하나는 ‘Data Visualization’입니다. Big Data를 시각적으로 표현해 한 눈에 이해할 수 있도록 돕는 것입니다. San Francisco시는 범죄 관련 Data를 KML (Google Earth), CSV (Excel), SHP (ArcView 등) Format으로 제공하고 있습니다. Doug McCune은 2003년부터 누적된 Data를 이용해 3D로 범죄 지형을 시각적으로 표현했습니다.

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 4

[Image 4. San Francisco시는 2003년부터의 범죄 관련 Data를 제공하고 있습니다. 출처: DataSF]

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 5

[Image 5. KML Format의 File은 Google Earth로 실행해 확인하실 수 있습니다.]

 

3D로 그려 보니 범죄 유형 별 특징을 살펴볼 수 있습니다. 자동차 절도 Vehicle Theft 는 대부분의 지역에서 고루 발생하는 반면, 매춘 Prostitution 은 특정 지역에 한정되어 있음을 알 수 있습니다.

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 6

[Image 6. 출처: “If San Francisco Crime Were Elevation”, Doug McCune]

 

Los Angeles 경찰은 범죄 예측을 위해 PredPol 기술도 적용했습니다. PrePol은 ‘Predictive Policing’의 약어이면서 동시에 회사명으로, 지진 뒤에 여진 Aftershock 이 오듯이, 범죄도 이미 발생한 지역을 위주로 다시 일어날 확률이 높다는 사실을 바탕으로 범죄 예측을 시작했습니다. PredPol은 범죄가 일어날 가능성이 높은 시간대와 장소인 Hot spot (Predictive boxes)을 찾아 내어 관련 정보를 경찰들과 공유하게 됩니다. 제한된 경찰 자원을 모든 지역에 배치할 수는 없는 일이기에, Hot Spot에 적절한 시간대에 경찰들을 효과적으로 배치할 수 있습니다. Hot Spot은 아래와 같이 붉은색 상자로 표시됩니다.

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 7

[Image 7. Hot Spot은 붉은색 상자로 표시됩니다. 출처: PredPol]

 

PredPol을 적용한 후에 일 범죄 발생 건수가 현저하게 줄어들었음을 볼 수 있습니다. 이는 범죄 예보 정확도가 높았음을 반증하는 것입니다.

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 8

[Image 8. PredPol을 적용해 일 범죄 발생 건수가 줄었습니다. 출처: PredPol]

 

Palantir

Palantir는 Peter Thiel, Alex Karp 등이 2004년에 설립했습니다. Peter Thiel은 Paypal 창립자 그룹인 Paypal Mafia의 일원으로, Paypal 시절부터 Fraud를 비롯한 불법 자금 거래를 추적하는 등, 범죄 예측과 예방에 관심을 두고 있었으며, 이 같은 노력이 Palanir의 기반이 됩니다. 초기 투자 비용으로 CIA로부터 200만 달러를 받았으며, Palantir의 고객사는 CIA, FBI, Air Force 등 대형 정보 기관들이 많습니다.

Palantir는 다음과 같이 다양한 정보를 통합해 관련 있는 데이터를 찾아냅니다. Big Data의 전형으로, 정형 Data는 물론, 비정형 Data까지 통합적으로 처리하고 분석합니다.

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 9

[Image 9. Palantir의 Data Set]

 

Terror의 적발은 시간이 생명입니다. 신속한 정보 처리가 매우 중요합니다. Spy들은 끊임 없이 정보를 은닉하고, Palantir는 은닉의 Pattern을 찾아 끊임 없이 은닉되고 있는 정보를 캐냅니다. Data 처리 속도는 일일 Petabyte를 넘는다고 합니다.

요즘 Big Data의 추세 중 하나는 Visualization입니다. Palantir의 강점 역시 Visualization입니다.

 

Big Data로 범죄 따라잡기, Crime Mapping과 Palantir_Image 10

[Image 10. Palantir의 Visualization 출처: “Introducing Code 33”, Palantir]

 

Palantir의 Engineering Director인 Shyam Sankar는 TED 강연에서 Palantir의 독특한 시각을 보여 주었습니다. Big Data 분석이 모든 것이 아니라, 기계가 분석한 것을 인간의 창의적이고 직관적인 시각으로 활용한다는 것입니다. 인간과 기계의 조합에 대해 Shyam Sankar는 말하고 있는 것입니다.

 

[Video 1. Shyam Sankar의 TED 강연 출처: “Shyam Sankar: The Rise of human-computer cooperation”, TED, Jun 2012]

 

Implication

영화 『살인의 추억』의 연쇄 살인범은 비가 내리는 날을 골라 범죄를 저지릅니다. 범죄가 자주 일어나는 시간과 장소, 날씨 등이 있게 마련입니다. 비와 범죄와의 인과 관계를 규명하기는 어렵지만, 상관 관계를 파악할 수는 있습니다. 그것이 Big Data 분석의 가장 큰 특성 증 하나입니다. Big Data는 예측에 관한 것입니다. 범죄자를 잡는 것에도 도움이 되지만, 일반 시민들의 행동 반경 역시 안전한 지역에서 이루어지도록 도움이 될 것입니다. Data가 누적될수록 Algorithm이 더욱 정교해지고, 범죄 예측의 정확도도 더 높아질 것입니다. 범죄의 영역으로 Big Data의 영역이 넓혀져 사회를 개선하는 데 큰 도움이 될 것이라 기대해 봅니다.

다만 『Minority Report』가 제기하는 문제를 염두에 두어야 합니다. 잘못된 예측과 개입은 선의의 피해자를 만들 수 있다는 점입니다. 또한 범죄 관련 Big Data의 공유가 범죄자의 입장에서는 새로운 범죄의 Pattern을 생산해 낼 수 있으므로, 정보 공개의 수준에 대해서도 고려가 필요합니다.

 

References


Written by Chris Choi

January 16, 2014 at 12:24 am

Posted in Society

Tagged with , , ,

Obama 재선, Big Data와 통계 분석의 승리

with 7 comments

무명의 Barack Obama를 스타로 만든 것은 Twitter를 비롯한 Social Media였습니다. 2012년 11월, Obama를 재선으로 이끈 것은 Big Data였습니다. 이제는 선거에서도 Big Data 열풍이 불고 있습니다. 더 이상 소위 정치 전문가 혹은 선거 전략가들의 직관에 의존할 수 없으며, Big Data 분석가들이 선거 전문가로서 참여해야 한다는 뜻으로 해석됩니다. Obama 대통령의 Campaign Manager인 Jim Messina는 Time과의 인터뷰에서 다음과 같이 언급했습니다.

“We are going to measure every single thing in this campaign.”

“Inside the Secret World of the Data Crunchers Who Helped Obama Win”, Michael Scherer, November 7th, 2012, Time

 

선거 운동에 관한 한 직관에 의존한 추측은 금하고, 방대하고 정확성 높은 데이터를 바탕으로 전략을 펼치겠다는 의미입니다.

Big Data관리: One Database

선거에 관련된 데이터는 여러 곳에서 다양한 형태로 존재하기 마련입니다. 당에서 보유하고 있는 데이터가 있을 것이고, Social Media 상에서 유권자들의 활동에 관한 데이터가 있을 것입니다. 또한 선거 운동을 통해 수시로 생성되는 데이터가 있을 것이고, 여론 조사에 관련된 데이터가 있을 것입니다. 이처럼 데이터가 분산되어 있다는 것은 데이터를 분석하는 주체가 다를 경우 다른 해석과 결정을 낳을 수 있다는 문제를 내포합니다. 의사 결정의 일관성을 유지하기가 어렵게 될 수 있으며, 이곳 저곳의 데이터를 찾아 보아야 하는 수고도 큽니다. 따라서 Obama Camp는 Narwhal, Dreamcatcher 프로젝트를 통해 여러 곳에 흩어져 있던 복수의 Database를 하나의 Database로 통합했습니다. 이를 위해 Obama는 4년 전보다 다섯 배 확대된 통계 분석팀을 투입했으며, Database의 통합을 통해 노력과 시간, 비용을 줄일 수 있게 되었습니다.[i]

 Obama 재선, Big Data와 통계 분석의 승리_Image 1

[Figure 1. 일관된 의사결정을 위해 다양한 데이터를 통합했습니다.]

통합된 데이터에는 어떤 브랜드를 선호하는지, 그리고 어떤 잡지를 구독하는지에 대한 개인적인 사항까지도 담겨 있습니다. 결국 위의 통합된 데이터는 유권자의 행동과 생각에 대한 데이터인 것입니다.

통합 데이터의 기초가 되는 부분들을 살펴 보도록 하겠습니다. 먼저 BarackObama.com입니다. 유권자들 중 Obama 대통령에 관심이 있는 사람은 누구나 BarackObama.com에 가입하실 수 있습니다. e-mail 주소와 ZIP Code만 입력하면 시작하실 수 있습니다.

 Obama 재선, Big Data와 통계 분석의 승리_Image 2

[Figure 2. BarackObama.com 출처: BarackObama.com]

이름, 주소, 전화 번호, 성별, 나이, 지역 등의 정보를 추가로 입력하게 되며, 이 정보는 Obama Camp의 Database에 곧바로 저장됩니다.

다음은 Social Media입니다. Facebook은 Obama 선거 캠프에 큰 보탬이 되었습니다. BarackObama.com에서는 Facebook을 이용해 로그인을 할 수 있으며, 이를 통해 유권자의 BarackObama.com 상에서의 정보와 Facebook 상에서의 정보를 통합할 수 있습니다.

Obama 재선, Big Data와 통계 분석의 승리_Image 3

[Figure 3. Facebook을 이용해 BarackObama.com에 로그인 할 수 있습니다. 출처: BarackObama.com]

 

또한 유권자가 Obama 대통령의 Facebook에서 ‘Like’를 누르게 되면 해당 유권자의 Profile 정보와 친구 정보가 Database에 저장됩니다. 이를 바탕으로 경합 지역에 친구를 둔 유권자에게 Obama를 지지하는 내용의 메시지를 등록하도록 요청합니다. Social Media의 영향력을 효과적으로 사용한 셈입니다. 이 때 친구 간의 친밀도를 파악하는 데 Facebook의 Social Graph인 Open Graph가 유용하게 사용되었습니다.

 

Obama 재선, Big Data와 통계 분석의 승리_Image 4

[Figure 4. Obama 대통령의 Facebook 출처: Barack Obama’s Facebook]

 

이 외에도 Google, Flickr, Tumblr 등에서 유권자와 관련된 사항을 분석해 Database에 추가했습니다.

이와 더불어 미국 선거 제도 하에서는 유권자 자료를 사용할 수 있습니다. 후보자는 주의 모든 유권자의 자료를 확인할 수 있습니다. 이처럼 다양한 데이터가 하나의 Database로 통합되어 Obama 재선에 큰 보탬이 되었습니다.

 

Big Data and Micro Targeting

무작위 전화와 지역 유세는 그 효과를 입증하는 것이 쉽지 않습니다. 더욱 세밀한 선거 전략이 필요합니다. Big Data 분석을 바탕으로 Obama는 세밀한 선거 전략을 펼칠 수 있었습니다. 그것은 바로 ‘Micro Targeting’입니다. 특정 유권자들에게 특정한 메시지를 전달하는 것이 Micro Targeting의 목적입니다. 이미 기부금 상한선에 도달한 사람들에게 더 많은 기부금을 요청할 필요가 없습니다. 확고한 민주당 지지자에게 많은 힘을 쏟을 필요가 없습니다. 즉, 유권자의 세밀한 분석을 통해 맞춤형의 캠페인을 진행한다는 것입니다.

 Obama 재선, Big Data와 통계 분석의 승리_Image 5

[Figure 5. Obama Campaign은 Big Data 분석에 근간한 Micro Targeting을 진행했습니다.]

대표적인 Micro Targeting은 e-mail입니다. Obama 진영은 동일한 내용의 e-mail을 단체로 보내는 법이 없었습니다. 심지어 부부에게도 다른 내용의 e-mail을 보내는 경우가 있습니다. 유권자의 개인적 특성에 따라 e-mail의 내용이 달라집니다. 예를 들어 교육, 세금 등 개인의 관심사와 기부 금액 등에 따라 내용이 달라지는 것입니다. e-mail의 효과를 극대화 하기 위해 사전에 표본을 대상으로 제목, 발신자, 내용 등을 다르게 해 클릭 수, 기부 금액 등의 반응을 살핀 후 최적의 조합을 찾아내 전체에게 발송했습니다.

그 결과 Fundraising이 2008년 대선에서의 5억 달러에서 이번 대선에서는 6억 9천만 달러로 크게 증가했으며, 대부분은 e-mail을 통해 거둬 들인 것입니다.[ii] 정치 기금 마련은 선거 승리의 척도입니다. 자존심이 걸린 문제이기도 합니다. Obama Camp는 추측과 직관이 아닌, Big Data 분석에 기초해 기금을 성공적으로 마련했고, 대선에서 승리할 수 있었습니다.

유권자 방문도 마찬가지입니다. 방문하기 전에 Big Data를 조회할 수 있는 Dashboard를 통해 방문하려는 사람이 Obama 대통령에게 기부금을 낸 사람인지, 투표를 자주 하는지, Obama 대통령을 지지하고 있는지 등에 대해 사전에 확인했습니다. 사전 정보에 따라 방문 시에 나누는 대화도 달라질 수밖에 없습니다. 방문자가 관심 있는 내용에 대해 이야기를 나누다 보면 Obama에 대한 지지를 이끄는 것이 좀 더 자연스러웠을 것입니다.

정치 기금 모금을 위해 Obama 대통령은 ‘Dinner with Barack’이라는 이름으로 저녁 식사 행사를 열었습니다. 서부에서 George Clooney를 초대했는데, 응모한 유권자들 중 상당수가 40대 여성이라는 점을 포착했습니다. 이 데이터를 바탕으로 동부에서 열린 행사에는 40대 여성에게 인기가 높았던 Sarah Jessica Parker를 초대해 다시 한 번 대성공을 거두었습니다.

 

Nate Silver

미 대선과 Big Data는 또 다른 승자를 낳았습니다. 바로 Nate Silver입니다. 2008년에 50개 주 중 49개 주에서 대선 승자를 정확히 예측했고, 이번 대선에서도 선거인단 수와 국민투표 승률을 근소한 차이로 맞추었습니다. Nate Silver 역시 통계 전문가입니다. 그의 통계 분석은 독특한데, 여론 조사를 자신만의 방식으로 분석해 선거 결과를 예측하는 방식입니다. 그의 방법론은 다음과 같이 7단계로 구성됩니다.[iii]

  • Step 1: Weighted Polling Average
  • Step 2: Adjusted Polling Average
  • Step 3: FiveThirtyEight Regression
  • Step 4: FiveThirtyEight Snapshot
  • Step 5: Election Day projection
  • Step 6: Error analysis
  • Step 7: Simulation

 

Implication

선거에서 가장 중요한 것은 후보자의 훌륭한 자질이라고 생각합니다. 그러나 최근의 대통령 선거를 보면 박빙인 경우가 대부분입니다. 후보가 선거 운동의 방향성을 잘 잡기 위해서는 좋은 정책과 좋은 조직이 필수적입니다. 여기서 Big Data 분석을 통한 세밀한 Targeting이 어우러진다면 더욱 효과적인 선거 운동이 될 것입니다. 즉, 앞으로의 선거 전문가는 Big Data 전문가가 될 것입니다.

Big Data 기반의 선거 운동은 하루아침에 이루어지는 것이 아닙니다. 따라서 시간을 두고 관련 기술과 인력의 확보가 필요합니다.

References


Written by Chris Choi

January 1, 2013 at 1:44 pm

Big Data로 현명한 소비 하기, Decide.com

with 2 comments

일반사용자들을위한 Big Data

규모 있는 기업들은 예외 없이 Big Data 구현에 열을 올리고 있습니다. Big Data는 주로 고객들의 행태를 분석해 기업들이 효과적으로 Marketing과 생산, 구매 등을 수행하는 데 사용되고 있습니다. 달리 말하면, 기업들은 사용자들에 대한 정보를 엄청나게 수집하고 있다는 의미입니다. 그러나 Big Data로 인해 사용자들이 기업에 대한 정보를 더 많이 확보하게 되었다고 말하기는 어렵습니다. 어떤 측면에서는 기업과 사용자들 간의 정보의 불균형이 Big Data의 등장으로 심화되었다고 볼 수 있습니다.

Decide Shopping & Price Predictor

하지만 다행히도 Big Data를 분석해 소비자들에게 유용한 정보를 제공하려는 시도가 이루어지고 있습니다. 그 중 하나가 이번에 소개해 드릴 ‘Decide Shopping & Price Predictor’입니다. Decide는 Big Data 분석을 통해 전자 제품의 가격을 예측하고, 사용자가 적절한 시점에 필요한 가전 제품을 구매하도록 도움을 주는 서비스입니다.

생각해 보면 전자 제품을 구입하는 것은 보통 일이 아닙니다. TV든, Tablet PC든 그 종류가 수도 없이 많아서 어떤 제품을 구입할 것인지 결정하는 일부터 쉽지 않습니다. 제품을 결정했다 하더라도 On-line으로 구매해야 할 지, Off-line으로 구매해야 할 지 갈등하게 됩니다. On-line 상에 수 많은 Web site들과, 수많은 Off-line 매장 중에 좋은 가격과 혜택을 제공하는 곳을 찾는 것은 머리 아픈 일입니다.

더욱 혼란스러운 것은 가격 정보입니다. Internet이 확산되기 전에 용산 전자 상가 이곳 저곳을 돌아 보며 가격을 알아 보고 흥정해 보신 분들은 정보의 부족이 초래하는 불편함을 잘 아실 것입니다. Internet이 확산되면서 가격 정보 Site 등이 등장해 가격 분석에 도움이 되는 것 같지만, 그마저도 일반 소비자들에게는 들쭉날쭉한 가격 정보가 오히려 혼란을 가중시키기도 합니다. 또한 가장 큰 한계는 현재의 가격은 어느 정도 알 수 있지만, 미래의 가격을 예측하거나 관련 제품의 Upgrade 혹은 경쟁 제품의 등장을 예측할 수는 없다는 점입니다.

이런 점에서 Decide는 일반 소비자들에게 많은 편익을 제공하고 있습니다. 그럼 Decide의 기능과 특징에 대해 살펴 보겠습니다.

Category

Decide가 다루는 Category는 크게 ‘Electronics’와 ‘Appliances’입니다.

[Figure 1. Decide가 다루는 전자 제품의 Category]

위의 Menu 중 하나를 선택하신 후에 원하는 제품의 가격 정보를 보실 수 있습니다. 혹은 상단의 검색창에 제품명을 입력해 제품의 가격 정보를 보실 수도 있습니다. 그리고 화면 하단에 Tablet, 휴대 전화, 카메라 등의 주요 제품군이 표시되어 있으므로 하나를 선택하실 수 있습니다.

[Figure 2. 상단의 검색창을 이용하거나 하단의 주요 제품군을 선택하실 수 있습니다.]

검색창에 ‘Tablets’을 입력해 보겠습니다. 화면 왼쪽에 다양한 종류의 Tablet을 보실 수 있습니다. 그 중 하나를 선택하시면 오른쪽에 제품에 대한 정보가 표시됩니다. 화면 상단에 위치한 조건을 이용해 Tablet을 Brand와 가격, Screen Size 등을 기준으로 재분류 할 수도 있습니다. 제품의 이미지를 클릭하시면 좀 더 상세한 가격 정보, 구제품 / 신제품 정보, 뉴스와 루머, 판매점 및 가격, 제품 리뷰와 제품 스펙 정보까지 많은 정보를 확인하실 수 있습니다.

[Figure 3. 선택한 상품의 가격 변동에 관한 정보가 표시됩니다.]

제품명과 출시일, 판매처와 가격을 표시해 주는 것은 다른 Web site들과 그다지 차별화 되지 않습니다. Decide.com의 핵심은 구매 의사를 가지고 있는 사용자에게 지금 해당 제품을 구입하는 것이 적절한 것인지, 아니면 구입을 유보해야 하는지를 알려 준다는 점입니다.

[Figure 4. ‘Buy’와 ‘Wait’로 구매가 적절한지 여부를 알려 줍니다.]

신호등의 녹색 불처럼 “Buy”가 표시되면 지금이 제품을 구입하기에 적절한 시기라는 의미입니다. 그러나 신호등의 빨강색 불처럼 “Wait” 가 표시되면 지금은 제품을 구입하기에 적절하지 않다는 의미입니다. 그것은 신상품이 출시되거나 해당 상품의 가격이 인하되는 등의 이유로 구매를 유보해야 함을 의미합니다. 현재까지의 가격 흐름을 보여주고, 몇 %의 신뢰도로 가격이 유지되거나 떨어질 것인지를 보여 줍니다. 구매하기에 가격이 높다고 생각하시면 가격이 일정 금액 혹은 비율이 떨어지면 Alert를 받으실 수도 있습니다.

[Figure 5. 가격 변동에 따라 Alert를 받으실 수 있습니다.]

Decide Mechanism

Decide is all about leveraging data and technology, not marketing ploys, to help shoppers. We use our patent-pending machine learning and text mining algorithms on billions of price points across millions of products, blog posts, and articles on the web to enable shoppers to make the best buying decision possible.

“How it Works”, Decide, https://www.decide.com/how-it-works

Decide는 각종 Web site의 글들과 Blog Post, Press Release 등 다양한 형태의 비정형 데이터를 분석합니다. 즉, Big Data를 분석하는 것이죠. Google 검색과 유사하게 우선 ‘Crawling’을 통해 이곳 저곳에 널려 있는 데이터를 수집하게 됩니다. Decide만의 Algorithm을 이용해 Machine Learning과 Text Mining을 통해 정형화 하고 의미 있는 데이터를 추출하게 됩니다.

[Figure 6. Decide의 Big Data 분석 Mechanism]

이 결과를 바탕으로 사용자들은 가격과 모델에 대한 예측 및 최신 뉴스와 리뷰 정보를 사용할 수 있게 됩니다.

Mobile web

Decide는 Mobile App과 Web site의 기능과 Layout에 차이가 거의 없습니다. 따라서 사용자는 Mobile App을 사용하다가 Web site로 이동하게 되어도 항상 동일한 기능을 사용할 수 있습니다. 이는 Mobile에 맞게 기능을 최적화 하면서도 사용자가 기능을 단순하게 느끼지 않을 만큼 충분한 기능을 제공하고 있다는 의미입니다.

Big Data영역확장

Decide가 사용하고 있는 Algorithm을 변형하면 전자 제품뿐만 아니라 자동차나 가구 등으로도 가격 분석의 영역을 확장할 수 있을 것입니다. 이처럼 Big Data 분석은 확장이 가능하며, 특히 기업뿐만 아니라 일반 소비자들에게 유용한 정보를 전달할 수 있다는 점에서 좋은 Business Model이라 할 수 있습니다.

 

Updated

Decide.com은 eBay에 인수되었습니다.

 

Big Data로 현명한 소비 하기, Decide.com_Image 7

[Image 7. Decide.com은 eBay에 인수되었습니다. 출처: Decide.com]

 

Reference

 

위 글은 2013년 2월 13일 SK C&C Blog에 Posting 되었습니다.

Written by Chris Choi

October 19, 2012 at 3:37 pm

Posted in IT

Tagged with , , ,