Chris Choi's Blog

Flu Trends, 데이터로 독감 따라잡기

with one comment

요즘 독감으로 인해 세계 곳곳이 난리입니다. 예전에는 독감이 일단 발생하면 대처하기에 급급했지만, IT와 통계 등의 발전으로 이제는 독감을 미리 예측하고 대비하려는 노력이 더해지고 있습니다. 데이터 기반의 예측을 통해 어떻게 독감을 따라잡고 있는지 살펴 보도록 하겠습니다.

 

Google.org: Flu Trends

Google.org‘Flu Trends’를 보면 전 세계가 감기로 어느 정도 몸살을 겪고 있는 지 한 눈에 볼 수 있습니다. 색깔이 붉을수록 감기로 인해 더 많은 사람들이 고통을 겪고 있다는 뜻입니다.

 

Flu Trends, 데이터로 독감 따라잡기_Image 1

[Figure 1. Flu Trends, google.org]

 

Google Earth에서도 확인할 수 있습니다.

 Flu Trends, 데이터로 독감 따라잡기_Image 2

[Figure 2. Google Earth를 통해 본 Flu Trends]

 

관련 데이터는 일 주일에 한 번씩 측정되며, 다음과 같은 형태로 제공됩니다.

================================================================

Date,Argentina,Australia,Austria,Belgium,Bolivia,Brazil,Bulgaria,Canada,Chile,France,Germany,Hungary,Japan,Mexico,Netherlands,New Zealand,Norway,Paraguay,Peru,Poland,Romania,Russia,South Africa,Spain,Sweden,Switzerland,Ukraine,United States,Uruguay

2002-12-29,,,,,,174,,,,,,,,,,,,,329,,,,,,,,,,

2003-01-05,,,,,,162,,,,,,,,,,,,,315,,,,,,,,,,

2013-01-13,72,152,1286,374,119,106,438,6803,2,349,1033,104,2182,1591,127,12,470,136,105,413,651,827,1796,81,25,392,520,10555,66

2013-01-20,71,122,1598,802,111,107,498,4778,2,703,1332,128,3872,1669,233,10,321,140,98,268,696,924,1854,99,28,598,537,9408,65

================================================================

 

첫 번째 Argument는 일자이며, 두 번째부터 마지막 Argument는 국가 별 독감 수치입니다. 독감 수치는 ILI Influenza-Like Illness 나 ARI Acute Respiratory Infection 등을 사용합니다. 데이터는 2002년 12월에 두 개 국가로부터 시작되어 현재는 30개 가까운 국가에서 측정되고 있습니다. 아쉽게도 한국은 포함되어 있지 않습니다.

Google Flu Trends의 원리는 다음과 같습니다.

 

  • Google의 Search data 분석에 기초를 둡니다. 독감이 유행하는 기간에 사람들은 건강, 독감 등에 대해 더 많은 검색을 하기 마련입니다.
  • 단, 검색 빈도와 실제 독감 환자 간의 연관성이 있는지가 중요합니다. Google은 일정한 Pattern을 발견해 특정 Search Query를 추출하며, 그 Query를 주기적으로 조사해 독감 유행을 예측합니다.

 

Google Flu Trends의 미국 데이터의 경우 미국의 질병 관리 센터인 CDC Centers for Disease Control and Prevention 의 통계와 큰 차이가 없을 정도로 정확도가 높은 수준입니다. 아래 그래프의 노랑색 선이 CDC의 통계이며, 파란색 선이 Google Flu Trends의 통계입니다.

 Flu Trends, 데이터로 독감 따라잡기_Image 3

[Figure 3. Google Flu Trends의 데이터는 CDC의 통계와 큰 차이가 없습니다.]

 

독감을 예방하기 위해 각 국가 기관에서 권고하는 방안도 함께 표시해 줍니다.

 

 Flu Trends, 데이터로 독감 따라잡기_Image 4

[Figure 4. 독감 예방을 위한 방안도 함께 표시해 줍니다.]

 

국가 간 추세의 비교도 가능합니다.

 

 Flu Trends, 데이터로 독감 따라잡기_Image 5

[Figure 5. 국가 간 비교도 가능합니다. 출처: Google Public Data]

 

Social Media

미국 Rochester 대학의 Adam Sadilek, Henry Kautz, Vincert Silenzio 교수는 Twitter 사용자들의 Tweet을 분석해 독감이 확산되는 상태를 보여 주는 모델을 내놓았습니다. Google 검색이 IP를 기준으로 지역을 파악하듯, 이 모델은 Tweet의 위치 정보를 기준으로 지역을 파악합니다.

 Flu Trends, 데이터로 독감 따라잡기_Image 6

[Figure 6. 출처: Adam Sadilek, University of Rochester]

 

지도 상에 독감과 관련된 Tweet을 작성한 사용자들을 표시하고, Twitter를 통해 다른 사람들과 교류하는지를 함께 살펴 봅니다. 이를 통해 독감이 누구에게 언제 확산될 것인지 예측할 수도 있을 것입니다.

 Flu Trends, 데이터로 독감 따라잡기_Image 7

[Figure 7. Germ Tracker]

 

앞서 설명 드린 CDC의 수치는 2주가 지나서야 발표되는 반면, Twitter를 독감 분석에 활용한다는 것은 준실시간 Near real-time 예측이 가능함을 의미합니다.

그러나 Tweet 분석이 어려운 이유는, 단순히 ‘독감’이나 ‘Flu’ 같은 Keyword를 사용해서 분석한다면 독감에 걸렸다는 내용과 독감에 걸릴까 걱정된다는 내용을 구분하기가 쉽지 않기 때문입니다. 따라서 독감에 걸렸다는 내용을 Filtering 할 수 있는 Algorithm이 필요합니다. Johns Hopkins의 Mark Dredze는 이 같은 Algorithm을 개발하였으며, CDC 데이터와 비교해도 큰 차이가 없을 정도로 그 모델을 정교하게 만들고 있습니다.

 

시사점

독감과 관련된 데이터의 원천은 더욱 다양해졌습니다. 앞에서 살펴 보았던 것처럼 Google의 검색 결과와 Twitter 등의 Social Media는 실시간으로 처리해 공유가 가능하다는 점에서 좀 더 적극적으로 독감을 관리하고 예방하는 데 큰 도움이 될 것으로 보입니다.

 

 Flu Trends, 데이터로 독감 따라잡기_Image 8

[Figure 8. Source of Flu Data]

 

앞으로도 꾸준히 데이터를 집적하고 분석한다면 독감 예측의 Algorithm도 더욱 정확해질 것입니다. 미리 예측하면 사고를 줄일 수 있습니다. 위와 같은 시도들이 언제 어디서 독감이 발생할지 예측의 정확성을 더욱 높이는 데 앞으로도 기여할 것이라 생각하며, 이 같은 기여는 사람들의 생명을 보호하는 데 큰 도움이 될 것입니다. IT가 공익, 특히 의료의 영역에서 앞으로 더 큰 몫을 차지하게 될 것이라 믿습니다.

 

References

 

위 Blog Post는 2013년 5월 8일 SK C&C Blog에 Posting 되었습니다.

Advertisements

Written by Chris Choi

May 3, 2013 at 1:33 pm

Posted in Health

Tagged with , , , ,

One Response

Subscribe to comments with RSS.

  1. […] [Link 1. ‘Flu Trends, 데이터로 독감 따라잡기’] […]


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s

%d bloggers like this: