Hyper/Text

테크와 미디어, 그리고 컬처 관련 고품격 콘텐츠

[데이터 저널리즘] 보이는 것 너머 빅데이터를 분석하라


한국언론진흥재단이 발간하는 <신문과방송> 2013년 6월호에 게재됐던 글입니다.  그 무렵 빅데이터가 꽤 이슈가 됐구요, 그래서 겁도 없이 쓰게 됐습니다. 게재된 지 1년도 더 지났기에, <신문과방송> 팀의 허락도 없이 이 곳에 재수록합니다.

지난 2011년 11월. 영국에서 ‘런던 모즈페스트(London MozFest 2011)’ 워크숍이 열렸다. 다소 생소한 이름의 이 행사엔 탐사 보도의 대표 주자로 꼽히는 프로퍼블리카를 비롯해 워싱턴포스트, 뉴욕타임스 , BBC 등 세계 유수 언론사의 데이터 저널리즘 전문가들이 대거 참석했다. 행사에 참석한 이들은 위기에 처한 저널리즘을 구할 수 있는 해답을 ‘데이터 저널리즘’에서 찾아야 한다는 문제의식을 함께 나눴다. 이들은 워크숍에서 논의한 것들을 토대로 오픈소스 방식으로 ‘데이터 저널리즘 핸드북(The Data Journalism Handbook)’을 엮어냈다.
스크린샷 2014-05-15 오후 1.42.25데이터 저널리즘 핸드북’ 집필자들은 “저널리스트들은 왜 데이터를 이용해야 하는가”란 질문을 던지면서 이야기를 풀어나간다. 그리고 그 문제의식의 출발점엔 언론들이 정보를 독점하던 시대는 끝났다는 냉엄한 현실인식이 자리잡고 있었다. 이젠 현장 목격자나 블로그 같은 다양한 정보원들이 수시로 뉴스를 전해주는 상황이 됐다는 것이다. 저널리즘이 이런 다양한 뉴스원들에게 포위가 됐기 때문에 이젠 눈에 보이는 것 너머에 있는 데이터를 분석하고 걸러내며, 시각적으로 보여주는 것이 갈수록 더 많은 가치를 갖게 됐다는 것이 이들의 주장이었다.

이 주장은 최근 저널리즘 현장을 둘러싼 흐름을 정확하게 포착한 것이다. 실제로 최근 들어 차별화된 경쟁 포인트 없는 언론의 입지는 갈수록 약해지고 있다. 스마트폰과 태블릿 같은 모바일 기기 보급이 확산되면서 이젠 모든 사람들이 실시간으로 언론 활동을 할 수 있게 됐기 때문이다. 대형 재난 발생 때는 때 예외 없이 트위터나 페이스북 같은 SNS에 관련 소식들이 실시간으로 올라온다. 현장을 직접 목격한 사람들이 ‘네이티브 리포팅(native reporting)’ 활동에 나서기 시작한 때문이다.

이런 상황 변화는 기자들에게 곧바로 영향을 미친다. 경쟁사 기자 뿐 아니라 전 국민을 상대로 속보 경쟁을 하는 상황으로 내몰리고 있다. 대규모 언론사들을 중심으로 데이터 저널리즘에 대한 관심이 커지고 있는 것은 이런 상황과 무관하지 않다. 이젠 눈에 보이는 정보를 전해주는 차원에 머물러선 제대로 된 경쟁력을 갖기 힘들게 됐다. 그 정도 정보는 일반인들도 쉽게 생산, 유포할 수 있는 상황이 됐기 때문이다. 스마트폰을 중심으로 한 데이터 혁명이 기자들에게 위기이면서도 기회라는 분석이 나오는 것도 이런 상황 변화와 무관하지 않다.

가디언의 ‘런던폭동 읽기’ 데이터와 저널리즘의 만남

지난 2011년 8월 영국 런던 등에서 발생한 대규모 폭동 사건을 예로 들어보자. 당시 폭동은 경찰이 쏜 총에 한 흑인 청년이 사망한 사건이 발단이 됐다. 런던 북부 토트넘에서 시작된 폭동은 런던 중심가 뿐 아니라 버밍험, 리버풀 등으로 삽시간에 확산됐다. 사태가 심상치 않게 돌아가자 이탈리아에서 휴가를 즐기던 데이비드 캐머런 영국 총리가 서둘러 귀국했다. 캐머런 총리는 보고를 받은 뒤 일부 과격 세력들의 선동 때문에 발생한 사건이라고 발표했다.
당시 폭동 소식은 트위터를 비롯한 각종 SNS를 통해 삽시간에 퍼져 나갔다. 언론들이 채 보도하기도 전에 수 많은 소식들이 쏟아졌다. 확인되지 않은 각종 루머들도 엄청나게 바른 속도로 퍼져 나갔다. 영국의 대표적인 일간지 가디언은 폭동 사건을 좀 더 심층적으로 다루기로 했다. 빛의 속도로 유포되는 소문의 뒤를 쫓아다니는 대신, 그 데이터 속에 숨어 있는 의미를 캐기로 했다. 취재 팀은 우선 폭동에 참여했던 270명을 인터뷰했다. 그런 다음 런던 정경대학(LSE)의 도움을 받아 영국 폭동 사태 관련 해시태그가 붙어 있는 트윗 257만 건을 분석했다. 이런 방대한 취재 과정을 통해 탄생한 기사가 그 해 12월에 게재된 ‘폭동 읽기(Reading the Riots)’였다.
특히 이 중 트위터 분석 결과를 토대로 작성한 ‘트위터 상에서 폭동 루머가 어떻게 퍼졌나(How riot rumors spread on Twitter)’ 란 기사가 화제가 됐다. 트윗 분석을 통해 ‘폭도 선동설’을 비롯해 당시 떠돌았던 루머의 진위 여부를 과학적으로 입증해냈기 때문이다. 가디언은 이 보도에서 런던 시내 군대 배치설, 경찰의 소녀 폭행설 등 당시 대표적으로 유포됐던 7대 루머의 확산 경로를 추적했다. 이 루머들이 어디서 어떻게 시작됐으며, 또 어떤 과정을 통해 소멸됐는지를 양방향 그래픽으로 깔끔하게 보여줬다. 가디언은 ‘폭동 읽기’ 프로젝트를 통해 우리 주변에서 넘쳐나는 데이터 속에서 의미 있는 결과를 뽑아내는 데 성공했다. 주장이나 편견보다는 데이터로 중요한 얘기를 들려준 것이다. 방대한 소셜 데이터를 분석했던 가디언의 이 기사는 2012년 구글과 글로벌 에디터 네트워크가 공동 주최한 ‘제1회 데이터 저널리즘 어워즈’에서 데이터 시각화 및 스토리텔링 부문 최우수상을 시상했다.

런던 폭동 당시 각종 루머가 어떻게 퍼졌는지 보여주는 가디언의 기사.

런던 폭동 당시 각종 루머가 어떻게 퍼졌는지 보여주는 가디언의 기사.

런던 폭동 보도 사례는 최근 화제의 중심으로 떠오르고 있는 빅데이터가 저널리즘과 어떻게 만날 수 있는 지 잘 보여준 대표적인 사례로 꼽힌다. 가트너 전신인 메타그룹의 덕 래니(Doug Laney) 애널리스트가 2001년 처음 사용한 빅 데이터 는 말 그대로 엄청나게 많은 데이터를 의미한다. 하지만 단순히 양이 많다고 해서 빅 데이터가 되는 건 아니다. 위키백과에 따르면 빅 데이터는 ‘기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트와 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술’이라고 정의하고 있다. 여기서 중요한 것은 비정형 데이터란 부분이다. 비정형이란 정형화되어 있지 않거나, 데이터화되지 않은 모든 원천 데이터를 의미한다. 빅 데이터 분석은 바로 이런 비정형 데이터로부터 의미를 뽑아내는 것을 말한다.

데이터 활용방법 따라 결과물도 달라 

그렇다고 해서 숨어 있던 데이터만 갖고 분석하는 건 아니다. 때론 공개된 데이터만 활용해서 통찰력 있는 정보를 만들어내기도 한다. 지난 해 미국 대통령 선거 결과를 정확하게 예측해내면서 명성을 얻은 네이트 실버가 그 주인공이다. 뉴욕타임스에서 ‘파이브서티에이트’란 블로그를 운영하고 있는 네이트 실버는 2008년에 이어 2012년 미국 대통령 선거 결과를 정확하게 맞추면서 화제가 됐다. 특히 2012년 대선에선 대부분의 언론이나 여론 조사 기관들이 박빙 승부를 점치는 가운데 홀로 버락 오바마 대통령의 압승을 정확하게 예상해 화제를 모았다. 더 놀라운 건 네이트 실버가 대선 결과 예측을 위해 사용한 데이터가 특별할 것 없다는 점이었다. 실버는 별도 조사를 하지 않고 언론에 발표된 조사 결과를 수집한 뒤 통계학적 방법으로 분석해서 선거 결과를 정확하게 예측했다. 손 쉽게 구할 수 있는 데이터라도 어떻게 활용하느냐에 따라 전혀 다른 결과물을 만들어낼 수 있다는 것을 생생하게 보여준 것이다.

이처럼 데이터의 중요성이 대두되면서 세계 주요 언론사들이 ‘데이터 저널리즘’에 부쩍 관심을 보이고 있다. 앞에서 소개한 ‘데이터 저널리즘 핸드북’ 역시 이런 관심이 결실으로 이어진 경우다. 국내에서도 조선일보를 비롯한 여러 언론사들이 인포그래픽 뉴스를 선보이면서 데이터 저널리즘 쪽에 눈을 돌리고 있다. 그런가하면 독립언론인 뉴스타파는 최근 트위터 상에 올라온 트윗 분석을 통해 지난 대선 당시 국정원이 여론 조작에 개입한 정황이 있다는 것을 밝혀내기도 했다. 뉴스타파 보도는 국내에선 보기 드문 데이터 저널리즘을 활용한 성공적인 보도 사례로 꼽힌다.
데이터를 활용한 문제 해결 사례가 어제 오늘 대두된 것은 아니다. 그 연원을 따지고 들어가면 꽤 오랜 역사를 자랑한다. 멀리는 19세기 영국 런던을 강타했던 흑사병을 퇴치하는 데도 데이터 분석과 이를 토대로 한 시각화 기술이 중요한 역할을 했다.
1854년 영국 런던에 흑사병이 휩쓸면서 엄청나게 많은 사람들이 죽어갔다. 당시 대부분의 사람들은 흑사병의 발병 원인을 공기 오염에서 찾았다. 하지만 물리학자인 존 스노우(John Snow)는 이런 이론에 의문을 제기했다. 그래서 그는 흑사병 관련 정보를 정밀 수집한 뒤 사망자가 집중적으로 많이 생긴 지역을 지도 위에 표기했다. 그 결과 스노우는 우물을 중심으로 흑사병 환자들이 확산되고 있다는 사실을 밝혀낼 수 있었다. 스노우의 이 같은 발견에 따라 대대적인 우물 소독 작업을 진행한 덕분에 흑사병을 박멸해낼 수 있었다.

데이터 분석만큼 중요한 데이터 시각화 
가디언과 존 스노우 사례는 데이터 저널리즘에서 분석 못지 않게 중요한 부분이 있다는 사실을 잘 보여준다. 바로 ‘데이터 시각화’다. 19세기 존 스노우가 동원한 방법이 아주 초보적인 데이터 시각화 기법이었다면, 가디언이 런던 폭동 테러 보도 때 사용한 건 최첨단 양방향 그래픽 기법이다. 하지만 둘 모두 데이터를 시각적으로 재현했다는 공통점을 갖고 있다. 최근 해외 유수 언론들 뿐 아니라 조선, 중앙 같은 국내 주요 언론들이 경쟁적으로 인포그래픽에 관심을 갖는 것도 이 때문이다. 데이터 시각화가 왜 중요한 걸까? ‘비주얼라이즈 디스(Visualize This)’ 저자인 네이선 야우의 설명을 한번 들어보자.

대규모 데이터를 탐색하거나 이해할 때 가장 좋은 방법은 시각화다. 시각화란, 숫자를 공간에 배치해서 보여줌으로써 그 패턴을 인지하게 만드는 것이다. 인간에겐 탁월한 패턴 인식 능력이 있다. 데이터 시각화는 통계 분석 기법으로는 도저히 알 수 없는 데이터의 이야기를 끌어낼 것이다.

지난 2012년 로이터통신이 선보인 ‘미국 빈부격차(The Unequal State of America)’ 시리즈 는 데이터 시각화를 통해 정보를 입체적으로 전해주는 데 성공한 경우다. 로이터통신은 이 시리즈에서 인구 서베이 자료를 비롯한 다양한 데이터를 토대로 미국의 빈부 격차가 관련 조사가 시작된 1960년대 이래 가장 큰 수준으로 벌어졌다는 사실을 밝혀냈다. 로이터통신은 지니 계수를 비롯한 몇 가지 지표를 토대로 1989년부터 2011년 까지 20년 사이에 미국의 빈부 격차가 어떻게 벌어졌는 지를 한 눈에 볼 수 있는 인포그래픽을 선보여 많은 관심을 모았다. 데이터 분석 기법과 시각화 기술을 잘 접목해 명품 기사로 만들어내는 데 성공한 것이다.

미국 빈부 격차가 얼마나 확대됐는지 보여주는 로이터통신의 그래픽 기사.

미국 빈부 격차가 얼마나 확대됐는지 보여주는 로이터통신의 그래픽 기사.

가디언이나 로이터통신, 그리고 한국의 뉴스타파 등은 데이터 분석 기법을 활용해 겉으로 드러나지 않은 진실을 보여주는 데 성공했다. 이게 바로 데이터 분석이 갖는 힘이다. 스마트폰과 SNS를 통해 뉴스가 실시간 유통되는 시대에는 데이터 분석을 통해 이면에 감춰져 있는 진실을 보여주는 데이터 저널리즘이 새로운 경쟁력의 토대가 될 것으로 기대된다.
하지만 데이터 저널리즘 전문가들이 공통적으로 지적하는 사항이 있다. 빅데이터 분석을 할 때 데이터에 대해선 늘 비판적인 자세로 접근해야 한다는 것이다. 데이터 만능주의에 빠질 경우엔 또 다른 오류를 범할 수도 있기 때문이다. 중요한 것은 데이터를 다루는 기자들의 뉴스 감각이다. ‘데이터 저널리즘 핸드북’을 엮어낸 그레이(Gray) 등도 이런 점을 강조하고 있다. 이들은 “데이터 저널리즘은 뉴스에 대한 전통적인 후각과 습득 가능한 디지털 정보를 잘 결합할 때 새로운 가능성이 열린다”고 지적했다.
모바일 시대가 본격화되면서 뉴스 시장에도 엄청난 변화의 바람이 불고 있다. 이젠 현장을 직접 목격한 일반인들이 기자들과 속보 경쟁을 하는 시대가 됐다. 예전 같은 단순 사건 보도만으론 제대로 된 경쟁력을 갖기 힘든 상황이 됐다. 기자들의 위기가 본격화된 것이다. 하지만 위기는 곧 기회가 될 수도 있다. 데이터 저널리즘을 통해 한 뼘 더 깊은 뉴스를 보도할 경우 새로운 경쟁력을 얻을 수도 있다. 실제로 세계 주요 언론사들은 벌써 이런 준비를 차근 차근 해나가고 있다. 뉴스캐스트 등을 한 바탕 홍역을 겪은 한국 저널리즘 역시 데이터 저널리즘에서 새로운 기회를 탐구할 필요가 있을 것 같다.

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

정보

이 엔트리는 5월 15, 2014에 님이 Media에 게시하였으며 , , , 태그가 지정되었습니다.

내비게이션

%d 블로거가 이것을 좋아합니다: