Hyper/Text

테크와 미디어, 그리고 컬처 관련 고품격 콘텐츠

빅데이터와 외신 기자의 미래


몇 년 전부터 빅데이터 얘기가 꽤 많이 나온다. 물론 그 중 상당수는 빅데이터가 뭔지 제대로 이해를 못한 경우가 대부분이었지만, 어쨌든 빅데이터 분석이 꽤 화제인 것만은 분명하다. 이제 막 4강이 가려진 월드컵에서도 빅데이터 얘기가 심심찮게 흘러나올 정도다.

월드컵 빅데이터 얘기가 나오는 덴 구글이 큰 역할을 했다. ‘빅데이터 분석’을 토대로 16강전 8경기 결과를 정확하게 예측했기 때문이다. 다행히 8강전에서 한 경기 결과가 빗나가긴 했지만, 어쨌든 대단한 구글인 건 맞다. 데이터 분석만으로 경기 결과를 예측하는 게, 말처럼 쉬운 일은 아니기 때문이다.

구글 번역기와 빅데이터

구글 번역기 얘길 하려고 빅데이터를 화두로 꺼냈다.  구글 번역기도 대표적인 빅데이터 분석의 산물이기 때문이다.

요즘 구글 번역기는 최소한 유럽어권 언어 번역은 꽤 정확하게 해낸다. 왜 그럴까? 흔히들 ‘어순이 비슷하기 때문’이라고들 한다. 맞는 얘기일까? 구글 번역기가 어순 비슷한 글은 잘 번역하고, 어순이 많이 다른 글은 번역 정확도가 떨어진다? 그렇다면 구글 번역기가 인공 지능이란 얘기인데. 말이 안 되는 얘기다.

스크린샷 2014-07-08 오전 10.24.33

그럼 구글 번역기는 어떤 원리로 작동하는 걸까? 바로 빅데이터 분석이다. 그리고 그 출발점은 유럽연합의 각종 문건들이라고 들었다. 무슨 얘기냐고? 유럽연합 공식 문건은 세계공용어인 영어 뿐 아니라 회원국 언어 버전을 모두 만들어야 한다. 그러니 번역 사례가 무지하게 많다. 게다가 공식 문건이니 번역을 얼마나 정확하게 했겠는가?

구글은 이 데이터를 바탕으로 번역기를 만들었다고 한다. 각종 세계문학 번역을 비롯한 다른 자료들도 많이 활용했겠지만 핵심은 유럽연합의 공식 문건이었다. 구글 번역기는 이렇게 축적된 데이터에서 비슷한 문장을 찾아서 일치시켜주는 방식으로 작동한다. 당연히 데이터가 많아질수록 번역 정확도는 높아질 수밖에 없다.

당연한 얘기지만 한영번역이나 영한번역 정확도가 떨어지는 건 데이터가 턱 없이 부족하기 때문이다. 자, 오해하지 말자. 구글 번역기. 1형식 문장이라고 잘 번역하고 5형식 문장이라고 헤매는 것 절대 아니다. 그냥 쌓여 있는 데이터가 많을 수록 번역을 잘한다는 얘기다.

빅데이터 시대 외신 보도의 미래 

제목에서부터 짐작했겠지만 내가 구글 번역기 얘기하려고 이 글 시작한 건 아니다. 요즘 난무하는 IT 외신 기사 얘기하려고 빅데이터로 바람을 잡았다.

요즘 IT 뉴스는 외신 비중이 지나치다 싶을 정도로 높은 편이다. 너나할 것 없이 외신뉴스를 쏟아낸다. IT 전문 매체나 연예, 스포츠 매체 가릴 것 없다. 애플, 구글, 페이스북 얘길 해야 먹히기 때문이다. 한국 뉴스는 통신 요금이나 보조금, 삼성 얘기 정도가 그나마 인기를 끄는 정도다.

그러니 당연히 외신 뉴스에 대해 좀 더 진지한 고민을 할 필요가 있다. 조금 먼 얘기가 되겠지만, 빅데이터 시대 외신 보도의 운명에 대해서도 한번쯤 생각해봐야 할 때가 됐다.

난 앞으로 외신 보도 관행의 최대 변수는 뉴스 시장의 탈국경화로 인한 저작권 강화와 빅데이터 기술 발달이라고 생각한다. 무슨 얘기냐고? 뉴스 시장에서 국경이 무너지기 시작하면서 외신 단순 인용 보도가 저작권 침해 혐의를 받을 가능성이 갈수록 높아지고 있다. 아무 생각 없이 전문 인용 보도하다간 큰일날 가능성이 커지고 있다는 얘기다.

진짜 얘기하고 싶은 것은 두 번째 부분이다. 시일이 좀 걸리긴 하겠지만 데이터가 엄청나게 축적되면서 구글 번역기의 영한번역 정확도가 유럽어권 수준으로 높아진다고 가정해보자. 그 때가 되면 단순 번역 보도는 설 자리가 없어질 수도 있다.

먼 얘기라고? 요즘 일본 야구 소식 보도는 이미 그렇게 됐다. 일본어 모르는 기자들 번역기 돌려서 기사 잘 쓴다. 큰 문제 없이 소화해내고 있다.

자, 글을 그만 맺자. 외신 기사로 밥 벌어먹고 사는 난 빅데이터가 뉴스 시장 국경 붕괴 현상이 계속 신경 쓰인다. 그래서 요즘은 가급적 맥락을 진단하는 쪽에 눈을 돌리려고 노력하고 있다. 가능하면 외신 기자들을 ‘인용 대상’이 아니라 ‘경쟁 대상’이라고 생각하려 한다는 얘기다.

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

정보

이 엔트리는 7월 8, 2014에 님이 Media, Tech에 게시하였으며 , 태그가 지정되었습니다.

내비게이션

%d 블로거가 이것을 좋아합니다: