Hyper/Text

테크와 미디어, 그리고 컬처 관련 고품격 콘텐츠

‘인공지능’ 판별할 21세기형 튜링 테스트 필요하다


내가 엘리자(Eliza) 얘기를 처음 접한 게 언제였던가? 셰리 터클의 ‘Life on the screen’일까? 아니면 재닛 머레이의 ‘Hamlet on the holodeck’일까? 아마도 두 권 중 한 권이었던 것 같다. 엘리자는 컴퓨터 과학자 조셉 와이젠바움이 1996년에 만든 채팅 로봇이다. 엘리자란 여성 이름을 붙인 이 채팅 로봇은 많은 사람들에게 장난을 쳤다.

엘리자가 제법 사람인 척 할 수 있었던 비결은 뭘까? 간단하다. 상대방의 질문에서 키워드를 뽑아낸 뒤 사전에 프로그래밍된 대답을 하는 방식이다. 키워드가 없을 땐 어떻게 할까? 그냥 일반적인 대답을 해 버린다. 은근슬쩍 넘어가는 것이다. 그럼에도 불구하고 엘리자는 꽤 혁신적인 채팅 로봇으로 받아들여졌다. 와이젠바움이 엘리자를 만든 게 1966년이었기 때문이다.

튜링 테스트, 진짜 의미는 뭘까?

자, 이제 본론으로 들어가보자. ‘열 세살 유진’이 많은 사람들을 흥분시켰다. 64년 만에 ‘튜링 테스트’를 통과한 때문이다. 그 동안 ‘미지의 영역’으로 통했던 ‘30% 속이기’에 성공한 것. 일부 언론들은 “드디어 사람처럼 생각하는 컴퓨터가 등장했다”고 썼다. (그러고 보니 나도 일보는 저런 톤으로 썼던 것 같다.)

하지만 서서히 비판적인 기사들이 많이 쏟아지고 있다. 좀 많이 과장됐다는 것이다. 어제, 오늘 여러 자료들을 접하고 난 뒤 나도 비슷한 결론을 내리게 됐다. ‘튜링 테스트’란 것 자체가 과장됐다는 쪽으로 생각을 굳히게 됐다. 그런 생각을 하게 만든 결정적인 글은 ‘그 컴퓨터는 실제론 튜링 테스트에서 F학점을 받았다’는 와이어드 기사 때문이었다.

영국 체셔 주에 있는 앨런 튜링의 생가. [자료=위키피디아]

영국 체셔 주에 있는 앨런 튜링의 생가. [자료=위키피디아]

여기서부터 ‘원본 중시’란 내 외신기자 철학을 발동하게 됐다. 아예 튜링테스트의 근원이 된 ‘컴퓨텅 기기와 지능(Computing machines and intelligence)’란 논문을 찾아 읽기로 했다. 1950년 ‘마인드(Mind)’지에 게재된 논문이다. 총 29쪽으로 요즘 논문들과 비슿한 분량. 다른 점이 있다면, 인용이나 각주가 거의 없다는 점. 그냥 쭉 자기 생각을 적은 뒤 끝 부분에 간단한 참고문헌만 밝혀주고 있었다.

암호학을 비롯해 각종 선진 학문에 능통했던 튜링은 그 논문에서 “기계도 과연 생각을 할 수 있을까?”란 질문을 던진다. 이를 위해 먼저 모방 게임(immitation game) 얘기부터 풀어나간다. 모방 게임은 간단하다. 남자(A), 여자(B), 질문자(C)로 구성된 3인만 있으면 된다. 질문자 C가 5분 동안 두 사람에게 질문을 던진 뒤 어느 쪽이 남성인지, 또 어느 쪽이 여성인지 가려내면 된다.

모방게임으로 운을 뗀 튜링은 남자와 여자로 구성된 게임을 인간(A)과 기계(B)로 바꾸면 어떻게 될까, 란 질문을 던진다. 모방 게임을 해서 기계인지, 인간인지 구분이 안 되는 ‘생각하는 기계’를 과연 만들어낼 수 있을 것이냐는 게 이 논문의 문제의식이다. 그는 이 논문에서 한 가지 예측을 한다. 다음과 같은 내용이다.

50년 뒤에는 모방 게임을 해서 보통 사람으로 구성된 질문자들이 5분 동안 대화를 한 뒤 (컴퓨터의) 진짜 정체를 알아낼 수 있는 확률이 70%를 넘지 않도록 프로그래밍 하는 것이 가능해질 것으로 믿는다.

앨런 튜링의 논문 '컴퓨팅 기기와 지능' 중 튜링 테스트의 근거가 된 부분.

앨런 튜링의 논문 ‘컴퓨팅 기기와 지능’ 중 튜링 테스트의 근거가 된 부분.

그러니 30%란 기준 자체가 알려진 것처럼 큰 의미는 없다는 주장이다. 그러니 지금까지 30% 이상 속이면 인공지능 컴퓨터로 인정할 수 있다는 ‘튜링 테스트’의 기본 전제 자체가 오해에서 비롯됐다고 와이어드는 주장한다. (논문을 끝까지 읽지 않아서 잘 모르겠다. 하지만 논문을 훑어본 바로는 튜링이 딱 부러지게 30%란 문턱을 제안한 건 아닌 것 같다.)

실제로 이번 테스트를 한번 살펴보자. ‘유진 구스트만’을 심사한 사람은 총 30명이었다. 그 중 10명이 깜빡 속아 넘어갔다. 33%를 속였으니, 일단 30%는 넘었다. 참 아슬아슬했던 셈이다.

21세기에 튜링 테스트가 갖는 의미는?

그렇다고 우리가 앨런 튜링까지 폄훼할 건 없다. ‘컴퓨팅 기기와 지능’을 읽어보면 튜링이 얼마나 시대를 앞서간 인물인지 알 수 있다. 그는 ‘디지털 컴퓨터’라는 개념조차 생소하던 시절에 이미 ‘생각하는 기계’란 꿈을 키웠기 때문이다. “50년 쯤 뒤에는 30% 가량을 속이는 컴퓨터를 만들 수 있을 것”이란 그의 예측은 후대 과학자들에게 넘어야 할 목표를 제시해 준 측면이 강하다.

실제로 엘리자를 비롯한 수 많은 프로그램들이 탄생할 수 있었던 건 튜링이 제시한 선진적인 기준 덕분이었다. 그런 점에서 튜링은 시대를 앞서간 인물인 건 분명하다. 하지만 튜링의 역할은 딱 그 지점까지다.

지금 세상은 1950년대 인간인 튜링이 상상 속에서나 그릴 수 있었을 정도로 발달했다. 구글은 ‘운전자 없이 저절로 갈 수 있는’ 무인 자동차를 개발했다. 넷플릭스는 고객 스스로도 잘 모르는 취향을 기가 막히게 알아내는 알고리즘을 개발했다. 이런 시대에 튜링이 제안한 방법으로 테스트를 한 뒤 ‘인공지능 컴퓨터’라고 인정하는 건, 시대착오적인 처사일 수도 있기 때문이다.

다시 튜링의 논문으로 돌아가보자. 논문에서 튜링은 ‘모방게임’을 어떻게 해야 좋을 지 많은 고민을 하고 있다. 질문자와 응답자가 직접 대화를 할 경우 목소리 때문에 바로 정체가 탄로나기 때문이다. ‘필담’을 나누는 것도 위험하다. 그래서 그는 ‘원격 커뮤니케이션을 할 수 있다면 좋겠다’는 의견을 제안한다. 이를테면 요즘 흔히 사용하는 메신저 같은 것들을 통해 대화를 하면 좋겠다는 의견을 제시한 것이다. 논문이 발표된 게 1950년이란 점을 감안하면, 따라서 논문이 어쩌면 1940년대 말에 씌어졌을 수도 있다는 점을 고려하면, 엄청난 일이 아닐 수 없다.

자, 이 때 만들어진 기준을 갖고 21세기 인공지능 컴퓨터의 기준을 삼는다는 게 시대착오적이 아니라고 할 수 있겠는가? 제 아무리 손꼽히는 천재일지라도 60년에 걸쳐 축적된 학문의 깊이까지 뛰어넘을 순 없을 터이기 때문이다.

개리 마커스 뉴욕대 교수가 이 부분을 잘 지적했다. 그는 뉴요커에 기고한 튜링 테스트 다음에 어떤 것이 올까? 란 글에서 ‘유진 구스트만’을 둘러싼 호들갑을 잘 지적하고 있다. 그는 유진과 직접 대화를 한 내용도 적고 있다.

Marcus: Do you read The New Yorker?
Goostman: I read a lot of books … So many—I don’t even remember which ones.
Marcus: You remind me of Sarah Palin.
Goostman: If I’m not mistaken, Sarah is a robot, just as many other “people.” We must destroy the plans of these talking trash cans!

한번 읽어보시라. 대화 자체가 좀 황당하다. 물론 상대방이 컴퓨터란 사실을 알고 대화했기 때문에 고의로 허점을 파고들 수 있었다는 점을 감안하고 읽어야 한다. 그렇다고 하더라도 이런 대화를 하는 컴퓨터를 ‘인공지능’이라고 부르긴 힘들다.

물론 유진 구스트만의 성과 자체까지 폄하할 건 없다. 마커스 교수 역시 유진 구스트만이 이뤄낸 기술은 게임 산업 같은 곳에선 유용하게 활용할 수 있을 것이라고 평가하고 있다. 충분히 동의할 수 있다. 그 부분을 그대로 옮겨보자.

The nicest thing one can say about Eugene Goostman is that his win on Saturday should be seen as encouraging news for anyone trying to build video games. If Goostman can fool a third of its judges, the creation of convincing computer-based characters in interactive games—the next generation of Choose Your Own Adventure storytelling—may be a lot easier than anyone realized.

자, 이제 글을 맺자. 마커스 교수는 21세기형 튜링 테스트를 새롭게 제안한다. 아무 TV프로그램이나 유튜브 동영상을 보여준 뒤 각종 질문에 답할 수 있어야 한다는 것. 그 정도는 돼야 스스로 사고하는 컴퓨터로 인정할 수 있다는 얘기다. 이를테면 “러시아는 왜 크림을 침공했나?” 라든가 “월터 화이트는 왜 제시를 때리려고 했나?” 같은 질문에 답할 수 있어야 한다는 것. 그도 아니면 시트콤인 ‘심슨 가족’을 보면서 웃어야 할 대목에서 웃을 수 있는 능력을 보여달라는 것. 그 정도는 돼야 인공지능 컴퓨터로 인정해 줄 수 있지 않겠냐고 주장했다.

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

정보

이 엔트리는 6월 10, 2014에 님이 Tech에 게시하였으며 , , 태그가 지정되었습니다.

내비게이션

%d 블로거가 이것을 좋아합니다: