“데이터 28만 건과 씨름… 원세훈 유죄에 감개무량”

[오마이뉴스] 2015년 2월 12일

오마이뉴스 링크 가기
정리 = <오마이뉴스> 대학생 인턴 21기

기사 관련 사진
 권혜진 <뉴스타파> 데이터저널리즘연구소장
ⓒ 이희훈

관련사진보기

공직선거법과 국정원법위반 혐의로 기소된 원세훈 전 국정원장이 지난 9일 항소심에서 징역 3년과 자격정지 3년을 선고받았다. 원 전 원장을 비롯한 국정원은 2012년 대선 당시 온라인에 야당 후보를 비판하고 정부·여당을 찬양하는 글을 올리는 등 여론 조작에 가담했다. 이 사실이 세상에 알려진 데는 <뉴스타파>와 데이터저널리즘의 공이 크다.

<뉴스타파>는 지난 2013년 3월 국정원 직원이 여론조작에 사용한 트위터 계정이 있다고 보도했다. 이후 실제 여론 조작 활동을 한 트위터 계정을 발견해 국정원의 선거 개입 의혹이 사실임을 밝혀냈다. 그 필두에 권혜진 데이터저널리즘연구소장이 있었다. 특히 국정원 대선 개입 사건에 대해 권혜진 소장은 “굉장히 의미 있고 분수령을 이루는 보도였다”고 자평했다.

권 소장은 10일 <오마이뉴스>와 한 인터뷰에서 “2개월간 트위터 계정 간 관계와 각 계정의 소셜미디어 활동을 분석했다”고 말했다. 그와 연구소 팀원들은 국정원의 대선 개입 의혹을 밝히기 위해 28만 건이 넘는 데이터와 씨름했다. 권 소장은 “분석한 데이터의 90%는 버리고 10%만 쓴다는 생각으로 작업한다”고 전했다. 이처럼 데이터를 수집해 분석하고 그 속에 감추어진 진실을 찾아 보도하는 것이 데이터저널리즘이다.

이 밖에도 <뉴스타파>는 ‘조세피난처 한국인 명단 공개’, ‘원전 비리 고발’ 등 데이터저널리즘을 활용해 진실을 알렸다. 권 소장은 “우리가 데이터를 만들고 (다른 언론사가 활용하도록) 그런 역할을 하고 싶다”면서 “우리가 데이터를 공개하면 그 데이터에서 아이디어를 얻고 후속보도가 나오는, 이른바 언론 생태계의 선순환을 일으키길 바란다”고 말했다.

또 권 소장은 “각 매체에도 (데이터저널리즘을 전문으로 하는) 팀이 만들어지길 바란다”면서 “<뉴스타파>가 전체 언론사의 데이터 인프라를 튼튼히 하는데 기여할 수 있으면 좋겠다”고 말했다.

다음은 인터뷰 주요 내용이다.

“국정원 대선 개입 폭로는 데이터저널리즘에 굉장한 의미”

- 원세훈 전 국정원장이 어제 유죄 판결을 받았다. 감회가 새로울 것 같은데.
“국정원 대선 개입 사건의 경우 취재 현장이 데이터였다. 가려진 데이터 더미에서 진실을 발견할 수 없었더라면 놓칠 수 있는 것들이 많았다. 트위터 계정 간 관계와 소셜미디어 활동 등을 분석했다. 이는 역사적으로 보도할 가치가 있는 중요한 현장을 취재하고, 가려진 데이터 더미에서 진실을 발견해내는 일이었다. 우리나라 데이터저널리즘 역사에서 굉장히 의미 있고 분수령을 이루는 보도가 아니었나 자평한다. (판결소식을 듣고) 감개무량했다.”

- 의혹을 사실로 밝혀낸 그 과정이 궁금하다.
“두 달 정도 매달렸다. 트위터 상에서 (국정원 직원들이 대선 개입) 활동을 했다는 의혹은 있는데 구체적인 물증이 없었다. 그리고 이미 트위터 계정이 삭제된 상태였다. 데이터를 수집해 네트워크 분석을 해보면 뭔가 나올 수 있을 거라 생각했다. 트위터 데이터를 저장하고 있는 곳을 알아봤는데 국내에선 얻기 힘들었다.”

- 정치적 상황 때문에 국내 업체들이 데이터 제공을 꺼려했나.
“그런 면이 있다. (국내 업체들이) 우리에게 트위터 데이터를 제공하기엔 부담이 있었을 것이다. 그래서 해외에서 구하기로 했다. 삭제된 계정의 데이터가 남아있는 사이트에서 크롤링(분산 저장되어 있는 데이터를 수집하여 검색 대상의 색인으로 포함하는 기술) 했다. 크롤링할 수 있는 프로그램을 개발하기 위해 외부 개발자도 섭외했다. 그렇게 28만 건 이상의 트위터 데이터를 수집했다.”

- 결과물을 받아들였을 때 ‘드디어 잡아냈다’는 기분이었을 것 같다.
“네 가지 기준을 갖고 (선거 개입 활동) 의혹이 있는 계정인지 판단했다. 첫째 국정원 여직원 사건(날짜 명시할 것) 당시에 삭제된 계정, 둘째 대선 후보가 확정되던 시점에 우후죽순으로 생긴 계정, 셋째 비슷한 소셜 미디어 활동 패턴을 보이는 계정, 넷째 정부를 찬양하거나 야당을 비판하는 내용을 게시한 계정. 이 기준들로 수집한 계정과 그 계정이 올린 맨션들, 각 계정들이 리트윗한 내역들을 데이터 마이닝(방대한 양의 데이터에서 유의미한 정보를 추출)했다.

분석 결과 최소 10개 이상의 계정 그룹이 조직적으로 활동한 정황이 보여 정부에 이에 대해 해명해 달라고 보도했다. 데이터 연구를 하는 학자라면 (의혹이) 확실하다고 장담할 수 없어 고민했겠지만 언론은 의혹을 제기할 수 있어야 한다고 생각했다. 또한 데이터를 공개하면 (언론사들이) 그것을 더 참고해서 보도할 것이라고 생각했다. 우리가 한 것은 어찌 보면 상당히 단순한 분석이었다.”

“국내 언론 데이터 구축 없어… 기자들이 맨땅에 헤딩할 수밖에”

기사 관련 사진
 권혜진 <뉴스타파> 데이터저널리즘연구소장이 10일 오전 서울 마포구에 위치한 <뉴스타파> 사무실에서 <오마이뉴스> 21기 인턴기자들과 함께 인터뷰를 하고 있다.
ⓒ 이희훈

관련사진보기

- 데이터저널리즘 작업은 기본 지식이 없으면 힘들지 않나.
“그래서 한 언론사에 두 명 정도는 그 일(데이터 저널리즘)만 전담하는 게 중요하다고 생각한다. 처음 전문 인력을 꾸릴 때는 당장 결과물이 나오지 않더라도 그 일만 할 수 있게 해야 한다. 또한 어느 기자든지 데이터를 활용할 수 있게 언론사 내부에 데이터베이스를 갖춰 놓을 필요가 있다. 이완구 총리 후보자 검증 관련해서 그 중요성을 느꼈다. 2002년 ‘차떼기 사건’ 당시 이 후보자가 5천만 원을 받았는데, 비슷한 시기에 타워 팰리스를 구입했다. 자금을 구입에 썼다는 연관성을 검증하기 위해 데이터가 필요했다.

93년 이후의 고위공직자들 재산 공개내역은 데이터로 있었지만 그 이전의 정보는 이미지 파일이어서 문자 인식을 일일이 해야 했다. 그래서 이제는 데이터를 쌓는 작업을 미리 해놓는다. 하지만 이런 작업이 돼 있는 언론사가 국내에 별로 없다. 해외처럼 공동으로 데이터저널리즘을 지원할 수 있는 단체가 있는 것도 아니다. 개별 기자들이 맨땅에 헤딩하듯이 데이터 분석을 할 수밖에 없는 현실이다.”

- 어떤 사람이 데이터저널리즘에 적합한가.
“오랫동안 언론사에서 지낸 경험에 비춰봤을 때 취재를 잘 하는 사람이 데이터저널리즘도 잘 한다. 현장 취재는 잘 못하고 데이터저널리즘만 잘 하는 사람을 전담 배치하는 건 잘못된 생각일 수도 있다.”

- 가장 중요한 건 기자의 감인가.
“꼼꼼한 건 필요하다. 데이터를 다룰 때 정확하고 꼼꼼해야 한다. 한 팀원이 그런 편이다. 그만 확인해도 된다고 해도 실수가 있지 않을까 싶어 끊임없이 확인하고 점검한다. 데이터 분석 시간을 100이라고 하면 50은 이런 오류를 검증하는 시간이다.”

- 그렇다면 데이터저널리즘 전문가에게 필요한 것은 무엇인가.
“데이터저널리즘을 하기 위해선 데이터가 있어야 하지 않나. 우리나라에선 분석가용 데이터를 얻기 힘들다. 해외에 있는 데이터셋(특정 주제별 데이터들의 집합)을 가져와 시각화하고 분석해야 한다. 데이터를 구하기 어려울 때는 여러 곳에서 취재하고 그 정보를 입력해 만든다. 4대강 사업과 관련해서 데이터를 수집하는데 사업을 수주한 업체들의 자료 전부를 복사하고 입력한 적이 있다. 그 중 정말 일부가 보도된다. (내게 필요한) 데이터의 검색은 어렵다. 그렇기 때문에 인비져블 소스(드러나지 않은 데이터), 정보공개 청구 등을 적극 이용하고 취재원을 파악해서 데이터를 구하는 것이 작업의 반이다.”

“탐사보도가 저널리즘의 한 축을 담당할 것”

- <뉴스타파>가 ‘조세피난처 한국인 명단 공개’보도로 많이 알려졌는데.
“‘조세피난처 한국인 명단 공개’야말로 진정한 데이터 프로젝트였다. 전체 데이터만 200기가바이트가 넘었고 파일 수가 200만 개에 달했다. 전재국(전두환 전 대통령의 장남)씨 이름이 발견된 곳은 여권을 복사한 사진 파일이었다. 사진 파일을 검색하려면 문자인식을 해야 하는데 이런 작업을 전 세계 탐사보도 매체 저널리스트들과 함께 직접 했다. 20년 넘게 (데이터저널리즘을) 연구한 입장에서 이 같은 멋진 데이터 프로젝트에 참여할 수 있어 감사했다. 비영리탐사보도 쪽에 있지 않았으면 어떻게 이런 데이터를 만져볼 수 있었을까 하는 생각이 들었다.”

- 데이터 간의 상관관계를 밝혀내지 못해 보도하지 못한 적도 있나.
“많다. 그래서 언론사에 데이터저널리즘 전문 인력을 갖추라고 이야기하는 것이다. 데이터를 분석하면 전체의 90%는 버리고 10%만 쓴다는 생각으로 작업한다. 처음 가설과 (분석 결과가) 다른 경우가 많다. 그 정도의 각오는 필요하다.”

- 사전적 정의 외에 개인적으로 데이터저널리즘에 대해 정의를 내린다면.
“데이터에 중점을 두느냐, 저널리즘에 중점을 두느냐가 중요하다. <가디언>의 데이터 에디터를 하는 사이먼 로저스는 데이터저널리즘을 저널리즘이라고 이야기한다. 데이터저널리스트는 저널리스트로 데이터라는 현장에서 취재활동을 하고 분석을 통해 보도한다. 즉 중점을 저널리즘에 둬야 한다고 생각한다.”

- 특정 기업이나 정치세력을 대변하는 언론이 데이터저널리즘을 활용할 때 사실 왜곡의 우려가 있지 않나.
“로 데이터(가공되지 않은 데이터)는 거짓말을 하지 않는다. 팩트 자체를 틀리게 쓰지 않는 이상 왜곡할 가능성은 줄어든다고 생각한다. 또한 데이터셋이 더 커지면 사실이 왜곡될 문제 소지가 적다.”

- <동아일보>에서 <뉴스타파>로 옮겼는데 지면 위주 뉴스에 한계를 느꼈나.
“그런 건 아니다. 뉴스 산업에서 미디어 비즈니스와 저널리즘이 양립할 수 있는 시점은 지났다. 직장을 옮기기로 결정한 때가 이 둘 중 하나를 선택하는 시점이 아니었나 싶다. 내가 언론사에 온 이유가 미디어 비즈니스를 하고 싶었기 때문인지 저널리즘을 하고 싶었기 때문인지 고민했다. 고민의 답을 내리기 어려웠지만 미디어 비즈니스를 하고 싶은 건 아니었다.

또 <프로퍼블리카>를 보고 결심했다. <프로퍼블리카>는 해외 주요 언론사에 있던 시니어 기자들이 모여서 탐사보도매체를 만든 형태다. 특종이 있을 수도, 없을 수도 있지만 <프로퍼블리카>라는 존재가 언론 생태계의 선순환을 만들어낸다고 생각했다. 그리고 이러한 비영리탐사보도매체가 저널리즘을 담당하는 한 축이라고 판단했다. 그 토대를 닦고 경험을 공유할 수 있으면 좋겠다는 생각에서 옮기기로 했다.”

- 앞으로의 데이터저널리즘과 <뉴스타파>의 역할은.
“우리가 데이터저널리즘을 잘하는 곳은 아니다. 훨씬 더 데이터저널리즘을 잘 할 수 있는 곳들이 생겨날 것이고, 각 매체에서도 그런 팀이 만들어지길 바란다. 저희는 다른 곳에서 만들기 어려운 오리지널 데이터(원본 데이터)를 생산할 것이다. 데이터셋을 확보하고 검색이 어려운 정보를 직접 입력하는 등 전체 언론사의 데이터 인프라를 튼튼히 하는데 기여할 수 있으면 좋겠다.”