‘박근혜 7시간’, 데이터 저널리즘으로 밝혀낼 수 있을까

[미디어오늘] 2014년 11월 9일

미디어오늘 링크 가기

미디어오늘이 ‘한국의 전문기자들’ 기획 인터뷰를 연재합니다. 저널리즘의 가치가 추락하고 선정적인 이슈 경쟁과 가십성 낚시 기사가 범람하는 시대, 격동의 취재 현장에서 전문 영역을 개척하면서 뉴스의 사각지대와 이면을 파고들고 저널리즘의 본질을 추구하는 ‘진짜 기자’들을 찾아 나서는 기획입니다. <편집자 주>

“노려보고 있으면 어느 순간, 매직 아이처럼 튀어 오릅니다. 신심을 갖고 봐야 돼요.”

권혜진 뉴스타파 데이터저널리즘연구소 소장이 말하는 데이터 더미에서 유의미한 데이터를 뽑아내는 방법이다. 신심을 가지란 건 물론 농담이다. 그렇지만 실제로 한없이 들여다봐야 할 때가 있다. 결국 기자의 감이 절대적이다. 데이터 저널리즘 역시 결국은 저널리즘이라 기술적인 문제 이전에 ‘야마’를 잘 잡는 게 중요하고 데이터를 찾고 정리하는 작업이 거의 절반이다.

“저희 팀은 데이터가 출입처인 셈이지요. 과학적인 데이터 분석을 통해 팩트를 발굴합니다. 하지만 현장 취재 기자와 협업을 하다보면 데이터를 들여다 볼때 현장 취재 기자들의 ‘감’이 더 뛰어날 때가 있었어요. 저흰 그걸 ‘매직아이 기법’이라고 농담처럼 얘기합니다.”

데이터저널리즘연구소는 2월부터 국가정보원 대선 개입 연루 의혹이 잇는 트위터 계정을 추적했다. 국가정보원 대선 개입 사건에 연루된 것으로 추정되는 트윗을 뽑아봤더니 무려 28만건, 의혹은 있지만 실체를 드러내고 입증하기는 쉽지 않았다. 그래서 대선 직전 삭제된 아이디들 목록을 뽑아서 정치적 관련 메시지가 많은 아이디들을 추리고 의심이 가는 아이디들을 중심으로 리트윗을 추적하면서 트윗을 추려내기 시작했다.

데이터 저널리즘이 밝혀낸 국가정보원 연루 트윗 계정의 사회연결망 지도. ⓒ뉴스타파.

사회연결망 분석을 통해 일정한 패턴이 드러났고 10개의 그룹으로 나뉜 658개의 트윗 아이디의 관련성이 그야말로 매직 아이처럼 드러났다. 놀라운 순간이었다. 아이디어 자체는 간단했다. 국정원이 조직적으로 여론 조작을 했다면 비슷한 시기에 무더기로 트윗 계정을 만들어서 활동하고 대선 직전에 삭제했을 가능성이 크다. 그리고 이들이 서로 알고 있었다면 서로의 트윗을 리트윗했을 가능성이 크다. 이런 가정에서 출발했다.

“데이터 저널리즘이란 게 현장취재의 보조적인 역할이 되기 쉽죠. 그런데 국정원 트위터 분석은 데이터 저널리즘이 메인이고 여기가 바로 현장이었습니다. 데이터는 분명히 있는데 손을 대지 못하는 상황이었죠. 우리는 숨어있는 팩트를 데이터 분석으로 찾아냈습니다. 한국 데이터 저널리즘 역사에서 비중있게 기록될만한 사건이었다고 생각합니다. 20년 가까이 이쪽 분야에서 일을 했지만 이 보도로 데이터 저널리즘의 가능성과 미래를 확신하게 됐다고 말하면 너무 거창한가요?”

아이디어는 쉬웠지만 구현하기는 만만치 않았다. 일단 삭제된 트윗 계정을 확인하고 트윗 내용을 복구하는 게 관건이었다. 그런데 국내 데이터 관련 업체들이 국정원 관련 이슈라는 걸 알고 곤란해 했다. 그래서 해외 업체들을 찾았다. 트윗 데이터베이스는 공식적으로 판매하는 곳도 있다. 데이터를 확보하고 나니 고구마 줄기를 캐듯 국정원의 음모가 드러나기 시작했다.

이를 테면 이런 취재는 눈덩이를 굴리는 것과 같다. 취재 기자의 감과 데이터 기자의 분석이 결합될 때 시너지 효과를 발휘한다. 계정을 하나 잡고 그 계정과 연관된 리트윗을 모두 크롤링한 다음 그렇게 확보된 계정에서 다시 크롤링을 확장한다. 이 과정에서 정보가 계속 불어난다. 수집된 정보는 사회연결망 분석(SNA) 에서 커뮤니티 분석 기법으로 그루핑한다. 그 결과 이 658개의 계정이 10개의 그룹으로 활동했으며 3744건의 글이 이 그룹 안에서 5만5639번이나 리트윗 됐다는 사실을 밝혀낼 수 있었다.

권 소장은 이화여대 문헌정보학과를 졸업하고 포스데이터에서 데이터베이스 전문가로 활동하다가 1995년 중앙일보와 1999년 동아일보를 거치면서 리서치와 데이터 분석을 결합한 새로운 저널리즘의 영역을 개척했다. 2012년부터는 뉴스타파로 옮겨 리서치 디렉터 겸 데이터저널리즘연구소 소장을 맡고 있다. 중앙일보와 동아일보에서는 아무래도 취재 기자들을 지원하는 역할이 많았지만 뉴스타파에서는 데이터 중심의 독자적인 탐사 프로젝트도 준비하고 있다.

뉴스타파가 분석한 공직자 재산공개 현황. 이미 공개된 자료를 횡으로 종으로 자르고 쪼개고 다시 합치는 과정에서 새로운 의미가 드러난다. ⓒ뉴스타파.

권 소장이 데이터 저널리즘의 대표 사례로 꼽는 3가지 가운데 첫 번째가 국정원 트윗 추적이고 두 번째는 조세회피처 추적 보도, 그리고 세 번째는 공직자 재산 공개 보도다. 200만개가 넘는 파일에 용량이 260GB나 됐다. 팩트 자체도 충격적이었지만 세계적 특종에 참여할 수 있었던 평생 잊지 못할 감격적인 프로젝트로 꼽는다.

공직자 재산 공개 보도는 꼭 필요한 데이터 프로젝트의 첫 걸음을 떼었다는데 의의를 둔다. 이미 공개된 자료인 데다 수많은 언론이 숱하게 많은 기사를 쏟아냈지만 대부분 비슷비슷하다. 정부가 공개하는 자료는 문서 이미지를 스캔한 PDF 파일로 제공된다. 데이터 가공이 어렵기 때문에 적당히 눈으로 들여다보거나 정부가 제공한 결과 이외의 정보를 파고들기가 쉽지 않다.

뉴스타파 데이터저널리즘연구소 팀은 해마다 공개되는 고위공직자 재산 파일을 데이터베이스로 만들고 있다. 문서 인식 프로그램을 돌리면 간단히 해결될 문제지만 가로 줄이 맞지 않아 인식을 못한다거나 행과 열이 깨져 있다거나 하는 경우는 모두 수작업으로 직접 보정을 해줘야 한다. 그렇게 모든 데이터를 스프레드시트에 정제하고 나니 비로소 다양한 분석이 가능하게 됐다. 뉴스타파는 이렇게 만든 데이터베이스를 대부분을 인터넷에 공개했다.

때로는 한 장의 그래프가 수십매짜리 기사 여러건 보다 더 많은 말을 한다. 한국수력원자력 계약업체들 임원들 현황. ⓒ뉴스타파.

권 소장 뿐만 아니라 데이터 저널리즘 전문가들은 하나 같이 “데이터 저널리즘의 80%는 자료 수집과 가공”이라고 말한다. “데이터를 다루는 일은 굉장히 지루하고 끈기와 집념을 필요로 하는 작업”이라고도 말한다. 흔히 외국은 리서처와 애널리스트가 따로 있는 경우가 많지만 권 소장 같은 경우는 두 가지 작업을 동시에 해 왔다. 자료 수집부터 데이터 분석과 가공, 비주얼라이제이션까지 맡는 ‘올라운드 플레이’가 가능해야 했다.

요즘은 데이터 저널리즘 관련 강좌도 많이 생겼지만 몇 시간 배운다고 터득할 수 있는 건 아니다. 조세회피처 보도의 경우 한국 주소는 드러났지만 실제 거주지가 아닌 경우도 많고 영어 이름과 한국 이름이 다른 경우도 많았다. 네이버나 구글 검색으로 뚝딱 나오는 자료도 아니다. 등기부 등본은 기본이고 과거 기사 검색과 인비저블(invisible) 웹이나 버티컬 포털을 최대한 효율적으로 뒤져야 한다. 정해진 답이 없고 사안에 따라 해법이 다 다르다.

조세회피처 보도는 권 소장에게 그동안 쌓은 데이터 리서치 노하우를 마음껏 풀어놓을 수 있는 흥미로운 도전이었다. 어딘가에는 있는 자료지만 어떻게 그걸 찾고 관련성을 읽어내느냐가 관건이다. 데이터 저널리즘은 마치 거대한 퍼즐의 조각을 맞춰나가는 것과도 같다. 현장 기자의 감이 중요하지만 그 감을 입증하기 위해서는 권 소장과 같은 전문가들의 도움이 필요하다. 때로는 현장 취재로 얻을 수 없는 정보를 데이터에서 발견하는 일도 있다.

노가다를 최대한 줄일 수 있는 방법은 없을까. 자료 다듬는 데 시간을 들이기 보다는 애초에 정부 부처에서 ‘머신 리더블’한 자료를 달라고 요구하는 게 근본적인 해법일 수 있다. 그러나 몇 사람의 노력으로는 잘 바뀌지 않는다. 가디언 데이터 블로그 팀장 출신의 사이먼 로저스가 한국을 방문했을 때 “PDF를 텍스트로 바꾸는 데 엄청난 시간을 들인다”고 해서 역시 어디나 마찬가지구나 하는 생각을 했다고 한다.

 

권혜진 뉴스타파 데이터저널리즘연구소 소장. ⓒ뉴스타파 제공.

조세회피처 보도를 두고 다른 언론사에서 질시어린 시선도 많이 받았다. 운 좋게 자료를 받아서 특종을 한 것일 뿐, 분석 자체는 누구나 할 수 있는 것 아니냐는 지적도 있었다. 실제로 국제탐사보도언론인협회(ICIJ)에 자료 요청을 한 국내 언론사가 굉장히 많았다. 뉴스타파가 비영리 탐사 보도라는 간판을 내걸었기 때문이기도 하지만 과거 리서치와 데이터에 기반한 조세회피처 보도를 꾸준하게 해 왔다는 사실을 높이 평가했던 것 같다는 게 권 소장의 설명이다.

권 소장은 “조세회피처라고 해서 복잡하게 생각할 거 없다”면서 “다트만 잘 뒤져도 엄청나게 많은 정보를 얻을 수 있다”고 말한다. 다트(dart)는 금융감독원 전자공시 사이트를 말한다. 기업 결산 보고서와 감사 보고서 등이 올라오는데 주주 구성과 출자 관계 등의 정보도 담겨 있다.

“이 일을 시작하면서 먼저 데이터를 만들어야 되겠다는 생각을 했습니다. 한국은 특히 쓸 수 있는 데이터가 많지 않아요. 힘들여서 만든 데이터를 기사 한 번 쓰고 버리는 경우도 많죠. 그래서 우리가 먼저 데이터를 만들어서 공개하고 다른 언론사들도 다양한 취재와 보도에 활용할 수 있는 공공적인 데이터베이스를 만드는 작업을 해보고 싶었죠. 공직자 재산 분석 보도는 그런 첫 사례였다고 생각합니다.”

미국 시카고대 교수인 스티븐 레빗이 쓴 ‘괴짜 경제학’에는 일본 스모 선수들의 조직적 승부 조작 정황을 시합 결과를 데이터 분석으로 입증한 사례가 나온다. 스모 정규 대회는 선수들마다 15차례의 시합을 하는데 8승 이상이면 순위가 오르고 그 미만이면 순위가 떨어지거나 탈락될 수도 있다. 그래서 대회 마지막날 7승7패한 선수와 8승6패한 선수가 붙는 경우를 모두 더해 통계를 내봤더니 7승7패한 선수가 이기는 확률이 압도적으로 높게 나타났다.

이를 테면 한국처럼 법관의 전관예우 문제가 심각한 나라에서는 판사와 검사, 변호사의 출신학교 데이터를 집어넣고 양형과 비교 분석해 보면 유의미한 결과가 나올지도 모른다. 금융감독원에서는 주가조작 사건을 수사할 때 합리적이지 않은 거래(더 싸게 살 수 있는데 비싼 가격에 매수 주문을 낸다거나)를 모니터링하면서 비슷한 패턴을 보이는 계좌들 사이의 상관관계를 파고든다. IP 주소를 교차 확인하면 대부분 주가조작을 잡아낼 수 있다.

권 소장 팀은 조류독감 발생지를 조사하면서 발생지의 정확한 주소를 국내 자료에서 확인할 수 없었다. 그런데 한국 정부가 UN 국제수역국에 보고한 자료에서 발생지의 좌표를 찾을 수 있었다. 국내 자료를 해외에서 구할 수 있는 경우가 종종 있다. 원자력발전소 비리를 취재할 때 한국수력원자력이 발주한 계약 현황과 계약을 수주한 기업에 재취업한 원전 관련 공기업 퇴직자 명단을 입수해 그 관계를 분석하기도 했다. 정보는 넘쳐난다. 그걸 찾는 게 문제 해결의 80%다.

이를 테면 박근혜 정부 최대 미스터리로 꼽히는 4월16일의 사라진 7시간을 데이터 저널리즘 기법으로 규명할 수 있을까. 권 소장은 “중요한 건 계속해서 질문을 던지고 가설을 갖고 그 가설을 입증할 데이터를 추적해 들어가는 것”이라고 말했다. 100% 진실을 밝혀내지는 못하더라도 실체에 어느 정도 가깝게 접근할 수는 있다는 이야기다.

데이터 저널리즘의 성과가 알려지면서 데이터 저널리스트가 되고 싶다는 지망생들이 늘어났는데 아직 언론사의 수요는 제한적이다. 권 소장은 이 후배들에게 “우선은 취재 기자들부터 데이터 저널리즘 기법을 익혀서 취재의 영역을 확장해 나가는 방향으로 가는 게 바람직하다”고 조언한다. 실제로 해외 데이터 저널리즘 관련 컨퍼런스 발표 내용을 보면 취재 기자 출신이 대부분이다.

일단은 스프레드시트(엑셀 등) 활용법부터 익히는 게 중요하고 무엇보다도 데이터에서 의미를 뽑아내는 훈련이 필요하다. 구글 퓨전테이블(Fusion Tables)이나 타블로(Tableau), 노드엑셀(NodeXL) 같은 툴은 일반 취재 기자들도 조금만 익히면 바로 활용할 수 있다. 데이터 저널리스트라고 해서 엄청나게 복잡한 기술과 장비를 활용하는 게 아니라는 이야기다. 인포그램 같은 서비스를 이용하면 디자이너 도움 없이도 직접 인포그래픽을 만들 수 있다.

권 소장은 한국언론재단 등에서 오랫동안 기자 대상 교육 의 강사로도 오랫동안 활동해 왔다.  다른 언론사 후배 기자들이 자문을 요청하면 조언을 아끼지 않는 편이다. 그들이 취재에서 부딪히는 어려움을  잘 알기 때문이다.

데이터 저널리즘은 80% 이상이 ‘삽질’의 연속이다. 취재가 접근할 수 없는 영역, 수면 아래 가라앉아 있는 진실에 접근하는 게 데이터 저널리즘의 역할이지만 데이터를 가공하고 분석하는 건 다음 단계고 우선은 데이터에 접근하는 과정이 더욱 중요하다. 취재의 보완이나 대안이라기 보다는 취재의 확장이라고 보는 게 맞다는 게 권 소장의 설명이다.