본문 바로가기

나라 꼬라지/사회

빅 데이터를 보는 시각

요즘 빅 데이터(Big Data)라는 말이 유행이다. 사람들은 이 말에서 돈 냄새를 맡기도 하고 새로운 세상의 냄새를 맡기도 하나보다. 여기저기서 요녀석이 누군지 궁금해 한다. 좀 긴 안목으로 정리해 본다면 요 녀석이 누구인지 이해하는데 조금 도움이 될 것 같다는 생각이 들어 약간 거칠지만 긴 시간 동안의 흐름을 소개해 보려고 한다. 미리 밝혀 둘 것은 컴퓨터가 탄생하던 그 시작 시기부터 컴퓨터과학은 통계학과 뗄 수없는 샴쌍둥이였다. 비록 두 영역이 서로 다른 영역을 널리 개척해 왔고 그래서 또 서로 다른 듯 발전해 왔지만 말이다. 그래서 이 둘이 결합된 샴쌍둥이를 나는 편의상 데이터과학(이미 존재하는 용어이다, Data Science)이라고 부르겠다. 또 한 가지, 이곳에 나열한 년대를 정확한 시기 구분으로 읽지 말아주었으면 좋겠다.


70년대에 데이터과학의 최대 관심사는 로봇이었다. 이때의 로봇은 인조인간, 즉 범용성을 갖는 존재였다. 로봇을 만드는 데는 하드웨어 기술과 함께 그 로봇을 작동시키는 두뇌인 소프트웨어 기술도 필요했는데, 당연히 데이터과학은 소프트웨어 기술을 담당하였다. 샛길로 잠시 빠져 나가보면, 그 때 만들어진 개념이 객체지향(OOP)언어이다. 요즘 이 개념을 구현하지 않은 언어는 프로그래밍 언어 취급도 못 받는다. 그런데 이런 범용성 로봇을 구현하는 것이 환상이라는 점을 금 새 깨닫게 된다. 생물학적 메모리 소자로 이루어진 인간의 두뇌가 엄청나게 많은 정보를 저장하고 있다는 것을 알게 된 때문이기도 하지만 기본적으로는 해결해야 할 난제들이 너무 많다는 것을 알게 된 때문이다. 평균적인 사람의 두뇌가 저장하고 있는 정보와 같은 양의 정보를 저장하려면 어마어마한 크기의 메모리 장치가 필요하다. 그래서 한 때 생물학적 메모리소자 개발이 주요 연구주제였던 시기가 있었다.

 

범용성 로봇이 환상이라고 깨달은 과학자들은 80년대에 들어와 관심을 인공지능(artificial intelligence)나 전문가시스템(expert system)이라고 하는 소프트웨어 기술로 돌린다. 전문가시스템은 특정한 한 가지 업무를 마치 그 분야의 전문가가 수행하는 것처럼 대신 수행할 수 있는 소프트웨어이다. 이 기술을 구현하는 데는 역시 방대한 양의 지식을 저장할 수 있는 메모리 기술과 여기에 덧붙여 소프트웨어가 사람처럼 추론을 하는 기능을 가져야 하기 때문에 추론기술이 발달하게 된다. 당시에 단순한 기능만을 사람대신 수행할 수 있는 시스템들이 만들어지고 실용화 되었으나 보편적으로 응용될 수 있을 만큼 기술이 발전하지는 못했다. 당시에 전문가시스템을 구현할 수있도록 도와주는 툴들이 개발되었고 이를 계기로 전문가시스템이 획기적으로 확산될 것으로 기대를 모았지만 툴만이 문제가 아니었기 때문에 한차례 바람몰이로 그쳤다.

 

이 두가지 영역의 발전이 이루어지면서 데이터과학자들의 새롭게 개척하여 우리 주변에 실물로 등장한 것이 특정 영역의 업무를 인간 대신 수행하는 단순기능 로봇들이다. 우리가 흔히 보거나 듣는 것들로는 공장에서 사용하는 자동화기기, 청소로봇, 암살 및 정보 수집용 무인기 드론, 일본에서 연구하고 있는 간호사 로봇 등이 있다. 대략 2000년대의 일이다.

 

그런데 90년대에 데이터과학자들에게 그 동안의 연구결과를 적용해 보고 싶은 새로운 현상이 나타난다. 인터넷의 등장과 메모리 가격의 하락, 각종 센서의 확산 그리고 컴퓨팅 속도가 눈부시게 빨라져 그 동안 전혀 인식하지 못하거나 혹은 알아도 감히 손대보지 못했던 데이터들에 관심을 갖게 된 것이다. 예를 들면 신용카드 회사들은 카드 소지 고객들이 카드를 사용한 지역정보를 이용해 사용 장소를 지도 위에 표시해 보면 카드 사용빈도가 높은 곳을 보여주는 카드사용지도가 만들어진다. 인터넷 접속 데이터를 분석해 어느 중계링크가 악성 공격포스트인지 찾는 것과 같은 일들이다. 이런 종류의 데이터는 의도적으로 만들어지지 않았고 그 양이 너무 방대해서 과거에 통계적 방법들로 다루던 표본 데이터와 달리 손 안에 잡히지 않는다는 특징이 있다. 업무 상, 혹은 전혀 다른 목적으로 자동으로 생성되던 데이터들이다.

 

이 시기에 중요하게 등장한 기술들이 통계 그래픽스와 데이터마이닝(이는 포괄적인 용어로 이 범주로 묶을 수 있는 기법들은 매우 다양하다)이다. 데이터 자체가 분석을 목적으로 만든 것이 아니기 때문에 그 데이터들 속에서 어떤 의미 있는 분석결과를 찾는 것 역시 의도적으로 수행 할 수있는 데이터들이 아니다. 통계 그래픽스 기술은 수치만으로는 전혀 데이터 속에 숨긴 정보를 식별해 낼 수 없기 때문에 시각화하여 한눈에 데이터가 담고 있는 정보를 알아보기 위해 적용되었다. 데이터마이닝 기술은 데이터가 가진 숨은 정보를 금광 캐듯이 찾아간다고 해서 붙은 이름이다. 특히 고객들이 게시판에 올린 글들을 분석하는 텍스트마이닝(text mining) 기술도 널리 사용되었다.

 

전통적인 통계학 기법들은 이론적인 관계를 기반으로 데이터에 맞는 모델을 일정한 형식으로 한정하고 그 한정된 모형의 범위 내에서 최적 모형을 찾는 방법이라고 단순화할 수 있다. 따라서 이론적인 관계를 특정화할 수 있으면 통계적인 기법들은 언제나 적용 가능한 범용성을 갖는다. 이에 비해 데이터마이닝 기법들은 범용성을 갖지만 실제로 분석에 적용하려면 사례 하나하나가 독립적인 프로젝트가 될 수밖에 없는데, 그것은 애초에 분석 대상이 되는 데이터들이 이론적인 관계를 정립하고 추론할 성격이 아니기 때문이다. 통계적인 기법들이 작동하는 것은 도저히 접근할 수없는 모집단과 그 모집단에서 구한 소규모 집단으로서의 표본의 관계를 바탕을 한다. 그러나 데이터마이닝은 실제로 발생한 데이터 전체를 대상으로 한다는 점에서 모집단을 직접 분석하는 기법이라는 성격 때문에 이런 차이가 생기는 것이다. 게다가 데이터마이닝의 대상이 되는 데이터의 속성이나 접근 방법들이 너무 다르기 때문에 개별 프로젝트가 될 수밖에 없다.

 

그런데 인터넷의 발달로 데이터가 자동 생성되는 현상이 비즈니스 영역에서 사회영역으로 확장된 것이 SNS라고 할 수 있다. 그리고 이 영역에서 발생한 또 다른 엄청난 양의 데이터가 있다. 그래서 이 데이터에서 무언가를 분석해내는 것은 기존의 데이터마이닝과 크게 다르지 않다. 게다가 이미 만들어진 텍스트마이닝 기술이 있다. 다만 비즈니스 영역의 데이터처럼 자동생산된 것이 아니고 사람들이 자신의 목적에 따라 만들어내고 있다는 점에서 성격이 약간 다르다. 이를 과장해서 새로 용어를 만들어내 시장이 형성되고 있는 것이 빅 데이터라고 할 수 있다. 즉 좀 심하게 말한다면 분석기법 관점에서 바라보던 데이터마이닝을 데이터 관점에서 빅 데이터라고 바꾼 정도라고 할까 여전히 데이터과학의 범주 안에 있다.

 

그런데도 이게 요즘 대세가 된 것은 사람들의 마음을 표현한 SNS로 부터 정보를 얻는다는 점 때문이다. 과거에는 소비자조사와 같은 방법을 통해 한정적인 표본으로부터 얻었던 정보를 스스로 고백(?)한 내용으로부터 추출한다. 게다가 이는 정치사회적인 이슈에 대해서도 같은 분석을 해볼 수 있다는 점에서 더욱 매력적이다. 물론 독감의 확산에 관한 예측 연구와 같이 그 적용대상이 획기적으로 확대되고 있다는 점도 흥미로운 점이다.

 

그러나 여전히 데이터마이닝이 안고 있던 문제점으로부터 더욱 나아가 여러가지 결점을 안고 있다. 먼저 통계학적으로 보면 모집단이 특정화 되지 않는다는 점을 지적할 수 있다. 즉 SNS에 특정한 성향을 드러내는 것은 극소수의 사람으로 한정되기 때문에 여전히 모집단이 아닌 표본의 성격을 가지는데, 그나마도 통계학적으로 정교하게 만들어진 표본이 아니라는 점이다. 게다가 이 공간이 잘 통제되고 있는 곳이 아니기 때문에 의도적으로 퍼뜨리는 정보가 자발적으로 만들어낸 정보와 구별하기 쉽지 않아서 선전활동을 객관적인 정보로 오해할 수 있다. 또 다른 문제는 사적 정보를 사용하기 때문에 필연적으로 수반할 프라이버시(인권) 침해가 발생한다. 나는 이미 미국의 정보기관이 전 세계의 SNS사용자들의 개인정보를 축적하고 있을 것으로 확신한다. 그리고 거기에 사용되었던 기술들이 이제 민간 영역으로 전수되어 빅 데이터라는 말도 만들어졌을 것으로 추정한다.

 

아무튼 빅 데이터 역시 범용성을 갖는 어떤 분석도구를 만들어 누구나 자기 목적에 맞게 분석에 사용하기 보다는 프로젝트 베이스로 문제를 접근할 수밖에 없다. 그리고 어떤 트렌드를 찾아보는 목적으로 사용해야지 이를 의사결정의 중요한 수단으로 사용하는 것은 오류 가능성이 너무 높다. 개인의 정보를 훔쳐 그 개인에 대한 판단을 하려는 목적이 아니라면 그 활용성이 한정적일 것이다. 이런 점들을 고려할 때 빅 데이터 열풍도 소수의 성공사례들만 남은 채 또 다시 사람들의 관심에서 멀어지는 시대의 유행에 그칠 가능성이 매우 높다.

(범용성은 내가 어떤 기술이 폭넓게 확산될 수 있을 지 아니면 특수한 분야에서 응용되는데 그칠지를 예상하는 데 중요한 역할을 하는 하나의 관점이다)


(추가: 사실 빅 데이터에 관하여는 뉴욕타임즈에 지난 해 실렸던 글 속에서 개인의 프라이버시나 개인정보로서의 인권이라는 관점을 강조하고 싶다)