본문 바로가기
독서 기록

모두 거짓말을 한다

by Lazy Quant 2018. 11. 18.
반응형


한 줄 평 : 생각의 프레임을 뒤엎을 때 진흙 속에서 진주를 찾을 수 있다.


00.

 전 세계인으로부터 나오는 구글의 방대한 검색 데이터가 빅데이터의 중요한 데이터 원천이 될 수 있다는 사실은 이미 널리 알려져있다. 하지만 이 책은 단순히 구글 검색어의 방대한 양에 주목하는 것이 아니라, 그 검색어에 담긴 사람들의 솔직한 생각에 주목을 하고 있다. 


그들은 엄청난 규모의 정보를 가지고도 정작 중요한 식견은 찾지 못하고 있다. (...) 데이터가 엄청나게 많아야 중요한 식견을 발견할 있는 것은 아니다. 필요한 것은 적절한 데이터다. 구글 검색이 그토록 귀중한 가장 이유는 데이터가 많기 때문이 아니라 사람들이 솔직한 생각을 내놓기 때문이다.

01.

 어릴 일기를 때에도 누군가 나의 일기를  수 있다는 사실을 염두에 두고 썼다. 내용을 가려내고, 생각을 꾸며내서 멋지게 적기도 했다. 타인의 시선을 크게 신경쓰지 않는다고 생각했던 나의 그런 행동 양식을 나 스스로도 이해하지 못했다. 그러나 사람들은 무기명 설문조사, 여론조사 등에서도 타인의 시선을 신경쓰고, 자신의 솔직한 생각을 밝히지 않는 경향이 있다고 한다. 마치 내가 일기에도 솔직한 생각을 표현하지 않는 것과 같다.

 사람들은 자신이 무엇을 원하는지 모를 때도 있지만, 솔직히 표현하지 않을 때도 있다. 그렇기 때문에 사람들의 솔직한 생각은 데이터의 중요한 원천이 된다. 저자가 구글의 검색어를 바탕으로 사회 현상을 분석하는 논문을 썼다는 것이 참신하다. 저자 또한 구글의 검색어 자체가 최고의 데이터 원천이라고 강조하지 않는다. 생각의 프레임을 뒤엎고, 좋은 데이터에 접근하는 다양한 방법을 시도하는 모습을 배워야겠다.


어떻게 하면 차원의 저주를 극복할 있을까? 자신의 연구에 대해 겸손해야 하고 자신이 찾아낸 결과와 사랑에 빠지지 말아야 한다.

02.

 빅데이터의 방대한 데이터는 양날의 검과 같은 결과를 보여주었다. 많은 양의 데이터로 우리가 직관적으로 알아내지 못 했던 요소들을 밝혀냈지만, 직관적이지 않기 때문에 우연에 의한 특정 요소도 마치 진리인 것처럼 믿게 만들어버렸다. 빅데이터를 분석하는 딥러닝의 내부적인 로직은 블랙박스 형태로 되어있다. 그래서 우연하게 의미있는 결과가 나오더라도 사람들은 그것이 우연인지, 자신이 엄청난 것을 발견해낸 것인지 구분하지 못 한다. 특히나 사람들은 자신의 경험을 과대 평가하는 경향이 있기 때문에, 한 번 잘못된 결과에 빠져버린다면 다음 연구와 실험을 마치 그 잘못된 진리를 더 견고히하기 위한 마음으로 임할 수 있다. 다른 분야에서도 마찬가지겠지만, 데이터 분석에는 객관적이고, 겸손한 자세가 더욱더 필요하다.


빅데이터는 인간인 세상을 이해하기 위해 수천년 동안 개발해온 다른 모든 방법의 필요성을 없애지 않는다. 그들은 서로를 보완한다.

03.

 기술의 발전으로 엄청난 양의 데이터를 다룰 수 있게 되었고, 빅데이터 분석이라는 방법은 기존의 수많은 다른 방법들의 약점들을 보완하게 되었다. 그러나 그럼에도 기존의 방법의 장점은 여전히 좋은 데이터를 얻어내기 위한 방법으로 남아있다. 빅데이터가 데이터를 분석하는 주요 방법론으로 떠오르고 있지만, 분석의 목표는 많은 양의 데이터를 효율적으로 처리하는 것을 넘어 최상의 결과값을 얻어내는 것이다. 그리고 최상의 결과를 얻기 위해서 비효율적으로 보이기도 하는 고전적인 방법을 무시해서는 안 된다. "척도마다 각자의 가치가 있다."는 연구의 결론을 잊지 말자.

반응형

'독서 기록' 카테고리의 다른 글

김상욱의 과학공부  (0) 2018.12.02
데이터를 철학하다  (0) 2018.11.27
고구려 4,5 - 고국원왕  (2) 2018.10.31
멋진 신세계  (0) 2018.10.11
당신들의 천국  (0) 2018.09.16

댓글