내블로그 | 랜덤블로그 쪽지
채근
http://blog.yes24.com/vonmu
리스트 | RSS
태그 & 테마링 | 방명록
이미지나
적게 읽으나마 리뷰 써볼까
프로필 쪽지 친구추가
3월 스타지수 : 별2,395
전체보기
끄적이기
이것저것
나의 리뷰
도서 리뷰
나의 메모
기본 카테고리
태그
내용이 없습니다.
2023 / 03
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
월별보기
나의 친구
도서
최근 댓글
내용을 너무 자세하게 써주셔서 책 안.. 
정말 많을 걸 생각하게 해주는 서평을.. 
생각과 깊이가 있는 리뷰 감사히 잘 .. 
세상에서 제일 큰 거짓말, 새빨간 통.. 
새로운 글
오늘 13 | 전체 2088
2012-02-12 개설

전체보기
다크 데이터 | 도서 리뷰 2021-10-17 11:45
http://blog.yes24.com/document/15252092복사Facebook 보내기 트위터 보내기

[도서]다크 데이터

데이비드 핸드 저/노태복 역
더퀘스트 | 2021년 10월

내용     편집/구성     구매하기

그 데이터를 과연 믿을 수 있는가

위 상품을 구매하면, 리뷰등록자에게 상품판매대금의 3%가 적립됩니다. (상품당 최대 적립금액 1,000원) 애드온 2 안내

yes24 리뷰어 클럽 서평단 자격으로 작성한 리뷰입니다.

 

 

바야흐로 데이터의 시대이다. 빅데이터는 인공지능에 활용되고 있고, 우리의 일상은 각종 데이터로 전환되어 마케팅 부서의 정보 활용이나 고객 데이터 활용, 정치 설문조사, 코로나 관련 동선 체크는 물론 해킹 요소로까지 쓰이고 있다. 그야말로 데이터가 쏟아지다 못해 넘치는 시대이다. 다른 말로 하면 정보의 홍수다. 이럴수록 당연히 정보는 얻기 쉽겠지만 동시에 양질의 정보를 얻으려면 더 많은 노력을 기울여야 된다. 가만히 있으면 오히려 스쳐 지나가는 정보때문에 정보부족이 될수도 있다. 큰 홍수뒤에 큰 가뭄처럼 말이다. 그런데 여기에 문제가 하나 더 있다. 다크 데이터다. 수많은 데이터 정보들을 다루지만 누락되거나 왜곡되거나, 변형되는 등의 데이터 정보들이 많다. 특히 이것을 통계로 나타낼 때 자주 일어난다. 고의성이 있을수도 있지만 아닐수도 있다. 그만큼 양질의 데이터를 얻고 해석하기가 쉽지 않기 때문이다.

 

그래서 이 책은 통계에 관심이 많고, 데이터 정보 해석에 관심이 많은 사람들에게 아주 필요한 책이다. 과학 실험에서도 마찬가지이다. 대신 책에서 경고하는 많은 다크 데이터 사례때문에 겁에 질려 혼란이 올수도 있다. 완벽한 데이터가 어렵고, 완벽한 데이터 해석도 어렵다는걸 반증하고 있으니까. 거의 책의 대부분에 해당하는 데이터에 대한 경고들은 그만큼 저자의 우려와 걱정을 잘 보여준다. 결국 저자는 다크 데이터의 중요성과 위험성을 어필하면서 계속 의심해야 한다는 걸 강조하고 싶은 듯 하다. 완벽할 수는 없지만 완벽하려고는 해야 하니까. 다크 데이터의 발생과 잘못된 사용은 가깝게는 해킹과 실험에서, 정책이나 의약품을 거쳐 멀게는 인공지능 데이터까지 영향을 미칠 테니까. 잘못된 정보 해석은 잘못된 결정과 결과를 낳을 수 있다. 

 

 

**어쨌든 사람이 중요한 것 같다. 다루고 해석하는건 결국 사람 몫이다.

***번역이 쉽게 정복될 것 같아도 인공지능에서 결함이 생기는 이유도 다크 데이터 탓이 아닐까.

****어떻게 구역을 나누고 정보를 가르느냐에 따라 완전히 달라 보일수도 있다.

*****책에 나온대로 통계에는 항상 출처가 중요하다.

******설문조사가 어려운 이유이다. 그냥 받는다고 해결되는 것도 아니고 없앴다고 해결되는 것도 아니다.

*******임상 실험에서도 중요하게 쓰이기에 그것이 향후 부작용이나 효과에도 영향을 줄 수 있다.

********과대해석, 과소해석, 왜곡은 정말 순식간인 것 같다.

*********다크 데이터를 아는 사람일수록 모든 통계자료를 바로 받아들이기는 힘들어질지도 모른다.

**********우주의 암흑물질처럼 잘 끌어안고 살아야 하는 것일지도.

***********양자역학처럼 먼저 마음을 정하고 정보와 통계를 다룬다면 다크 데이터가 작동하면서 보고 싶고, 바라는 통계만 나올수도 있다.

************다크 데이터에 관해서는 무응답도 응답이라는 말이 딱 어울린다. 노코멘트도 코멘트다.

*************다크 데이터를 알수록 인공지능이 무서워지기도 한다. 인공지능에 의해 인간의 한 측면이 배제될 수 있으니까.

**************결국 방대한 데이터도 인간과 같다. 스스로를 알지 못하면 잘못 될 수 있듯이 데이터를 무조건 믿으면 잘못 될 수 있다.

***************다양성, 다양한 시각, 소수의 시각을 받아들이고 진리와 당연한 것을 의심하는 것이 데이터에도 적용된다.

****************데이터도 요리의 재료일 뿐이다. 요리의 종류와 맛과 컨셉을 결정하는 것은 인간 요리사다.

*****************역시 어둠도 주목해야 빛도 제대로 알 수 있다.

 

 

 

##인상적인 문구들

 

##다크 데이터를 통해 누구나 이득을 얻을 수 있다는 뜻이다.

 

##빅데이터가 있으면 좋겠지만 크기가 모든 것을 말해주지는 않는다. 그리고 우리가 모르는 것, 가지고 있지 않은 데이터가 가지고 있는 데이터보다 상황을 이해하는데 훨씬 더 중요할 수도 있다. 

 

##트윗이 적었던 지역은 허리케인 피해가 작은 게 아니라 트윗을 올릴 스마트폰, 곧 트위터 사용자가 적었다는 데 있었다.

 

##데이터=모든 것이라는 개념으로 되돌아가서, 어떤 맥락에서는 모든 데이터가 존재한다는 개념 자체가 확실히 비합리적이다. ~측정을 여러 번 해서 평균을 취한다. 하지만 결코 모든 측정을 할 수는 없다. 이런 맥락에서 모든 것은 아예 존재하지 않는다.

 

##만약 어느 시기 동안 수치의 급격한 변화가 일어났다면, 바탕이 되는 현실이 바뀌었을 수도 있지만 데이터 수집 절차가 바뀌었기 때문일 수도 있다.

 

##설문조사 응답률은 전세계적으로 떨어지고 있다.~ 사람들은 필요성이 클수록 설문조사에 제대로 응답할 가능성이 크기 때문에 설문조사는 전반적으로 매우 잘못된 인상을 남길 위험성이 있다.

 

##어떤 경우에는 빠진 기록이 적더라도 입수한 데이터가 전체 인구를 대표하지 못할 수 있다.~무응답 형태의 다크 데이터가 증가하고 있다.

 

##무응답하는 이유는 시간이 흘러도 크게 바뀌지 않음을 알아냈다. 주된 이유는 응답 대상자들이 별 관심이 없거나, 바빴거나, 답변하는 데 시간이 너무 많이 걸리기 때문이었다. 다른 이유로는 사생활 침해 우려가 있었거나, 조사 내용을 이해하지 못했기 때문이었다.

 

##잘 알려져 있듯이 보통 사람들은 실제로 범죄를 당할 위험보다 범죄의 위험을 더 크게 느낄 수 있다. 무언가를 잘 모르면 실제보다 더 나쁘게 보이는 법이다. (다크 데이터의 또 한가지 측면이다.)

 

##호손 효과로 인해 더 복잡한 문제가 생긴다. 호손 효과란 사람들이 자신이 관찰당하는지를 알면 평소와 달리 행동하는 경향을 가리킨다. 그렇다면 사람들에게 사실을 숨긴 채 은밀히 연구해야 이상적일 것 같지만, 이는 미리 알려서 동의를 얻어야 한다는 윤리적 관점에 정면으로 위배된다.

 

##데이터 수집 전략은 인간이 고안하고 실시하며, 수집된 데이터도 인간이 해석하고 분석한다. 어떤 데이터를 수집할지, 그리고 분석의 결과가 무슨 의미인지 결정하는 일도 우리의 이전 경험에 바탕을 두므로 이런 결정은 장래에 이 세계의 상황을 대변해주지 못할지도 모른다.

 

##우리는 온갖 무의식적인 편향에 취약하다. '가용성 편향'이 있다. 어떤 사건이 생길 가능성을 판단할 때, 그 사건을 우리가 얼마나 쉽게 떠올릴 수 있는지를 바탕으로 삼는 편향이다.

 

##심리학 실험들이 입증해낸 바에 따르면, 우리의 믿음은 우리의 기억에 영향을 끼칠 수 있다. 확증 편향과 반대로 사람들은 자신의 원래 믿음과 어긋나는 반박 증거를 잊는 경향이 있다.~ 부정적 편향, 묵인 편향, 편승효과, ~기괴함 효과는 흔한 내용보다 인상적인 내용이 더 잘 기억되는 효과다. 이 모든 편향에도 불구하고 우리가 무언가를 옳게 판단한다면 그것이야말로 얼마나 경이로운 일인가.

 

##반드시 기억해야 할 점은 데이터가 다크 데이터인지 아닌지 여부는 우리가 무엇을 알고 싶은지에 달려 있다는 것이다.

 

##과거는 미래를 알려주는 좋은 기준이 아닐 수 있다. 특히 상황이 변할 때, 가령 경제 상황이 나빠지거나 자동차 제조사가 새 기종을 내놓거나 식당 주인이 바뀔 때 그렇다. 하지만 아무것도 변하지 않는데도 성과가 나빠질 수 있다.(평균으로의 회귀) 우리는 그렇게 바뀌는 상황을 예상해야 한다.

 

##여러분이 묻고 싶은 질문에 답을 얻으려면 요약 통계(들)를 조심해서 선택해야 한다는 거이다.

 

##데이터의 유용성이 시간이 지나면서 감소할 수 있다는 것이다. 과일이 부패하는 것처럼 데이터가 물리적으로 나빠져서가 아니라 세상이 달라지기 때문이다.~ 특히 인간을 대상으로 하는 데이터는 구식이 되기 쉬운데 인간은 변하기 때문이다.~설상가상으로 데이터는 의도적으로 왜곡될 수도 있다.

 

##아무리 풍부한 공리계라도 그 체계 안에서 증명도 반박도 할 수 없는 명제가 있다.~ 인간사회의 측면에서 보자면, 그런 사례는 필연적으로 빈틈이 있게 마련인 정교한 규정의 체계에서 생길 때가 많다. 그런 빈틈이 자주 드러나는 분야 중 하나가 세금 체계다.

 

##데이터를 평균으로 대체하는 것은 요약하거나 뭉뚱그리기로 값을 흐릿하게 만드는 한 가지 예.

 

##어떤 것이 사실이라고 하기엔 너무 좋아 보이면, 사실이 아닐 가능성이 크다. 아마도 진실을 숨기고 있을 것이다.

 

##프랜시스 베이컨: 인간은 어떤 견해를 일단 채택하고 나면 그 견해에 들어맞고 그 견해를 뒷받침하는 온갖 것을 끌어들인다. 그리고 다른 쪽에서 그 견해와 다른 비중 있는 많은 사례가 나오더라도 무시하고 경멸하거나 어떤 판단 기준을 내세워 배제하고 거부한다.

 

##과학자들은 순위에서 밀릴 위험을 감수하기를 싫어한다. 획기적인 업적이 될 수 있다면 설령 나중에 결과의 결함이 드러날 우려가 있더라도 서둘러 발표하는 편이 낫다고 여긴다.

 

##흥미롭게도 사람은 감쪽같이 자기 자신을 속인다. 확증 편향.

 

##진실과 거짓을 구별하는 문제는 아득한 옛날부터 인류의 숙제였다. 정확한 답을 얻기 어려운 문제였기 때문이다. 하지만 데이터의 영역에는 유용한 전략이 하나 있다. 바로 데이터가 어디에서 온 것인지, 누가 데이터를 모았는지, 누가 보고했는지를 추궁하는 것이다. 데이터가 제시되었을 때 '누가 한 말인가?'라는 질문을 던지고 답을 요구해야 한다.

 

##투명성은 종종 다크 데이터, 최소한 사기와 속임수 사례에서 발생하는 다크 데이터에 대한 부분적인 해답으로 부각된다. 투명성이라는 개념의 요지는 공개된 것은 어떻게 돌아가는지 알아보기 쉽다는 것이다. ~ 서구 민주주의는 개방성을 다양한 수준에서 매우 강조하며, 정부가 활동 내용을 자세히 발표하도록 권장한다.~ 투명성은 지방정부 책임성의 근본이며, 사회에서 큰 역할을 수행하도록 사람들에게 필요한 도구와 정보를 제공하는데 핵심 요소다.

 

##경제 관련 문제일수록 사람들은 답을 순순히 털어놓지 않을 수 있다.

 

##많은 경우 다크 데이터는 단지 관찰되지 않는 것 이상, 다시 말해 본질적으로 관찰이 불가능한 데이터다. 그런 데이터는 숨어 있거나 '잠재적'이다. 하지만 그렇다고 해서 관찰이 불가능한 데이터를 아예 밝혀낼 수 없다는 뜻은 아닌데, 그것을 밝혀내는 일이야말로 통계 기법들의 진정한 목적이다. 현실에서 생겨난 데이터에 적용되는 통계도구들은 그 현실에 관해 우리에게 무언가를 알려준다. 데이터가 현실에 빛을 비쳐주는 것이다.

 

##정말로 막대한 데이터 세트들이 컴퓨터 때문에 수집되고 저장되고 처리되고 있다. 이 이 데이터베이스는 엄청난 기회를 낳는다. 하지만 바로 그 컴퓨팅 능력이 한편으로 근본적인 불확실성을 초래한다.~ 컴퓨터는 필연적으로 우리와 데이터 사이의 매개자 역할을 할 뿐이다. 컴퓨터는 데이터의 어떤 측면들을 가려버린다.

 

##어떤 것을 충분히 이해하지 못하면 길을 잘못 들 수 있다.

 

##사실 데이터 감추기는 현대사회가 효과적으로 기능하는 데 중심역할을 한다. 우리는 데이터를 감추지 않고서는 일상활동이 불가능하다. 

 

##뼈아픈 진실은 데이터란 완전히 다크 상태여서 쓸모가 없든지, 아니면 어떤 빈틈으로라도 침입을 당하고 만다는 것이다.

 

##다크 데이터가 존재할 수도 있다고 늘 의식하기다. 우리는 데이터가 불완전하거나 부정확하다는 것을 기본 전제로 삼아야 한다. 데이터를 의심하라. 적어도 적절하고 정확하다고 증명되기 전까지는.

 

##다크 데이터는 기계도 속일 수 있다. 기계학습과 인공지능의 적용 사례들이 점점 많아지고 있으므로, 다크 데이터가 기계를 속이는 바람에 실수와 사고를 초래하는 일도 더 많이 알려지리라고 예상된다.

 

##다크 데이터는 무한히 많은 방식으로 생길 수 있다. 우연히 생길 수도 있지만 의도적으로 만들어질 수도 있다. 때때로 사람들은 특정한 방식으로 내용을 표현하여 진리를 감추려고 한다. 경계심을 가지면 감춰진 진실을 찾아낼 수 있는데, 일반적으로 유용한 전략은 데이터를 다른 각도에서 보는 것이다.

 

##데이터에 무엇이 빠져 있는지를 이해하지 못하면 정답이 있는 곳이 아니라 자신들이 볼 수 있는 곳만 보는 심각한 위험에 빠진다.

 

yes24 리뷰어 클럽 서평단 자격으로 작성한 리뷰입니다.

이 글이 좋으셨다면 SNS로 함께 공감해주세요.
댓글(1) 트랙백(0)
이 리뷰를 | 추천 1        
진행중인 이벤트
나의 북마크
이벤트 세상