내블로그 | 랜덤블로그 쪽지
코니의 독서일기
http://blog.yes24.com/coiio
RSS
태그 & 테마링 | 방명록
코니
책을 읽어요
파워 문화 블로그

PowerCultureBlog with YES24 Since 2010

15·16·17기

프로필 쪽지 친구추가
5월 스타지수 : 별150
댓글알리미 비글 : 사용안함
전체보기
서평단 신청
포스트
나의 리뷰
독서일기
영화일기
태그
내용이 없습니다.
2022 / 05
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
월별보기
오늘 8 | 전체 32652
2017-04-13 개설

전체보기
카카오 AI 리포트 | 독서일기 2018-09-26 19:11
테마링
http://blog.yes24.com/document/10707552복사Facebook 보내기 트위터 보내기

[도서]카카오 AI 리포트

카카오 AI 리포트 편집진 편저
북바이북 | 2018년 09월

내용     편집/구성     구매하기

위 상품을 구매하면, 리뷰등록자에게 상품판매대금의 3%가 적립됩니다. (상품당 최대 적립금액 1,000원) 애드온 2 안내




 『카카오 AI 리포트』는 카카오가 2017년부터 발행한 <KAKAO AI REPORT>를 모아 단행본으로 출간한 책입니다. <KAKAO AI REPORT>는 카카오 정책산업 연구 브런치에서 pdf 파일로 제공되고 있는데요, 저는 이 책을 통해서야 이 사실을 알게 되었네요. 글이 꾸준히 올라오고 있어서 앞으로 자주 방문할 것 같습니다.


 이 책은 리포트를 묶은 책이다보니 다양한 필진들의 글이 큰 주제로 나뉘어 편집되어 있습니다. 즉, 처음부터 차례로 읽어나갈 필요 없이 목차를 보고 관심이 가는 글부터 골라 읽을 수 있습니다. 각각의 글이 모두 필자가 다르고, 카카오에 속한 분들의 글만 있는 것도 아니라서 AI에 대한 다양한 글을 읽을 수 있다는 것이 이 책의 큰 장점입니다. 다만 책을 읽어보니 이 분야에 기본적인 지식이 없는 분들이 읽기는 힘들 것 같습니다. 처음에 인공지능의 역사에 대해 설명해주는 글도 있고 기본적인 개념에 대한 설명도 조금 있기는 하지만, 아주 일부에 불과하고 책 전반적으로 전문적인 내용이 많습니다. 저 또한 이 분야에 대해서 많이 아는 것은 아니라서 어려운 부분은 적당히 넘겨가며 흥미가 있는 주제 위주로 읽었습니다.


 이 책은 1장 AI란 무엇인가, 2장 AI와 윤리, 3장 AI를 어떻게 배울 것인가, 4장 AI와 일상, 5장 현장에서의 AI 활용, 6장 AI를 연구하는 사람들 이렇게 총 6장으로 구성되어 있는데요, 2~5장이 대부분의 분량을 차지하며 책의 핵심이라고 할 수 있습니다.


 이들 중 제가 제일 열심히 읽은 글은 3장의 '딥러닝과 데이터(p.105~)'입니다. 최근 데이터가 기하급수적으로 늘어나고 단위 연산당 비용은 줄어들다보니 인공신경망 기반의 기계학습 분야가 굉장히 각광받고 있습니다. 덕분에 인간의 직관으로는 다루기 힘든 거대한 데이터를 이용한 분석도 가능하게 되었죠. "빅데이터"라는 단어, 참 많이 들어보셨을 겁니다. 하지만 데이터가 많다고 모든 문제가 해결되는 것은 아닙니다. 이 데이터를 이용해 분석을 하기 위해서는 '데이터 전처리'라는 과정이 필요합니다. 이 글에서 든 예시를 한번 살펴볼까요. 개인화 추천 시스템을 만들어 어떤 사용자가 어떤 콘텐츠를 얼마나 좋아할 것인지 예측하는 모형을 만드는 것을 목표로 하고, 이 모형의 훈련 데이터로 사용자들이 영화 및 드라마에 점수를 매겨 놓은 랭킹 데이터를 사용하기로 합니다. 그런데 데이터에 세 가지 종류가 있습니다. 10점 만점의 시스템인 네이버 영화, 5점 만점의 시스템인 왓챠, 이진 평점(좋아요/아니오) 시스템인 넷플릭스의 데이터를 다 사용하려고 합니다. 이 세 가지 종류의 데이터가 전처리 과정을 거치면 훈련 세트로 사용될 수 있을까요? 불가능하다고 합니다. 가능할 것 같은데, 대체 왜 안될까요?


 서로 다른 스케일의 데이터를 정규화하여 하나의 데이터 세트로 만드는 것에는 큰 문제가 있습니다. 만약 10점 만점이나 5점 만점 시스템을 이진 평점 시스템으로 정규화하려 한다면, 몇 점부터를 좋아요로, 몇 점부터를 싫어요로 바꿔야 할까요? 상위 50%를 좋아요, 하위 50%를 싫어요로 변환한 데이터로 훈련한 경우와, 상위 52%를 좋아요, 하위 48%를 싫어요로 변환한 데이터로 훈련한 경우의 기계학습 모형은 동일한 입력에 대해 상당히 다른 추론 결과를 내놓는다고 합니다. 반대로 이진 평점 시스템을 선형 스케일로 바꾸는 경우에도 문제가 발생할 수밖에 없겠죠. 결국 이 문제를 해결하는 가장 간단한 방법은 애초에 논란이 생기지 않을 데이터를 생성하는 것입니다.


 하지만 실제 현장에서 생성되는 데이터들은 일반적인 믿음과는 달리 균일하지 않습니다. 변화가 빠른 IT 업계의 특성상, 시스템에서 생성되는 데이터의 형식은 계속 변합니다. 또한 일반적인 데이터들을 머신러닝에 사용하기 위해서는 엄청난 전처리 과정이 필요합니다. 데이터 편향성 문제, 데이터 밀도차 문제 등 데이터를 이용하기 전에 다뤄야 하는 문제들이 정말 산더미죠. 이 글을 통해 데이터 전처리 분야 자체만 해도 엄청난 전문성이 필요하다는 사실을 알 수 있었습니다. 이 분야에 대한 흥미도 많이 생겼고요.


 또 재미있게 읽은 글은 3장의 '머신러닝 적용의 실제: 논문이 가르쳐주지 않는 것들(p.174~)'입니다. 머신러닝 공부를 하다보면, 정확도를 1%씩 올리는 재미에 빠져들어 수치에만 집착하는 과정을 다들 한번쯤은 겪을 것 같습니다. 하지만 머신러닝 공부를 하는 것과 실제 서비스에 이를 적용하는 것에는 꽤 차이가 있습니다. 이 글에 따르면, 실제 서비스에 머신러닝을 적용할 때는 연구자의 시선보다 사장님의 시선으로 고민을 해야 한다고 합니다. 정확도를 올리는 것도 중요하지만, 결과적으로 효용을 지속적으로 발생시키는 것이 핵심이죠. 그런데 정확도와 지속적 효용이 꼭 정비례하지는 않는다는 것이 문제입니다.


 실제 서비스는 끊임없이 변화합니다. 오픈한 지 한 달 된 서비스와 몇 년 된 서비스의 사용자는 성향이 완전히 다릅니다. 이런 차이를 알지 못한 채 처음의 모델을 방치한다면 어떤 일이 일어날까요? 또 고려해야 할 것은 데이터의 수명입니다. 일반적으로 모델의 학습 과정에서 전체 데이터를 랜덤하게 트레이닝 세트와 테스트 세트로 나누어, 트레이닝 세트 데이터로 모델을 학습시키고 테스트 세트 데이터로 모델을 확인합니다. 하지만 3년 전의 데이터로 학습한 모델이 지금 가입하는 사용자를 평가하기에 적합할까요? 여기서 필자는 '데이터가 상한다'는 표현을 쓰더군요. 데이터도 시간이 지남에 따라 상하기 때문에, 데이터의 양이 무조건 많은 것만이 중요한 것은 아닙니다. '신선한 데이터'를 유지하는 것이 필요하죠. 또 현실의 서비스에서는 비용에 따라 정확도보다 커버리지가 우선이 되는 경우도 있고, 정확도보다 속도가 우선이 되는 경우도 많습니다. 실제 비즈니스에서는 현실과의 타협이 필요한 것이지요.


 여기서는 제가 관심있게 읽은 글만 소개했지만, 책의 분량이 꽤 되는 편이고 다양한 분야에 대한 글들이 많이 실려 있습니다. AI에 대한 이론적인 내용부터 실제 적용에 대한 내용까지 고루 다루고 있어서, AI에 대해 관심을 가진 분들이라면 충분히 읽어 볼 만한 책입니다. 특히 AI에 대한 기본적인 개념을 어느정도 배운 상태에서 다음 단계로 나아가려 하는 분들이 읽으면 좋지 않을까 합니다. 또한, 네이버가 TECH@NAVER 시리즈를 통해 기술 서적을 계속 냈듯이 카카오도 이 책을 시작으로 다양한 기술 서적을 출간한다면 정말 반가울 것 같습니다.



* 이 리뷰는 예스24 리뷰어클럽을 통해 출판사에서 도서를 제공받아 작성되었습니다.

이 글이 좋으셨다면 SNS로 함께 공감해주세요.
댓글(1) 트랙백(0)
이 리뷰를 | 추천 2