넷플릭스는 온라인 DVD 대여업체로, 집으로 보낼 영화를 고를 수 있도록 하고, 고객이 이전에 빌렸던 영화를 바탕으로 추천을 해준다. 2006년 말에 그것은 추천 시스템의 정확성을 10% 향상시키기 위해 첫 번째 사람에게 100만 달러의 상금을 발표했고, 대회가 열리는 동안 매년 현 지도자에게 5만 달러의 진행 상금을 수여했다. 전 세계 수천 개의 팀이 참가했고, 2007년 4월 현재 선두팀은 7%의 향상률을 기록했다. 넷플릭스는 각 고객이 어떤 영화를 즐겼는지에 대한 데이터를 이용해 다른 고객들에게 전혀 들어보지 못한 영화를 추천할 수 있고, 더 많은 영화를 위해 다시 찾아올 수 있게 한다. 추천 시스템을 개선할 수 있는 어떤 방법도 넷플릭스에겐 큰 가치가 있다.


검색 엔진 구글은 이미 몇 개의 대형 검색 엔진이 있던 1998년에 시작되었고, 많은 사람들은 새로운 플레이어가 거인을 결코 대신할 수 없을 것이라고 추측했다. 그러나 구글의 설립자들은 어떤 페이지가 가장 관련성이 있는지 결정하기 위해 수백만 웹사이트의 링크를 사용함으로써 검색 결과의 순위를 정하는 완전히 새로운 접근법을 취했다. 구글의 검색 결과는 다른 플레이어들보다 훨씬 더 좋았고 2004년까지 웹에서 85%의 검색을 처리했다. 그것의 설립자들은 현재 세계 10대 부자들 중 하나이다.


이 두 회사의 공통점은 무엇인가? 그들은 둘 다 정교한 알고리즘을 사용하여 많은 다른 사람들로부터 수집된 데이터를 결합함으로써 새로운 결론을 도출하고 새로운 사업 기회를 창출했다. 정보를 수집할 수 있는 능력과 그것을 해석할 수 있는 연산 능력을 통해 사용자와 고객에 대한 훌륭한 협업 기회가 가능해졌다. 이런 종류의 작업은 곳곳에서 일어나고 있다. 데이트 사이트들은 사람들이 더 빨리 그들의 최고의 짝을 찾을 수 있도록 돕고, 비행기 티켓 가격의 변화를 예측하는 회사들이 생겨나고 있으며, 단지 모든 사람들이 더 타겟화된 광고를 만들기 위해 그들의 고객을 더 잘 이해하기를 원한다.


이것들은 집단지능이라는 흥미진진한 분야의 몇 가지 예에 불과하며, 새로운 서비스의 확산은 매일 새로운 기회가 나타난다는 것을 의미한다. 나는 기계학습과 통계적 방법을 이해하는 것은 매우 다양한 분야에서, 그러나 특히 전 세계 사람들이 만들고 있는 방대한 양의 정보를 해석하고 정리하는 데 있어 훨씬 더 중요해질 것이라고 믿는다.


Collective Intelligence란?


사람들은 수십 년 동안 집단 지능이라는 말을 사용해 왔으며, 그것은 새로운 통신 기술의 출현과 함께 점점 더 유명해지고 중요해졌다. 비록 그 표현이 집단의식이나 초자연적인 현상에 대한 생각을 떠올리게 할 수도 있지만, 기술자들이 이 문구를 사용할 때 그것들은 보통 사람들의 행동, 선호 또는 생각의 결합을 의미하여 새로운 통찰력을 만들어낸다.


물론 집단적인 지능은 인터넷 이전에 가능했다. 당신은 다른 그룹의 사람들로부터 데이터를 수집하고, 그것을 결합하고, 분석하기 위해 웹이 필요하지 않다. 이것의 가장 기본적인 형태 중 하나는 조사나 인구 조사다. 많은 사람들로부터 답을 수집하면, 당신은 그 집단에 대한 통계적 결론을 도출할 수 있다. 그 어떤 개인 구성원도 스스로 알지 못했을 것이다. 독립유공자들로부터 새로운 결론을 짓는 것은 정말로 집단지성이라는 것이다.


잘 알려진 예로는 금융시장이 있는데, 이 시장에서는 가격이 한 개인에 의해 결정되거나 서로 협력된 노력에 의해 결정되는 것이 아니라, 많은 독립적 사람들의 거래 행태에 의해 그들이 가장 이익이라고 믿는 것을 행동한다. 처음에는 직관에 어긋나는 것처럼 보이지만, 많은 참여자들이 미래 가격에 대한 신념에 따라 계약을 체결하는 선물 시장은 독립적으로 예측하는 전문가들보다 가격 예측에 더 능하다고 여겨진다. 이 시장들은 수천 명의 사람들의 지식, 경험, 통찰력을 결합하여 한 사람의 인내력에 의존하기보다는 투영을 만들어내기 때문이다.


비록 집단 지능에 대한 방법이 인터넷 이전에 존재했지만, 웹 상에서 수천 혹은 수백만 명의 사람들로부터 정보를 수집할 수 있는 능력은 많은 새로운 가능성을 열어 놓았다. 사람들은 항상 인터넷을 구매하고, 연구를 하고, 오락거리를 찾고, 그들 자신의 웹사이트를 만드는 데 사용하고 있다. 이러한 모든 행동은 그에게 질문을 함으로써 사용자의 의도를 방해할 필요 없이 정보를 얻는 데 감시되고 이용될 수 있다. 이 정보를 처리하고 해석할 수 있는 방법은 엄청나게 많다. 여기에 대조적인 접근법을 보여주는 몇 가지 주요 예가 있다.


위키피디아는 전적으로 사용자 기여로 만들어진 온라인 백과사전이다. 어떤 페이지든 누구나 만들거나 편집할 수 있고, 반복되는 학대를 감시하는 관리자들도 소수다. 위키피디아는 다른 어떤 백과사전보다 더 많은 항목을 가지고 있으며, 악의적인 사용자들의 일부 조작에도 불구하고, 일반적으로 대부분의 주제에 대해 정확하다고 여겨진다. 이것은 집단 지성의 한 예로서, 각각의 기사는 많은 사람들에 의해 유지되고 그 결과는 어떤 하나의 조정된 집단이 만들 수 있었던 것보다 훨씬 큰 백과사전이기 때문이다. 위키피디아 소프트웨어는 사용자의 기여에 특별히 지적인 역할을 하지 않는다. 단지 변경사항을 추적하고 최신 버전을 보여준다.


앞서 언급된 구글은 세계에서 가장 인기 있는 인터넷 검색 엔진으로, 다른 페이지들과 연결되는 수만큼 웹 페이지를 평가한 최초의 검색 엔진이다. 이 평가 방법은 수천 명의 사람들이 특정 웹 페이지에 대해 말한 것에 대한 정보를 취하며 그 정보를 검색에서 결과의 순위를 매기기 위해 사용한다. 이것은 집단 지성의 매우 다른 예다. 위키피디아가 명시적으로 이 사이트의 사용자를 초대하여 기여하는 경우, 구글은 웹 콘텐츠 작성자들이 자신의 사이트에서 하는 중요한 정보를 추출하여 그것을 사용자들을 위한 점수 생성에 사용한다.


위키피디아는 훌륭한 자원이자 집단지성의 인상적인 예시지만, 소프트웨어의 영리한 알고리즘보다는 정보를 기여하는 사용자 기반에 훨씬 더 많은 기여를 하고 있다. 이 책은 사용자 경험을 향상시킬 수 있는 새로운 정보를 만들기 위해 사용자 데이터를 수집하고 계산을 수행하는 구글의 PageRank와 같은 알고리즘을 다루면서, 스펙트럼의 다른 쪽 끝에 초점을 맞춘다. 어떤 데이터는 명시적으로 수집되는데, 아마도 사람들에게 평가해 달라고 부탁해서 수집한 것이고, 어떤 데이터는 예를 들어 사람들이 무엇을 사는지 관찰함으로써 무심코 수집되는 것이다. 두 경우 모두 중요한 것은 단순히 정보를 수집하고 표시하는 것이 아니라, 지능적인 방법으로 처리하여 새로운 정보를 생성하는 것이다.


이 책은 개방형 API를 통해 데이터를 수집하는 방법을 보여주며, 다양한 기계 학습 알고리즘과 통계적 방법을 다룰 것이다. 이 조합을 통해 자신의 애플리케이션에서 수집한 데이터에 대해 집단 지능 방법을 설정하고, 다른 장소에서 데이터를 수집하고 실험할 수 있다.


기계 학습이란?

머신러닝(machine learning)은 컴퓨터가 학습할 수 있게 하는 알고리즘과 관련된 인공지능(AI)의 하위 분야다. 이것은 대부분의 경우 알고리즘이 데이터 집합을 제공받고 데이터의 속성에 대한 정보를 주입하며, 그 정보는 미래에 볼 수 있는 다른 데이터에 대한 예측을 가능하게 한다는 것을 의미한다. 이것은 거의 모든 무작위 데이터에 패턴이 포함되어 있기 때문에 가능한 것이며, 이러한 패턴들은 기계가 일반화될 수 있게 해준다. 일반화하기 위해서, 그것은 데이터의 중요한 측면이라고 결정한 것을 가지고 모델을 훈련시킨다.


모델이 어떻게 되는지를 이해하려면 전자 메일 필터링의 다른 복잡한 필드에 있는 간단한 예를 고려하십시오. "온라인 약국"이라는 단어가 포함된 스팸을 많이 받는다고 가정해 보자. 인간으로서 패턴을 인식할 수 있는 시설이 잘 갖추어져 있고, "온라인 약국"이라는 글자가 있는 어떤 메시지도 스팸이므로 쓰레기로 바로 옮겨야 한다는 것을 재빨리 판단하게 된다. 이것은 일반화 입니다. 사실, 당신은 스팸이라는 것에 대한 정신적 모델을 만들었었습니다. 이러한 메시지 중 몇 개를 스팸으로 보고한 후, 스팸을 필터링하도록 설계된 기계 학습 알고리즘은 동일한 일반화를 할 수 있어야 한다.


여러 가지 기계 학습 알고리즘이 있는데, 이 알고리즘은 모두 다른 강점을 가지고 있고 다른 유형의 문제에 적합하다. 의사결정 나무와 같은 일부는 투명하기 때문에 관찰자는 기계가 수행하는 추론 과정을 완전히 이해할 수 있다. 신경망과 같은 다른 것들은 해답을 만들어 낸다는 뜻의 블랙박스지만, 그 이면에 있는 추리를 재현하는 것은 매우 어려운 경우가 많다.


많은 기계학습 알고리즘은 수학과 통계에 크게 의존한다. 앞서 말씀드린 정의에 따르면 단순한 상관관계 분석과 회귀 분석은 모두 기계학습의 기본형태라고 말할 수 있을 정도다. 이 책은 독자가 통계에 대해 많은 지식을 가지고 있다고 가정하지 않기 때문에, 나는 가능한 한 간단한 방법으로 사용된 통계를 설명하려고 노력해왔다.

  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 트위터 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기