집단 지능을 합성하기 위한 알고리즘은 많은 사용자들의 데이터를 필요로 한다. 이 책은 기계학습 알고리즘 외에도 많은 오픈 웹 API(애플리케이션 프로그래밍 인터페이스)에 대해 논하고 있다. 이러한 방법들은 회사들이 당신이 지정된 프로토콜을 통해 그들의 웹사이트에서 자유롭게 데이터에 접근할 수 있게 해준다; 그리고 나서 당신은 그 데이터를 다운로드하고 처리하는 프로그램을 쓸 수 있다. 이 데이터는 대개 사이트 사용자의 기여로 구성되며, 새로운 통찰력을 얻기 위해 채굴될 수 있다. 경우에 따라 이러한 API에 액세스할 수 있는 Python 라이브러리가 있는 경우도 있다. 그렇지 않다면 Python의 내장 라이브러리를 사용하여 데이터에 액세스하는 고유한 인터페이스를 만들어 데이터를 다운로드하고 XML을 구문 분석하는 것이 매우 간단하다.


이 포스팅에서 볼 수 있는 개방형 API가 있는 일부 웹 사이트

del.icio.us

열린 API를 통해 태그 또는 특정 사용자로부터 링크를 다운로드할 수 있는 소셜 북마크 애플리케이션.


카약

자신의 프로그램 내에서 항공편 및 호텔을 검색하기 위한 API가 포함된 여행 사이트.


이베이

현재 판매 중인 아이템을 조회할 수 있는 API가 포함된 온라인 경매 사이트. 


Hot or Not

사람들을 검색하고 그들의 등급과 인구통계 정보를 얻기 위한 API가 포함된 등급 및 데이트 사이트.


아키스멧

협업 스팸 필터링을 위한 API.


단일 소스에서 데이터를 처리하고, 여러 소스의 데이터를 결합하며, 외부 정보를 사용자 자신의 입력과 결합함으로써 엄청난 수의 잠재적 애플리케이션을 구축할 수 있다. 다양한 사이트에서 사람들이 만든 데이터를 다양한 방법으로 활용할 수 있는 능력은 집단 지능을 창출하는 기본 요소다. 개방형 API로 더 많은 웹 사이트를 찾는 좋은 출발점은 프로그래밍 가능한 웹이다.


장 개요 

이 책의 모든 알고리즘은 모든 독자들이 쉽게 이해할 수 있는 현실적인 문제에 의해 동기 부여된다. 나는 많은 도메인 지식이 필요한 문제들을 피하려고 노력해왔고, 복잡하기는 하지만 대부분의 사람들이 공감하기 쉬운 문제들에 초점을 맞추었다.


제1장 집단 소개 

인텔리전스는 기계 학습의 이면에 있는 개념, 많은 다른 분야에 적용되는 방법, 그리고 많은 다른 사람들로부터 수집된 데이터로부터 새로운 결론을 도출하는 데 사용할 수 있는 방법을 설명한다.


제2장 추천 만들기 

많은 온라인 소매업자들이 제품이나 미디어를 추천하기 위해 사용하는 협업 필터링 기법을 소개한다. 이 장에는 소셜 북마킹 사이트의 사람들에게 링크를 추천하는 섹션과 MovieLens 데이터 세트에서 이동 추천 시스템을 구축하는 섹션이 포함되어 있다. 제3장 발견 그룹은 2장의 아이디어 중 일부를 기반으로 구축되며, 대규모 데이터 세트에서 유사한 항목의 그룹을 자동으로 탐지하는 두 가지 클러스터링 방법을 소개한다. 이 장은 소셜 네트워킹 웹사이트에서 인기 웹로그 세트와 사람들의 욕구에 대한 그룹을 찾기 위해 클러스터링을 사용하는 것을 보여준다.


제4장 검색 및 순위 지정 

크롤러, 인덱서, 쿼리 엔진을 포함한 검색 엔진의 다양한 부분을 설명한다. 인바운드 링크를 기반으로 페이지를 채점하기 위한 PageRank 알고리즘을 다루며, 어떤 키워드가 다른 결과와 연관되어 있는지를 학습하는 신경망을 만드는 방법을 보여준다. 


5장 최적화 

문제에 대한 수백만 가지의 가능한 해결책을 검색하고 최상의 솔루션을 선택하도록 설계된 최적화를 위한 알고리즘을 도입한다. 이러한 알고리즘의 다양한 용도는 같은 장소로 여행하는 사람들의 그룹에 가장 적합한 비행편을 찾고, 학생들을 기숙사에 가장 잘 어울리는 방법을 찾고, 최소한의 교차선으로 네트워크를 구축하는 예들로 입증된다. 


6장 문서 필터링 

문서에 나타나는 단어 유형과 다른 특징에 따라 문서를 자동으로 분류하기 위해 많은 무료 및 상용 스팸 필터에서 사용되는 Bayesian 필터링을 보여준다. 이것은 항목의 자동 분류를 보여주기 위해 일련의 RSS 검색 결과에 적용된다. 


7장 의사결정 나무 모델링 

예측뿐만 아니라 의사 결정 방식을 모델링하는 방법으로 의사결정 트리를 도입한다. 첫 번째 의사결정 트리는 서버 로그의 가상 데이터로 구축되며 사용자가 프리미엄 가입자가 될 가능성이 높은지 여부를 예측하는 데 사용된다. 다른 예들은 부동산 가격과 "핫"을 모형화하기 위해 실제 웹사이트의 데이터를 이용한다. 


제8장 빌딩 가격 모델 

k-가장 가까운 인접 기술을 이용한 분류보다는 수치값 예측 문제에 접근하고, 5장의 최적화 알고리즘을 적용한다. 이러한 방법들은 eBay API와 연계하여 속성 집합에 기초한 품목의 최종 경매 가격을 예측하는 시스템을 구축하기 위해 사용된다. 


9장 고급 분류: 커널 방법 및 SVM 

지원-벡터 기계가 온라인 데이트 사이트나 전문 연락처를 검색할 때 어떻게 사람들을 일치시킬 수 있는지를 보여준다. 지원-벡터 기계는 상당히 진보된 기술이며 이 장에서는 이를 다른 방법과 비교한다. 


10장 독립적 특징 찾기 

데이터 세트에서 독립적 특징을 찾는 데 사용되는 비음의 매트릭스 인자화라고 하는 비교적 새로운 기술을 도입한다. 많은 데이터 집합에서 항목은 우리가 미리 알지 못하는 다른 기능의 합성물로 구성된다. 여기서의 아이디어는 이러한 기능을 탐지하는 것이다. 이 기법은 뉴스 기사에서 입증되는데, 기사 자체가 주제를 탐지하는 데 사용되며, 그 중 하나 이상이 특정 기사에 적용될 수 있다.

  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 트위터 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기