기계학습이 약점이 없는 것은 아니다. 알고리즘은 큰 패턴 집합에 대해 일반화하는 능력에 따라 달라지며, 이전에 알고리즘에서 본 것과는 다른 패턴은 잘못 해석될 가능성이 높다. 반면 인간 문화적 지식과 경험을 그려 낼 방대한 양뿐만 아니라 능력 새로운 정보에 대한 결정을 내릴 비슷한 상황을 인지해야 한다.machine-learning 메서드에서만 이미 있었고, 그때조차 매우 한정된 태도에서 목격된 데이터를 바탕으로 일반화할 수 있다.


이 책에서 볼 수 있는 스팸 필터링 방법은 단어나 구의 겉모양이나 문장구조와 무관하게 나타나는 것이다. 이론적으로 문법을 고려하는 알고리즘을 만드는 것은 가능하지만, 알고리즘의 개선과 비교해 필요한 노력이 불균형하게 크기 때문에 이것은 실제로 거의 실행되지 않는다. 단어의 의미나 한 개인의 삶에 대한 관련성을 이해하려면 스팸 필터가 접근할 수 있는 것보다 훨씬 많은 정보가 필요할 것이다.


또한, 그렇게 하는 경향은 다양하지만, 모든 기계 학습 방법은 지나치게 일반화 될 가능성에 시달린다. 인생의 대부분과 마찬가지로, 몇 가지 예를 바탕으로 한 강한 일반화는 완전히 정확한 경우는 드물다. 친구로부터 "온라인 약국"이라는 단어가 포함된 중요한 이메일 메시지를 받을 수 있다는 것은 확실하다. 이 경우 당신은 메시지 스팸지는 않고 그 특정한 친구로부터 메시지를 받아들일 수 있다고 추론할 수 있는 알고리즘을 말할 것이다. 많은machine-learning 알고리즘의 본성은 그들은 새로운 정보를 도착한다 계속 배울 수 있다.


Real-Life 예제

인터넷 현재 많은 다른 사람들에게서 그것의 혜택을 누리기 위해 기계 및 통계 방법 학습을 사용해서 데이터 수집에 많은 사이트가 있다. 구글은 가장 큰 effort?it 뿐만 아니라 열 페이지에 웹 링크를 사용하지만 끊임없일 때 광고를 다른 사용자가 클릭하고 있는 구글 수 있는 정보를으며 가능성이 있다.표적은 광고 보다 효과적으로. 4장에서 당신은 검색 엔진과 구글의 순위 시스템의 중요한 부분인 페이지레인크 알고리즘에 대해 배우게 될 것이다.


다른 예로는 추천 시스템을 갖춘 웹 사이트를 들 수 있다. 아마존이나 넷플릭스와 같은 사이트들은 사람들이 구입하거나 임대하는 물건에 대한 정보를 사용하여 어떤 사람이나 물건이 서로 비슷한지 확인한 다음 구매 이력을 바탕으로 추천을 한다. 판도라와 Last.fm과 같은 다른 사이트들은 당신이 좋아할 것이라고 생각하는 음악이 있는 맞춤형 라디오 방송국을 만들기 위해 당신의 다른 밴드들과 노래들의 등급을 이용한다. 2장에서는 권장 시스템을 구축하는 방법을 설명한다.


예측시장도 집단지성의 한 형태다. 이들 중 가장 잘 알려진 것 중 하나는 할리우드 증권거래소(http://hsx.com)인데, 이 곳에서 사람들은 영화나 영화배우를 상대로 주식을 거래한다. 주식의 궁극적인 가치는 영화 개봉 박스오피스 번호의 100만분의 1이 될 것이라는 것을 알고 현재 가격으로 주식을 사거나 팔 수 있다. 가격은 거래행위에 의해 정해져 있기 때문에 그 가치는 어느 한 개인이 아니라 그룹의 행동에 의해 선택되며, 현재의 가격은 전체 그룹의 영화 흥행번호 예측으로 볼 수 있다. 헐리우드 증권거래소가 내놓은 예측은 전문가 개개인의 예측보다 관례적으로 더 좋다.


eHarmony와 같은 일부 데이트 사이트는 참가자들로부터 수집된 정보를 사용하여 누가 잘 어울릴지 결정한다. 이러한 회사들은 사람들을 일치시키는 방법을 비밀로 하는 경향이 있지만, 어떤 성공적인 접근법에도 선택된 시합의 성공 여부에 근거하여 지속적인 재평가가 수반될 가능성이 높다.


기타 학습 알고리즘 사용

이 책에서 기술한 방법은 새로운 것이 아니며, 예시들이 인터넷 기반의 집단 지능 문제에 초점을 맞추고 있지만, 기계 학습 알고리즘에 대한 지식은 다른 많은 분야의 소프트웨어 개발자들에게 도움이 될 수 있다. 특히 흥미로운 패턴을 검색할 수 있는 대규모 데이터셋을 다루는 영역에서 유용하다.


생명공학 

시퀀싱 및 선별 기술의 발전으로 DNA 시퀀스, 단백질 구조, 화합물 6 | 1장: Collective Intelligence 화면 소개, RNA 표현 등 다양한 종류의 대규모 데이터셋이 생성되었다. 기계 학습 기법은 생물학적 과정에 대한 이해를 높일 수 있는 패턴을 찾기 위해 이러한 모든 종류의 데이터에 광범위하게 적용된다.


금융사기탐지 

카드사들은 끊임없이 거래가 사기인지 알아내기 위한 새로운 방법을 찾고 있다. 이를 위해 신경망과 유도논리 등의 기술을 활용해 거래를 검증하고 부적절한 용도를 포착했다.


기계 비전

군사용이나 감시용으로 비디오 카메라의 이미지를 해석하는 것은 연구 활동 영역이다. 많은 기계 학습 기법이 침입자를 자동으로 감지하거나, 차량을 식별하거나, 얼굴을 인식하기 위해 사용된다. 특히 흥미로운 것은 대규모 데이터셋에서 흥미로운 특징을 발견하는 독립 요소 분석과 같은 감시되지 않은 기법을 사용하는 것이다.


제품 마케팅

아주 오랫동안, 인구 통계와 추세를 이해하는 것은 과학이라기 보다는 예술 형태에 가까웠다. 최근 소비자로부터 데이터를 수집할 수 있는 능력이 증가함에 따라 시장에 존재하는 자연 분열을 더 잘 이해하고 미래 동향에 대한 더 나은 예측을 할 수 있는 클러스터링과 같은 기계 학습 기법의 기회가 열렸다.


공급망 최적화

대기업들은 공급망을 효과적으로 가동시키고 다양한 분야의 제품에 대한 수요를 정확하게 예측함으로써 수백만 달러를 절약할 수 있다. 수요에 잠재적으로 영향을 미칠 수 있는 요소의 수와 마찬가지로 공급망을 구축할 수 있는 방법의 수는 엄청나다. 이러한 데이터 세트를 분석하기 위해 최적화 및 학습 기법을 자주 사용한다.


주식시장분석

주식시장이 생긴 이후로 사람들은 돈을 더 벌기 위해 수학을 이용하려고 노력해 왔다. 참가자들이 점점 더 정교해짐에 따라, 더 큰 데이터 세트를 분석하고 패턴을 탐지하기 위해 고급 기술을 사용할 필요가 있게 되었다.


국가 안보

전 세계 정부기관에서 방대한 양의 정보를 수집하고 있으며, 이 데이터를 분석하려면 컴퓨터가 패턴을 탐지해 잠재적 위협과 연관시킬 필요가 있다.


기계 학습 지금 많이 사용된다 이것들은 단지 몇가지 예일이다. 이후 추세가 더 많은 정보의 창설을 향한 것은 더 많은 필드 기계와 통계 기법 학습에 대한 정보를 스트레칭의 양에게 의지하게 될 가능성이 있다.

  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 트위터 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기