21 강 알고리즘과 평가 하테네 북마크의 기사 분류

 

기사 분류란?

새로 도착한 기사를 해당 기사의 내용을 기반으로 자동으로 해당 카테고리를 판정하여 분류하는 것

 

카테고리 판정을 위해 사용한 기술 : 베이지안 필터

- 나이브 베이즈에 근거한 카테고리 추정 : 문서 D 가 카테고리 C 에 속할 확률을 구하는 방식

 

이 알고리즘이 실용화되기까지 거친 작업

  • 분류 엔진을 서버화
  • 학습 데이터 정기적인 백업 구현
  • 초기 학습 데이터를 수작업으로 준비
  • 분류 엔지의 정밀도 추적을 위한 통계구조 작성
  • 웹앱 인터페이스
  • 등등

위의 과정에서 배울 점

  • 기존 방법 익혀두기 : 기본적인 알고리즘을 익혀두어서 문제를 해결하기 위함
    • Tire 나 베이지안 필터 같은 것을 몰랐으면 문서를 자동으로 분류한다는 발상도 하기 힘듬
  • 대용량 데이터에 맞서 알고리즘을 선택하고 이를 응용하는 것이 어떤 것인지 그 감각을 익힐 필요가 있음

+ Recent posts