21 강 알고리즘과 평가 하테네 북마크의 기사 분류
기사 분류란?
새로 도착한 기사를 해당 기사의 내용을 기반으로 자동으로 해당 카테고리를 판정하여 분류하는 것
카테고리 판정을 위해 사용한 기술 : 베이지안 필터
- 나이브 베이즈에 근거한 카테고리 추정 : 문서 D 가 카테고리 C 에 속할 확률을 구하는 방식
이 알고리즘이 실용화되기까지 거친 작업
- 분류 엔진을 서버화
- 학습 데이터 정기적인 백업 구현
- 초기 학습 데이터를 수작업으로 준비
- 분류 엔지의 정밀도 추적을 위한 통계구조 작성
- 웹앱 인터페이스
- 등등
위의 과정에서 배울 점
- 기존 방법 익혀두기 : 기본적인 알고리즘을 익혀두어서 문제를 해결하기 위함
- Tire 나 베이지안 필터 같은 것을 몰랐으면 문서를 자동으로 분류한다는 발상도 하기 힘듬
- 대용량 데이터에 맞서 알고리즘을 선택하고 이를 응용하는 것이 어떤 것인지 그 감각을 익힐 필요가 있음
'책 > 웹 개발자를 위한 대규모 서비스를 지탱하는 기술' 카테고리의 다른 글
[ 대규모 서비스 ] [ 책 ] 11 장 대규모 데이터 처리를 지탱하는 서버/인프라 입문 (3) | 2024.11.02 |
---|---|
[대규모 서비스 ] [ 책 ] 9장 전문 검색기술 도전 : 대규모 데이터 처리의 노하우 (0) | 2024.10.22 |
[대규모 서비스] [책] 7 장: 20강 하테나 다이어리의 키워드 링크 (0) | 2024.10.10 |
[대규모 서비스] [책] 7 장 알고리즘 실용화: 19강 알고리즘과 평가 (0) | 2024.10.08 |
5 장 대규모 데이터 처리 실전 입문 (0) | 2024.09.22 |