3. 맵리듀스 기반의 추천 서비스 개발하기
• 개발 목표
• 데이터 마이닝 방법 중 하나인 사용자 기반의 CF방법(User-based Collaborative Filtering)을 이용한
추천 알고리즘(recommendation algorithms)을 개발하여 1)유사한 사용자들의 점수를 계산하고
2)영화 평점을 예측하는 것을 구현
• Collaborative Filtering의 핵심은 사용자가 선호하는 아이템을 파악하고 이와 유사한 패턴을 가진 다른 고객이
선호하는 아이템을 추천하는 것이다.
• 개발 방법
유사도 계산
나와 유사한
사용자 그룹
출력
예측할
데이터 셋
출력
평가 점수
예측
예측한
평가 점수 증명
R.M.S.E
MapReduce 기반
13년 10월 10일 목요일
16. 커뮤니티
• 위키 - 사용자 및 개발자 가이드 등
• www.openankus.org
• 페이스북 사용자 포럼
• www.facebook.com/groups/478048298938975
• 페이스북 페이지(영문)
• www.facebook.com/openankus
• 해외 머신러닝 오픈소스 소프트웨어 포럼
• https://mloss.org/software/view/500/
• 소스코드 다운로드
• https://github.com/suhyunjeon/ankus
• http://sourceforge.net/projects/ankus/?source=directory
13년 10월 10일 목요일
17. ANKUS 마일스톤
날짜 버전 내용
2013.09 0.01
• 수치/범주 데이터 기초 통계 기능
• 수치 데이터 정규화(Min/Max 기반) 기능
• 특징 벡터 기반 유사/상관 분석 기능
• K-means 기반 군집 분석 기능
• 사용자 기반 협력적 추천 - 사용자 선호 기반 유사도 계산 기능
• 사용자 기반 협력적 추천 - 사용자 유사도 기반 추천 목록 생성 기능
• 아이템 기반 협력적 추천 - 아이템 사용 기반 유사도 계산 기능
• 기타 - 사용자/개발자 가이드
• 기타 - 테스트 케이스 시나리오 구성 및 예시
2013.11 0.1
• EM 기반 군집 분석 기능
• ID3 기반 의사 결정 나부 분류 분석 기능
• 아이템 내용 정보 기반 추천 - 아이템 내용 기반 유사도 계산 기능
• 아이템 기반 협력적 추천 - 아이템 유사도 기반 추천 목록 생성 기능
(아이템 내용 정보 기반 추천)
• 가시화 - 외부 공개 소스 기반 가시화 API에 따른 결과 출력
• 기타 - 사용자/개발자 가이드
• 기타 - 테스트 케이스 시나리오 구성 및 예시
•
2013.12 ~ 0.15
• 분류/군집 분석 기능 추가
• 자연어 처리 관련 기능 추가
13년 10월 10일 목요일
18. ANKUS MILESTONE
Date Version Description
2013.09 0.01
• Basic Statistics for Numeric/Nominal Data
• Preprocessing - Normalization (Min/Max)
• Vector Data based Similarity/Correlation Analysis
• Clustering - K-Means(for Numeric/Nominal Features)
• User based CF Recommendation - Similarity Computation between Users
• User based CF Recommendation - User Similarity based Recommendation Generation
• Item based CF Recommendation - Similarity Computation between Items
• User / Developer Guide
• Scenarios and Examples for Test Case
2013.11 0.1
• Clustering - EM (for Numeric features)
• Classification - ID3 based Decision Tree (for Nominal Features)
• Contents based Recommendation - Contents based Similarity Computation between Items
• Item based Recommendation (CF / Contents based) - Item Similarity based Recommendation
Generation
• Visualization (Open Source Integration)
• User / Developer Guide
• Scenarios and Examples for Test Case
2013.12 ~ 0.15
• Add features to Classification / Clustering methods
• Add features to NLP(POS tagging, TF/IDF)
13년 10월 10일 목요일