SlideShare una empresa de Scribd logo
1 de 20
Descargar para leer sin conexión
데이터 분석 오픈소스를 활용한 추천 서비스
어니컴(주)/ 전수현
suhyunjun@gmail.com
13년 10월 10일 목요일
맵 리듀스 기반
추천 서비스 개발
13년 10월 10일 목요일
맵리듀스 기반의 추천 서비스 개발하기
• 개발 목표
• 데이터 마이닝 방법 중 하나인 사용자 기반의 CF방법(User-based Collaborative Filtering)을 이용한
추천 알고리즘(recommendation algorithms)을 개발하여 1)유사한 사용자들의 점수를 계산하고
2)영화 평점을 예측하는 것을 구현
• Collaborative Filtering의 핵심은 사용자가 선호하는 아이템을 파악하고 이와 유사한 패턴을 가진 다른 고객이
선호하는 아이템을 추천하는 것이다.
• 개발 방법
유사도 계산
나와 유사한
사용자 그룹
출력
예측할
데이터 셋
출력
평가 점수
예측
예측한
평가 점수 증명
R.M.S.E
MapReduce 기반
13년 10월 10일 목요일
맵 리듀스 기반
추천 서비스 프로세스
13년 10월 10일 목요일
영화가 보고 싶은데 어떤 영화를 볼까?
13년 10월 10일 목요일
내가 추천 해줄게
13년 10월 10일 목요일
나와 유사한 사용자 찾기
13년 10월 10일 목요일
찾았다!
나와 비슷한 성향을 가진 사람들.
13년 10월 10일 목요일
?
?
?
13년 10월 10일 목요일
4.5
1.5
2.5
13년 10월 10일 목요일
당신에게 추천하고 싶은 영화!
사용자 기반의 추천 시스템에서 Top movie로 추천된 결과
13년 10월 10일 목요일
ANKUS 를 이용한 추천 시스템
데모
13년 10월 10일 목요일
ANKUS를 활용한
사용자 기반 협력적 추천 서비스
NAME MOVIE RATING
Suhyun	

 Ironman	

 5.0
Suhyun	

 Once 	

 3.0
Suhyun	

 Oldboy	

 2.5
Moonie	

 Ironman	

 2.0
Moonie	

 Once	

 2.5
Moonie	

 Oldboy	

 5.0
Moonie	

 Batman	

 2.0
Junhong	

 Ironman	

 2.5
Junhong	

 Batman	

 4.0
Junhong	

 Haeundae	

 4.5
Junhong	

 Gwansang	

 5.0
Wonbin	

 Ironman	

 5.0
Wonbin	

 Oldboy	

 3.0
Wonbin	

 Batman	

 4.5
Wonbin	

 Conjuring	

 4.0
Taehee	

 Ironman	

 4.0
Taehee	

 Once	

 3.0
Taehee	

 Oldboy	

 2.0
Taehee	

 Batman	

 4.0
Taehee	

 Haeundae	

 3.5
Taehee	

 Conjuring	

 4.0
$ hadoop jar ankus-core-0.0.1.jar CFBasedSimilarity -input /input/demo -
output /output/demo/1 -basedType user -threshold 0.7 -commonCount 20 -
algorithmOption pearson -delimiter 't'
Input
file
Suhyun Taehee	

 0.994
Suhyun	

 Wonbin	

 0.997
Taehee	

 Wonbin	

 0.992
$ hadoop jar ankus-core-0.0.1.jar Recommendation -input /input/demo -
similarDataInput /output/demo/3/part-r-00000 -output /output/demo/
prediction/1 -basedType user -delimiter 't'
Suhyun Batman	

 4.25
Suhyun	

 Conjuring	

 4.0
Suhyun	

 Haeundae	

 3.5
Wonbin Haeundae	

 3.5
Wonbin Once	

 3.0
Step1
Step2
Taehee	

 Batman	

 4.0
Wonbin Batman	

 4.5
사용자 기반 협력적 추천을 Pearson correlation 유사도로 계산하여
조건은 임계값 0.7로, 공통으로 평가한 영화 개수가 20개 이상인 경우로 계산하는 모듈을 실행한다.
추천할 데이터 셋과 Pearson correlation 유사도 결과 데이터셋을 사용하여 사용자 기반의 추천
서비스를 계산하는 모듈을 실행한다.
13년 10월 10일 목요일
나도 빅데이터 분석 오픈소스
개발하고 싶어요.
13년 10월 10일 목요일
ANKUS
데이터 마이닝 / 머신 러닝 오픈소스 라이브러리
13년 10월 10일 목요일
커뮤니티
• 위키 - 사용자 및 개발자 가이드 등
• www.openankus.org
• 페이스북 사용자 포럼
• www.facebook.com/groups/478048298938975
• 페이스북 페이지(영문)
• www.facebook.com/openankus
• 해외 머신러닝 오픈소스 소프트웨어 포럼
• https://mloss.org/software/view/500/
• 소스코드 다운로드
• https://github.com/suhyunjeon/ankus
• http://sourceforge.net/projects/ankus/?source=directory
13년 10월 10일 목요일
ANKUS 마일스톤
날짜 버전 내용
2013.09 0.01
• 수치/범주 데이터 기초 통계 기능
• 수치 데이터 정규화(Min/Max 기반) 기능
• 특징 벡터 기반 유사/상관 분석 기능
• K-means 기반 군집 분석 기능
• 사용자 기반 협력적 추천 - 사용자 선호 기반 유사도 계산 기능
• 사용자 기반 협력적 추천 - 사용자 유사도 기반 추천 목록 생성 기능
• 아이템 기반 협력적 추천 - 아이템 사용 기반 유사도 계산 기능
• 기타 - 사용자/개발자 가이드
• 기타 - 테스트 케이스 시나리오 구성 및 예시
2013.11 0.1
• EM 기반 군집 분석 기능
• ID3 기반 의사 결정 나부 분류 분석 기능
• 아이템 내용 정보 기반 추천 - 아이템 내용 기반 유사도 계산 기능
• 아이템 기반 협력적 추천 - 아이템 유사도 기반 추천 목록 생성 기능
(아이템 내용 정보 기반 추천)
• 가시화 - 외부 공개 소스 기반 가시화 API에 따른 결과 출력
• 기타 - 사용자/개발자 가이드
• 기타 - 테스트 케이스 시나리오 구성 및 예시
•
2013.12 ~ 0.15
• 분류/군집 분석 기능 추가
• 자연어 처리 관련 기능 추가
13년 10월 10일 목요일
ANKUS MILESTONE
Date Version Description
2013.09 0.01
• Basic Statistics for Numeric/Nominal Data
• Preprocessing - Normalization (Min/Max)
• Vector Data based Similarity/Correlation Analysis
• Clustering - K-Means(for Numeric/Nominal Features)
• User based CF Recommendation - Similarity Computation between Users
• User based CF Recommendation - User Similarity based Recommendation Generation
• Item based CF Recommendation - Similarity Computation between Items
• User / Developer Guide
• Scenarios and Examples for Test Case
2013.11 0.1
• Clustering - EM (for Numeric features)
• Classification - ID3 based Decision Tree (for Nominal Features)
• Contents based Recommendation - Contents based Similarity Computation between Items
• Item based Recommendation (CF / Contents based) - Item Similarity based Recommendation
Generation
• Visualization (Open Source Integration)
• User / Developer Guide
• Scenarios and Examples for Test Case
2013.12 ~ 0.15
• Add features to Classification / Clustering methods
• Add features to NLP(POS tagging, TF/IDF)
13년 10월 10일 목요일
이미지 출처
http://insahara.tistory.com/m/post/view/id/184
http://www.newnownext.com/tom-brady-plays-imaginary-football-inside-cool-la-airport/09/2012/catch-me-if-you-can-pilot-
leonardo/
http://blog.daum.net/kidsreturn80/375702
http://moms.popsugar.com/3-Tips-Great-First-Movie-Theater-Experience-27331230
https://encrypted-tbn1.gstatic.com/images?q=tbn:ANd9GcTk2KYtbdhabiEo9XBKWkltd7cBBlieAKpudwogGTtZuQG_pP9A
http://res.heraldm.com/content/image/2012/11/07/20121107000213_1.jpg
http://blog.lovesongday.com/47
http://ko.wikipedia.org/wiki/%EC%9B%90%EB%B9%88
http://article.joins.com/news/article/article.asp?total_id=11278207&ctg=1501
http://blog.naver.com/PostView.nhn?
blogId=kissbymucha&logNo=100105353224&categoryNo=48&viewDate=&currentPage=1&listtype=0
http://mirror.enha.kr/wiki/%ED%86%B0%20%ED%81%AC%EB%A3%A8%EC%A6%88
http://movie.hrising.com/magazine/?mode=view&cntid=637
http://anythingtip.tistory.com/221 http://blog.naver.com/PostView.nhn?blogId=myjsp&logNo=50160780510
http://blog.naver.com/PostView.nhn?blogId=myjsp&logNo=50160780510
http://mlkangho.egloos.com/m/10992908
http://filesvr.dureraum.org/bcc/mcontents/progMovList.do?rbsIdx=62&progCode=201100066
http://ogamcom.net/64
http://blog.naver.com/PostView.nhn?blogId=sony2hd&logNo=140167162146
http://info.cunyba.gc.cuny.edu/blog/?Tag=Requesting%20a%20Letter%20of%20Recommendation
13년 10월 10일 목요일
감사합니다.
13년 10월 10일 목요일

Más contenido relacionado

Similar a MapReduce based Recommendation System

0222 사내세미나 이연권_추천시스템
0222 사내세미나 이연권_추천시스템0222 사내세미나 이연권_추천시스템
0222 사내세미나 이연권_추천시스템DataUs
 
퍼지 전문가 시스템을 이용한 상품 추천 알고리즘
퍼지 전문가 시스템을 이용한 상품 추천 알고리즘퍼지 전문가 시스템을 이용한 상품 추천 알고리즘
퍼지 전문가 시스템을 이용한 상품 추천 알고리즘Jong MIn Yu
 
알고리즘 마케팅 CH5
알고리즘 마케팅 CH5알고리즘 마케팅 CH5
알고리즘 마케팅 CH5kyuchul kim
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining SuHyun Jeon
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리SANG WON PARK
 
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스BOAZ Bigdata
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템Kweonwoo Moon
 
UI/UX 개선을 위한 빠른 프로토타이핑
UI/UX 개선을 위한 빠른 프로토타이핑UI/UX 개선을 위한 빠른 프로토타이핑
UI/UX 개선을 위한 빠른 프로토타이핑Dongsik Yang
 
유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례Geunhee Cho
 
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술coolsign
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
 
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)Yan So
 
03. it정보화전략-솔루션 도입
03. it정보화전략-솔루션 도입03. it정보화전략-솔루션 도입
03. it정보화전략-솔루션 도입InGuen Hwang
 
Preference Elicitation as an Optimization Problem - Sepliarskaia, et al
Preference Elicitation as an Optimization Problem - Sepliarskaia, et alPreference Elicitation as an Optimization Problem - Sepliarskaia, et al
Preference Elicitation as an Optimization Problem - Sepliarskaia, et alMinjoon Kim
 
Recommendation System History
Recommendation System HistoryRecommendation System History
Recommendation System HistoryTae Young Lee
 
Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한 Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한 s song
 
Requirements
RequirementsRequirements
Requirementsnarae kim
 
메타데이터 활용 사례
메타데이터 활용 사례메타데이터 활용 사례
메타데이터 활용 사례SSePhi
 

Similar a MapReduce based Recommendation System (20)

[4차]왓챠 알고리즘 분석(151106)
[4차]왓챠 알고리즘 분석(151106)[4차]왓챠 알고리즘 분석(151106)
[4차]왓챠 알고리즘 분석(151106)
 
0222 사내세미나 이연권_추천시스템
0222 사내세미나 이연권_추천시스템0222 사내세미나 이연권_추천시스템
0222 사내세미나 이연권_추천시스템
 
퍼지 전문가 시스템을 이용한 상품 추천 알고리즘
퍼지 전문가 시스템을 이용한 상품 추천 알고리즘퍼지 전문가 시스템을 이용한 상품 추천 알고리즘
퍼지 전문가 시스템을 이용한 상품 추천 알고리즘
 
알고리즘 마케팅 CH5
알고리즘 마케팅 CH5알고리즘 마케팅 CH5
알고리즘 마케팅 CH5
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리
 
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
 
UI/UX 개선을 위한 빠른 프로토타이핑
UI/UX 개선을 위한 빠른 프로토타이핑UI/UX 개선을 위한 빠른 프로토타이핑
UI/UX 개선을 위한 빠른 프로토타이핑
 
유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례
 
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
 
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
 
03. it정보화전략-솔루션 도입
03. it정보화전략-솔루션 도입03. it정보화전략-솔루션 도입
03. it정보화전략-솔루션 도입
 
Preference Elicitation as an Optimization Problem - Sepliarskaia, et al
Preference Elicitation as an Optimization Problem - Sepliarskaia, et alPreference Elicitation as an Optimization Problem - Sepliarskaia, et al
Preference Elicitation as an Optimization Problem - Sepliarskaia, et al
 
Recommendation System History
Recommendation System HistoryRecommendation System History
Recommendation System History
 
Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한 Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한
 
Requirements
RequirementsRequirements
Requirements
 
메타데이터 활용 사례
메타데이터 활용 사례메타데이터 활용 사례
메타데이터 활용 사례
 

Último

Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 

Último (6)

Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 

MapReduce based Recommendation System