코끼리(BOAZ) 사서의 도서 추천 솔루션
: 이 책 내용이 내 취향인데, 비슷한 내용의 책은 어떻게 찾지?’
줄거리를 바탕으로 책을 고르시는 분, 관심 작가의 책을 읽고 싶은 분들께
코끼리 사서가 취향저격 책을 제안해 드립니다.
12기 강호석 고은비 고은지 양태일 이지인 전준수 정해원
[국내 최초 빅데이터 연합동아리 BOAZ]
유튜브 - https://www.youtube.com/channel/UCSniI26A56n2QZ71opJtTUg
페이스북 - https://www.facebook.com/BOAZbigdata
인스타그램 - http://www.instagram.com/boaz_bigdata
블로그 - https://blog.naver.com/boazbigdata
4. 프로젝트 소개 : 프로젝트 팀 구
성
NLP를공부한 BOAZ분석
태블로를 통한
데이터 시각화를 공부
한
BOAZ 시각화
fromgensim.models.doc2vec importTaggedDocument
fromgensim.modelsimportDoc2Vec
classDoc2VecCorpus:
definit (self, ts):
self.ts = ts
defiter (self):
for name,sentenceints:
if(len(sentence)>0):
yieldTaggedDocument(
words= sentence,
tags= [name])
doc2vec_corpus= Doc2VecCorpus(ts)
doc2vec_model= Doc2Vec(doc2vec_corpus)
MODELING
5. 프로젝트 소개 : 주제 선정 과
정
어! 이 책 재미있게 읽었는데,
혹시 비슷한 내용의 책 또 없
나?
그렇게 많은 책을 다 읽어볼 시간은 없는
데…
알라딘의 도서 추천
“이상품을 구입하신 분들이 다음 상품도 구
입하셨습니다.”
이거 말고, 내용을 고려해서 도서 추천을
해 주는 곳은 없을까?
내용을 고려해서 도서를 추천해 줄 수 있는 서비스를 구현해 보고
자 함
6. 프로젝트 소개 : 코끼리 사서의 도서 추천 솔
루션
코끼리 사서
사람들이 좋아할 책을 알려주고 싶지만 서점의 책을 모두 읽어볼 수가 없었던 우리의 코끼리
사서는, 어떤 책을 읽어야 할 지 모르는 이들을 위한 솔루션을 만들게 됩니다.
이제 그 코끼리 사서의 서재를 여러분에게 공개합니다!
7. 동일한 카테고리 내
유사한 내용과 구매자 분포를
가진 책을 추천하는 서비스 구
현
프로젝트 소
개
: 프로젝트 목
표
9. 책 속에서(실제 책 내용 활용 가능), 구매자 분포, 세일즈포인
트 등
1.사이트 “알라딘”선정 이유
데이터 수집 및 전처리 : 데이터
수집
책 속에
서
구매자 분
포
*알라딘 모바일 화
면
10. 카테고리 30
개
카테고리 7개
경제 경영, 과학, 대학교재/전문서적,
소설/시/희곡, 어린이, 에세이, 자기계
발
어린이부터 성인까지 다양한 사용자를 고려하고, 대중적인 카테고리
를 선정
베스트 셀러 & 스테디 셀러
각 카테고리 별 2018년도의 베스트셀러, 스테디 셀
러
경제경영(243), 과학(297),대학교재/전문서적(239),
소설/시/희곡(296), 에세이(302),자기계발(285)
총 7개 카테고리, 약 2000권의 책 수집
데이터 수집 및 전처리 : 데이터
수집
2.데이터 스크래
핑
11. 스크래핑 변
수
: 책제목, 작가, 출판일, 줄거리(책 속에서), 출판사 서
평, 구매자 성별/연령대별 분포(10-60), 카테고리,
출판사
데이터 수집 및 전처리 : 데이터
수집
2.데이터 스크래핑
스크래핑 데이
터
1.‘책속에서’ 영어 소문자 통
일
2.‘.’을 제외한 특수문자 제
거
3. ‘p.’, ‘접기’ 등 불용단어제거
전처리
PROCES
S
13. on
WD WW
Paragraph
id
the cat sat
Paragraphvectorwithdistributedmemory(PV-DM)
Classifier
Average/Concatenate
Paragraph Matrix
모델링 및 평
가
: 모델 설명_PV-DM
14. 모델링 및 평가 : 모델
링
카테고리별로 나눈
후,
‘책속에서’를 이용해 Doc2veccorpus생성,
모델링 ( vector size=300)
구매자 분포 스케일링 해서 12개의 차원
추가
=총 312개의 vector
16. 30-50대 여성 >남성
40대 여성, 30-50 남성
20-40 남성
‘수학이 필요한 순간’의 구매자 분
포
‘물리가 쉬워지는 미적분’의 구매자 분
포
‘처음 배우는 딥러닝 수학*’의 구매자 분
포
a. Story(300차원의 vector)
b. Story+ 구매자 분포 (312차원의 vector)
구매자 분포가 비슷한 책을 추천한다고 설명
가능
모델링 및 평가 : Doc2vec모델링 및 분석 결
과
27. 웹 구현 및 시각화 : 웹 평가 설문
Data
에너지의 방향 인식 방식 결정 방식 삶의 패턴
E I S N T F J P
단체 활동 선호, 생
각 을 표출하여 말
하기를 선호
혼자하는 활동 선호,
내면에 담고 글쓰는
것 을 선호
실용적이고 현실적이
며 숲보다 나무를 봄
미래를 추구하고 이
상 적이며, 두루뭉술
하고 자기만의 방식
있음. 주로 나무보다
숲을 봄
객관성과 합리성에
초 점, 논리적인 성
향, 일 과 목표, 효율
성 중시
감정 표현에 예민, 공
감적인 성향, 대인관
계 와 사람 중시
결단력이 있고, 철저
하 며 조직적, 명확성
, 예 측 가능성 및 계
획 중 시
융통성 있고 편안함 중
시, 자율롭고 즉흥적
- 모델 / 웹 개선점 파악을 위한 웹 설문 응답 수집 (300개)
PART1.응답자 기본 질문
Q1. 책을 주로 읽는 장소를 선택하여 주십시오
Q2. 책을 고를 때 가장 중요하게 여기는 요소는 무엇입니까?
PART2.응답자 웹 사용 경험 질문
Q1. 해당 도서 추천 시스템에서 본인이 가장 먼저 선택한 책의 카테고리는 무엇입
니까? Q2. 추천받은 책이 본인이 선택한 내용과 유사하다고 생각합니까?
Q3. 해당 추천시스템이 사용하기에 편리하십니까?
Q4. 해당 추천시스템을 개선하기 위해 계획하고 있는 서비스입니다. 다음 중 어느 항목을 가장 선호하십
니까?
PART3. 응답자 성향 질문
Q1. 본인이 해당 하는 쪽을 선택하여 주십시오
28. 웹 구현 및 시각화 : 시각화 대시
보드
MBTI 별 선호 카테고
리
: 응답자 성향 질
문
카테고리 별 책 선택
에 고려하는 요소
: 응답자 기본 질문
책 줄거리 속 key-word *
구매자 연령대/성별 분
포*
* : 스크래핑 데이터 사용한 시각
화
*선택한 카테고리의 책
을 추천해주는 코끼리
사서