Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Dynamic Word Cloud Using Word2Vec - Final Presentation

86 visualizaciones

Publicado el

3rd Final Presentation

Publicado en: Ingeniería
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Dynamic Word Cloud Using Word2Vec - Final Presentation

  1. 1. Dynamic Word Cloud Reflecting Flow of Time Using Word2Vec 4팀 : 장민욱, 장하진, 김범수
  2. 2. 목차 - 지난 발표 요약 - Pain & Needs - Model 결과 분석 - Word Cloud 구현 이슈 - Word Cloud 결과 분석
  3. 3. 팀원 소개 • 장민욱 : 응용 시나리오, 데이터 수집, 처리 • 김범수 : Word2Vec 구현 담당 • 장하진 : 데이터 시각화, 다이나믹스 담당
  4. 4. 지난 발표 요약 • 왜 Word Cloud를 Word2Vec으로 만드는가? • Text8과 4월 자료에 대한 결과 분석 • 평가에 대한 질문
  5. 5. Data Visualization
  6. 6. Data Visualization
  7. 7. Why WordCloud? • 기존의 것은 정적이다 • 워듴클라우드를 직접 만들기 어렵다. 기존의 것들은 직접 입력 해줘야 함. • 데이터 시각화를 해주는 또 하나의 자료
  8. 8. DataSet
  9. 9. Wikimedia dump service • 한 달에 두 번, dump file을 제작, 배포 • Pages-meta-currnet.xml.bz2 • 모든 문서의 최신 버전 • 25.2GB • Pages-articles.xml.bz2 • 일반 문서의 최신 버전 • 전체 편집 역사는 들어있지 않음 • 12.0GB https://dumps.wikimedia.org/enwiki/
  10. 10. Using WikiExtractor • Install WikiExtractor Git clone https://github.com/attardi/wikiextractor.git Cd wikiextractor/ sudo python setup.py install • Using WikiExtractor.py -o enwiki enwiki-latest-pages-articles.xml.bz2
  11. 11. Test DataSet 1. Enwiki-170220-pages.articles.xml.bz2 2. Enwiki-170420-pages.articles.xml.bz2 3. Enwiki-170620-pages.articles.xml.bz2
  12. 12. Google Hot Topic 2017.02 2017.04
  13. 13. 검증 (02.20 / 04.20 / 06.01) • Keyword • 1) Japan • 2) Summer • 3) Text • 4) Data
  14. 14. Word2Vec 결과 분석 • 왜 이런 값이 나왔는지? • Training Set 크기에 따른 결과 분석 • 날짜에 따른 결과 분석
  15. 15. Wiki dump • Wiki에서 만든 덤프를 이용해 text corpus생성 • Stemming, stopword 처리 X • 12GB • 20억개의 단어, 380만개의 단어 종류
  16. 16. 구현 이슈 • 한 덤프당 12GB. • 학습시간 1시간(cbow, hierarchical softmax 적용) • 시간에 따른 특성이 명확하게 보이지 않음
  17. 17. • 최신 문서임에 따라 overwatch 게임이 연관성을 띌것으로 기대 • 위키문서의 특성상, 오래된 정보도 새로운 정보와 동일한 학습 을 거치게 된다. • 새롭게 update된 정보만을 학습하는 기법이 필요할것이라 생각 됨
  18. 18. • 한 덤프당 12GB를 차지하다보니 동시에 여러 학습을 진행하기 힘들다. • 여러 가상머신을 사용해서 학습만을 진행하는 머신과 서버 역 할을 하는 머신을 구분할 필요가 있다.
  19. 19. Word Cloud 구현 목표 • 1. Dynamic Word Cloud 구현 • 2. 시간의 변화량 표현 • 직관적인 시각적 효과 적용
  20. 20. 1. Dynamic Word Cloud - 요구사항 • 일반적인 Word Cloud는 ‘단어’와 ‘단어의 빈도’가 기준. • 우리가 목표로 하는 Word Cloud는 ‘키워드’와 ‘유사어 및 유사 도’를 기준으로 사용한다. • 벡터화된 단어를 이해하고, 시간의 변화량을 표현할 수 있는 Word Cloud 라이브러리를 사용 또는 제작해야 한다.
  21. 21. Frequency와 Vector의 차이 • 지난 시간 질문 중 “Word2Vec을 이용한 Word Cloud는 어떤 의미가 있는가?” • 단어를 Vector로 표현하여 Semantic을 고려할 수 있다. • Google Hot Topic를 기준으로 활용
  22. 22. 2. 시간의 변화량 표현 - 요구사항 • 일정한 간격으로 수집된 데이터의 변화량을 어떻게 표현할 것 인가? • 단어의 크기, 위치, 색 등 정적인 요소를 동적으로 변화시켜 시 간의 흐름을 나타낼 수 있다.
  23. 23. 3. 직관적인 시각적 효과 - 요구사항 • Word Cloud를 볼 사람들이 한눈에 제작자가 어떤 내용을 전달 하려 하는지를 이해할 수 있어야 한다.
  24. 24. 구현 이슈 • 다양한 Word Cloud 라이브러리가 존재한다. • JS : D3-Cloud, WordCloud2.js • Python : pytagcloud, wordcloud • C# : Sparc.TagCloud • 기존 라이브러리 사용 vs 자체 라이브러리 제작
  25. 25. 구현 이슈 • 기존 Word Cloud 라이브러리들은 정적 이미지만 제작이 가능. • 기술적 요구사항인 “시간의 변화량 표현”을 충족하지 못함. • 이를 만족하기 위해선 Word Cloud를 직접 만들어야 한다.
  26. 26. 구현 결과 • 기존 라이브러리 사용시
  27. 27. 구현 결과 • 새 구현체
  28. 28. 개선점 및 향후 방향 • 다양한 DataSet 및 확장 • 보고서 등 활용할 수 있도록 다양한 시나리오 • Word Cloud 출력 형태 개선
  29. 29. 친절한 설명 • 1) 창의성 • 기존 Frequency 기반 Word cloud의 개념을 전복 • 퀄리티 • 2) 기술적 완성도 • 구현 및 테스트 • Word Cloud 자체 구현 • 3) 기여도 • Word2Vec 구현 정도에 따른 성능 비교 • 개선점 제안 • Wiki dump를 사용하기 위한 튜토리얼 제시
  30. 30. Q & A
  31. 31. 감사합니다 https://github.com/fromme0528/DataScience_Word2Vec

×