Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
GitHub & Facebook 프사• ( 1 !)

• contributor

• :

- Machine Learning

- Online Analytical Processing (OLAP)

- Data Wareho...
‣
‣
‣
‣
‣
‣
저는 Spark로 머신러닝 입문했습니다..
‣
‣
‣
‣ 

‣
‣
‣
‣
‣
‣
‣
‣
‣
Spark는 13,279개
1위는 TensorFlow: 별 61,725개 (넘사벽)
사용해보시면 Spark ML은 갈 길이 멀다는 것을 알게됩니다..
껌이네~
‣
‣
‣
‣
인간은 실수를 저지르기 마련...
‣ 



‣
‣
‣
‣
결과 보려고 다시 돌리는 짓 안해도됨...
이외에도 장점이 매우 많지만, ML에서의 장점들 입니다
긴 전처리 코드를 나누어 저장하면 좋겠죠?
저는 이 기능을 사랑합니다
제가 추천하는
전역변수 쓰지마!
‣
‣
‣
제 경험... 디버깅 한참함...
Solution! Zeppelin의 똑똑한 기능
‣
‣ 

‣
‣






‣
‣
‣
‣ 

‣ 

4.0 0.1 0.3 2.0 0.1
‣
‣
‣
‣
‣
‣
➡
“the cat sat on the”
‣
‣
‣
OMG
Word2Vec
• : , 

• Bolukbasi, Tolga, et al. "Quantifying and reducing stereotypes in word
embeddings." arXiv preprint arXi...
https://github.com/uosdmlab/nsmc-zeppelin-notebook/
0.Settings
• Spark version: 2.2.0-rc5

‣ 

- Word2VecModel$findSynonymsArray 

- LinearSVC 

• Zeppelin version: 0.8.0-SNAP...
‣
‣
‣
‣


감사합니다 ㅠㅠ
1.NSMC
• NSMC 

• Null 

• Parquet ( ) 

‣ Spark Parquet 

-
‣
‣
‣
제가 만들었습니다 ㅎ
2.Spark NKP
• Tokenizer 

• , + 

•
3.TF & TF-IDF
• :

‣ Spark NKP 

‣ CountVectorizer TF 

‣ IDF TF-IDF 

• Spark Pipeline API


• TF & TF-IDF
4.Word2Vec
• Hyper-parameters:

‣ Window size: 5 ( 5 , 5 )

‣ Vector size: 300 (300 word embedding)

‣ Iteration: 5 ( 5 )
...
참고로 한국어는 욕도 참 다양하고 word2vec은 욕도 잘 학습하더라는..
5.Word2VecViz
• PCA (Principal Component Analysis) 

300 word embedding 2 

• Zeppelin TOP 50
6.Classification
• TF & TF-IDF & Word2Vec 

‣ ?!
• Word2Vec ?
‣ !

‣ embedding
• 7 :

‣ TF + Naive Bayes

‣ TF + SVM

‣ TF-...
‣
‣
‣
‣
‣
‣
‣
‣
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Próxima SlideShare
Cargando en…5
×

Spark & Zeppelin을 활용한 한국어 텍스트 분류

6.606 visualizaciones

Publicado el

Zeppelin Notebook:
https://github.com/uosdmlab/nsmc-zeppelin-notebook

네이버 영화 리뷰 데이터셋에 Word2Vec, sentiment classification을 적용해봅니다.
2017년 6월 27일 (화) "Spark Day 2017"에서 발표되었습니다.

Publicado en: Datos y análisis

Spark & Zeppelin을 활용한 한국어 텍스트 분류

  1. 1. GitHub & Facebook 프사• ( 1 !) • contributor • : - Machine Learning - Online Analytical Processing (OLAP) - Data Warehouse - Deep Learning for: ‣ Image Retrieval ‣ Music Information Retrieval (MIR)
  2. 2. ‣ ‣ ‣ ‣
  3. 3. ‣ ‣
  4. 4. 저는 Spark로 머신러닝 입문했습니다..
  5. 5. ‣ ‣ ‣ ‣ 

  6. 6. ‣ ‣ ‣ ‣
  7. 7. ‣ ‣ ‣ ‣ ‣ Spark는 13,279개 1위는 TensorFlow: 별 61,725개 (넘사벽) 사용해보시면 Spark ML은 갈 길이 멀다는 것을 알게됩니다..
  8. 8. 껌이네~
  9. 9. ‣ ‣ ‣ ‣ 인간은 실수를 저지르기 마련...
  10. 10. ‣ 
 
 ‣ ‣ ‣ ‣ 결과 보려고 다시 돌리는 짓 안해도됨... 이외에도 장점이 매우 많지만, ML에서의 장점들 입니다 긴 전처리 코드를 나누어 저장하면 좋겠죠? 저는 이 기능을 사랑합니다
  11. 11. 제가 추천하는
  12. 12. 전역변수 쓰지마!
  13. 13. ‣ ‣ ‣ 제 경험... 디버깅 한참함...
  14. 14. Solution! Zeppelin의 똑똑한 기능
  15. 15. ‣ ‣ 
 ‣ ‣
  16. 16. 
 
 

  17. 17. ‣ ‣ ‣
  18. 18. ‣ 
 ‣ 
 4.0 0.1 0.3 2.0 0.1
  19. 19. ‣ ‣
  20. 20. ‣ ‣ ‣ ‣ ➡
  21. 21. “the cat sat on the”
  22. 22. ‣ ‣ ‣
  23. 23. OMG
  24. 24. Word2Vec • : , • Bolukbasi, Tolga, et al. "Quantifying and reducing stereotypes in word embeddings." arXiv preprint arXiv:1606.06121 (2016). ‣ FATHER:DOCTOR=MOTHER:? ‣ NURSE
  25. 25. https://github.com/uosdmlab/nsmc-zeppelin-notebook/
  26. 26. 0.Settings • Spark version: 2.2.0-rc5 ‣ - Word2VecModel$findSynonymsArray - LinearSVC • Zeppelin version: 0.8.0-SNAPSHOT ‣ master - Helium visualization package “zeppelin-highcharts-bubble” .. 후에 Word2Vec 시각화한 것을 보시면 왜 사용했는지 이해가 가실겁니다..
  27. 27. ‣ ‣ ‣ ‣ 
 감사합니다 ㅠㅠ
  28. 28. 1.NSMC • NSMC • Null • Parquet ( ) ‣ Spark Parquet -
  29. 29. ‣ ‣ ‣ 제가 만들었습니다 ㅎ
  30. 30. 2.Spark NKP • Tokenizer • , + •
  31. 31. 3.TF & TF-IDF • : ‣ Spark NKP ‣ CountVectorizer TF ‣ IDF TF-IDF • Spark Pipeline API • TF & TF-IDF
  32. 32. 4.Word2Vec • Hyper-parameters: ‣ Window size: 5 ( 5 , 5 ) ‣ Vector size: 300 (300 word embedding) ‣ Iteration: 5 ( 5 ) • ‣ Word2VecModel$findSynonyms() - cosine similarity
  33. 33. 참고로 한국어는 욕도 참 다양하고 word2vec은 욕도 잘 학습하더라는..
  34. 34. 5.Word2VecViz • PCA (Principal Component Analysis) 
 300 word embedding 2 • Zeppelin TOP 50
  35. 35. 6.Classification • TF & TF-IDF & Word2Vec ‣ ?! • Word2Vec ? ‣ ! ‣ embedding • 7 : ‣ TF + Naive Bayes ‣ TF + SVM ‣ TF-IDF + Naive Bayes ‣ TF-IDF + SVM ‣ Word2Vec + Logistic Regression ‣ Word2Vec + SVM ‣ Word2Vec + Multilayer Perceptron (MLP)
  36. 36. ‣ ‣ ‣ ‣ ‣
  37. 37. ‣ ‣ ‣

×