Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Apache Spark 입문에서 머신러닝까지

7.772 visualizaciones

Publicado el

발렌타인 웨비나 - Apache Spark 슬라이드 자료입니다.

Publicado en: Tecnología
  • Inicia sesión para ver los comentarios

Apache Spark 입문에서 머신러닝까지

  1. 1. • SCALA CRASH COURSE • 스칼라 학교
  2. 2. • •
  3. 3. 1. JAVA SDK INSTALL 2. 스파크 노트북 (HTTP://SPARK-NOTEBOOK.IO/) 3. 4. 5.
  4. 4. Reference: http://spark.apache.org/docs/latest/cluster-overview.html
  5. 5. • • •
  6. 6. • • • • •
  7. 7. • •
  8. 8. Reference: https://dzone.com/articles/big-data- processing-spark
  9. 9. • TRANSFORMATION • • •
  10. 10. • ACTION • • •
  11. 11. • •
  12. 12. • • CANNOT BE OPTIMIZED BY SPARK •
  13. 13. Reference: http://www.slideshare.net/databricks/2015-0616-spark-summit
  14. 14. • • OPTIMIZED BY SPARK
  15. 15. Reference: http://www.slideshare.net/databricks/spark-sqlsse2015public
  16. 16. Reference: http://www.slideshare.net/databricks/spark-sqlsse2015public
  17. 17. • LOST TYPE SAFETY
  18. 18. • • • •
  19. 19. • • •
  20. 20. • • •
  21. 21. 실습 ML 이론 선형대수, 통계, 프로그래밍
  22. 22. • • •
  23. 23. Hello World 부터 타이핑하고 시작하자
  24. 24. • 타이타닉 생존 예측프로젝트 목표 • 데이터 살펴보기데이터 이해 • 타이타닉 데이터데이터 준비 • ML 알고리즘 선택과 트레이닝 실행모델링 • 테스트 데이터를 사용해서 모델 평가평가 • 캐글에 올리기배포
  25. 25. 75% •
  26. 26. • • • • • • Reference: https://www.kaggle.com/c/titanic/data
  27. 27. • • • • • • Reference: https://www.kaggle.com/c/titanic/data
  28. 28. • •
  29. 29. • • • • • •
  30. 30. • • CHEAT SHEET •
  31. 31. ML Workflow라고 생각하자 Workflow안에 두 단계 존재 - 파이프를 변형(모델) - 파이프를 통해 결과 획득
  32. 32. Training Data 맞춤형 파이프 라인 (Model)
  33. 33. Test Data Model Result
  34. 34. 동영상 소개 Reference: https://en.wikipedia.org/wiki/Receiver_operating_characteristic
  35. 35. HOUSE PRICE PREDICTION
  36. 36. • •

×