Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

기계학습 현재와미래 Pdf

3.133 visualizaciones

Publicado el

Flamingo Meetup

Publicado en: Datos y análisis
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí

기계학습 현재와미래 Pdf

  1. 1. 빅데이터본부 윤효근 기계학습의 발전방향과 이슈분석 부제 : 사례를 통해 살펴보는 기계학습 발전방향
  2. 2. 목차 1. 기계학습 개념(Concept of ML:Machine Learning) - 인공지능 개요 - 기계학습이란? - 기계학습 모델 - 기계학습 알고리즘 2. 기술 동향(Trend of AI Technique) - 알고리즘별(Algorithm) - 서비스별(Service) 3. 발전방향(For the Future)
  3. 3. 인공지능이란? Artificial Intelligence 사고(thinking),학습(learning),자기 개발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터공학 및 정보기술의 한 분야 1. 기계학습 개념
  4. 4. 역사 1. 기계학습 개념
  5. 5. 인공지능의 범위 1. 기계학습 개념 Artificial Intelligence(AI) Machine Learning Natural Language Processing (NLP) Speech Export Systems Planning, Scheduling & Optimization Robotics Vision Deep Learning Predictive Analytics Translation Classification & Clustering Information Extraction Text to Speech Speech to Text Image Recognition Machine Vision
  6. 6. 인공지능 Landscape 1. 기계학습 개념
  7. 7. 기계학습 모델 1. 기계학습 개념 Data Collection Agent Sensing Algorithm Level 4 Level 3 Level 2 Level 1 특징표현학습 기계학습 탐색, 추론, 지식 제어단계
  8. 8. 기계학습 모델 1. 기계학습 개념 특징 추출(Feature Extraction & Detection) 패턴탐색(Pattern Search & Mapping) 언어 검색(NLP Processing) v Cluster analysis v Dimensionality reduction v Feature detection v Feature selection v Data mining v Text mining v Connected-component labeling v Segmentation (image processing) Level 4 Level 3 Level 2 Level 1 특징표현학습 기계학습 탐색, 추론, 지식 제어단계
  9. 9. 기계학습 모델 1. 기계학습 개념 비감독학습(Unsupervised Learning) 감독학습(Supervised Learning) Level 4 Level 3 Level 2 Level 1 특징표현학습 기계학습 탐색, 추론, 지식 제어단계
  10. 10. 기계학습 모델 1. 기계학습 개념 • 비감독 학습 • 연역적 학습(Deductive Learning)이라고도 하며, 연역적 추론을 통해 학습 • 실시간 학습 이나 무 중단 학습 수행 • 잘못된 학습에 대한 평가와 수정 및 보완이 어려움 • 오류 피드백에 대한 정확도 개선 필요 • 결과 정보가 없는 데이터들에 대해 특정 패턴을 찾는 것 • 데이터에 잠재적 구조(Structure), 계층 구조(Hierarchy)를 찾아내는 것 • 숨겨진 사용자 집단을 찾아내는 것 • 문서들을 주제에 따라 구조화하는 것 • 로그 정보를 사용하여 사용 패턴을 찾아내는 것 • 학습 대상 • 군집화(Clustering) • 밀도 추정(Density Estimation) • 차원 축소(Dimensionality Reduction)
  11. 11. 기계학습 모델 1. 기계학습 개념 • 감독학습 • 귀납적 학습(Inductive Learning)이라고도 하며, 사례들 (Examples)을 일반화(Generalization)하여 패턴(Pattern)또는 모 델(Model)을 추출하는 것 • 일반적인 기계학습의 대상으로, 학습 데이터를 잘 설명할 수 있 는 패턴을 찾는 것 • 오류 피드백에 대한 정확한 반영과 조정 가능 • 주어진 (입력, 출력)에 대한 데이터 이용하며, 새로운 입력에 대한 결정이 필요한 경우 적용 • 분류(Classification) • 출력이 정해진 부류(Class, Category) 중 하나로 결정 • 회귀분석(Regression) • 출력이 연속인 영역(Continuous Domain)의 값 결정
  12. 12. 기계학습 모델 1. 기계학습 개념 유전자 알고리즘(Genetic Algorithm / Evolution Algorithm) 강화 알고리즘(Reinforcement Learning) Level 4 Level 3 Level 2 Level 1 특징표현학습 기계학습 탐색, 추론, 지식 제어단계
  13. 13. 기계학습 모델 1. 기계학습 개념 LoD (Linked Open Data) Level 4 Level 3 Level 2 Level 1 특징표현학습 기계학습 탐색, 추론, 지식 제어단계
  14. 14. 성능평가방법 - 목적함수 1. 기계학습 개념 Level 4 Level 3 Level 2 Level 1 특징표현학습 기계학습 탐색, 추론, 지식 제어단계 • Squared error • Classification error • Margin • Accuracy • Precision and recall • Likelihood • Posterior probability • Cost, utility, value • Risk • Entropy • Cross entropy • Information gain • Mutual information • KL divergence
  15. 15. 특징표현학습 - Deeplearning 1. 기계학습 개념 방법 명칭 별칭 고안자 소속 연관알고리즘 DBN Deep Belief Network Stacked RBM Geoffrey Hinton Toronto Univ. Hopfield Net., Boltzmann Machine SDA Stacked Dencising Autoencoder - Yoshua Bergio Montreal Univ. Principal Component Analysis LeNet LeCun Net. Convolutional Net. Yann LeCun New York Univ. Neocognitron LSTM Long Short-Term Memory Recurrent Neural Net. Jurgen Schmidhuber Swiss AI Lab Recurrent Neural Net 홉필드네트워크와 유사한 대칭 형 연상 신경망 구조로, 현재 대 부분의 컨테스트에서 우승한 모 델이며, 훈련방법에 있어서 통 계 물리학에 이론적 근거를 두 고 있음 DBN 영상인식문제에특화된감독학습용 신경망으로,기본틀은후쿠시마교수 의네오코그니트론(NeoCognitron)의 연장성에있음 네오코그니트론은신경생리학자인 Hubel 과Wiesel의고양이시각피질에대한실험 적관찰을모방해만듦. LeNet - CNN 미국 동부그룹과 독립적으로 슈 미트 후버 교수가 이끌어 온 이 론으로 매우 어려운 종류의 신 경망인 재귀적 망을 부분 주제 로 중용 LSTM-RNN 비감독 학습용 신경망으로, 자 체로는 쓰이지 않는 편이며, 주 로 RBM의 사전 훈련(Pre- traning)으로 수행하고, 주성분 분석(PCA)에 착안한 신경망임. (시그모이드변환함수를쓰는것이차이점) SDA
  16. 16. 감독학습 - 분류(Classification) 2. 기술동향 • 데이터들을 정해진 몇 개의 부류(Class)로 대응시키는 문제 • 분류 문제의 학습 • 학습 데이터를 잘 분류할 수 있는 함수를 찾는 것 • 함수의 형태는 수학적 함수일 수도 있고, 규칙일 수도 있음 • 분류기(Classifier) • 학습된 함수를 이용하여 데이터를 분류하는 프로그램
  17. 17. 감독학습 - 분류(Classification) 2. 기술동향 • 분류기 학습 알고리즘 • 결정트리(decision tree) 알고리즘 • K-근접이웃 (K-nearest neighbor, KNN) 알고리즘 • 다층 퍼셉트론 신경망 • 딥러닝(deep learning) 알고리즘 • 서포트 벡터 머신(Support Vector Machine, SVM) • 에이다부스트(AdaBoost) • 임의 숲(random forest) • 확률 그래프 모델 (probabilistic graphical model)
  18. 18. 비감독학습 - 군집화(Clustering) 2. 기술동향 • 유사성에 따라 데이터를 분류하는 것
  19. 19. 비감독학습 - 군집화(Clustering) 2. 기술동향 • 일반 군집화(hard clustering) • 데이터는 하나의 군집에만 포함 • 예) k-means 알고리즘 • 퍼지 군집화(fuzzy clustering) • 데이터가 여러 군집에 부분적으로 포함 • 포함정도의 합은 1 • 예) 퍼지 k-means 알고리즘 • 용도 • 데이터에 내재된 구조(underlying structure) 추정 • 데이터의 전반적 구조 통찰 • 가설 설정, 이상치(anomaly, outlier) 감지 • 데이터압축 :동일 군집의 데이터를 같은 값으로 표현 • 데이터 전처리(preprocessing) 작업 • 성능 • 군집내의 분산과 군집간의 거리
  20. 20. 비감독학습 - 추정(Estimation) 2. 기술동향 • 밀도 추정(Density Estimation) • 클래스별(Class) 데이터를 만들어 냈을 것으로 추정되는 확률분포를 찾는 것 • 용도 • 각 부류별로 주어진 데이터를 발생시키는 확률 계산 • 가장 확률이 높은 부류로 분류
  21. 21. 비감독학습 - 차원축소 2. 기술동향 • 차원축소(dimension reduction) • 고차원의 데이터를 정보의 손실을 최소화하면서 저차원으로 변환하는 것 • 차원 축수의 목적 • 2, 3차원으로 변환해 시각화하면 직관적 데이터 분석 가능 • 차원의 저주(curse of dimensionality) 문제 완화 • 차원이 커질수록 거리분포가 일정해지는 경향 있음 • 원이 증가함에 따라 부분공간의 개수가 기하급수적으로 증가 • 주성분분석(Principle Component Analysis, PCA)
  22. 22. 비감독학습 - 이상치(Outlier) 탐지 2. 기술동향 • 이상치 • 이상치란? • 다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것이 아닌지 의심스러운 데이터 • 관심대상 • 잡음(Noise) • 관측 오류, 시스템에서 발생하는 무작위적인 오차 • 관심이 없는 제거할 대상 • 신규성 탐지(Novelty Detection)와 관련 • 점 이상치(Point Outlier) • 다른 데이터와 비교하여 차이가 큰 데이터 • 상황적 이상치(Contextual Outlier) • 상황에 맞지 않는 데이터 • 예) 바다에 민물고기가 데이터가 존재하는 경우 • 집단적 이상치(Collective Outlier) • 여러 데이터를 모아서 보면 비정상으로 보이는 데이터들의 집단
  23. 23. 비감독학습 - 이상치(Outlier) 탐지 2. 기술동향 • 부정사용감지 시스템(fraud detection system, FDS) • 이상한거래승인요청시에카드소유자에게자동으로경고메시지전송 • 침입탐지 시스템(intrusion detection system, IDS) • 네트워크 트래픽을 관찰하여 이상 접근 식별 • 시스템의 고장 진단 • 임상에서 질환 진단 및 모니터링 • 공공보건에서 유행병 의 탐지 • 스포츠 통계학에서 특이 사건 감지 • 관측 오류의 감지
  24. 24. 기계학습의 이슈 2. 기술동향 과다학습(Overfitting) 정규화 & SRMBias-Variance Tradeoff ü 과다학습(Overfitting) ü 모델복잡도 ü Occam’s Razor ü 정규화 ü SRM(Structural Risk Minimization) ü MAP(Maximum A Posteriori) ü MDL(Minimum Description Length)
  25. 25. 기계학습의 이슈 2. 기술동향
  26. 26. 딥러닝 도입 특징 2. 기술동향 Deep Belief Net (DBN) Convol. NN (CNN) Deep Hypernet (DHN) 감독/무감독 감독/무감독 감독 감독/무감독 변별/생성 모델 생성 변별 생성 예측/모듈이해 예측++/모듈- 예측+++/모듈+ 예측+/모듈+++ 추론가능성 추론++ 추론- 추론++++ 연결성 Full/Compact Partial/Convolved Partial/Sparse 깊이 깊이+++ 깊이++++ 깊이++ 배치/온라인 학습 배치 배치 온라인
  27. 27. 서비스 분야 2. 기술동향 분야 적용 사례 인터넷 정보검색 텍스트 마이닝, 웹로그 분석, 스팸필터, 문서 분류, 여과, 추출, 요약, 추천 컴퓨터 시각 문자 인식, 패턴 인식, 물체 인식, 얼굴 인식, 장면전환 검출, 화상 복구 음성인식/언어처리 음성 인식, 단어 모호성 제거, 번역 단어 선택, 문법 학습, 대화 패턴 분석 모바일 HCI 동작 인식, 제스쳐 인식, 휴대기기의 각종 센서 정보 인식, 떨림 방지 생물정보 유전자 인식, 단백질 분류, 유전자 조절망 분석, DNA 칩 분석, 질병 진단 바이오메트릭스 홍채 인식, 심장 박동수 측정, 혈압 측정, 당뇨치 측정, 지문 인식 컴퓨터 그래픽 데이터기반 애니메이션, 캐릭터 동작 제어, 역운동학, 행동 진화, 가상현실 로보틱스 장애물 인식, 물체 분류, 지도 작성, 무인자동차 운전, 경로 계획, 모터 제어 서비스업 고객 분석, 시장 클러스터 분석, 고객 관리(CRM), 마켓팅, 상품 추천 제조업 이상 탐지, 에너지 소모 예측, 공정 분석 계획, 오류 예측 및 분류
  28. 28. 자연어처리 2. 기술동향 형태소분석 분류분석 연관성분석 가중치 Context 분석 지식표현지식검색 키워드 추출
  29. 29. 서비스 동향 - 금융보안 2. 기술동향 • 신규 상품 및 서비스 개발 • 타겟 마케팅 • 상품 추천 시스템 • 고객 이탈 방지 시스템 등 마케팅 활용영역 리스크 관리 투자관리 및 트레이딩 • 온라인 상에서 투자 절차 수행 • 단기 투자 포트폴리오 최적화 • 알고리즘 트레이딩 등 • 신용평가 시스템 • 조기경보 시스템 • 분식적발 시스템 • 상시감사 시스템 • 영업점 감사 시스템 • 위험 징후 탐지 시스템 • 자금세탁 방지 시스템 • 외환거래 위험방지 시스템 • 카드 부정 사용 방지 시스템 • 보험 사기적발 시스템 • 기타
  30. 30. 서비스 동향 - Stock 2. 기술동향
  31. 31. 서비스 동향 - Stock 2. 기술동향
  32. 32. 서비스 동향 - 불량고객예측 2. 기술동향 • 신규 대출신청자에 대한 불량고객일 가능성 계산 - 한국외대 최대우 교수
  33. 33. 서비스 동향 - 신용평가모델 2. 기술동향 CSS(Credit Score Service) 신용평가 방법 분석 – 고객의 Financial History를 보고 고객의 상환능력을 예측하고, 이를 등급화하여 금융회사에 제공 – CB(Credit Bureau) 데이터 한계 • CB에 금융정보 데이터가 없으면, 상환 능력이 좋은 고객도 신용 저평가 및 불이익 발생 * 참고자료 : (핀테크) 빅데이터 신용평가모형, ALFIN 빅데이터 분석 연구소, 2016.04 대출신청서 정보 외부 CB정보와 내부거래정보를 조합한 CSS Modeling (전통적 신용기록정보) 내부 거래 정보 외부 CB 정보 Financial History CSS Modeling을 통한 개인신용평점 산출 신용기록 데이터가 부족한 Thin File고객은 평가항목에서 가점을 받을 수 없으므로 CSS 신용평가 에서 불이익 온라인 금융 및 물품 거래 평점 산출 (Thin File 고객 포함)
  34. 34. 서비스 동향 - 금융사례 2. 기술동향 구분 내용 비고 • 신용리스크 모델의 처리시간 단축 • 신용관리 및 손실예측 처리시간 단축 • 비정형분석과 시스템 가동성 증대 등을 주요 과제로 추진 ü 채무 불이행 확률을 계산하는 데 걸리는 시간이 기존 96시간에서 4시 간으로 감소 ü 대출계좌 40만건에 대한 신용 평가점수를 산출하는 데 걸리는 시간도 기존 3시간에서 10분으로 단축 신용 예측 부정 거래 • 고객 거래내역 등의 빅데이터를 자체 시스템인 ‘왓슨(Watson)’으로 분석 • 신용도가 낮거나 떨어질 가능성이 있는 고객들을 선별한 후 대출/ 신용카드 발급 여부를 결정 ü 왓슨을 활용하여 미국 비영리 신용협동조합 회사들의 대출 상환 가능 여부를 판단하는데 정확도를 50% 이상 향상 부정 거래 고객 등급
  35. 35. 서비스 동향 - 금융사례 2. 기술동향 구분 내용 비고 • 지역별로 추출한 실제 투자자들이 인지하고 있는 SNS상에 노출된 부동산 관련 정보를 부동산 시가 산정 시 반영 ü 지역별 적정 부동산 담보가치를 산정하여 대출 시 적용하고 담보로 설 정한 부동산을 매각할 경우에도 기준시가로 활용 고객 예측 부정 거래 BB&T 금융지주 • 기존 데이터 분석을 토대로 25개 가량의 시나리오를 만들어 실행 하면서 분산 거래/ 송금/현금 거래 등 다양한 거래 내역을 추적하 는 방식을 활용 ü 수주일에서 수개월씩 걸리던 자금 세탁 추적 작업을 단 하루 만에 처리 부정 거래 Santam사 • 리스크의 경중에 따라 보험금 클레임을 자동 분류하고, 빅데이터 분석을 통해 보험사기를 효율적으로 적발 ü 특히 클레임 심사 기간이 단축되었고(저위험 청구는 기존 3일 이상 -> 즉시지급), 관련 시스템 운영 4개월만에 약 US $2.4M에 이르는 사기성 보험금 청구 적발 이상 징후 탐지 위험 거래
  36. 36. 기계학습 도입 고려사항 3. 발전방향 • 감독/무감독 학습 • 변별/생성 모델 • 예측/모듈이해 • 추론가능성 • 연결성 • 깊이 • 배치/온라인 학습
  37. 37. 기술통합 및 융합의 방향 설계 3. 발전방향
  38. 38. 도전과제 - 시장성 3. 발전방향
  39. 39. Q&A

×