SlideShare una empresa de Scribd logo
1 de 25
Descargar para leer sin conexión
NUGU NLP Technology
ASR
speech
ASR NLU
DM
NLGTTS
3rd
Party
APIs
speech
text
text
semantics
semantics
“아이유 노래 틀어줘”
music:play(SINGER=아이유)
“아이유의 밤편지 들려드릴께요"
music:play(SINGER,TITLE)
Knowledge
Base
NLP Core
Engine
1. NUGU NLP 기반 기술
2. NUGU NLP 응용 기술
형태소 분석, 개체명 인식, 색인어 추출
음차 모듈(서비스 품질 개선을 위한 동의어 사전 확대)
자연어 생성(NLG) 모듈
자동 띄어쓰기 모듈
주소록 분석 및 확장 모듈
[ NLP 기반기술 ]
한국어 문장을 의미 최소 단위인 형태소 단위로 구분하고, 적절한 형태소 태그를 부착
KLP 형태소 분석기 (하이브리드)
- 기계학습(음절 기반 분류를 활용한 Sequential Tagging 기법) + 사전 및 패턴 정보 활용
- 띄어쓰기 오류 및 미등록어에 비교적 강건하고, 사전 및 패턴을 함께 활용하여 오류 수정이 용이
- 음악, 교통, 백과, 뉴스, 쇼핑 도메인 사전 보강
문장 분리
사전기반Token 후
보및기본점수세팅
음절 모델
기반
음절 태깅
음절 태그
연결
확률 적용
패턴 기반
형태소 연결 확률
조정
복합형태소
분리
형태소 인덱스
설정
[ NLP 기반기술 ]
문장의 개체명(인명, 지명, 단체명 등)을 인식해 경계 및 클래스를 추출
기계학습(음절 기반 분류 모델) + 신규 패턴에 대한 처리 성능 강화 (NE 사전, Word Cluster 등)
성능 개선: Viterbi 고도화 (형태소 경계를 활용한 탐색 공간 축소), 메모리 사용량 개선
NLU 도메인 분류 및 도메인 별 Entity 태깅에 사용
입력 분석
(KMA 결과)
자동 문자열 생성
(음절별)
음절 단위
태깅
(SSVM)
문장 단위
검증
출력 JSON
생성
[ NLP 기반기술 ]
문서 검색 내재화를 위한 중요 색인어 추출 모듈
다양한 목적의 추출방식(6가지) 및 세부옵션(21가지) 제공
백과검색, 음악검색, 뉴스검색, Tmap 검색 등에 사용
문자
정규화
형태소
분석
(개체명 추출)
사전 기반
복합어
분리
사전 기반
동의어
추출
패턴 기반
색인어
추출
불용어
처리
인용구
추출
위치정보
부여
저는 토큰 스플릿 방식입니다.
바이그램 방식이죠
기본적인 단어를 추출합니다.
저는
바이
기본적
토큰
이그
단어
스플릿
그램
추출
방식입니다
방식 식이 이죠
특정 언어의 발음을 우리말 문자로 나타내는 음차 변환을 수행 (KB alias 확장, 음악/Btv 서비스 활용)
Rule 기반 음차 변환
Deep Learning 기반 음차 변환
– 문자만으로 우리말 읽기 가능한 언어: 일본어, 스페인어 등
- 음운 현상, 외래어 표기법 등을 Rewrite Rule로 기술하여 음차 변환
[일본어 음차 변환 예] いらっしゃいませ イラッシャイマセ ilaTsijaimase ㅣㄹㅏTㅅㅑㅣㅁㅏㅅe 이랏샤이마세
– 영어: Sequence to Sequence Model 사용 (Input: Alphabet / Output: 한글 음절)
- 다양한 출처의 약 20만건의 데이터 수집 및 정제 사용
[ NLP 기반기술 ]
[ NLP 기반기술 ]
NUGU 음성 서비스를 위한 TTS용 발화문 생성기
기본 템플릿 + 예외/조건 템플릿 + 규칙기반 후처리를 통한 자연스러운 문장 생성
문자 유형 판단
(타입, 복합 문장)
문장 생성
템플릿 탐색
속성 값 치환 날짜 정규화및도치 조사 치환 어미 변경
(복합문일 경우)
문장 연결
#1. SPO 타입: 홍길동의 출생지는 서울이다.
홍길동의 출생지는 미상이다.
2년간(2012 ~ 2014)
아이유의 나이는 20살이다.
#2. SPOC 타입: 홍길동은 출생지가 서울인 정치인이다.
홍길동은 미상에서 출생했다. 홍길동의 출생지는 정확히 알려지지 않았다.
2012년 ~ 2014년 2년간
아이유는발라드장르의음악을한다. 아이유의 나이는 20살이고 발라드 장르의 음악을 합니다.
예외 템플릿 적용
S(ubject), P(redicate), O(bject), C(ategory)
조건 템플릿 적용
=+
[ NLP 기반기술 ]
Complex QA를 위한 Knowledge Graph 기반 발화문 생성기
Q: 소녀시대 멤버의 국적은?
NLU 분석 결과
지식 그래프 탐색 결과
QuestionType AnswerType
Formulas Reverse
소녀시대 유리: 대한민국
태연: 대한민국 티파니: 미국
Flatten
소녀시대
유리, 태연, 윤아..
: 대한민국
티파니, 써니: 미국
Grouping
Preferences
Features
A: [소녀시대]의 멤버 [유리, 태연, 수영, 효연, 윤아, 서연]의 국
적은 [대한민국]이고, [써니, 티파니]는 [미국]입니다.
템플릿 매칭
– 화면 기반의 계층형 정답을 자연스러운 자연어 문장으로 만드는게 중요함
- 너무 큰 숫자 표현, 시제 일치, 복수개의 정답 축약 기술 등
[ NLP 기반기술 ]
맞춤법 검사기의 띄어쓰기 자동 보정 기능 제공
규칙 기반 띄어쓰기 (KMA 결과 + POS Tag 활용)
2개 이상의 문장에 대한 문장 분리 및 문장 병합 기능
파라미터(음절수/띄어쓰기 비율) 기반 띄어쓰기 보정 적용 제어
구어체를 위한 기능(독립 띄어쓰기 된 1음절의 전/후 단어 결합)
문장 분리 및
합치기
문장별
형태소 분석
POS Tag 기반
띄어쓰기 규칙
적용
형태소별
예외 규칙
적용
독립 1음절
띄어쓰기 보정
언젠가는우리
다시만나요 그리고
다음에 만나영
언젠가는 우리 다시 만나요
그리고 다음에 만나 영
언젠가는 우리 다시 만나요
그리고 다음에 만나영
[ NLP 기반기술 ]
정규화
타이틀
검색
이름
검색
Suffix
검색
Prefix, Infix, Postfix
설정
확장형
생성
스코어
계산
전화 걸기 서비스용 연락처 형태 확장 모듈
미등록 문자열에 대한 위치 기반 처리(Prefix, Infix, Postfix)
성/이름 음절 및 타이틀/호칭 사전 + 예외 사전 활용
타이틀 유의어 확장 : 대표 -> 사장, CEO, 대표이사
• 홍길동 매니저  홍 매니저, 홍길동 매니저님, 홍길동, 홍길동님, 홍길동이
• 연락처 검색: 음성 특징 반영한 G2P 매칭(제임스 vs 재임스, 예진이 vs 애진이 등)
문자 메시지 분류 및 정보 추출
발매 예정 음원 정보 추출
뉴스 요약
뉴스 토픽 추출
[ NLP 응용기술 ]
문자(SMS)를 광고, 카드 사용, 은행 입출금 문자 등으로 분류하고, 분류에 맞는 요약문을 생성
요약문은 정보 손실을 최소화하여 사용자의 청취 편의 도모
전화번호 맵핑
분류 패턴
숫자 정규화
키워드 매칭
로지컬 연산
자연어 생성
광고 문자
카드 문자
은행 문자
광고
스팸
국내/해외
입금
출금
결제
취소
거절
㈜스타벅스에서
사용한 우리카드
29,900원 승인
문자입니다.우리카드(1*1*)
홍*동님
11/04 19:57
일시불 29,900원
누적금액
1,003,819원
㈜스타벅스
[ NLP 응용기술 ]
사용자가 아직 발매되지 않은 음원의 재생을 요청할 때 안내 멘트 발화
발매가 되었으나 음원 제공이 불가한 경우, 검색 실패한 경우와는 구분하여 정보 제공이 가능
뉴스의 텍스트로부터 미리 발매 예정 음원 정보를 추출하여 서비스
아리아,
방탄소년단
Fake Love
틀어줘
아직 발매되지 않은
음악입니다.
곧 들려드릴께요.
원하시는 음악을 찾
지 못했습니다.
다시 말씀해 주세요.
[ NLP 응용기술 ]
원제: 라이크 파라다이스
부제: Like Paradise
크리샤 츄 펜타곤 워너원
로컬 추출(뉴스 1건에서 노래/가수 쌍 추출)
저장소
저장소
크리샤 츄 크리샤 츄 아이유 소녀시대
뉴스기사1 뉴스기사2 뉴스기사3 뉴스기사4
원제: 라이크 파라다이스
부제: Like Paradise
크리샤 츄
글로벌 랭킹(뉴스 N건)
[ NLP 응용기술 ]
사용자의 궁금함에 (살아 있는) 정보를 제공할 수 있는 두번째 서비스
기존의 뉴스 서비스 고도화
– 1st 서비스: NUGU 백과 (정적인 정보, 사전 정보 위주)
- 연합뉴스 등 메이저 언론사 39개 언론사 뉴스 실시간 제공
– 주요 뉴스, 분야별 뉴스 AOD 서비스 (1일 6회 AOD 업데이트)
- 사용자의 관심사에 대한 정보 제공 불가  뉴스검색+뉴스요약
“아리아, SK텔레콤 뉴스 틀어줘”
[ NLP 응용기술 ]
News Article
Text Clean
Text Normalization
Sentence Split & Noun Extraction
Preprocessor
Title Similarity Score
Core Sentence Score
Sentence Structure Score
Sentence Ranker
Sentence Scoring
Sentence
Path Selection
Summary
Generation
Summarizer
News Summary
HTML 태그 정보를 활용하여 이미지 캡션, 링크, 광고, 관련 뉴스 등 제거/내용과 무관한 문자열 패턴 제거
원문 기사 URL
• : Text Clean 단계
• : Text Normalization 단계
[ NLP 응용기술 ]
□ Title Similarity Score
□ 뉴스 제목은 뉴스의 전반적인 내용을 함축적으로 설명
□ 제목 키워드가 문장 내에서 얼마나 출현하는지를 이용하여 문장 별로 점수 부여
□ Core Sentence Score
□ 기사 내용을 함축적으로 설명하는 핵심 문장을 선택
□ 문서 내 핵심 문장 선택에 효과적인 TextRank 알고리즘을 적용
□ Sentence Structure Score
□ 기사 내 문장의 위치, 완전한 문장 형태 여부 등 구조적인 자질을 활용하여 점수화
[ NLP 응용기술 ]
□ Sentence Path Selection
□ Sentence Ranking Top N(=3) 문장으로부터 시작하는 요약문 path 생성
□ context_score = α*Sentence_Score+β*Adjacency+γ*Context_Head_Score
□ Adjacency_Score = (len_article - adjacency) / len_article
□ Context_Head_Score: 이전 내용과 연관된 지시어(예: 결국, 그래서 등)로
시작하는 경우, 일정 문장 이내로 연속해서 나오는 경우 1, 아니면 0.
□ Summary Generation
□ Sentence Path 내 문장의 Context를 고려한 휴리스틱 룰에 따라 뉴스 요약문 생성
□ 자연스러운 TTS 발화문 형태로 경어체 어미 변환 (기록했다.  기록했습니다.)
[ NLP 응용기술 ]
News Clustering Topic Extraction
Preprocessing 고도화 Clustering 기술 및 랭킹 고도화 Key Phrase 추출 고도화
[ NLP 응용기술 ]
9월17일 09시(05~08시 데이터 기준)
Knowledge Base
NLP Core
Engine
speech
speech
ASR NLU
DM
NLGTTS
3rd
Party
APIs
NUGU NLP Technology

Más contenido relacionado

La actualidad más candente

Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Youngki Moon
 
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UXNUGU developers
 
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인NUGU developers
 
4 voc비정형분석 문종영
4 voc비정형분석 문종영4 voc비정형분석 문종영
4 voc비정형분석 문종영Saltlux Inc.
 
제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)Susang Kim
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석Taejoon Yoo
 
왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기deepseaswjh
 
음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬 음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬 msdream
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?ssuseraf7587
 
한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기Ted Taekyoon Choi
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성Hye-rim Jang
 
인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개Seung-won CHAE
 
영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래 engedukamall
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템Seokhwan Kim
 

La actualidad más candente (15)

Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...
 
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
 
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
 
4 voc비정형분석 문종영
4 voc비정형분석 문종영4 voc비정형분석 문종영
4 voc비정형분석 문종영
 
제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
 
왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기
 
음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬 음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
 
한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
 
인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개
 
영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
 
Ipa definition
Ipa definitionIpa definition
Ipa definition
 

Similar a [NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2

마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030Taejoon Yoo
 
자연어처리 소개
자연어처리 소개자연어처리 소개
자연어처리 소개Jin wook
 
한국어 자연어처리 101
한국어 자연어처리 101한국어 자연어처리 101
한국어 자연어처리 101Junyoung Park
 
생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기흥래 김
 
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)Amazon Web Services Korea
 
2017 기술사업계획서(trwth 문학컨텐츠)
2017 기술사업계획서(trwth 문학컨텐츠)2017 기술사업계획서(trwth 문학컨텐츠)
2017 기술사업계획서(trwth 문학컨텐츠)Nicky Dave
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616Taejoon Yoo
 
문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine TranslationNAVER LABS
 
KERAS 기반 오픈소스 ANAGO를 활용한 한글 NER
KERAS 기반 오픈소스 ANAGO를 활용한 한글 NERKERAS 기반 오픈소스 ANAGO를 활용한 한글 NER
KERAS 기반 오픈소스 ANAGO를 활용한 한글 NERHyunmin Lee
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거찬희 이
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역Byeong il Ko
 
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론Daemin Park
 
Natural Language Processing.pptx
Natural Language Processing.pptxNatural Language Processing.pptx
Natural Language Processing.pptxYongHeeHan10
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"Tae Young Kang
 

Similar a [NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2 (17)

마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
 
자연어처리 소개
자연어처리 소개자연어처리 소개
자연어처리 소개
 
한국어 자연어처리 101
한국어 자연어처리 101한국어 자연어처리 101
한국어 자연어처리 101
 
생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
 
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
 
2017 기술사업계획서(trwth 문학컨텐츠)
2017 기술사업계획서(trwth 문학컨텐츠)2017 기술사업계획서(trwth 문학컨텐츠)
2017 기술사업계획서(trwth 문학컨텐츠)
 
Pycon Korea 2020
Pycon Korea 2020 Pycon Korea 2020
Pycon Korea 2020
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616
 
문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation
 
KERAS 기반 오픈소스 ANAGO를 활용한 한글 NER
KERAS 기반 오픈소스 ANAGO를 활용한 한글 NERKERAS 기반 오픈소스 ANAGO를 활용한 한글 NER
KERAS 기반 오픈소스 ANAGO를 활용한 한글 NER
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역
 
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
 
Natural Language Processing.pptx
Natural Language Processing.pptxNatural Language Processing.pptx
Natural Language Processing.pptx
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
 

Más de NUGU developers

[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출NUGU developers
 
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향NUGU developers
 
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI PartnerNUGU developers
 
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU EverywhereNUGU developers
 
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tipNUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 TipNUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDKNUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDKNUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술NUGU developers
 

Más de NUGU developers (20)

[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
 
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
 
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
 
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
 
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
 
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
 
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
 
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
 
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
 
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
 
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
 
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
 
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
 
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
 
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
 
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
 
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
 
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
 
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
 
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
 

[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2

  • 2. ASR speech ASR NLU DM NLGTTS 3rd Party APIs speech text text semantics semantics “아이유 노래 틀어줘” music:play(SINGER=아이유) “아이유의 밤편지 들려드릴께요" music:play(SINGER,TITLE) Knowledge Base NLP Core Engine
  • 3. 1. NUGU NLP 기반 기술 2. NUGU NLP 응용 기술
  • 4. 형태소 분석, 개체명 인식, 색인어 추출 음차 모듈(서비스 품질 개선을 위한 동의어 사전 확대) 자연어 생성(NLG) 모듈 자동 띄어쓰기 모듈 주소록 분석 및 확장 모듈
  • 5. [ NLP 기반기술 ] 한국어 문장을 의미 최소 단위인 형태소 단위로 구분하고, 적절한 형태소 태그를 부착 KLP 형태소 분석기 (하이브리드) - 기계학습(음절 기반 분류를 활용한 Sequential Tagging 기법) + 사전 및 패턴 정보 활용 - 띄어쓰기 오류 및 미등록어에 비교적 강건하고, 사전 및 패턴을 함께 활용하여 오류 수정이 용이 - 음악, 교통, 백과, 뉴스, 쇼핑 도메인 사전 보강 문장 분리 사전기반Token 후 보및기본점수세팅 음절 모델 기반 음절 태깅 음절 태그 연결 확률 적용 패턴 기반 형태소 연결 확률 조정 복합형태소 분리 형태소 인덱스 설정
  • 6. [ NLP 기반기술 ] 문장의 개체명(인명, 지명, 단체명 등)을 인식해 경계 및 클래스를 추출 기계학습(음절 기반 분류 모델) + 신규 패턴에 대한 처리 성능 강화 (NE 사전, Word Cluster 등) 성능 개선: Viterbi 고도화 (형태소 경계를 활용한 탐색 공간 축소), 메모리 사용량 개선 NLU 도메인 분류 및 도메인 별 Entity 태깅에 사용 입력 분석 (KMA 결과) 자동 문자열 생성 (음절별) 음절 단위 태깅 (SSVM) 문장 단위 검증 출력 JSON 생성
  • 7. [ NLP 기반기술 ] 문서 검색 내재화를 위한 중요 색인어 추출 모듈 다양한 목적의 추출방식(6가지) 및 세부옵션(21가지) 제공 백과검색, 음악검색, 뉴스검색, Tmap 검색 등에 사용 문자 정규화 형태소 분석 (개체명 추출) 사전 기반 복합어 분리 사전 기반 동의어 추출 패턴 기반 색인어 추출 불용어 처리 인용구 추출 위치정보 부여 저는 토큰 스플릿 방식입니다. 바이그램 방식이죠 기본적인 단어를 추출합니다. 저는 바이 기본적 토큰 이그 단어 스플릿 그램 추출 방식입니다 방식 식이 이죠
  • 8. 특정 언어의 발음을 우리말 문자로 나타내는 음차 변환을 수행 (KB alias 확장, 음악/Btv 서비스 활용) Rule 기반 음차 변환 Deep Learning 기반 음차 변환 – 문자만으로 우리말 읽기 가능한 언어: 일본어, 스페인어 등 - 음운 현상, 외래어 표기법 등을 Rewrite Rule로 기술하여 음차 변환 [일본어 음차 변환 예] いらっしゃいませ イラッシャイマセ ilaTsijaimase ㅣㄹㅏTㅅㅑㅣㅁㅏㅅe 이랏샤이마세 – 영어: Sequence to Sequence Model 사용 (Input: Alphabet / Output: 한글 음절) - 다양한 출처의 약 20만건의 데이터 수집 및 정제 사용 [ NLP 기반기술 ]
  • 9. [ NLP 기반기술 ] NUGU 음성 서비스를 위한 TTS용 발화문 생성기 기본 템플릿 + 예외/조건 템플릿 + 규칙기반 후처리를 통한 자연스러운 문장 생성 문자 유형 판단 (타입, 복합 문장) 문장 생성 템플릿 탐색 속성 값 치환 날짜 정규화및도치 조사 치환 어미 변경 (복합문일 경우) 문장 연결 #1. SPO 타입: 홍길동의 출생지는 서울이다. 홍길동의 출생지는 미상이다. 2년간(2012 ~ 2014) 아이유의 나이는 20살이다. #2. SPOC 타입: 홍길동은 출생지가 서울인 정치인이다. 홍길동은 미상에서 출생했다. 홍길동의 출생지는 정확히 알려지지 않았다. 2012년 ~ 2014년 2년간 아이유는발라드장르의음악을한다. 아이유의 나이는 20살이고 발라드 장르의 음악을 합니다. 예외 템플릿 적용 S(ubject), P(redicate), O(bject), C(ategory) 조건 템플릿 적용 =+
  • 10. [ NLP 기반기술 ] Complex QA를 위한 Knowledge Graph 기반 발화문 생성기 Q: 소녀시대 멤버의 국적은? NLU 분석 결과 지식 그래프 탐색 결과 QuestionType AnswerType Formulas Reverse 소녀시대 유리: 대한민국 태연: 대한민국 티파니: 미국 Flatten 소녀시대 유리, 태연, 윤아.. : 대한민국 티파니, 써니: 미국 Grouping Preferences Features A: [소녀시대]의 멤버 [유리, 태연, 수영, 효연, 윤아, 서연]의 국 적은 [대한민국]이고, [써니, 티파니]는 [미국]입니다. 템플릿 매칭 – 화면 기반의 계층형 정답을 자연스러운 자연어 문장으로 만드는게 중요함 - 너무 큰 숫자 표현, 시제 일치, 복수개의 정답 축약 기술 등
  • 11. [ NLP 기반기술 ] 맞춤법 검사기의 띄어쓰기 자동 보정 기능 제공 규칙 기반 띄어쓰기 (KMA 결과 + POS Tag 활용) 2개 이상의 문장에 대한 문장 분리 및 문장 병합 기능 파라미터(음절수/띄어쓰기 비율) 기반 띄어쓰기 보정 적용 제어 구어체를 위한 기능(독립 띄어쓰기 된 1음절의 전/후 단어 결합) 문장 분리 및 합치기 문장별 형태소 분석 POS Tag 기반 띄어쓰기 규칙 적용 형태소별 예외 규칙 적용 독립 1음절 띄어쓰기 보정 언젠가는우리 다시만나요 그리고 다음에 만나영 언젠가는 우리 다시 만나요 그리고 다음에 만나 영 언젠가는 우리 다시 만나요 그리고 다음에 만나영
  • 12. [ NLP 기반기술 ] 정규화 타이틀 검색 이름 검색 Suffix 검색 Prefix, Infix, Postfix 설정 확장형 생성 스코어 계산 전화 걸기 서비스용 연락처 형태 확장 모듈 미등록 문자열에 대한 위치 기반 처리(Prefix, Infix, Postfix) 성/이름 음절 및 타이틀/호칭 사전 + 예외 사전 활용 타이틀 유의어 확장 : 대표 -> 사장, CEO, 대표이사 • 홍길동 매니저  홍 매니저, 홍길동 매니저님, 홍길동, 홍길동님, 홍길동이 • 연락처 검색: 음성 특징 반영한 G2P 매칭(제임스 vs 재임스, 예진이 vs 애진이 등)
  • 13. 문자 메시지 분류 및 정보 추출 발매 예정 음원 정보 추출 뉴스 요약 뉴스 토픽 추출
  • 14. [ NLP 응용기술 ] 문자(SMS)를 광고, 카드 사용, 은행 입출금 문자 등으로 분류하고, 분류에 맞는 요약문을 생성 요약문은 정보 손실을 최소화하여 사용자의 청취 편의 도모 전화번호 맵핑 분류 패턴 숫자 정규화 키워드 매칭 로지컬 연산 자연어 생성 광고 문자 카드 문자 은행 문자 광고 스팸 국내/해외 입금 출금 결제 취소 거절 ㈜스타벅스에서 사용한 우리카드 29,900원 승인 문자입니다.우리카드(1*1*) 홍*동님 11/04 19:57 일시불 29,900원 누적금액 1,003,819원 ㈜스타벅스
  • 15. [ NLP 응용기술 ] 사용자가 아직 발매되지 않은 음원의 재생을 요청할 때 안내 멘트 발화 발매가 되었으나 음원 제공이 불가한 경우, 검색 실패한 경우와는 구분하여 정보 제공이 가능 뉴스의 텍스트로부터 미리 발매 예정 음원 정보를 추출하여 서비스 아리아, 방탄소년단 Fake Love 틀어줘 아직 발매되지 않은 음악입니다. 곧 들려드릴께요. 원하시는 음악을 찾 지 못했습니다. 다시 말씀해 주세요.
  • 16. [ NLP 응용기술 ] 원제: 라이크 파라다이스 부제: Like Paradise 크리샤 츄 펜타곤 워너원 로컬 추출(뉴스 1건에서 노래/가수 쌍 추출) 저장소 저장소 크리샤 츄 크리샤 츄 아이유 소녀시대 뉴스기사1 뉴스기사2 뉴스기사3 뉴스기사4 원제: 라이크 파라다이스 부제: Like Paradise 크리샤 츄 글로벌 랭킹(뉴스 N건)
  • 17. [ NLP 응용기술 ] 사용자의 궁금함에 (살아 있는) 정보를 제공할 수 있는 두번째 서비스 기존의 뉴스 서비스 고도화 – 1st 서비스: NUGU 백과 (정적인 정보, 사전 정보 위주) - 연합뉴스 등 메이저 언론사 39개 언론사 뉴스 실시간 제공 – 주요 뉴스, 분야별 뉴스 AOD 서비스 (1일 6회 AOD 업데이트) - 사용자의 관심사에 대한 정보 제공 불가  뉴스검색+뉴스요약 “아리아, SK텔레콤 뉴스 틀어줘”
  • 18. [ NLP 응용기술 ] News Article Text Clean Text Normalization Sentence Split & Noun Extraction Preprocessor Title Similarity Score Core Sentence Score Sentence Structure Score Sentence Ranker Sentence Scoring Sentence Path Selection Summary Generation Summarizer News Summary
  • 19. HTML 태그 정보를 활용하여 이미지 캡션, 링크, 광고, 관련 뉴스 등 제거/내용과 무관한 문자열 패턴 제거 원문 기사 URL • : Text Clean 단계 • : Text Normalization 단계
  • 20. [ NLP 응용기술 ] □ Title Similarity Score □ 뉴스 제목은 뉴스의 전반적인 내용을 함축적으로 설명 □ 제목 키워드가 문장 내에서 얼마나 출현하는지를 이용하여 문장 별로 점수 부여 □ Core Sentence Score □ 기사 내용을 함축적으로 설명하는 핵심 문장을 선택 □ 문서 내 핵심 문장 선택에 효과적인 TextRank 알고리즘을 적용 □ Sentence Structure Score □ 기사 내 문장의 위치, 완전한 문장 형태 여부 등 구조적인 자질을 활용하여 점수화
  • 21. [ NLP 응용기술 ] □ Sentence Path Selection □ Sentence Ranking Top N(=3) 문장으로부터 시작하는 요약문 path 생성 □ context_score = α*Sentence_Score+β*Adjacency+γ*Context_Head_Score □ Adjacency_Score = (len_article - adjacency) / len_article □ Context_Head_Score: 이전 내용과 연관된 지시어(예: 결국, 그래서 등)로 시작하는 경우, 일정 문장 이내로 연속해서 나오는 경우 1, 아니면 0. □ Summary Generation □ Sentence Path 내 문장의 Context를 고려한 휴리스틱 룰에 따라 뉴스 요약문 생성 □ 자연스러운 TTS 발화문 형태로 경어체 어미 변환 (기록했다.  기록했습니다.)
  • 22. [ NLP 응용기술 ] News Clustering Topic Extraction Preprocessing 고도화 Clustering 기술 및 랭킹 고도화 Key Phrase 추출 고도화
  • 23. [ NLP 응용기술 ] 9월17일 09시(05~08시 데이터 기준)
  • 24. Knowledge Base NLP Core Engine speech speech ASR NLU DM NLGTTS 3rd Party APIs