4. 형태소 분석, 개체명 인식, 색인어 추출
음차 모듈(서비스 품질 개선을 위한 동의어 사전 확대)
자연어 생성(NLG) 모듈
자동 띄어쓰기 모듈
주소록 분석 및 확장 모듈
5. [ NLP 기반기술 ]
한국어 문장을 의미 최소 단위인 형태소 단위로 구분하고, 적절한 형태소 태그를 부착
KLP 형태소 분석기 (하이브리드)
- 기계학습(음절 기반 분류를 활용한 Sequential Tagging 기법) + 사전 및 패턴 정보 활용
- 띄어쓰기 오류 및 미등록어에 비교적 강건하고, 사전 및 패턴을 함께 활용하여 오류 수정이 용이
- 음악, 교통, 백과, 뉴스, 쇼핑 도메인 사전 보강
문장 분리
사전기반Token 후
보및기본점수세팅
음절 모델
기반
음절 태깅
음절 태그
연결
확률 적용
패턴 기반
형태소 연결 확률
조정
복합형태소
분리
형태소 인덱스
설정
6. [ NLP 기반기술 ]
문장의 개체명(인명, 지명, 단체명 등)을 인식해 경계 및 클래스를 추출
기계학습(음절 기반 분류 모델) + 신규 패턴에 대한 처리 성능 강화 (NE 사전, Word Cluster 등)
성능 개선: Viterbi 고도화 (형태소 경계를 활용한 탐색 공간 축소), 메모리 사용량 개선
NLU 도메인 분류 및 도메인 별 Entity 태깅에 사용
입력 분석
(KMA 결과)
자동 문자열 생성
(음절별)
음절 단위
태깅
(SSVM)
문장 단위
검증
출력 JSON
생성
7. [ NLP 기반기술 ]
문서 검색 내재화를 위한 중요 색인어 추출 모듈
다양한 목적의 추출방식(6가지) 및 세부옵션(21가지) 제공
백과검색, 음악검색, 뉴스검색, Tmap 검색 등에 사용
문자
정규화
형태소
분석
(개체명 추출)
사전 기반
복합어
분리
사전 기반
동의어
추출
패턴 기반
색인어
추출
불용어
처리
인용구
추출
위치정보
부여
저는 토큰 스플릿 방식입니다.
바이그램 방식이죠
기본적인 단어를 추출합니다.
저는
바이
기본적
토큰
이그
단어
스플릿
그램
추출
방식입니다
방식 식이 이죠
8. 특정 언어의 발음을 우리말 문자로 나타내는 음차 변환을 수행 (KB alias 확장, 음악/Btv 서비스 활용)
Rule 기반 음차 변환
Deep Learning 기반 음차 변환
– 문자만으로 우리말 읽기 가능한 언어: 일본어, 스페인어 등
- 음운 현상, 외래어 표기법 등을 Rewrite Rule로 기술하여 음차 변환
[일본어 음차 변환 예] いらっしゃいませ イラッシャイマセ ilaTsijaimase ㅣㄹㅏTㅅㅑㅣㅁㅏㅅe 이랏샤이마세
– 영어: Sequence to Sequence Model 사용 (Input: Alphabet / Output: 한글 음절)
- 다양한 출처의 약 20만건의 데이터 수집 및 정제 사용
[ NLP 기반기술 ]
9. [ NLP 기반기술 ]
NUGU 음성 서비스를 위한 TTS용 발화문 생성기
기본 템플릿 + 예외/조건 템플릿 + 규칙기반 후처리를 통한 자연스러운 문장 생성
문자 유형 판단
(타입, 복합 문장)
문장 생성
템플릿 탐색
속성 값 치환 날짜 정규화및도치 조사 치환 어미 변경
(복합문일 경우)
문장 연결
#1. SPO 타입: 홍길동의 출생지는 서울이다.
홍길동의 출생지는 미상이다.
2년간(2012 ~ 2014)
아이유의 나이는 20살이다.
#2. SPOC 타입: 홍길동은 출생지가 서울인 정치인이다.
홍길동은 미상에서 출생했다. 홍길동의 출생지는 정확히 알려지지 않았다.
2012년 ~ 2014년 2년간
아이유는발라드장르의음악을한다. 아이유의 나이는 20살이고 발라드 장르의 음악을 합니다.
예외 템플릿 적용
S(ubject), P(redicate), O(bject), C(ategory)
조건 템플릿 적용
=+
10. [ NLP 기반기술 ]
Complex QA를 위한 Knowledge Graph 기반 발화문 생성기
Q: 소녀시대 멤버의 국적은?
NLU 분석 결과
지식 그래프 탐색 결과
QuestionType AnswerType
Formulas Reverse
소녀시대 유리: 대한민국
태연: 대한민국 티파니: 미국
Flatten
소녀시대
유리, 태연, 윤아..
: 대한민국
티파니, 써니: 미국
Grouping
Preferences
Features
A: [소녀시대]의 멤버 [유리, 태연, 수영, 효연, 윤아, 서연]의 국
적은 [대한민국]이고, [써니, 티파니]는 [미국]입니다.
템플릿 매칭
– 화면 기반의 계층형 정답을 자연스러운 자연어 문장으로 만드는게 중요함
- 너무 큰 숫자 표현, 시제 일치, 복수개의 정답 축약 기술 등
11. [ NLP 기반기술 ]
맞춤법 검사기의 띄어쓰기 자동 보정 기능 제공
규칙 기반 띄어쓰기 (KMA 결과 + POS Tag 활용)
2개 이상의 문장에 대한 문장 분리 및 문장 병합 기능
파라미터(음절수/띄어쓰기 비율) 기반 띄어쓰기 보정 적용 제어
구어체를 위한 기능(독립 띄어쓰기 된 1음절의 전/후 단어 결합)
문장 분리 및
합치기
문장별
형태소 분석
POS Tag 기반
띄어쓰기 규칙
적용
형태소별
예외 규칙
적용
독립 1음절
띄어쓰기 보정
언젠가는우리
다시만나요 그리고
다음에 만나영
언젠가는 우리 다시 만나요
그리고 다음에 만나 영
언젠가는 우리 다시 만나요
그리고 다음에 만나영
12. [ NLP 기반기술 ]
정규화
타이틀
검색
이름
검색
Suffix
검색
Prefix, Infix, Postfix
설정
확장형
생성
스코어
계산
전화 걸기 서비스용 연락처 형태 확장 모듈
미등록 문자열에 대한 위치 기반 처리(Prefix, Infix, Postfix)
성/이름 음절 및 타이틀/호칭 사전 + 예외 사전 활용
타이틀 유의어 확장 : 대표 -> 사장, CEO, 대표이사
• 홍길동 매니저 홍 매니저, 홍길동 매니저님, 홍길동, 홍길동님, 홍길동이
• 연락처 검색: 음성 특징 반영한 G2P 매칭(제임스 vs 재임스, 예진이 vs 애진이 등)
13. 문자 메시지 분류 및 정보 추출
발매 예정 음원 정보 추출
뉴스 요약
뉴스 토픽 추출
14. [ NLP 응용기술 ]
문자(SMS)를 광고, 카드 사용, 은행 입출금 문자 등으로 분류하고, 분류에 맞는 요약문을 생성
요약문은 정보 손실을 최소화하여 사용자의 청취 편의 도모
전화번호 맵핑
분류 패턴
숫자 정규화
키워드 매칭
로지컬 연산
자연어 생성
광고 문자
카드 문자
은행 문자
광고
스팸
국내/해외
입금
출금
결제
취소
거절
㈜스타벅스에서
사용한 우리카드
29,900원 승인
문자입니다.우리카드(1*1*)
홍*동님
11/04 19:57
일시불 29,900원
누적금액
1,003,819원
㈜스타벅스
15. [ NLP 응용기술 ]
사용자가 아직 발매되지 않은 음원의 재생을 요청할 때 안내 멘트 발화
발매가 되었으나 음원 제공이 불가한 경우, 검색 실패한 경우와는 구분하여 정보 제공이 가능
뉴스의 텍스트로부터 미리 발매 예정 음원 정보를 추출하여 서비스
아리아,
방탄소년단
Fake Love
틀어줘
아직 발매되지 않은
음악입니다.
곧 들려드릴께요.
원하시는 음악을 찾
지 못했습니다.
다시 말씀해 주세요.
17. [ NLP 응용기술 ]
사용자의 궁금함에 (살아 있는) 정보를 제공할 수 있는 두번째 서비스
기존의 뉴스 서비스 고도화
– 1st 서비스: NUGU 백과 (정적인 정보, 사전 정보 위주)
- 연합뉴스 등 메이저 언론사 39개 언론사 뉴스 실시간 제공
– 주요 뉴스, 분야별 뉴스 AOD 서비스 (1일 6회 AOD 업데이트)
- 사용자의 관심사에 대한 정보 제공 불가 뉴스검색+뉴스요약
“아리아, SK텔레콤 뉴스 틀어줘”
19. HTML 태그 정보를 활용하여 이미지 캡션, 링크, 광고, 관련 뉴스 등 제거/내용과 무관한 문자열 패턴 제거
원문 기사 URL
• : Text Clean 단계
• : Text Normalization 단계
20. [ NLP 응용기술 ]
□ Title Similarity Score
□ 뉴스 제목은 뉴스의 전반적인 내용을 함축적으로 설명
□ 제목 키워드가 문장 내에서 얼마나 출현하는지를 이용하여 문장 별로 점수 부여
□ Core Sentence Score
□ 기사 내용을 함축적으로 설명하는 핵심 문장을 선택
□ 문서 내 핵심 문장 선택에 효과적인 TextRank 알고리즘을 적용
□ Sentence Structure Score
□ 기사 내 문장의 위치, 완전한 문장 형태 여부 등 구조적인 자질을 활용하여 점수화
21. [ NLP 응용기술 ]
□ Sentence Path Selection
□ Sentence Ranking Top N(=3) 문장으로부터 시작하는 요약문 path 생성
□ context_score = α*Sentence_Score+β*Adjacency+γ*Context_Head_Score
□ Adjacency_Score = (len_article - adjacency) / len_article
□ Context_Head_Score: 이전 내용과 연관된 지시어(예: 결국, 그래서 등)로
시작하는 경우, 일정 문장 이내로 연속해서 나오는 경우 1, 아니면 0.
□ Summary Generation
□ Sentence Path 내 문장의 Context를 고려한 휴리스틱 룰에 따라 뉴스 요약문 생성
□ 자연스러운 TTS 발화문 형태로 경어체 어미 변환 (기록했다. 기록했습니다.)
22. [ NLP 응용기술 ]
News Clustering Topic Extraction
Preprocessing 고도화 Clustering 기술 및 랭킹 고도화 Key Phrase 추출 고도화