1. Mengenal
Text to Speech dan Teknologi Bahasa
Arry Akhmad Arman
Institut Teknologi Bandung
Email: arman@kupalima.com
Web: http://www.kupalima.com
Blog: http://kupalima.wordpress.com
Materi kuliah ini dapat di download di http://slideshare.net/kupalima
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
2. How small can you go?
y g
Still convenient?
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
3. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
4. Apa “Teknologi Bahasa”?
p g
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
5. Komponen Teknologi Bahasa
p g
Text to
Speech
Speech
Recogni
Recogni-
tion
NLP:
NLP
Language
Translator
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
6. Apa “Text to Speech”?
p p
Text to
Text Speech
Ucapan
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
7. Indonesian
Text to Speech System
Intonation Diphone
Model Database
Text Text Phonemes Phoneme Speech
to Phoneme to Speech
Converter Converter
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 7
8. Konversi Teks ke Ucapan
p
Bapak membeli 5
Text
kerang seharga
Rp 200,- eme Normalization
li i
Exception Letter-to-Phoneme
ext-to-Phone
Dictionary Lookup Conversion
Prosody
Te
Generation
ch
eme-to-Speec
Speech Parameter
Generation
Phone
Speech Waveform
Production
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 8
9. Konversi Teks ke Ucapan
p
Saya membeli 5 saya membeli lima
Text
kerang seharga
Normalization
li i k
kerang seharga d
h dua
Rp 200,-
ratus rupiah
eme
Exception Letter-to-Phoneme
ext-to-Phone
Dictionary Lookup Conversion
Prosody
Te
Generation
ch
eme-to-Speec
Speech Parameter
Generation
Phone
Speech Waveform
Production
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 9
10. Konversi Teks ke Ucapan
p
Saya membeli 5 saya membeli lima
Text
kerang seharga
Normalization
li i kerang seharga d
k h dua
Rp 200,-
ratus rupiah
*|s|* => |s|
eme
Exception Letter-to-Phoneme
*|a| =>|a|
|a|
ext-to-Phone
Dictionary Lookup Conversion
*|n|~g => |n|
*|n|g => |ñ|
n|g|* => |blank|
Prosody ~n|g|* => |g|
Te
Generation
ch
eme-to-Speec
Speech Parameter
Generation
Phone
Speech Waveform
Production
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 10
11. Konversi Teks ke Ucapan
p
Saya membeli 5 saya membeli lima
Text
kerang seharga
Normalization
li i k
kerang seharga d
h dua
Rp 200,-
ratus rupiah
*|s|* => |s|
eme
teknik => Exception Letter-to-Phoneme
*|a| =>|a|
|a|
ext-to-Phone
/t//E//k/ Dictionary Lookup Conversion
*|n|~g => |n|
/n//i//k/ *|n|g => |ñ|
n|g|* => |blank|
Prosody ~n|g|* => |g|
Te
IT => /a//i//t//i/ Generation
ch
eme-to-Speec
Speech Parameter
Generation
Phone
Speech Waveform
Production
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 11
12. Konversi Teks ke Ucapan
p
Saya membeli 5 saya membeli lima
Text
kerang seharga
Normalization
li i k
kerang seharga d
h dua
Rp 200,-
ratus rupiah
*|s|* => |s|
eme
teknik => Exception Letter-to-Phoneme
*|a| =>|a|
|a|
ext-to-Phone
/t//E//k/ Dictionary Lookup Conversion
*|n|~g => |n|
/n//i//k/ *|n|g => |ñ|
n|g|* => |blank|
Prosody ~n|g|* => |g|
Te
Generation
|_||s||a||y||a| …
|_||k||e||r||a||ñ| |_|…
ch
eme-to-Speec
Speech Parameter
Generation
Phone
Speech Waveform
Production
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 12
13. Konversi Teks ke Ucapan
p
Saya membeli 5 saya membeli lima
Text
kerang seharga
Normalization
li i kerang seharga d
k h dua
Rp 200,-
ratus rupiah
*|s|* => |s|
eme
teknik => Exception Letter-to-Phoneme
*|a| =>|a|
|a|
ext-to-Phone
/t//E//k/ Dictionary Lookup Conversion
*|n|~g => |n|
/n//i//k/ *|n|g => |ñ|
n|g|* => |blank|
Prosody ~n|g|* => |g|
Te
Generation
|_| ,100ms |_||s||a||y||a| …
|s| ,60ms, 97Hz |_||k||e||r||a|| ñ | |_|…
ch
eme-to-Speec
|a| 85
| | ,85ms, 100Hz
100H Speech Parameter
…. Generation
|r| ,55ms, 110Hz
|a| ,90ms, 114Hz
| ñ|, 87ms ,
|, ,117Hz
Phone
… Speech Waveform
Production
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 13
14. Konversi Teks ke Ucapan
p
Saya membeli 5 saya membeli lima
Text
kerang seharga
Normalization
li i kerang seharga d
k h dua
Rp 200,-
ratus rupiah
*|s|* => |s|
eme
teknik => Exception Letter-to-Phoneme
*|a| =>|a|
|a|
ext-to-Phone
/t//E//k/ Dictionary Lookup Conversion
*|n|~g => |n|
/n//i//k/ *|n|g => |ñ|
n|g|* => |blank|
Prosody ~n|g|* => |g|
Te
Generation
|_| ,100ms |_||s||a||y||a| …
|s| ,60ms, 97Hz |_||k||e||r||a|| ñ | |_|…
ch
eme-to-Speec
|a| 85
| | ,85ms, 100Hz
100H Speech Parameter
…. Generation
|r| ,55ms, 110Hz
|a| ,90ms, 114Hz
| ñ|, 87ms ,
|, ,117Hz
Phone
… Speech Waveform
Production
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 14
15. Teknik Pembangkitan Ucapan
g p
• Formant Synthesizer (penentuan parameter
frekuensi untuk setiap fonem)
• Concatenation (rekaman kata yang disambung)
( y g g)
– Word concatenation (terbatas)
– Diphone Concatenation (teknik yang saat ini digunakan
untuk TTS Bahasa Indonesia)
– Unit Selection (today’s most uptodate TTS)
• A i l
Articulatory M d l (
Model (penentuan parameter fi ik
fisik
alat-alat ucap manusia untuk setiap fonem)
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
16. [Teknik Pembangkitan Ucapan]
Formant Synthesizer
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
17. [Teknik Pembangkitan Ucapan]
Formant Synthesizer
F1 F2 F3
/a/
/ / 180 272 390
180
/i/ 171 293 377
272
Formant
/a/ 390 Synthesizer
module
d l
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
19. Apa “Speech Recognition”?
p p g
Speech
Ucapan Recognition
Text
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
20. Speech Recognition System
p g y
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 20
22. Apa “Translator Bahasa”?
p
Bahasa Translator Bahasa
Alami #1 Bahasa Alami #2
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
23. Bahasa Alami dan Bahasa Buatan
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
24. Beberapa Tantangan dalam
Pengembangan Translator
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
25. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
26. Definisi Prosodi
Thierry Dutoit [Dut97] mengemukakan bahwa:
“The term prosody refers to certain properties of the
speech signal such as audible changes in pitch, loudness,
and syllable length. … because prosodic events appear
to be time-aligned with syllables or groups of syllables,
rather than with segments (sound phonemes), they are
(sound, phonemes)
also referred to as supra segmental phenomena.
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
27. Definisi Prosodi
Hiroya Fujisaki [Fuj96] mengutip pendapat Lehiste
(1970),
(1970) Ladd dan Cutler (1983):
1. prosodi sebagai fenomena fisik yang melibatkan
parameter‐parameter pitch, d
i h durasi d i
i dan intensitas;
i
dan
2. prosodi sebagai suatu fenomena linguistik yang
p g f g y g
melibatkan organisasi fonologi pada level yang
lebih tinggi dari segmen-segmennya.
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
28. Definisi Prosodi
p y j [ j ]
Definisi prosodi menurut Hiroya Fujisaki [Fuj96] :
“Prosody is the systematic organization of various
linguistic units into an utterance or a coherent group of
utterances in the process of speech production. Its
realization involves both segmental and
suprasegmental f t
t l features of speech, and serves to convey
f h d t
not only linguistic information, but also paralinguistic
and non-linguistic information”.
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
29. Rangkuman Definisi Prosodi
g
• Prosodi adalah “organisasi yang sistematis dari
g y g
berbagai unit linguistik untuk membentuk ucapan”.
• Prosodi dapat dilihat sebagai fenomena fisik atau
fenomena li
f linguistik.
i tik
• Prosodi sebagai fenomena fisik dibentuk dari properti-
properti pitch, tingkat kekerasan, serta durasi.
• Prosodi sebagai fenomena linguistik dipengaruhi oleh
informasi informasi linguistik, informasi para-
linguistik (i f
li i l h
ditambahkan oleh pengucap),
i ik (informasi yang di b hk )
serta informasi non-linguistik (usia, jenis kelamin dan
g y )
sebagainya).
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
30. Model-Model Prosodi
• Model Fujisaki
• Model Acoustic Stylization
• Model Automatic Perceptual Stylization
• Model “Teori Kontur Pitch”
• Model “Teori Urutan Nada”
Teori Nada
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
31. Model Fujisaki
j
• Kurva pitch p
p prosodi merupakan super-impose dari kurva
p p p
frasa dan kurva aksen.
• Fujisaki tidak menjelaskan bagaimana mengaitkan setiap
komponen d
k dengan aspek li
k linguistiknya.
i tik
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
32. Teori
Kontur Pitch
• Teori Kontur Pitch
menyatakan bahwa
kurva pitch dibentuk
dari segmen segmen
segmen-segmen
unik yang berasal dari
kumpulan segmen
yang jumlahnya
terhingga.
• Pernah diterapkan oleh
Delatree untuk Bahasa
Perancis dengan 10
segmen (k t d
(kontur dasar)
)
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
33. Penelitian Intonasi Bahasa Indonesia
• Analisis pola intonasi secara kualitatif.
Penelitian-penelitian kelompok ini mencoba menganalisis pola intonasi
bahasa Indonesia tanpa melakukan pengukuran secara kuantitatif.
• Analisis pola intonasi secara kuantitatif.
Analisis pola intonasi bahasa Indonesia berdasarkan besaran besaran
besaran‐besaran
kuantitatif yang diukur mengunakan alat tertentu.
– ”Intonation in Relation to Syntax in Indonesia” yang merupakan disertasi
Bapak Amran Halim (
p (1969, Universitas Michigan).
, g )
• Pemodelan Intonasi. Pengembangan model yang dapat membangkitkan
pola intonasi secara otomatis untuk suatu kalimat tertentu.
– Model intonasi Indo-1, diusulkan oleh Arry Akhmad Arman yang
dipublikasikan pada APCC (Asia Pacific Conference on Communications)
2001 di Tokyo, Jepang [ASAM01].
– Model intonasi Indo-2, diusulkan oleh Arry Akhmad Arman yang
dipublikasikan
dip blikasikan sebagai disertasi (2004)
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
34. Model Intonasi Indo-1
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
35. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
36. Definisi Praktis ‘Model Prosodi’
Saya membeli 5
Text
kerang seharga
Rp 200,- eme Normalization
li i
Exception Letter-to-Phoneme
ext-to-Phone
Dictionary Lookup Conversion
Prosody
Te
Generation
|_| ,100ms
|s| ,60ms, 97Hz
ch
eme-to-Speec
|a| 85
| | ,85ms, 100Hz
100H Speech Parameter
…. Generation
|r| ,55ms, 110Hz
|a| ,90ms, 114Hz
| ñ|, 87ms ,117Hz
|, ,
Phone
… Speech Waveform
Production
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 36
37. Model Intonasi Indo-2
[Tahap Analisis]
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
38. Model Intonasi Indo-2
[Tahap Analisis]
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
39. Model Intonasi Indo-2
[Tahap Analisis]
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
40. Model Intonasi Indo-2
[Tahap Analisis]
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
41. Model Intonasi Indo-2
[Tahap Analisis: Hasil Analisis]
• Kurva prosodi Bahasa Indonesia
p
dapat dibentuk dari segmen-segmen yang dapat
dikategorikan dalam dalam suatu kumpulan segmen
yang jumlahnya terhingga
• Setiap segmen dapat dibentuk dari sub-sub segmen
yang mempunyai trend linier
• Setiap sub segmen dapat dibentuk dari kurva linier dan
aksen-aksen yang terletak pada suku kata tertentu
• B b berhubungan d
Batas-batas segmen b h b dengan i f
informasi
i
linguistik (koma dan simbol lainnya) serta informasi
p
para linguistik (kata tersebut, itu, dan sebagainya)
g ( g y )
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
42. Model Intonasi Indo-2
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
43. Model Intonasi Indo-2
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
44. Deskripsi Model [1]
[Besaran-Besaran
[Besaran Besaran Sistem]
jseg
kalimat = U s , jseg = jumlah segmen dalam kalimat
i
i =1
jss
si = U ss ij , jss = jumlah sub segmen
j =1
jkt
ssij = U kt ijk , jkt = jumlah kata dalam segmen
k =1
jsk
kt ijkl = U sk ijkl , jsk = jumlah suku kata dalam kata
l =1
jf
sk ijklm = U fonemijklm , jf = jumlah fonem pada sukukata ijkl
kl kl ijklm
m =1
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
45. Deskripsi Model [2]
[Proses Segmentasi]
AS = (as1 , as 2 ,L, as jas ), jas = jumlah aturan segmentasi
as = (t , pt , kpt , js, ls )
t ∈ ( t l ∪ t pl )
t l = informasi linguistik
t pl = informasi para - linguistik
pt = (1,2,L , jt ), jt = jumlah token dalam kalimat
p j j j
kpt = (<, ≤, =, ≥, >)
js ∈ (tag1 , tag 2 , L, tag n )
ls ∈ (sebelum, sesudah)
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
46. Deskripsi Model [3]
[Proses Segmentasi]
durasi _ total ( ssij ) = ∑∑∑ durasi( fonemklm )
k l m
pitch ( fonemijklm ) = pitch _ frasaijklm + pitch _ aksenijklm
pitch _ frasa( fonemijklm ) = G ∑∑∑ durasi( fonemk ,l ,m ) + PA
k l m
( PB − PA )
G=
durasi _ total ( ssij )
pitch _ aksen( fonemijklm ) = 0, jika aturan aksen tidak terpenuhi
= ps, jika aturan terpenuhi
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
47. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
48. Application
Natural Language Translator
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 48
49. Application
Speech to Speech Translation
Speech Translator Text to
Recognition Indonesia Speech
Indonesia text Inggris text Inggris
speech
p speech
Bahasa
Indonesia English
speech speech
Text to Translator Speech
Speech Inggris Recognition
Indonesia text Indonesia text Inggris
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 49
50. Application
Document Reader
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 50
51. Application
Terminal for Deaf People
Monitor Text
Screen To Speech
Deaf
and
d
Prople
Keyboard Speech
g
Recognition
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 51
52. Application
Talking Aid
Sign
Text to
Language
Speech
Identification
Speech
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 52
53. Application
Talking Aid
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 53
54. Aplikasi Untuk Tuna Netra
p
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
55. Interaksi Lisan dengan Komputer
g p
2
Kurs rupiah terhadap
Komputer! Tolong 1
dolar saat ini menurut
bacakan kurs rupiah
informasi Bank
terhadap dolar
Indonesia adalah ….
amerika!
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
56. Layanan pemesanan tanpa operator!
y p p p
Sedang! Selamat datang di
layanan online Piza
Jakarta!
k
Sebutkan ukuran
yang akan anda
pesan: besar,
sedang, atau kecil!
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
57. Application
Future
• Di masa depan robot akan
depan,
menjadi bagian dari
kehidupan kita sehari‐hari;
p ;
tentunya kita tidak
berharap berhadapan
dengan robot yang hanya
bisa berbahasa Inggris
atau Jepang!
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 57
58. Penutup
p
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
59. Terima kasih !
Award from Presiden RI, Award f
A d from DAAD F
DAAD-Fraunhofer,
h f
2003 Germany , 2004
Materi kuliah ini dapat di download di http://slideshare.net/kupalima
Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 59