SlideShare una empresa de Scribd logo
1 de 13
Voice Cloning and its
Detection
Roman Kazantsev, Dilshod Poshshoev
Voice Biometrics
• Every person has unique voice biometrics like a finger print;
• Voice biometrics can be used for authorization to different systems
(mobile device, smart house, bank account,…)
• Voice biometrics is private and needs protections against voice
cloning.
What was done?
• Neural network based voice cloning implementation using open
source software;
• Employment of GMM based speaker identification for detection of
cloned voice.
NN based voice cloning architecture
Source Speech
World Vocoder:
Feature Extraction
Aperiodicity
Log-F0
Rastamat:
Extraction Mel-FCC
Tiny DNN:
Neural
Network
Linear Conversion
Log-F0
Aperiodicity
Spectrum
World Vocoder:
Synthesis
Target Speech
Rastamat: Inversion
MFCC to Spectrum
Mel-FCC
Predicted Mel-FCC
AWT(source speaker) and SLT(target speaker) from CMU_ARCTIC: http://festvox.org/cmu_arctic/
Alignment of source and target Mel-FCC
features using Dynamic Time Warping
arctic_a0001: "Author of the danger trail, Philip Steels, etc."
Source speaker
(AWT)
Target speaker
(SLT)
Data Mining Routine
extract_features_training.m
source wav_names{} = {arctic_a0001.wav}, ts_intervals{} = {[0.65, 1.05, 1.12, 1.20];}
target wav_names{} = {arctic_a0001.wav}, tt_intervals{} = {[0.20, 0.70, 0.80, 0.88];}
s_melfcc_train t_melfcc_train
t_mean_logf0
t_var_logf0
Neural Network for Cloning
Multilayer σ-activated perceptron [12, 40, 40, 12] is trained and used for
prediction of cepstral coefficients
…
…
…
…
Normalization
s_melfcc_train
Denormalization
t_melfcc_train
σ
σ
σ
σ
σ
σ
σ
σ
σ
σ
σ
σ
s_melfcc_predict t_melfcc_predict
Synthesis
synthesis.m
target.wav
source.wav
t_var_logf0
t_mean_logf0
t_melfcc_predict
Employment of GMM based speaker
recognition tool for cloned voice detection
Github link: https://github.com/ppwwyyxx/speaker-recognition
Examples:
Train:
speaker-recognition.py -t enroll -i "f1 m1" -m model.out
Label f1 has files f1arctic_a0001.wav,f1arctic_a0002.wav
Label m1 has files m1arctic_a0001.wav,m1arctic_a0002.wav
Start training...
0.545000076294 seconds
Predict:
speaker-recognition.py -t predict -i "f1/*.wav" -m model.out
f1arctic_a0001.wav -> f1
f1arctic_a0002.wav -> f1
Experiment with detection of cloned voice &
Results
SLT (target speaker)
arctic_a0001.wav
arctic_a0002.wav
arctic_a0003.wav
arctic_a0004.wav
arctic_a0005.wav
…
arctic_a0020.wav
Train: Predict:
SLT (target speaker)
wav name probability
arctic_b0002_orig.wav 0.953
arctic_b0002_NN.wav 0.765
arctic_b0002_DBN.wav 0.892
arctic_b0002_DBN_MLPG.wav 0.912
arctic_b0002_LSTM.wav 0.745
arctic_b0002_LSTM_MLPG.wav 0.769
Conclusion
1. Speaker recognition systems used for authorization should have
meticulously selected probability threshold against cloned voice;
2. Voice biometric should be regularly gathered and updated in
database due to physiological changes in organism through ages;
3. Voice biometric based identification is a good addition to multi-
factor authorization schemes.
Link to our voice cloner sources:
https://github.com/RomanKazantsev/voice-cloner
References
• T. Nakashika, R. Takashima, T. Takiguchi, Y. Ariki. Voice Conversion in
High-order Eigen Space Using Deep Belief Nets;
• WORLD [1] (D4C edition [2]);
• PLP and RASTA matlab library;
• Tiny-dnn;
• CMU_ARCTIC speech database.

Más contenido relacionado

Similar a Клонирование голоса и как это выявить

Basic presentation of cryptography mechanisms
Basic presentation of cryptography mechanismsBasic presentation of cryptography mechanisms
Basic presentation of cryptography mechanismsMarian Marinov
 
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...Maksim Shudrak
 
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device DriversFast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device DriversPantazis Deligiannis
 
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs VulnerabilityYour Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs VulnerabilityPriyanka Aash
 
Perl Usage In Security and Penetration testing
Perl Usage In Security and Penetration testingPerl Usage In Security and Penetration testing
Perl Usage In Security and Penetration testingVlatko Kosturjak
 
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)FFRI, Inc.
 
From printed circuit boards to exploits
From printed circuit boards to exploitsFrom printed circuit boards to exploits
From printed circuit boards to exploitsvirtualabs
 
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!NETWAYS
 
TinyML - 4 speech recognition
TinyML - 4 speech recognition TinyML - 4 speech recognition
TinyML - 4 speech recognition 艾鍗科技
 
Hunting for APT in network logs workshop presentation
Hunting for APT in network logs workshop presentationHunting for APT in network logs workshop presentation
Hunting for APT in network logs workshop presentationOlehLevytskyi1
 
Meder Kydyraliev - Mining Mach Services within OS X Sandbox
Meder Kydyraliev - Mining Mach Services within OS X SandboxMeder Kydyraliev - Mining Mach Services within OS X Sandbox
Meder Kydyraliev - Mining Mach Services within OS X SandboxDefconRussia
 
Fuzzing: Finding Your Own Bugs and 0days! 2.0
Fuzzing: Finding Your Own Bugs and 0days! 2.0Fuzzing: Finding Your Own Bugs and 0days! 2.0
Fuzzing: Finding Your Own Bugs and 0days! 2.0Rodolpho Concurde
 
The more you know the better you do
The more you know the better you doThe more you know the better you do
The more you know the better you doDemetrio Milea
 
26.1.7 lab snort and firewall rules
26.1.7 lab   snort and firewall rules26.1.7 lab   snort and firewall rules
26.1.7 lab snort and firewall rulesFreddy Buenaño
 
Incident response: Advanced Network Forensics
Incident response: Advanced Network ForensicsIncident response: Advanced Network Forensics
Incident response: Advanced Network ForensicsNapier University
 
Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...
Situational Awareness, Botnet and Malware Detection in the Modern Era  - Davi...Situational Awareness, Botnet and Malware Detection in the Modern Era  - Davi...
Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...Codemotion
 
Finding 0days at Arab Security Conference
Finding 0days at Arab Security ConferenceFinding 0days at Arab Security Conference
Finding 0days at Arab Security ConferenceRodolpho Concurde
 
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...Felipe Prado
 
Speech based password authentication system on FPGA
Speech based password authentication system on FPGASpeech based password authentication system on FPGA
Speech based password authentication system on FPGARajesh Roshan
 

Similar a Клонирование голоса и как это выявить (20)

Basic presentation of cryptography mechanisms
Basic presentation of cryptography mechanismsBasic presentation of cryptography mechanisms
Basic presentation of cryptography mechanisms
 
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
 
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device DriversFast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
 
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs VulnerabilityYour Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
 
Perl Usage In Security and Penetration testing
Perl Usage In Security and Penetration testingPerl Usage In Security and Penetration testing
Perl Usage In Security and Penetration testing
 
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
 
From printed circuit boards to exploits
From printed circuit boards to exploitsFrom printed circuit boards to exploits
From printed circuit boards to exploits
 
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
 
TinyML - 4 speech recognition
TinyML - 4 speech recognition TinyML - 4 speech recognition
TinyML - 4 speech recognition
 
Hunting for APT in network logs workshop presentation
Hunting for APT in network logs workshop presentationHunting for APT in network logs workshop presentation
Hunting for APT in network logs workshop presentation
 
Meder Kydyraliev - Mining Mach Services within OS X Sandbox
Meder Kydyraliev - Mining Mach Services within OS X SandboxMeder Kydyraliev - Mining Mach Services within OS X Sandbox
Meder Kydyraliev - Mining Mach Services within OS X Sandbox
 
Fuzzing: Finding Your Own Bugs and 0days! 2.0
Fuzzing: Finding Your Own Bugs and 0days! 2.0Fuzzing: Finding Your Own Bugs and 0days! 2.0
Fuzzing: Finding Your Own Bugs and 0days! 2.0
 
The more you know the better you do
The more you know the better you doThe more you know the better you do
The more you know the better you do
 
26.1.7 lab snort and firewall rules
26.1.7 lab   snort and firewall rules26.1.7 lab   snort and firewall rules
26.1.7 lab snort and firewall rules
 
Incident response: Advanced Network Forensics
Incident response: Advanced Network ForensicsIncident response: Advanced Network Forensics
Incident response: Advanced Network Forensics
 
voip_en
voip_envoip_en
voip_en
 
Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...
Situational Awareness, Botnet and Malware Detection in the Modern Era  - Davi...Situational Awareness, Botnet and Malware Detection in the Modern Era  - Davi...
Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...
 
Finding 0days at Arab Security Conference
Finding 0days at Arab Security ConferenceFinding 0days at Arab Security Conference
Finding 0days at Arab Security Conference
 
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
 
Speech based password authentication system on FPGA
Speech based password authentication system on FPGASpeech based password authentication system on FPGA
Speech based password authentication system on FPGA
 

Más de Positive Hack Days

Инструмент ChangelogBuilder для автоматической подготовки Release Notes
Инструмент ChangelogBuilder для автоматической подготовки Release NotesИнструмент ChangelogBuilder для автоматической подготовки Release Notes
Инструмент ChangelogBuilder для автоматической подготовки Release NotesPositive Hack Days
 
Как мы собираем проекты в выделенном окружении в Windows Docker
Как мы собираем проекты в выделенном окружении в Windows DockerКак мы собираем проекты в выделенном окружении в Windows Docker
Как мы собираем проекты в выделенном окружении в Windows DockerPositive Hack Days
 
Типовая сборка и деплой продуктов в Positive Technologies
Типовая сборка и деплой продуктов в Positive TechnologiesТиповая сборка и деплой продуктов в Positive Technologies
Типовая сборка и деплой продуктов в Positive TechnologiesPositive Hack Days
 
Аналитика в проектах: TFS + Qlik
Аналитика в проектах: TFS + QlikАналитика в проектах: TFS + Qlik
Аналитика в проектах: TFS + QlikPositive Hack Days
 
Использование анализатора кода SonarQube
Использование анализатора кода SonarQubeИспользование анализатора кода SonarQube
Использование анализатора кода SonarQubePositive Hack Days
 
Развитие сообщества Open DevOps Community
Развитие сообщества Open DevOps CommunityРазвитие сообщества Open DevOps Community
Развитие сообщества Open DevOps CommunityPositive Hack Days
 
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...Positive Hack Days
 
Автоматизация построения правил для Approof
Автоматизация построения правил для ApproofАвтоматизация построения правил для Approof
Автоматизация построения правил для ApproofPositive Hack Days
 
Мастер-класс «Трущобы Application Security»
Мастер-класс «Трущобы Application Security»Мастер-класс «Трущобы Application Security»
Мастер-класс «Трущобы Application Security»Positive Hack Days
 
Формальные методы защиты приложений
Формальные методы защиты приложенийФормальные методы защиты приложений
Формальные методы защиты приложенийPositive Hack Days
 
Эвристические методы защиты приложений
Эвристические методы защиты приложенийЭвристические методы защиты приложений
Эвристические методы защиты приложенийPositive Hack Days
 
Теоретические основы Application Security
Теоретические основы Application SecurityТеоретические основы Application Security
Теоретические основы Application SecurityPositive Hack Days
 
От экспериментального программирования к промышленному: путь длиной в 10 лет
От экспериментального программирования к промышленному: путь длиной в 10 летОт экспериментального программирования к промышленному: путь длиной в 10 лет
От экспериментального программирования к промышленному: путь длиной в 10 летPositive Hack Days
 
Уязвимое Android-приложение: N проверенных способов наступить на грабли
Уязвимое Android-приложение: N проверенных способов наступить на граблиУязвимое Android-приложение: N проверенных способов наступить на грабли
Уязвимое Android-приложение: N проверенных способов наступить на граблиPositive Hack Days
 
Требования по безопасности в архитектуре ПО
Требования по безопасности в архитектуре ПОТребования по безопасности в архитектуре ПО
Требования по безопасности в архитектуре ПОPositive Hack Days
 
Формальная верификация кода на языке Си
Формальная верификация кода на языке СиФормальная верификация кода на языке Си
Формальная верификация кода на языке СиPositive Hack Days
 
Механизмы предотвращения атак в ASP.NET Core
Механизмы предотвращения атак в ASP.NET CoreМеханизмы предотвращения атак в ASP.NET Core
Механизмы предотвращения атак в ASP.NET CorePositive Hack Days
 
SOC для КИИ: израильский опыт
SOC для КИИ: израильский опытSOC для КИИ: израильский опыт
SOC для КИИ: израильский опытPositive Hack Days
 
Honeywell Industrial Cyber Security Lab & Services Center
Honeywell Industrial Cyber Security Lab & Services CenterHoneywell Industrial Cyber Security Lab & Services Center
Honeywell Industrial Cyber Security Lab & Services CenterPositive Hack Days
 
Credential stuffing и брутфорс-атаки
Credential stuffing и брутфорс-атакиCredential stuffing и брутфорс-атаки
Credential stuffing и брутфорс-атакиPositive Hack Days
 

Más de Positive Hack Days (20)

Инструмент ChangelogBuilder для автоматической подготовки Release Notes
Инструмент ChangelogBuilder для автоматической подготовки Release NotesИнструмент ChangelogBuilder для автоматической подготовки Release Notes
Инструмент ChangelogBuilder для автоматической подготовки Release Notes
 
Как мы собираем проекты в выделенном окружении в Windows Docker
Как мы собираем проекты в выделенном окружении в Windows DockerКак мы собираем проекты в выделенном окружении в Windows Docker
Как мы собираем проекты в выделенном окружении в Windows Docker
 
Типовая сборка и деплой продуктов в Positive Technologies
Типовая сборка и деплой продуктов в Positive TechnologiesТиповая сборка и деплой продуктов в Positive Technologies
Типовая сборка и деплой продуктов в Positive Technologies
 
Аналитика в проектах: TFS + Qlik
Аналитика в проектах: TFS + QlikАналитика в проектах: TFS + Qlik
Аналитика в проектах: TFS + Qlik
 
Использование анализатора кода SonarQube
Использование анализатора кода SonarQubeИспользование анализатора кода SonarQube
Использование анализатора кода SonarQube
 
Развитие сообщества Open DevOps Community
Развитие сообщества Open DevOps CommunityРазвитие сообщества Open DevOps Community
Развитие сообщества Open DevOps Community
 
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
 
Автоматизация построения правил для Approof
Автоматизация построения правил для ApproofАвтоматизация построения правил для Approof
Автоматизация построения правил для Approof
 
Мастер-класс «Трущобы Application Security»
Мастер-класс «Трущобы Application Security»Мастер-класс «Трущобы Application Security»
Мастер-класс «Трущобы Application Security»
 
Формальные методы защиты приложений
Формальные методы защиты приложенийФормальные методы защиты приложений
Формальные методы защиты приложений
 
Эвристические методы защиты приложений
Эвристические методы защиты приложенийЭвристические методы защиты приложений
Эвристические методы защиты приложений
 
Теоретические основы Application Security
Теоретические основы Application SecurityТеоретические основы Application Security
Теоретические основы Application Security
 
От экспериментального программирования к промышленному: путь длиной в 10 лет
От экспериментального программирования к промышленному: путь длиной в 10 летОт экспериментального программирования к промышленному: путь длиной в 10 лет
От экспериментального программирования к промышленному: путь длиной в 10 лет
 
Уязвимое Android-приложение: N проверенных способов наступить на грабли
Уязвимое Android-приложение: N проверенных способов наступить на граблиУязвимое Android-приложение: N проверенных способов наступить на грабли
Уязвимое Android-приложение: N проверенных способов наступить на грабли
 
Требования по безопасности в архитектуре ПО
Требования по безопасности в архитектуре ПОТребования по безопасности в архитектуре ПО
Требования по безопасности в архитектуре ПО
 
Формальная верификация кода на языке Си
Формальная верификация кода на языке СиФормальная верификация кода на языке Си
Формальная верификация кода на языке Си
 
Механизмы предотвращения атак в ASP.NET Core
Механизмы предотвращения атак в ASP.NET CoreМеханизмы предотвращения атак в ASP.NET Core
Механизмы предотвращения атак в ASP.NET Core
 
SOC для КИИ: израильский опыт
SOC для КИИ: израильский опытSOC для КИИ: израильский опыт
SOC для КИИ: израильский опыт
 
Honeywell Industrial Cyber Security Lab & Services Center
Honeywell Industrial Cyber Security Lab & Services CenterHoneywell Industrial Cyber Security Lab & Services Center
Honeywell Industrial Cyber Security Lab & Services Center
 
Credential stuffing и брутфорс-атаки
Credential stuffing и брутфорс-атакиCredential stuffing и брутфорс-атаки
Credential stuffing и брутфорс-атаки
 

Último

DEV meet-up UiPath Document Understanding May 7 2024 Amsterdam
DEV meet-up UiPath Document Understanding May 7 2024 AmsterdamDEV meet-up UiPath Document Understanding May 7 2024 Amsterdam
DEV meet-up UiPath Document Understanding May 7 2024 AmsterdamUiPathCommunity
 
DBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor PresentationDBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor PresentationDropbox
 
Elevate Developer Efficiency & build GenAI Application with Amazon Q​
Elevate Developer Efficiency & build GenAI Application with Amazon Q​Elevate Developer Efficiency & build GenAI Application with Amazon Q​
Elevate Developer Efficiency & build GenAI Application with Amazon Q​Bhuvaneswari Subramani
 
Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...apidays
 
TrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
TrustArc Webinar - Unlock the Power of AI-Driven Data DiscoveryTrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
TrustArc Webinar - Unlock the Power of AI-Driven Data DiscoveryTrustArc
 
[BuildWithAI] Introduction to Gemini.pdf
[BuildWithAI] Introduction to Gemini.pdf[BuildWithAI] Introduction to Gemini.pdf
[BuildWithAI] Introduction to Gemini.pdfSandro Moreira
 
Exploring Multimodal Embeddings with Milvus
Exploring Multimodal Embeddings with MilvusExploring Multimodal Embeddings with Milvus
Exploring Multimodal Embeddings with MilvusZilliz
 
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...apidays
 
Strategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
Strategize a Smooth Tenant-to-tenant Migration and Copilot TakeoffStrategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
Strategize a Smooth Tenant-to-tenant Migration and Copilot Takeoffsammart93
 
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...DianaGray10
 
Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...
Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...
Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...Orbitshub
 
AWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of TerraformAWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of TerraformAndrey Devyatkin
 
"I see eyes in my soup": How Delivery Hero implemented the safety system for ...
"I see eyes in my soup": How Delivery Hero implemented the safety system for ..."I see eyes in my soup": How Delivery Hero implemented the safety system for ...
"I see eyes in my soup": How Delivery Hero implemented the safety system for ...Zilliz
 
Why Teams call analytics are critical to your entire business
Why Teams call analytics are critical to your entire businessWhy Teams call analytics are critical to your entire business
Why Teams call analytics are critical to your entire businesspanagenda
 
Corporate and higher education May webinar.pptx
Corporate and higher education May webinar.pptxCorporate and higher education May webinar.pptx
Corporate and higher education May webinar.pptxRustici Software
 
EMPOWERMENT TECHNOLOGY GRADE 11 QUARTER 2 REVIEWER
EMPOWERMENT TECHNOLOGY GRADE 11 QUARTER 2 REVIEWEREMPOWERMENT TECHNOLOGY GRADE 11 QUARTER 2 REVIEWER
EMPOWERMENT TECHNOLOGY GRADE 11 QUARTER 2 REVIEWERMadyBayot
 
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, AdobeApidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobeapidays
 
Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...
Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...
Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...Angeliki Cooney
 
Platformless Horizons for Digital Adaptability
Platformless Horizons for Digital AdaptabilityPlatformless Horizons for Digital Adaptability
Platformless Horizons for Digital AdaptabilityWSO2
 

Último (20)

DEV meet-up UiPath Document Understanding May 7 2024 Amsterdam
DEV meet-up UiPath Document Understanding May 7 2024 AmsterdamDEV meet-up UiPath Document Understanding May 7 2024 Amsterdam
DEV meet-up UiPath Document Understanding May 7 2024 Amsterdam
 
DBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor PresentationDBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor Presentation
 
Elevate Developer Efficiency & build GenAI Application with Amazon Q​
Elevate Developer Efficiency & build GenAI Application with Amazon Q​Elevate Developer Efficiency & build GenAI Application with Amazon Q​
Elevate Developer Efficiency & build GenAI Application with Amazon Q​
 
Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...
 
TrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
TrustArc Webinar - Unlock the Power of AI-Driven Data DiscoveryTrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
TrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
 
[BuildWithAI] Introduction to Gemini.pdf
[BuildWithAI] Introduction to Gemini.pdf[BuildWithAI] Introduction to Gemini.pdf
[BuildWithAI] Introduction to Gemini.pdf
 
Exploring Multimodal Embeddings with Milvus
Exploring Multimodal Embeddings with MilvusExploring Multimodal Embeddings with Milvus
Exploring Multimodal Embeddings with Milvus
 
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
 
Strategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
Strategize a Smooth Tenant-to-tenant Migration and Copilot TakeoffStrategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
Strategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
 
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
 
Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...
Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...
Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...
 
AWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of TerraformAWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of Terraform
 
"I see eyes in my soup": How Delivery Hero implemented the safety system for ...
"I see eyes in my soup": How Delivery Hero implemented the safety system for ..."I see eyes in my soup": How Delivery Hero implemented the safety system for ...
"I see eyes in my soup": How Delivery Hero implemented the safety system for ...
 
Why Teams call analytics are critical to your entire business
Why Teams call analytics are critical to your entire businessWhy Teams call analytics are critical to your entire business
Why Teams call analytics are critical to your entire business
 
Corporate and higher education May webinar.pptx
Corporate and higher education May webinar.pptxCorporate and higher education May webinar.pptx
Corporate and higher education May webinar.pptx
 
EMPOWERMENT TECHNOLOGY GRADE 11 QUARTER 2 REVIEWER
EMPOWERMENT TECHNOLOGY GRADE 11 QUARTER 2 REVIEWEREMPOWERMENT TECHNOLOGY GRADE 11 QUARTER 2 REVIEWER
EMPOWERMENT TECHNOLOGY GRADE 11 QUARTER 2 REVIEWER
 
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, AdobeApidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
 
Understanding the FAA Part 107 License ..
Understanding the FAA Part 107 License ..Understanding the FAA Part 107 License ..
Understanding the FAA Part 107 License ..
 
Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...
Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...
Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...
 
Platformless Horizons for Digital Adaptability
Platformless Horizons for Digital AdaptabilityPlatformless Horizons for Digital Adaptability
Platformless Horizons for Digital Adaptability
 

Клонирование голоса и как это выявить

  • 1. Voice Cloning and its Detection Roman Kazantsev, Dilshod Poshshoev
  • 2. Voice Biometrics • Every person has unique voice biometrics like a finger print; • Voice biometrics can be used for authorization to different systems (mobile device, smart house, bank account,…) • Voice biometrics is private and needs protections against voice cloning.
  • 3. What was done? • Neural network based voice cloning implementation using open source software; • Employment of GMM based speaker identification for detection of cloned voice.
  • 4. NN based voice cloning architecture Source Speech World Vocoder: Feature Extraction Aperiodicity Log-F0 Rastamat: Extraction Mel-FCC Tiny DNN: Neural Network Linear Conversion Log-F0 Aperiodicity Spectrum World Vocoder: Synthesis Target Speech Rastamat: Inversion MFCC to Spectrum Mel-FCC Predicted Mel-FCC AWT(source speaker) and SLT(target speaker) from CMU_ARCTIC: http://festvox.org/cmu_arctic/
  • 5. Alignment of source and target Mel-FCC features using Dynamic Time Warping arctic_a0001: "Author of the danger trail, Philip Steels, etc." Source speaker (AWT) Target speaker (SLT)
  • 6. Data Mining Routine extract_features_training.m source wav_names{} = {arctic_a0001.wav}, ts_intervals{} = {[0.65, 1.05, 1.12, 1.20];} target wav_names{} = {arctic_a0001.wav}, tt_intervals{} = {[0.20, 0.70, 0.80, 0.88];} s_melfcc_train t_melfcc_train t_mean_logf0 t_var_logf0
  • 7. Neural Network for Cloning Multilayer σ-activated perceptron [12, 40, 40, 12] is trained and used for prediction of cepstral coefficients … … … … Normalization s_melfcc_train Denormalization t_melfcc_train σ σ σ σ σ σ σ σ σ σ σ σ s_melfcc_predict t_melfcc_predict
  • 9. Employment of GMM based speaker recognition tool for cloned voice detection Github link: https://github.com/ppwwyyxx/speaker-recognition Examples: Train: speaker-recognition.py -t enroll -i "f1 m1" -m model.out Label f1 has files f1arctic_a0001.wav,f1arctic_a0002.wav Label m1 has files m1arctic_a0001.wav,m1arctic_a0002.wav Start training... 0.545000076294 seconds Predict: speaker-recognition.py -t predict -i "f1/*.wav" -m model.out f1arctic_a0001.wav -> f1 f1arctic_a0002.wav -> f1
  • 10. Experiment with detection of cloned voice & Results SLT (target speaker) arctic_a0001.wav arctic_a0002.wav arctic_a0003.wav arctic_a0004.wav arctic_a0005.wav … arctic_a0020.wav Train: Predict: SLT (target speaker) wav name probability arctic_b0002_orig.wav 0.953 arctic_b0002_NN.wav 0.765 arctic_b0002_DBN.wav 0.892 arctic_b0002_DBN_MLPG.wav 0.912 arctic_b0002_LSTM.wav 0.745 arctic_b0002_LSTM_MLPG.wav 0.769
  • 11. Conclusion 1. Speaker recognition systems used for authorization should have meticulously selected probability threshold against cloned voice; 2. Voice biometric should be regularly gathered and updated in database due to physiological changes in organism through ages; 3. Voice biometric based identification is a good addition to multi- factor authorization schemes.
  • 12. Link to our voice cloner sources: https://github.com/RomanKazantsev/voice-cloner
  • 13. References • T. Nakashika, R. Takashima, T. Takiguchi, Y. Ariki. Voice Conversion in High-order Eigen Space Using Deep Belief Nets; • WORLD [1] (D4C edition [2]); • PLP and RASTA matlab library; • Tiny-dnn; • CMU_ARCTIC speech database.

Notas del editor

  1. У каждого человека существует своя уникальная голосовая биометрия как отпечатки пальцев. Эта биометрия может быть оцифрована и использована для авторизация к различным информационным системам таким как: мобильные устройства, компьютеры, умные дома, банковские счета. В некоторых зарубежных банках запущены системы, которые быстро идентифицируют клиентов по голосу. После успешной идентификации клиент может выполнить денежные операции. Разрабатываются стандарты умных домов следующего поколения, где системы цифрового наблюдения используют биометрию голоса. Биометрия голоса человека является частной и требует защиты от клонирования Системы, использующие голосовую биометрию для авторизации, подвержены атакам на основе клонирования голоса.
  2. До 2010 г. много было предложено вероятностых моделей для конверсии голоса в том числе GMM (Gaussian Mixture Models). Сейчас в тренде это использование нейронных сетей, которые показывают лучшие результаты. Нужно сказать, что японские коллеги дальше всех продвинулись в разработке технологий для обработки и клонирования голоса. В первой части доклада я детально расскажу о нашей реализации системы клонирования голоса с помощью нейронных сетей. Для реализации были взяты только компоненты с открытым исходным кодом: вокодер для для извлечения параметров аудио сигнала и для обратной операции синтеза, фреймверк для глубинного обучения и библиотека для работы с кепстральными коэффициентами. Реализация покрывает все этапы конверсии голоса: сбор данных для исходного и целевого голосов, обучение нейронной сети для конверсии (или клонирования) параметров исходного голоса в целевой, предсказание параметров целевого голоса с помощью обученной модели, синтез полученных параметров целового голоса в аудио сигнал. Во второй части покажу как системы биометрической аутентификации, реализованной на основе GMM, реагируют на клонированный голос, и насколько вероятность принадлежности клонированного голоса целевой персоне ниже чем для настоящего голоса.
  3. Во всех статья про клонирование голоса на основе нейронных сетей используется STRAIGHT вокодер. STRAIGHT вокодер разработан в университете Коби, Япония. Этот вокодер распространяется либо по коммерческой лицензии, т.е. на платной основе, либо по академической, для получения которой требуется университетская почта. Поэтому в нашей работе мы использовали WORLD вокодер, распространяющийся по 3-BSD лицензии. Я сделал тестовый запуск вокодера. Сначала извлек параметры: основная частота, апериодичность, спектр. А затем сделал синтезировал их. PSNR для результирующего сигнала был равен 115дб, что говорит о хорошем качестве синтеза. Следующая компонента это rastamat (матлабовская или октейвовская библиотека) которая позволяет извлекать кепстральные коэффициенты. В этих коэффициентах хранится биометрия человеческого голоса. Эти коэффициенты подаются на вход нейронный сети, на выходе которой кепстральные коэффициенты с преобразованной биометрией, повторяющей биометрию целевого голоса. Для построения нейронной сети использовался фреймверк Tiny-DNN с лицензией 3-BSD. Далее предсказанные кепстральные коэффициенты интертируются обратно в спектр. Логарифм основной частоты подвергается линейной конверсии. Из трениг данных для целевого голоса вычисляется математическое ожидание и стандартное отклонение для логарифма основной частоты, которые используют для линейно конверсии. Компонента апериодичности используется в синтезе без изменений. Для экспериментов использовалась CMU_ARCTIC, это база из речей для разных спикеров. Мы взяли две группы записей для AWT, которая испольщовалась в качестве исходного сигнала (сигнала для конверсии) и SLT.
  4. Рассмотрим пару аудиозаписей с текстом сделанными спикерами AWT и SLT. Для обучений нейронной сети необходимы пары векторов с кепстральными коэффициентами для сорс спикера и таргет спикера. Когда мы извлекли семплы с кепстральные коэффициэнты для обоих спикером, нужно найти соответствие между этими сэмплами (векторами). Люди говорят с разной скоростью и делают разные паузы в своей речи. Эта задача непростая и требует особого внимания, т.к. иначе возникнут проблемы приобучении нейронной сети. Во всех статьях, котрые мы сумели найти, сказано только про выравнивание данных (кепстральных сэмплов) с использование алгоритма динамической трансформации временной школы. Которым мы воспользовались но были проблемы с обучением нейронной сети и отсутсвовало соотвествие. Это один из недостатков DTW, когда он одному семплу ставит в соответствие несколько других. Поэтому нам пришлось анализировать спектрограммы аудиосигналов и выделять подмножеством семплов, соотвтествующие одному cслог и затем из них извлекать кепстральные данные и запускать алгоритм динамической трансформации временной школы.
  5. Для сбора данных была разработана функция для извлечения параллельных (снихронизированных) кепстральных данных для обоих спикеров, и для подсчета математического среднего и стандартного отклонения для целевого голоса, которые будут использровать в линейной конверсии основной частоты исходного голоса. На вход подаются имена аудиозаписей и множество временных интервалов для них, собраны во время анализа спектрограмм для обоих спикеров.
  6. В статье японских коллег использовался DNN это два DBN соединненных NN. Хорошую опенсорсную реализацию DBN для обработки аудиосигнала мы не нашли. Имеющиеся в интернете использовались для распознования изображений. Проблема состоит в отм, что для обучения используется константый лернинг рейт. Поэтому результирующие данные постоянно сходились при увеличении кол-ва тренинг сэмплов. Мы решили отказаться и использовать многослойный персептрон. Для конвертирования кепстральных коэффициентов использовалася многослойный персептрон с в качестве функции активации использовался сигмоид. Структура нейронной сети включает 4 слоя, входной и выходной слои с 12 нейронами каждый и два скрытых слоя с 40 нейронами. Для нормализации использовалась линейная нормализация.
  7. На последнем шаге клонирования делаем синтез вычесленных параметров: кепстральных, полученных из нейронной сети, компонента апериодичности не меняется, а логарифм основной частоты линейно конвертируется. Линейная конверсия основной частоты делается внутри скрипта для синтеза.
  8. Следующей задачей, которой мы занимались это изучение поведения средств распознование по голосу, если на вход подавать клонированную речь. В интернете статей на данную тему мы не нашли, поэтому возможно энаше исследование является уникальным. Мы взяли опенсорсную систему распознования, которая использует GMM (Gaussian Mixture Model). Для каждого спикера строится обучается собственная GMM, а на этапе прогнозирования выбирается тот класс на котором GMM выдает наибольшую вероятность. На данном слайде приведены примеры запуска скрипта для тренинга двух спикеров f1 и m1 и для прогнозариования кто говорит. Мы решили модифицировать этот скрипт, чтобы он печатал вероятность. А затем разыграть следующий сценарий: обучаем систему разпознования на аудиозаписях с голосом целевого спикера (никаких клонированных речей), а потом делаем предикт для клонированного голоса и отдельно для такой же записи с оригинальным голосом. И сравнить полученные вероятности.