14. Indexer(Speech to Text の一種)
• 音声からテキストへの変換を可能にする
• サポート言語
一般提供:英語、スペイン語
プレビュー:ドイツ語、フランス語、イタリア語、中国語、アラビア語、日本語
• カスタムの語彙適応能力
ユーザーは、音声認識を向上させるために
ビデオに関連する単語のリストを提供します
https://docs.microsoft.com/ja-jp/azure/media-services/media-services-process-
content-with-indexer2
https://docs.microsoft.com/ja-jp/azure/media-services/media-services-index-
content
15. Azure Media Indexer
Azure Media
Indexer
オーディオデコード
語彙の適応
セグメンテーション
音声認識
キャプションの配置
Closed captions
(TTML/WebVTT/SAMI)
Audio or Video
MP4, WMV, MP3, M4A,
AAC, WAV, WMA
Audio Indexing Blob
(AIB) for use with SQL
Server and custom
filter add-on
Flexible metadatafiles
(keywords, word info)
19. • ビデオコンテンツからテキストを抽出す
る
• パフォーマンスと品質のバランスを取る
ために独自のサンプリングレートを選択
できる
• 動画のどこを見てるかを指定する(例:
キャプションの下3分の1)
• 出力は場所を含むテキストを記述する
Text: Who are we?
Location:
(200,100,250,50)
Time: 0:45:02
Text: Who are you and who
is the person sitting
next to you?
Location:
(100,250,350,90)
Time: 0:45:02
Video OCR
https://docs.microsoft.com/ja-jp/azure/media-services/media-services-video-
optical-character-recognition