音声アクティビティの検出

Voice Activity Detection

音声アクティビティ検出(VAD)は、人間の音声の存在(または不在)を検出するために音声処理で使用される手法です。 誰かが話していることの検出は、いくつかのプロセスをアクティブにするために使用される場合があります。 音声録音を自動的にオンにします。 また、プロセスを非アクティブ化するために使用することもできます。 計算とネットワーク帯域幅を節約するために、無音パケットのコーディングと送信を停止します。

Voice activity detection (VAD) is a technique used in speech processing to detect the presence (or absence) of human speech. Detection of somebody speaking may be used to activate some processes, e.g. automatically switch on voice recording. It may be also used to deactivate processes, e.g. stop coding and transmission of silence packets to save on computation and network bandwidth.

このセクションで提供されるAPIは、音声検出の感度を構成し、サンプルレートまたはオーディオサンプルの期間を設定するためのいくつかのオプションとともにVAD機能を実装します。

Provided in this section API implements VAD functionality together with couple of options to configure sensitivity of speech detection, set sample rate or duration of audio samples.

アプリケーション例

Application Example

音声アクティビティ検出APIの実装は、speech_recognition/vadの例で示されています。

Implementation of the voice activity detection API is demonstrated in speech_recognition/vad example.

APIリファレンス

API Reference

最新のAPIリファレンスについては、Espressif音声認識リポジトリを参照してください。

For the latest API reference please refer to Espressif Speech recognition repository.