[要約] 要約: - RFC 4060は、ETSIのES 202 050、ES 202 211、およびES 202 212の分散音声認識エンコーディングのためのRTPペイロード形式に関する規格です。 - このRFCの目的は、ETSIの標準に基づいて分散音声認識を実現するためのRTPペイロード形式を定義することです。 - この規格は、ネットワーク上での音声認識の効率的な伝送を可能にし、ETSIの標準に準拠したシステム間の互換性を確保します。

Network Working Group                                             Q. Xie
Request for Comments: 4060                                     D. Pearce
Category: Standards Track                                       Motorola
                                                                May 2005
        

RTP Payload Formats for European Telecommunications Standards Institute (ETSI) European Standard ES 202 050, ES 202 211, and ES 202 212 Distributed Speech Recognition Encoding

欧州通信標準研究所(ETSI)欧州標準ES 202050、ES 202 211、およびES 202 212分散音声認識エンコーディングのRTPペイロードフォーマット

Status of This Memo

本文書の位置付け

This document specifies an Internet standards track protocol for the Internet community, and requests discussion and suggestions for improvements. Please refer to the current edition of the "Internet Official Protocol Standards" (STD 1) for the standardization state and status of this protocol. Distribution of this memo is unlimited.

このドキュメントは、インターネットコミュニティのインターネット標準トラックプロトコルを指定し、改善のための議論と提案を要求します。このプロトコルの標準化状態とステータスについては、「インターネット公式プロトコル標準」(STD 1)の現在のエディションを参照してください。このメモの配布は無制限です。

Copyright Notice

著作権表示

Copyright (C) The Internet Society (2005).

Copyright(c)The Internet Society(2005)。

Abstract

概要

This document specifies RTP payload formats for encapsulating European Telecommunications Standards Institute (ETSI) European Standard ES 202 050 DSR Advanced Front-end (AFE), ES 202 211 DSR Extended Front-end (XFE), and ES 202 212 DSR Extended Advanced Front-end (XAFE) signal processing feature streams for distributed speech recognition (DSR) systems.

このドキュメントは、欧州通信標準研究所(ETSI)欧州標準ES 202 050 DSR Advanced Front-End(AFE)、ES 202 211 DSR拡張フロントエンド(XFE)、およびES 202 212 DSR拡張アドバンスフロント - END(XAFE)分散音声認識(DSR)システム用の信号処理機能ストリーム。

Table of Contents

目次

   1. Introduction ....................................................2
      1.1. Conventions and Acronyms ...................................3
   2. ETSI DSR Front-end Codecs .......................................4
      2.1. ES 202 050 Advanced DSR Front-end Codec ....................4
      2.2. ES 202 211 Extended DSR Front-end Codec ....................4
      2.3. ES 202 212 Extended Advanced DSR Front-end Codec ...........5
   3. DSR RTP Payload Formats .........................................6
      3.1. Common Considerations of the Three DSR RTP Payload
           Formats ....................................................6
           3.1.1. Number of FPs in Each RTP Packet ....................6
           3.1.2. Support for Discontinuous Transmission ..............6
           3.1.3. RTP Header Usage ....................................6
      3.2. Payload Format for ES 202 050 DSR ..........................7
           3.2.1. Frame Pair Formats ..................................7
      3.3. Payload Format for ES 202 211 DSR ..........................9
           3.3.1. Frame Pair Formats ..................................9
      3.4. Payload Format for ES 202 212 DSR .........................11
           3.4.1. Frame Pair Formats .................................12
   4. IANA Considerations ............................................14
      4.1. Mapping MIME Parameters into SDP ..........................15
      4.2. Usage in Offer/Answer .....................................16
      4.3. Congestion Control ........................................16
   5. Security Considerations ........................................16
   6. Acknowledgments ................................................16
   7. References .....................................................16
      7.1. Normative References ......................................16
      7.2. Informative References ....................................17
        
1. Introduction
1. はじめに

Distributed speech recognition (DSR) technology is intended for a remote device acting as a thin client (a.k.a. the front-end) to communicate with a speech recognition server (a.k.a. a speech engine), over a network connection to obtain speech recognition services. More details on DSR over Internet can be found in RFC 3557 [10].

分散型音声認識(DSR)テクノロジーは、スピーチ認識サーバー(a.k.a. a音声エンジン)と通信するための薄いクライアント(別名フロントエンド)として機能するリモートデバイスを対象としています。インターネット上のDSRの詳細については、RFC 3557 [10]をご覧ください。

To achieve interoperability with different client devices and speech engines, the first ETSI standard DSR front-end ES 201 108 was published in early 2000 [11]. An RTP packetization for ES 201 108 frames is defined in RFC 3557 [10] by IETF.

さまざまなクライアントデバイスと音声エンジンで相互運用性を実現するために、最初のETSI標準DSRフロントエンドES 201 108が2000年初頭に公開されました[11]。ES 201 108フレームのRTPパケット化は、IETFによってRFC 3557 [10]で定義されています。

In ES 202 050 [1], ETSI issues another standard for an Advanced DSR front-end that provides substantially improved recognition performance when background noise is present. The codecs in ES 202 050 use a slightly different frame format from that of ES 201 108 and thus the two do not inter-operate with each other.

ES 202 050 [1]では、ETSIは、バックグラウンドノイズが存在するときに大幅に改善された認識パフォーマンスを提供する高度なDSRフロントエンドの別の標準を発行します。ES 202 050のコーデックは、ES 201 108のフレーム形式とわずかに異なるフレーム形式を使用するため、2つは互いに操作しません。

The RTP packetization for ES 202 050 front-end defined in this document uses the same RTP packet format layout as that defined in RFC 3557 [10]. The differences are in the DSR codec frame bit definition and the payload type MIME registration.

このドキュメントで定義されているES 202 050のフロントエンドのRTPパケット化は、RFC 3557で定義されているものと同じRTPパケット形式のレイアウトを使用します[10]。違いは、DSRコーデックフレームビット定義とペイロードタイプMIME登録にあります。

The two further standards, ES 202 211 and ES 202 212, provide extensions to each of the DSR front-end standards. The extensions allow the speech waveform to be reconstructed for human audition and can also be used to improve recognition performance for tonal languages. This is done by sending additional pitch and voicing information for each frame along with the recognition features.

さらに2つの標準であるES 202 211およびES 202 212は、DSRフロントエンド標準のそれぞれに拡張機能を提供します。拡張機能により、音声波形を人間のオーディションのために再構築することができ、音色言語の認識パフォーマンスを改善するためにも使用できます。これは、各フレームの追加のピッチと発声情報を認識機能とともに送信することによって行われます。

The RTP packet format for these extended standards is also defined in this document.

これらの拡張標準のRTPパケット形式は、このドキュメントでも定義されています。

It is worthwhile to note that the performance of most speech recognizers are extremely sensitive to consecutive frame losses and DSR speech recognizers are no exception. If a DSR over RTP session is expected to endure high packet loss ratio between the front-end and the speech engine, one should consider limiting the maximum number of DSR frames allowed in a packet, or employing other loss management techniques, such as FEC or interleaving, to minimize the chance of losing consecutive frames.

ほとんどのスピーチ認識者のパフォーマンスは、連続したフレーム損失に非常に敏感であり、DSRスピーチ認識も例外ではないことに注意する価値があります。DSRオーバーRTPセッションがフロントエンドとスピーチエンジンの間の高いパケット損失比に耐えることが予想される場合、パケットで許可されているDSRフレームの最大数を制限するか、FECやFECなどの他の損失管理技術を採用することを検討する必要があります。インターリーブ、連続したフレームを失う可能性を最小限に抑える。

1.1. Conventions and Acronyms
1.1. コンベンションと頭字語

The keywords MUST, MUST NOT, REQUIRED, SHALL, SHALL NOT, SHOULD, SHOULD NOT, RECOMMENDED, NOT RECOMMENDED, MAY, and OPTIONAL, when they appear in this document, are to be interpreted as described in RFC 2119 [4].

キーワードは、このドキュメントに登場する場合、RFC 2119 [4]に記載されているように解釈される場合、必要な、必要ではない、必要ではない、、推奨、推奨、推奨、推奨、推奨、推奨、推奨、および推奨されない、または推奨されないようにしてはならない、してはならない、、推奨、推奨、推奨、推奨、勧められてはならない、しないでください。

The following acronyms are used in this document:

このドキュメントでは、次の頭字語が使用されています。

DSR - Distributed Speech Recognition ETSI - the European Telecommunications Standards Institute FP - Frame Pair DTX - Discontinuous Transmission VAD - Voice Activity Detection

DSR-分散型音声認識ETSI-欧州通信標準研究所FP-フレームペアDTX-不連続伝送VAD-音声アクティビティ検出

2. ETSI DSR Front-end Codecs
2. ETSI DSRフロントエンドコーデック

Some relevant characteristics of ES 202 050 Advanced, ES 202 211 Extended, and ES 202 212 Extended Advanced DSR front-end codecs are summarized below.

ES 202 050 Advanced、ES 202 211 Extended、およびES 202 212のいくつかの関連する特性は、以下に要約されています。

2.1. ES 202 050 Advanced DSR Front-end Codec
2.1. ES 202 050 Advanced DSRフロントエンドコーデック

The front-end calculation is a frame-based scheme that produces an output vector every 10 ms. In the front-end feature extraction, noise reduction by two stages of Wiener filtering is performed first. Then, waveform processing is applied to the de-noised signal and mel-cepstral features are calculated. At the end, blind equalization is applied to the cepstral features. The front-end algorithm produces at its output a mel-cepstral representation in the same format as ES 210 108, i.e., 12 cepstral coefficients [C1 - C12], C0 and log Energy. Voice activity detection (VAD) for the classification of each frame as speech or non-speech is also implemented in Feature Extraction. The VAD information is included in the payload format for each frame pair to be sent to the remote recognition engine as part of the payload. This information may optionally be used by the receiving recognition engine to drop non-speech frames. The front-end supports three raw sampling rates: 8 kHz, 11 kHz, and 16 kHz (Note that unlike some other speech codecs, the feature frame size of DSR presented to RTP packetization is not dependent on the number of speech samples used in each 10 ms sample frame. This will become more evident in the following sections).

フロントエンド計算は、10ミリ秒ごとに出力ベクトルを生成するフレームベースのスキームです。フロントエンド機能の抽出では、最初にWienerフィルタリングの2つの段階によるノイズリダクションが実行されます。次に、波形処理が非ノイズ化された信号に適用され、MEL-CEPSTRAL機能が計算されます。最後に、盲目のイコライゼーションがcepstralの特徴に適用されます。フロントエンドアルゴリズムは、ES 210 108と同じ形式でメルクリスチュストラル表現、つまり12のケプストラル係数[C1-C12]、C0およびlogエネルギーを生成します。音声アクティビティ検出(VAD)音声または非スピーチとしての各フレームの分類も、特徴抽出に実装されています。VAD情報は、ペイロードの一部としてリモート認識エンジンに送信される各フレームペアのペイロード形式に含まれています。この情報は、オプションで、認識エンジンが非スピーチフレームを削除するために使用する場合があります。フロントエンドは、8 kHz、11 kHz、および16 kHzの3つの生サンプリングレートをサポートしています(他の音声コーデックとは異なり、RTPパケット化に提示されるDSRの特徴フレームサイズは、それぞれで使用される音声サンプルの数に依存しないことに注意してください。10ミリ秒のサンプルフレーム。これは、次のセクションでより明確になります)。

After calculation of the mel-cepstral representation, the representation is first quantized via split-vector quantization to reduce the data rate of the encoded stream. Then, the quantized vectors from two consecutive frames are put into a FP, as described in more detail in Section 3.2.

メルクリスチュストラル表現の計算後、表現は最初にスプリットベクトル量子化を介して量子化され、エンコードされたストリームのデータレートを低下させます。次に、セクション3.2で詳しく説明するように、2つの連続したフレームからの量子化されたベクトルがFPに入れられます。

2.2. ES 202 211 Extended DSR Front-end Codec
2.2. ES 202 211拡張DSRフロントエンドコーデック

Some relevant characteristics of ES 202 211 Extended DSR front-end codec are summarized below.

ES 202 211拡張DSRフロントエンドコーデックのいくつかの関連特性を以下にまとめます。

ES 202 211 is an extension of the mel-cepstrum DSR Front-end standard ES 201 108 [11]. The mel-cepstrum front-end provides the features for speech recognition but these are not available for human listening. The purpose of the extension is allow the reconstruction of the speech waveform from these features so that they can be replayed. The front-end feature extraction part of the processing is exactly the same as for ES 201 108. To allow speech reconstruction additional fundamental frequency (perceived as pitch) and voicing class (e.g., non-speech, voiced, unvoiced and mixed) information is needed. This extra information is provided by the extended front-end processing algorithms at the device side. It is compressed and transmitted along with the front-end features to the server. This extra information may also be useful for improved speech recognition performance with tonal languages such as Mandarin, Cantonese and Thai.

ES 202 211は、MEL-CEPSTRUM DSRフロントエンド標準ES 201 108の拡張です[11]。Mel-Cepstrumフロントエンドは、音声認識のための機能を提供しますが、これらは人間のリスニングには利用できません。拡張の目的は、これらの機能から音声波形を再構築して、それらを再生できるようにすることです。処理のフロントエンド機能抽出部分は、ES 201 108の場合とまったく同じです。音声再構成に追加の基本周波数(ピッチと知覚)および発声クラス(例えば、スピーチ、音声、音声、混合、混合)情報は必要です。この追加情報は、デバイス側の拡張フロントエンド処理アルゴリズムによって提供されます。サーバーにフロントエンド機能とともに圧縮され、送信されます。この追加情報は、マンダリン、広東語、タイなどの音色言語での音声認識パフォーマンスの改善にも役立つ場合があります。

Full information about the client side signal processing algorithms used in the standard are described in the specification ES 202 211 [2].

標準で使用されるクライアントサイド信号処理アルゴリズムに関する完全な情報は、仕様ES 202 211 [2]で説明されています。

The additional fundamental frequency and voicing class information is compressed for each frame pair. The pitch for the first frame of the FP is quantized to 7 bits and the second frame is differentially quantized to 7 bits. The voicing class is indicated with one bit for each frame. The total for the extension information for a frame pair therefore consists of 14 bits plus an additional 2 bits of CRC error protection computed over these extension bits only.

追加の基本周波数と声のクラス情報は、各フレームペアに対して圧縮されます。FPの最初のフレームのピッチは7ビットに量子化され、2番目のフレームは7ビットに差別的に量子化されます。発声クラスは、各フレームに対して1ビットで示されています。したがって、フレームペアの拡張情報の合計は、これらの拡張ビットのみで計算された14ビットと追加の2ビットのCRCエラー保護で構成されています。

The total information for the frame pair is made up of 92 bits for the two compressed front-end feature frames (including 4 bits for their CRC) plus 16 bits for the extension (including 2 bits for their CRC) and 4 bits of null padding to give a total of 14 octets per frame pair. As for ES 201 208 the extended frame pair also corresponds to 20ms of speech. The extended front-end supports three raw sampling rates: 8 kHz, 11 kHz, and 16 kHz.

フレームペアの合計情報は、2つの圧縮フロントエンド機能フレーム(CRCに4ビットを含む)に92ビットと、延長用の16ビット(CRCに2ビットを含む)と4ビットのヌルパディングで構成されています。フレームペアごとに合計14オクテットを与える。ES 201 208については、拡張フレームペアも20ミリ秒の音声に対応しています。拡張フロントエンドは、8 kHz、11 kHz、および16 kHzの3つの生のサンプリングレートをサポートします。

The quantized vectors from two consecutive frames are put into an FP, as described in more detail in Section 3.3 below.

2つの連続したフレームからの量子化されたベクトルは、以下のセクション3.3で詳細に説明されているように、FPに入れられます。

The parameters received at the remote server from the RTP extended DSR payload specified here can be used to synthesize an intelligible speech waveform for replay. The algorithms to do this are described in the specification ES 202 211 [2].

ここで指定されているRTP拡張DSRペイロードからリモートサーバーで受信したパラメーターは、リプレイ用のわかりやすい音声波形を合成するために使用できます。これを行うアルゴリズムは、仕様ES 202 211 [2]で説明されています。

2.3. ES 202 212 Extended Advanced DSR Front-end Codec
2.3. ES 202 212拡張高度なDSRフロントエンドコーデック

ES 202 212 is the extension for the DSR Advanced Front-end ES 202 050 [1]. It provides the same capabilities as the extended mel-cepstrum front-end described in Section 2.2 but for the DSR Advanced Front-end.

ES 202 212は、DSR Advanced Front-End ES 202 050 [1]の拡張です。セクション2.2で説明されている拡張されたMel-Cepstrumフロントエンドと同じ機能を提供しますが、DSR Advanced Front Endの場合。

3. DSR RTP Payload Formats
3. DSR RTPペイロードフォーマット
3.1. Common Considerations of the Three DSR RTP Payload Formats
3.1. 3つのDSR RTPペイロード形式の一般的な考慮事項

The three DSR RTP payload formats defined in this document share the following consideration or behaviours.

このドキュメントで定義されている3つのDSR RTPペイロードフォーマットは、以下の考慮事項または行動を共有しています。

3.1.1. Number of FPs in Each RTP Packet
3.1.1. 各RTPパケットのFPS数

Any number of FPs MAY be aggregate together in an RTP payload and they MUST be consecutive in time. However, one SHOULD always keep the RTP payload size smaller than the MTU in order to avoid IP fragmentation and SHOULD follow the recommendations given in Section 3.1 in RFC 3557 [10] when determining the proper number of FPs in an RTP payload.

任意の数のFPSがRTPペイロードに集約されている可能性があり、それらは時間内に連続している必要があります。ただし、IP断片化を回避するために、RTPペイロードサイズをMTUよりも小さく保つ必要があり、RTPペイロードで適切な数のFPSを決定する場合は、RFC 3557 [10]のセクション3.1に記載されている推奨事項に従う必要があります。

3.1.2. Support for Discontinuous Transmission
3.1.2. 不連続な送信のサポート

Same considerations described in Section 3.2 of RFC 3557 [10] apply to all the three DSR RTP payloads defined in this document.

RFC 3557 [10]のセクション3.2で説明されている同じ考慮事項は、このドキュメントで定義されている3つのDSR RTPペイロードすべてに適用されます。

3.1.3. RTP Header Usage
3.1.3. RTPヘッダーの使用

The format of the RTP header is specified in RFC 3550 [8]. The three payload formats defined here use the fields of the header in a manner consistent with that specification.

RTPヘッダーの形式は、RFC 3550 [8]で指定されています。ここで定義されている3つのペイロード形式は、その仕様と一致する方法でヘッダーのフィールドを使用します。

The RTP timestamp corresponds to the sampling instant of the first sample encoded for the first FP in the packet. The timestamp clock frequency is the same as the sampling frequency, so the timestamp unit is in samples.

RTPタイムスタンプは、パケット内の最初のFPに対してエンコードされた最初のサンプルのサンプリングインスタントに対応しています。タイムスタンプクロック周波数はサンプリング周波数と同じであるため、タイムスタンプユニットはサンプルにあります。

As defined by all three front-end codecs, the duration of one FP is 20 ms, corresponding to 160, 220, or 320 encoded samples with a sampling rate of 8, 11, or 16 kHz being used at the front-end, respectively. Thus, the timestamp is increased by 160, 220, or 320 for each consecutive FP, respectively.

3つのフロントエンドコーデックすべてで定義されているように、1つのFPの持続時間は20 msで、160、220、または320のエンコードされたサンプルに対応し、サンプリングレートはそれぞれフロントエンドで使用されています。。したがって、タイムスタンプは、それぞれ連続FPごとに160、220、または320増加します。

The DSR payload for all three front-end codecs is always an integral number of octets. If additional padding is required for some other purpose, then the P bit in the RTP header may be set and padding appended as specified in RFC 3550 [8].

3つのフロントエンドコーデックすべてのDSRペイロードは、常にオクテットの不可欠な数です。他の目的に追加のパディングが必要な場合、RTPヘッダーのPビットを設定して、RFC 3550で指定されているようにパディングが追加される場合があります[8]。

The RTP header marker bit (M) MUST be set following the general rules for audio codecs, as defined in Section 4.1 in RFC 3551 [9].

RFC 3551 [9]のセクション4.1で定義されているように、RTPヘッダーマーカービット(M)は、オーディオコーデックの一般的なルールに従って設定する必要があります。

This document does not specify the assignment of an RTP payload type for these three new packet formats. It is expected that the RTP profile under which any of these payload formats is being used will assign a payload type for this encoding or will specify that the payload type is to be bound dynamically.

このドキュメントでは、これら3つの新しいパケット形式のRTPペイロードタイプの割り当てを指定していません。これらのペイロード形式のいずれかが使用されているRTPプロファイルは、このエンコードにペイロードタイプを割り当てるか、ペイロードタイプを動的にバインドすることを指定することが期待されています。

3.2. Payload Format for ES 202 050 DSR
3.2. ES 202 050 DSRのペイロード形式

An ES 202 050 DSR RTP payload datagram uses exactly the same layout as defined in Section 3 of RFC 3557 [10], i.e., a standard RTP header followed by a DSR payload containing a series of DSR FPs.

ES 202 050 DSR RTPペイロードデータグラムは、RFC 3557 [10]のセクション3で定義されているのとまったく同じレイアウトを使用します。

The size of each ES 202 050 FP remains 96 bits or 12 octets, as defined in the following sections. This ensures that a DSR RTP payload will always end on an octet boundary.

次のセクションで定義されているように、各ES 202 050 FPのサイズは96ビットまたは12オクテットのままです。これにより、DSR RTPペイロードが常にOctet境界で終了することが保証されます。

3.2.1. Frame Pair Formats
3.2.1. フレームペア形式
3.2.1.1. Format of Speech and Non-speech FPs
3.2.1.1. 音声と非スピーチFPSの形式

The following mel-cepstral frame MUST be used, as defined in [1]:

[1]で定義されているように、次のメルクリスチュストラルフレームを使用する必要があります。

Pairs of the quantized 10ms mel-cepstral frames MUST be grouped together and protected with a 4-bit CRC forming a 92-bit long FP. At the end, each FP MUST be padded with 4 zeros to the MSB 4 bits of the last octet in order to make the FP aligned to the octet boundary.

量子化された10msメルクリスチュストラルフレームのペアをグループ化し、92ビットの長いFPを形成する4ビットCRCで保護する必要があります。最後に、FPをオクテット境界に整列させるために、各FPを最後のオクテットのMSB 4ビットに4ビットにパッドで埋めなければなりません。

The following diagram shows a complete ES 202 050 FP:

次の図は、完全なES 202 050 FPを示しています。

     Frame #1 in FP:
     ===============
        (MSB)                                     (LSB)
          0     1     2     3     4     5     6     7
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :  idx(2,3) |            idx(0,1)               |    Octet 1
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :       idx(4,5)        |     idx(2,3) (cont)   :    Octet 2
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |             idx(6,7)              |idx(4,5)(cont)  Octet 3
       +-----+-----+-----+-----+-----+-----+-----+-----+
   idx(10,11)| VAD |              idx(8,9)             |    Octet 4
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :       idx(12,13)      |   idx(10,11) (cont)   :    Octet 5
       +-----+-----+-----+-----+-----+-----+-----+-----+
                               |   idx(12,13) (cont)   :    Octet 6/1
                               +-----+-----+-----+-----+
        
    Frame #2 in FP:
    ===============
        (MSB)                                     (LSB)
          0     1     2     3     4     5     6     7
       +-----+-----+-----+-----+
       :        idx(0,1)       |                            Octet 6/2
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |              idx(2,3)             |idx(0,1)(cont)  Octet 7
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :  idx(6,7) |              idx(4,5)             |    Octet 8
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :        idx(8,9)       |      idx(6,7) (cont)  :    Octet 9
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |          idx(10,11)         | VAD |idx(8,9)(cont)  Octet 10
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |                   idx(12,13)                  |    Octet 11
       +-----+-----+-----+-----+-----+-----+-----+-----+
        
    CRC for Frame #1 and Frame #2 and padding in FP:
    ================================================
        (MSB)                                     (LSB)
          0     1     2     3     4     5     6     7
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |  0  |  0  |  0  |  0  |          CRC          |    Octet 12
       +-----+-----+-----+-----+-----+-----+-----+-----+
        

The 4-bit CRC in the FP MUST be calculated using the formula (including the bit-order rules) defined in 7.2 in [1].

FPの4ビットCRCは、[1]で7.2で定義された式(ビットオーダールールを含む)を使用して計算する必要があります。

Therefore, each FP represents 20ms of original speech. Note that each FP MUST be padded with 4 zeros to the MSB 4 bits of the last octet in order to make the FP aligned to the octet boundary, as shown above. This makes the total size of an FP 96 bits, or 12 octets. Note that this padding is separate from padding indicated by the P bit in the RTP header.

したがって、各FPは、元のスピーチの20msを表します。上記のように、FPをオクテット境界に整列させるために、各FPは最後のオクテットのMSB 4ビットに4ゼロをパッドで埋めなければならないことに注意してください。これにより、FP 96ビット、または12オクテットの合計サイズになります。このパディングは、RTPヘッダーのPビットで示されるパディングとは別のパディングであることに注意してください。

The definition of the indices and 'VAD' flag are described in [1] and their value is only set and examined by the codecs in the front-end client and the recognizer.

インデックスと「VAD」フラグの定義は[1]で説明されており、その値はフロントエンドクライアントと認識者のコーデックによってのみ設定および検査されます。

3.2.1.2. Format of Null FP
3.2.1.2. null fpの形式

Null FPs are sent to mark the end of a transmission segment. Details on transmission segment and the use of Null FPs can be found in RFC 3557 [10].

NULL FPSは、送信セグメントの終わりをマークするために送信されます。送信セグメントとヌルFPSの使用に関する詳細は、RFC 3557 [10]にあります。

A Null FP for the ES 202 050 front-end codec is defined by setting the content of the first and second frame in the FP to null (i.e., filling the first 88 bits of the FP with zeros). The 4-bit CRC MUST be calculated the same way as described in Section 7.2.4 of [1], and 4 zeros MUST be padded to the end of the Null FP in order to make it aligned to the octet boundary.

ES 202 050フロントエンドコーデックのヌルFPは、FPの最初と2番目のフレームのコンテンツをNULLに設定することによって定義されます(つまり、FPの最初の88ビットをゼロで埋める)。[1]のセクション7.2.4で説明されているのと同じ方法で4ビットCRCを計算する必要があり、4ゼロをnull FPの最後にパッドで塗布する必要があります。

3.3. Payload Format for ES 202 211 DSR
3.3. ES 202 211 DSRのペイロード形式

An ES 202 211 DSR RTP payload datagram is very similar to that defined in Section 3 of RFC 3557 [10], i.e., a standard RTP header followed by a DSR payload containing a series of DSR FPs.

ES 202 211 DSR RTPペイロードデータグラムは、RFC 3557 [10]のセクション3で定義されているものと非常に似ています。つまり、標準のRTPヘッダーに続いて、一連のDSR FPSを含むDSRペイロードが続きます。

The size of each ES 202 211 FP is 112 bits or 14 octets, as defined in the following sections. This ensures that a DSR RTP payload will always end on an octet boundary.

次のセクションで定義されているように、各ES 202 211 FPのサイズは112ビットまたは14オクテットです。これにより、DSR RTPペイロードが常にOctet境界で終了することが保証されます。

3.3.1. Frame Pair Formats
3.3.1. フレームペア形式
3.3.1.1. Format of Speech and Non-speech FPs
3.3.1.1. 音声と非スピーチFPSの形式

The following mel-cepstral frame MUST be used, as defined in Section 6.2.4 in [2]:

[2]のセクション6.2.4で定義されているように、次のメルクリスチュストラルフレームを使用する必要があります。

Immediately following two frames (Frame #1 and Frame #2) worth of codebook indices (or 88 bits), there is a 4-bit CRC calculated on these 88 bits. The pitch indices of the first frame (Pidx1: 7 bits) and the second frame (Pidx2: 5 bits) of the frame pair then follow. The class indices of the two frames in the frame pair worth 1 bit each (Cidx1 and Cidx2) next follow. Finally, a 2-bit CRC calculated on the pitch and class bits (total: 14 bits) of the frame pair is included (PC-CRC). The total number of bits in a frame pair packet is therefore 44 + 44 + 4 + 7 + 5 + 1 + 1 + 2 = 108. At the end, each FP MUST be padded with 4 zeros to the MSB 4 bits of the last octet in order to make the FP aligned to the octet boundary.

2つのフレーム(フレーム#1とフレーム#2)のコードブックインデックス(または88ビット)の直後に、これらの88ビットで計算された4ビットCRCがあります。最初のフレーム(PIDX1:7ビット)のピッチインデックスとフレームペアの2番目のフレーム(PIDX2:5ビット)が続きます。フレームペアの2つのフレームのクラスインデックスは、それぞれ1ビット(CIDX1とCIDX2)に相当します。次に続きます。最後に、フレームペアのピッチおよびクラスビット(合計:14ビット)で計算された2ビットCRC(PC-CRC)が含まれています。したがって、フレームペアパケットのビットの総数は44 44 4 7 5 1 1 2 = 108です。最後に、FPを作成するために、各FPを最後のオクテットのMSB 4ビットに4つのゼロでパディングする必要があります。オクテットの境界に合わせた。

The following diagram shows a complete ES 202 211 FP:

次の図は、完全なES 202 211 FPを示しています。

     Frame #1 in FP:
     ===============
       (MSB)                                     (LSB)
         0     1     2     3     4     5     6     7
      +-----+-----+-----+-----+-----+-----+-----+-----+
      :  idx(2,3) |            idx(0,1)               |    Octet 1
      +-----+-----+-----+-----+-----+-----+-----+-----+
      :       idx(4,5)        |     idx(2,3) (cont)   :    Octet 2
      +-----+-----+-----+-----+-----+-----+-----+-----+
      |             idx(6,7)              |idx(4,5)(cont)  Octet 3
      +-----+-----+-----+-----+-----+-----+-----+-----+
       idx(10,11) |              idx(8,9)             |    Octet 4
      +-----+-----+-----+-----+-----+-----+-----+-----+
      :       idx(12,13)      |   idx(10,11) (cont)   :    Octet 5
      +-----+-----+-----+-----+-----+-----+-----+-----+
                              |   idx(12,13) (cont)   :    Octet 6/1
                              +-----+-----+-----+-----+
        
    Frame #2 in FP:
    ===============
       (MSB)                                     (LSB)
         0     1     2     3     4     5     6     7
      +-----+-----+-----+-----+
      :        idx(0,1)       |                            Octet 6/2
      +-----+-----+-----+-----+-----+-----+-----+-----+
      |              idx(2,3)             |idx(0,1)(cont)  Octet 7
      +-----+-----+-----+-----+-----+-----+-----+-----+
      :  idx(6,7) |              idx(4,5)             |    Octet 8
      +-----+-----+-----+-----+-----+-----+-----+-----+
      :        idx(8,9)       |      idx(6,7) (cont)  :    Octet 9
      +-----+-----+-----+-----+-----+-----+-----+-----+
      |          idx(10,11)               |idx(8,9)(cont)  Octet 10
      +-----+-----+-----+-----+-----+-----+-----+-----+
      |                   idx(12,13)                  |    Octet 11
      +-----+-----+-----+-----+-----+-----+-----+-----+
        
    CRC for Frame #1 and Frame #2 in FP:
    ====================================
       (MSB)                                     (LSB)
         0     1     2     3     4     5     6     7
                              +-----+-----+-----+-----+
                              |          CRC          |    Octet 12/1
                              +-----+-----+-----+-----+
        
    Extension information and padding in FP:
    ========================================
       (MSB)                                     (LSB)
         0     1     2     3     4     5     6     7
      +-----+-----+-----+-----+
      :       Pidx1           |                            Octet 12/2
      +-----+-----+-----+-----+-----+-----+-----+-----+
      |            Pidx2            |   Pidx1 (cont)  :    Octet 13
      +-----+-----+-----+-----+-----+-----+-----+-----+
      |  0  |  0  |  0  |  0  |  PC-CRC   |Cidx2|Cidx1|    Octet 14
      +-----+-----+-----+-----+-----+-----+-----+-----+
        

The 4-bit CRC and the 2-bit PC-CRC in the FP MUST be calculated using the formula (including the bit-order rules) defined in 6.2.4 in [2].

FPの4ビットCRCと2ビットPC-CRCは、[2]の6.2.4で定義された式(ビットオーダールールを含む)を使用して計算する必要があります。

Therefore, each FP represents 20ms of original speech. Note, as shown above, each FP MUST be padded with 4 zeros to the MSB 4 bits of the last octet in order to make the FP aligned to the octet boundary. This makes the total size of an FP 112 bits, or 14 octets. Note, this padding is separate from padding indicated by the P bit in the RTP header.

したがって、各FPは、元のスピーチの20msを表します。上記のように、各FPは、FPをオクテット境界に整列させるために、最後のオクテットのMSB 4ビットに4つのゼロでパディングする必要があります。これにより、FP 112ビット、または14オクテットの合計サイズになります。このパディングは、RTPヘッダーのPビットで示されるパディングとは別のパディングです。

3.3.1.2. Format of Null FP
3.3.1.2. null fpの形式

A Null FP for the ES 202 211 front-end codec is defined by setting all the 112 bits of the FP with zeros. Null FPs are sent to mark the end of a transmission segment. Details on transmission segment and the use of Null FPs can be found in RFC 3557 [10].

ES 202 211フロントエンドコーデックのヌルFPは、FPの112ビットすべてをゼロに設定することによって定義されます。NULL FPSは、送信セグメントの終わりをマークするために送信されます。送信セグメントとヌルFPSの使用に関する詳細は、RFC 3557 [10]にあります。

3.4. Payload Format for ES 202 212 DSR
3.4. ES 202 212 DSRのペイロード形式

Similar to other ETSI DSR front-end encoding schemes, the encoded DSR feature stream of ES 202 212 is transmitted in a sequence of FPs, where each FP represents two consecutive original voice frames.

他のETSI DSRフロントエンドエンコードスキームと同様に、ES 202 212のエンコードされたDSR機能ストリームは、各FPが2つの連続した元の音声フレームを表すFPSのシーケンスで送信されます。

An ES 202 212 DSR RTP payload datagram is very similar to that defined in Section 3 of RFC 3557 [10], i.e., a standard RTP header followed by a DSR payload containing a series of DSR FPs.

ES 202 212 DSR RTPペイロードデータグラムは、RFC 3557 [10]のセクション3で定義されているものと非常に似ています。

The size of each ES 202 212 FP is 112 bits or 14 octets, as defined in the following sections. This ensures that an ES 202 212 DSR RTP payload will always end on an octet boundary.

次のセクションで定義されているように、各ES 202 212 FPのサイズは112ビットまたは14オクテットです。これにより、ES 202 212 DSR RTPペイロードが常にOctet境界で終了することが保証されます。

3.4.1. Frame Pair Formats
3.4.1. フレームペア形式
3.4.1.1. Format of Speech and Non-speech FPs
3.4.1.1. 音声と非スピーチFPSの形式

The following mel-cepstral frame MUST be used, as defined in Section 7.2.4 of [3]:

[3]のセクション7.2.4で定義されているように、次のメルクリスチュストラルフレームを使用する必要があります。

Immediately following two frames (Frame #1 and Frame #2) worth of codebook indices (or 88 bits), there is a 4-bit CRC calculated on these 88 bits. The pitch indices of the first frame (Pidx1: 7 bits) and the second frame (Pidx2: 5 bits) of the frame pair then follow. The class indices of the two frames in the frame pair worth 1 bit each next follow (Cidx1 and Cidx2). Finally, a 2-bit CRC (PC-CRC) calculated on the pitch and class bits (total: 14 bits) of the frame pair is included. The total number of bits in frame pair packet is therefore 44 + 44 + 4 + 7 + 5 + 1 + 1 + 2 = 108. At the end, each FP MUST be padded with 4 zeros to the MSB 4 bits of the last octet in order to make the FP aligned to the octet boundary. The padding brings the total size of a FP to 112 bits, or 14 octets. Note that this padding is separate from padding indicated by the P bit in the RTP header.

2つのフレーム(フレーム#1とフレーム#2)のコードブックインデックス(または88ビット)の直後に、これらの88ビットで計算された4ビットCRCがあります。最初のフレーム(PIDX1:7ビット)のピッチインデックスとフレームペアの2番目のフレーム(PIDX2:5ビット)が続きます。フレームペアの2つのフレームのクラスインデックスは、次の1ビットに相当します(CIDX1とCIDX2)。最後に、フレームペアのピッチおよびクラスビット(合計14ビット)で計算された2ビットCRC(PC-CRC)が含まれています。したがって、フレームペアパケットのビットの総数は44 44 4 7 5 1 1 2 = 108です。最後に、FPを整列させるために、各FPを最後のオクテットのMSB 4ビットにパッドで埋めなければなりません。オクテットの境界に。パディングは、FPの合計サイズを112ビット、または14オクテットにします。このパディングは、RTPヘッダーのPビットで示されるパディングとは別のパディングであることに注意してください。

The following diagram shows a complete ES 202 212 FP:

次の図は、完全なES 202 212 FPを示しています。

     Frame #1 in FP:
     ===============
        (MSB)                                     (LSB)
          0     1     2     3     4     5     6     7
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :  idx(2,3) |            idx(0,1)               |    Octet 1
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :       idx(4,5)        |     idx(2,3) (cont)   :    Octet 2
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |             idx(6,7)              |idx(4,5)(cont)  Octet 3
       +-----+-----+-----+-----+-----+-----+-----+-----+
   idx(10,11)| VAD |              idx(8,9)             |    Octet 4
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :       idx(12,13)      |   idx(10,11) (cont)   :    Octet 5
       +-----+-----+-----+-----+-----+-----+-----+-----+
                               |   idx(12,13) (cont)   :    Octet 6/1
                               +-----+-----+-----+-----+
        
    Frame #2 in FP:
    ===============
        (MSB)                                     (LSB)
          0     1     2     3     4     5     6     7
       +-----+-----+-----+-----+
       :        idx(0,1)       |                            Octet 6/2
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |              idx(2,3)             |idx(0,1)(cont)  Octet 7
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :  idx(6,7) |              idx(4,5)             |    Octet 8
       +-----+-----+-----+-----+-----+-----+-----+-----+
       :        idx(8,9)       |      idx(6,7) (cont)  :    Octet 9
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |          idx(10,11)         | VAD |idx(8,9)(cont)  Octet 10
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |                   idx(12,13)                  |    Octet 11
       +-----+-----+-----+-----+-----+-----+-----+-----+
        
    CRC for Frame #1 and Frame #2 in FP:
    ====================================
        (MSB)                                     (LSB)
          0     1     2     3     4     5     6     7
                               +-----+-----+-----+-----+
                               |          CRC          |    Octet 12/1
                               +-----+-----+-----+-----+
        
    Extension information and padding in FP:
    ========================================
        (MSB)                                     (LSB)
          0     1     2     3     4     5     6     7
       +-----+-----+-----+-----+
       :       Pidx1           |                            Octet 12/2
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |            Pidx2            |   Pidx1 (cont)  :    Octet 13
       +-----+-----+-----+-----+-----+-----+-----+-----+
       |  0  |  0  |  0  |  0  |  PC-CRC   |Cidx2|Cidx1|    Octet 14
       +-----+-----+-----+-----+-----+-----+-----+-----+
        

The codebook indices, VAD flag, pitch index, and class index are specified in Section 6 of [3]. The 4-bit CRC and the 2-bit PC-CRC in the FP MUST be calculated using the formula (including the bit-order rules) defined in 7.2.4 in [3].

コードブックインデックス、VADフラグ、ピッチインデックス、およびクラスインデックスは、[3]のセクション6で指定されています。FPの4ビットCRCと2ビットPC-CRCは、[3]で7.2.4で定義された式(ビットオーダールールを含む)を使用して計算する必要があります。

3.4.1.2. Format of Null FP
3.4.1.2. null fpの形式

A Null FP for the ES 202 212 front-end codec is defined by setting all 112 bits of the FP with zeros. Null FPs are sent to mark the end of a transmission segment. Details on transmission segments and the use of Null FPs can be found in RFC 3557 [10].

ES 202 212フロントエンドコーデックのヌルFPは、FPの112ビットすべてをゼロに設定することによって定義されます。NULL FPSは、送信セグメントの終わりをマークするために送信されます。伝送セグメントとヌルFPSの使用に関する詳細は、RFC 3557 [10]にあります。

4. IANA Considerations
4. IANAの考慮事項

For each of the three ETSI DSR front-end codecs covered in this document, a new MIME subtype registration has been registered by the IANA for the corresponding payload type, as described below.

このドキュメントでカバーされている3つのETSI DSRフロントエンドコーデックのそれぞれについて、以下に説明するように、対応するペイロードタイプのためにIANAによって新しいMIMEサブタイプ登録が登録されています。

Media Type name: audio

メディアタイプ名:オーディオ

Media subtype names:

メディアサブタイプ名:

dsr-es202050 (for ES 202 050 front-end)

DSR-ES202050(ES 202 050フロントエンドの場合)

dsr-es202211 (for ES 202 211 front-end)

DSR-ES202211(ES 202 211フロントエンドの場合)

dsr-es202212 (for ES 202 212 front-end)

DSR-ES202212(ES 202 212フロントエンドの場合)

Required parameters: none

必要なパラメーター:なし

Optional parameters:

オプションのパラメーター:

rate: Indicates the sample rate of the speech. Valid values include: 8000, 11000, and 16000. If this parameter is not present, 8000 sample rate is assumed.

レート:音声のサンプルレートを示します。有効な値には、8000、11000、および16000が含まれます。このパラメーターが存在しない場合、8000のサンプルレートが想定されます。

maxptime: see RFC 3267 [7]. If this parameter is not present, maxptime is assumed to be 80ms.

Maxptime:RFC 3267 [7]を参照してください。このパラメーターが存在しない場合、Maxptimeは80ミリ秒と想定されます。

Note, since the performance of most speech recognizers are extremely sensitive to consecutive FP losses, if the user of the payload format expects a high packet loss ratio for the session, it MAY consider to explicitly choose a maxptime value for the session that is shorter than the default value.

注、ほとんどのスピーチ認識者のパフォーマンスは連続したFP損失に非常に敏感であるため、ペイロード形式のユーザーがセッションの高いパケット損失率を期待している場合、セッションの最大値を明示的に選択することを検討する場合があります。デフォルト値。

ptime: see RFC 2327 [5].

PTIME:RFC 2327 [5]を参照してください。

Encoding considerations: These types are defined for transfer via RTP [8] as described in Section 3 of RFC 4060.

考慮事項のエンコード:これらのタイプは、RFC 4060のセクション3で説明されているように、RTP [8]を介して転送するために定義されます。

Security considerations: See Section 5 of RFC 4060.

セキュリティ上の考慮事項:RFC 4060のセクション5を参照してください。

Person & email address to contact for further information: Qiaobing.Xie@motorola.com

詳細については、人とメールアドレスをお問い合わせください:qiaobing.xie@motorola.com

Intended usage: COMMON. It is expected that many VoIP applications (as well as mobile applications) will use this type.

意図された使用法:共通。多くのVoIPアプリケーション(およびモバイルアプリケーション)がこのタイプを使用することが予想されます。

Author: Qiaobing.Xie@motorola.com

著者:qiaobing.xie@motorola.com

Change controller: IETF Audio/Video transport working group

Change Controller:IETFオーディオ/ビデオトランスポートワーキンググループ

4.1. Mapping MIME Parameters into SDP
4.1. MIMEパラメーターをSDPにマッピングします

The information carried in the MIME media type specification has a specific mapping to fields in the Session Description Protocol (SDP) [5], which is commonly used to describe RTP sessions. When SDP is used to specify sessions employing ES 202 050, ES 202 211, or ES 202 212 DSR codec, the mapping is as follows:

MIMEメディアタイプの仕様に掲載されている情報には、セッション説明プロトコル(SDP)[5]のフィールドへの特定のマッピングがあります。これは、RTPセッションを説明するために一般的に使用されます。SDPがES 202 050、ES 202 211、またはES 202 212 DSRコーデックを使用するセッションを指定するために使用される場合、マッピングは次のとおりです。

o The MIME type ("audio") goes in SDP "m=" as the media name.

o MIMEタイプ( "Audio")は、メディア名としてSDP "m ="になります。

o The MIME subtype ("dsr-es202050", "dsr-es202211", or "dsr-es202212") goes in SDP "a=rtpmap" as the encoding name.

o MIMEサブタイプ(「DSR-ES202050」、「DSR-ES202211」、または「DSR-ES202212」)は、エンコード名としてSDP「A = RTPMAP」になります。

o The optional parameter "rate" also goes in "a=rtpmap" as clock rate. If no rate is given, then the default value (i.e., 8000) is used in SDP.

o オプションのパラメーター「レート」も、「A = rtpmap」にクロックレートとして入力されます。レートが与えられない場合、デフォルト値(つまり、8000)がSDPで使用されます。

o The optional parameters "ptime" and "maxptime" go in the SDP "a=ptime" and "a=maxptime" attributes, respectively.

o オプションのパラメーター「PTIME」と「MAXPTIME」は、それぞれSDP「A = PTIME」および「A = MaxPtime」属性に移動します。

Example of usage of ES 202 050 DSR:

ES 202 050 DSRの使用例:

     m=audio 49120 RTP/AVP 101
     a=rtpmap:101 dsr-es202050/8000
     a=maxptime:40
        

Example of usage of ES 202 211 DSR:

ES 202 211 DSRの使用例:

     m=audio 49120 RTP/AVP 101
     a=rtpmap:101 dsr-es202211/8000
     a=maxptime:40
        

Example of usage of ES 202 212 DSR:

ES 202 212 DSRの使用例:

     m=audio 49120 RTP/AVP 101
     a=rtpmap:101 dsr-es202212/8000
     a=maxptime:40
        
4.2. Usage in Offer/Answer
4.2. オファー/回答の使用

All SDP parameters in this payload format are declarative, and all reasonable values are expected to be supported. Thus, the standard usage of Offer/Answer as described in RFC 3264 [6] should be followed.

このペイロード形式のすべてのSDPパラメーターは宣言的であり、すべての合理的な値がサポートされると予想されます。したがって、RFC 3264 [6]に記載されているように、オファー/回答の標準使用に従う必要があります。

4.3. Congestion Control
4.3. 混雑制御

Congestion control for RTP MUST be used in accordance with RFC 3550 [8], and in any applicable RTP profile, e.g., RFC 3551 [9].

RTPの輻輳制御は、RFC 3550 [8]に従って、および該当するRTPプロファイル、例えばRFC 3551 [9]に従って使用する必要があります。

5. Security Considerations
5. セキュリティに関する考慮事項

Implementations using the payload defined in this specification are subject to the security considerations discussed in the RTP specification RFC 3550 [8] and any RTP profile, e.g., RFC 3551 [9]. This payload does not specify any different security services.

この仕様で定義されているペイロードを使用した実装は、RTP仕様RFC 3550 [8]およびRTPプロファイル、例えばRFC 3551 [9]で説明されているセキュリティ上の考慮事項の対象となります。このペイロードは、別のセキュリティサービスを指定しません。

6. Acknowledgments
6. 謝辞

The design presented here is based on that of RFC 3557 [10]. The authors wish to thank Magnus Westerlund and others for their reviews and comments.

ここに示されているデザインは、RFC 3557 [10]の設計に基づいています。著者は、マグナス・ウェスターランドなどのレビューとコメントに感謝したいと考えています。

7. References
7. 参考文献
7.1. Normative References
7.1. 引用文献

[1] European Telecommunications Standards Institute (ETSI) Standard ES 202 050, "Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Advanced Front-end Feature Extraction Algorithm; Compression Algorithms", http://pda.etsi.org/pda/.

[1] European Telecommunications Standards Institute(ETSI)Standard ES 202050、「音声処理、伝送、品質の側面(STQ);分散音声認識、高度なフロントエンド機能抽出アルゴリズム、圧縮アルゴリズム」、http://pda.etsi.org/PDA/。

[2] European Telecommunications Standards Institute (ETSI) Standard ES 202 211, "Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Extended front-end feature extraction algorithm; Compression algorithms; Back-end speech reconstruction algorithm", http://pda.etsi.org/pda/.

[2] European Telecommunications Standards Institute(ETSI)Standard ES 202 211、「音声処理、伝送、品質の側面(STQ);分散音声認識;拡張フロントエンド機能抽出アルゴリズム、圧縮アルゴリズム、バックエンド音声再構成アルゴリズム "、http://pda.etsi.org/pda/。

[3] European Telecommunications Standards Institute (ETSI) Standard ES 202 212, "Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Extended advanced front-end feature extraction algorithm; Compression algorithms; Back-end speech reconstruction algorithm", http://pda.etsi.org/pda/.

[3] European Telecommunications Standards Institute(ETSI)Standard ES 202 212、「音声処理、伝送、品質の側面(STQ);分散音声認識;拡張された高度なフロントエンド特徴抽出アルゴリズム;圧縮アルゴリズム、バックエンド音声再構成アルゴリズム "、http://pda.etsi.org/pda/。

[4] Bradner, S., "Key words for use in RFCs to Indicate Requirement Levels", BCP 14, RFC 2119, March 1997.

[4] Bradner、S。、「要件レベルを示すためにRFCで使用するためのキーワード」、BCP 14、RFC 2119、1997年3月。

[5] Handley, M. and V. Jacobson, "SDP: Session Description Protocol", RFC 2327, April 1998.

[5] Handley、M。and V. Jacobson、「SDP:セッション説明プロトコル」、RFC 2327、1998年4月。

[6] Rosenberg, J. and H. Schulzrinne, "An Offer/Answer Model with the Session Description Protocol (SDP)", RFC 3264, June 2002.

[6] Rosenberg、J。およびH. Schulzrinne、「セッション説明プロトコル(SDP)のオファー/回答モデル」、RFC 3264、2002年6月。

[7] Sjoberg, J., Westerlund, M., Lakaniemi, A., and Q. Xie, "Real-Time Transport Protocol (RTP) Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs", RFC 3267, June 2002.

[7] Sjoberg、J.、Westerlund、M.、Lakaniemi、A。、およびQ. Xie、「リアルタイムトランスポートプロトコル(RTP)ペイロード形式とファイルストレージ形式(AMR)および適応型マルチレートワイドバンドのファイルストレージ形式(AMR-WB)Audio Codecs "、RFC 3267、2002年6月。

[8] Schulzrinne, H., Casner, S., Frederick, R., and V. Jacobson, "RTP: A Transport Protocol for Real-Time Applications", STD 64, RFC 3550, July 2003.

[8] Schulzrinne、H.、Casner、S.、Frederick、R。、およびV. Jacobson、「RTP:リアルタイムアプリケーション用の輸送プロトコル」、STD 64、RFC 3550、2003年7月。

[9] Schulzrinne, H. and S. Casner, "RTP Profile for Audio and Video Conferences with Minimal Control", STD 65, RFC 3551, July 2003.

[9] Schulzrinne、H。およびS. Casner、「最小限のコントロールを備えたオーディオおよびビデオ会議のRTPプロファイル」、STD 65、RFC 3551、2003年7月。

[10] Xie, Q., "RTP Payload Format for European Telecommunications Standards Institute (ETSI) European Standard ES 201 108 Distributed Speech Recognition Encoding", RFC 3557, July 2003.

[10] Xie、Q。、「欧州通信標準研究所(ETSI)欧州標準ES 201 108分散音声認識エンコーディングのRTPペイロード形式」、RFC 3557、2003年7月。

7.2. Informative References
7.2. 参考引用

[11] European Telecommunications Standards Institute (ETSI) Standard ES 201 108, "Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Front-end Feature Extraction Algorithm; Compression Algorithms", http://pda.etsi.org/pda/.

[11] European Telecommunications Standards Institute(ETSI)Standard ES 201 108、「音声処理、伝送、品質の側面(STQ);分散音声認識、フロントエンド機能抽出アルゴリズム、圧縮アルゴリズム」、http://pda.etsi.org/pda/。

Authors' Addresses

著者のアドレス

Qiaobing Xie Motorola, Inc. 1501 W. Shure Drive, 2-F9 Arlington Heights, IL 60004 US

Qiaobing Xie Motorola、Inc。1501 W. Shure Drive、2-F9 Arlington Heights、IL 60004 US

   Phone: +1-847-632-3028
   EMail: qxie1@email.mot.com
        

David Pearce Motorola Labs UK Research Laboratory Jays Close Viables Industrial Estate Basingstoke, HANTS RG22 4PD UK

David Pearce Motorola Labs UK Research Laboratory Jays Close Biables Industrial Estate Basingstoke、Hants RG22 4PD UK

   Phone: +44 (0)1256 484 436
   EMail: bdp003@motorola.com
        

Full Copyright Statement

完全な著作権声明

Copyright (C) The Internet Society (2005).

Copyright(c)The Internet Society(2005)。

This document is subject to the rights, licenses and restrictions contained in BCP 78, and except as set forth therein, the authors retain all their rights.

この文書は、BCP 78に含まれる権利、ライセンス、および制限の対象となり、そこに記載されている場合を除き、著者はすべての権利を保持しています。

This document and the information contained herein are provided on an "AS IS" basis and THE CONTRIBUTOR, THE ORGANIZATION HE/SHE REPRESENTS OR IS SPONSORED BY (IF ANY), THE INTERNET SOCIETY AND THE INTERNET ENGINEERING TASK FORCE DISCLAIM ALL WARRANTIES, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO ANY WARRANTY THAT THE USE OF THE INFORMATION HEREIN WILL NOT INFRINGE ANY RIGHTS OR ANY IMPLIED WARRANTIES OF MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE.

このドキュメントとここに含まれる情報は、「現状のまま」に基づいて提供されています。また、貢献者、彼/彼女が代表する組織(もしあれば)が後援する組織、インターネット協会とインターネット工学タスクフォースは、すべての保証、明示的または明示的、またはすべての保証を否認します。本書の情報の使用が、商品性または特定の目的に対する適合性の権利または黙示的な保証を侵害しないという保証を含むがこれらに限定されないことを含む。

Intellectual Property

知的財産

The IETF takes no position regarding the validity or scope of any Intellectual Property Rights or other rights that might be claimed to pertain to the implementation or use of the technology described in this document or the extent to which any license under such rights might or might not be available; nor does it represent that it has made any independent effort to identify any such rights. Information on the procedures with respect to rights in RFC documents can be found in BCP 78 and BCP 79.

IETFは、知的財産権またはその他の権利の有効性または範囲に関して、この文書に記載されている技術の実装または使用、またはそのような権利に基づくライセンスがどの程度であるかについての使用に関連すると主張する可能性があるという立場はありません。利用可能になります。また、そのような権利を特定するために独立した努力をしたことも表明していません。RFCドキュメントの権利に関する手順に関する情報は、BCP 78およびBCP 79に記載されています。

Copies of IPR disclosures made to the IETF Secretariat and any assurances of licenses to be made available, or the result of an attempt made to obtain a general license or permission for the use of such proprietary rights by implementers or users of this specification can be obtained from the IETF on-line IPR repository at http://www.ietf.org/ipr.

IETF事務局に行われたIPR開示のコピーと、利用可能にするライセンスの保証、またはこの仕様の実装者またはユーザーによるそのような独自の権利の使用のための一般的なライセンスまたは許可を取得しようとする試みの結果を取得できます。http://www.ietf.org/iprのIETFオンラインIPRリポジトリから。

The IETF invites any interested party to bring to its attention any copyrights, patents or patent applications, or other proprietary rights that may cover technology that may be required to implement this standard. Please address the information to the IETF at ietf-ipr@ietf.org.

IETFは、関心のある当事者に、著作権、特許、または特許出願、またはこの基準を実装するために必要な技術をカバーする可能性のあるその他の独自の権利を注意深く招待するよう招待しています。ietf-ipr@ietf.orgのIETFへの情報をお問い合わせください。

Acknowledgement

謝辞

Funding for the RFC Editor function is currently provided by the Internet Society.

RFCエディター機能の資金は現在、インターネット協会によって提供されています。