[要約] RFC 7205は、テレプレゼンスのマルチストリームの使用例と目的について説明しています。このRFCの目的は、テレプレゼンスシステムの利用に関するガイドラインを提供し、マルチストリームの利点と具体的な使用例を示すことです。

Internet Engineering Task Force (IETF)                        A. Romanow
Request for Comments: 7205                                         Cisco
Category: Informational                                        S. Botzko
ISSN: 2070-1721                                             M. Duckworth
                                                                 Polycom
                                                            R. Even, Ed.
                                                     Huawei Technologies
                                                              April 2014
        

Use Cases for Telepresence Multistreams

テレプレゼンスマルチストリームの使用例

Abstract

概要

Telepresence conferencing systems seek to create an environment that gives users (or user groups) that are not co-located a feeling of co-located presence through multimedia communication that includes at least audio and video signals of high fidelity. A number of techniques for handling audio and video streams are used to create this experience. When these techniques are not similar, interoperability between different systems is difficult at best, and often not possible. Conveying information about the relationships between multiple streams of media would enable senders and receivers to make choices to allow telepresence systems to interwork. This memo describes the most typical and important use cases for sending multiple streams in a telepresence conference.

テレプレゼンス会議システムは、同じ場所にいないユーザー(またはユーザーグループ)が、少なくとも忠実度の高いオーディオおよびビデオ信号を含むマルチメディア通信を介して、同じ場所にいるような存在感を与える環境を作成しようとしています。このエクスペリエンスを作成するために、オーディオおよびビデオストリームを処理するためのいくつかのテクニックが使用されます。これらの手法が類似していない場合、異なるシステム間の相互運用性はせいぜい困難であり、多くの場合不可能です。複数のメディアストリーム間の関係に関する情報を伝達することで、送信者と受信者は、テレプレゼンスシステムが相互作用できるように選択を行うことができます。このメモは、テレプレゼンス会議で複数のストリームを送信するための最も典型的で重要な使用例を説明しています。

Status of This Memo

本文書の状態

This document is not an Internet Standards Track specification; it is published for informational purposes.

このドキュメントはInternet Standards Trackの仕様ではありません。情報提供を目的として公開されています。

This document is a product of the Internet Engineering Task Force (IETF). It represents the consensus of the IETF community. It has received public review and has been approved for publication by the Internet Engineering Steering Group (IESG). Not all documents approved by the IESG are a candidate for any level of Internet Standard; see Section 2 of RFC 5741.

このドキュメントは、IETF(Internet Engineering Task Force)の製品です。これは、IETFコミュニティのコンセンサスを表しています。公開レビューを受け、インターネットエンジニアリングステアリンググループ(IESG)による公開が承認されました。 IESGによって承認されたすべてのドキュメントが、あらゆるレベルのインターネット標準の候補になるわけではありません。 RFC 5741のセクション2をご覧ください。

Information about the current status of this document, any errata, and how to provide feedback on it may be obtained at http://www.rfc-editor.org/info/rfc7205.

このドキュメントの現在のステータス、エラータ、およびフィードバックの提供方法に関する情報は、http://www.rfc-editor.org/info/rfc7205で入手できます。

Copyright Notice

著作権表示

Copyright (c) 2014 IETF Trust and the persons identified as the document authors. All rights reserved.

Copyright(c)2014 IETF Trustおよびドキュメントの作成者として識別された人物。全著作権所有。

This document is subject to BCP 78 and the IETF Trust's Legal Provisions Relating to IETF Documents (http://trustee.ietf.org/license-info) in effect on the date of publication of this document. Please review these documents carefully, as they describe your rights and restrictions with respect to this document. Code Components extracted from this document must include Simplified BSD License text as described in Section 4.e of the Trust Legal Provisions and are provided without warranty as described in the Simplified BSD License.

この文書は、BCP 78およびこの文書の発行日に有効なIETF文書に関するIETFトラストの法的規定(http://trustee.ietf.org/license-info)の対象となります。これらのドキュメントは、このドキュメントに関するあなたの権利と制限を説明しているため、注意深く確認してください。このドキュメントから抽出されたコードコンポーネントには、Trust Legal Provisionsのセクション4.eに記載されているSimplified BSD Licenseのテキストが含まれている必要があり、Simplified BSD Licenseに記載されているように保証なしで提供されます。

Table of Contents

目次

   1.  Introduction  . . . . . . . . . . . . . . . . . . . . . . . .   3
   2.  Overview of Telepresence Scenarios  . . . . . . . . . . . . .   4
   3.  Use Cases . . . . . . . . . . . . . . . . . . . . . . . . . .   6
     3.1.  Point-to-Point Meeting: Symmetric . . . . . . . . . . . .   7
     3.2.  Point-to-Point Meeting: Asymmetric  . . . . . . . . . . .   7
     3.3.  Multipoint Meeting  . . . . . . . . . . . . . . . . . . .   9
     3.4.  Presentation  . . . . . . . . . . . . . . . . . . . . . .  10
     3.5.  Heterogeneous Systems . . . . . . . . . . . . . . . . . .  11
     3.6.  Multipoint Education Usage  . . . . . . . . . . . . . . .  12
     3.7.  Multipoint Multiview (Virtual Space)  . . . . . . . . . .  14
     3.8.  Multiple Presentation Streams - Telemedicine  . . . . . .  15
   4.  Acknowledgements  . . . . . . . . . . . . . . . . . . . . . .  16
   5.  Security Considerations . . . . . . . . . . . . . . . . . . .  16
   6.  Informative References  . . . . . . . . . . . . . . . . . . .  16
        
1. Introduction
1. はじめに

Telepresence applications try to provide a "being there" experience for conversational video conferencing. Often, this telepresence application is described as "immersive telepresence" in order to distinguish it from traditional video conferencing and from other forms of remote presence not related to conversational video conferencing, such as avatars and robots. The salient characteristics of telepresence are often described as: being actual sized, providing immersive video, preserving interpersonal interaction, and allowing non-verbal communication.

テレプレゼンスアプリケーションは、会話型ビデオ会議に「そこにいる」エクスペリエンスを提供しようとします。多くの場合、このテレプレゼンスアプリケーションは、従来のビデオ会議や、アバターやロボットなどの会話型ビデオ会議に関連しない他の形式のリモートプレゼンスと区別するために、「没入型テレプレゼンス」と呼ばれます。テレプレゼンスの顕著な特徴は、実際のサイズであること、没入型のビデオを提供すること、対人関係を維持すること、および非言語的コミュニケーションを可能にすることとしてしばしば説明されます。

Although telepresence systems are based on open standards such as RTP [RFC3550], SIP [RFC3261], H.264 [ITU.H264], and the H.323 [ITU.H323] suite of protocols, they cannot easily interoperate with each other without operator assistance and expensive additional equipment that translates from one vendor's protocol to another.

テレプレゼンスシステムは、RTP [RFC3550]、SIP [RFC3261]、H.264 [ITU.H264]、およびH.323 [ITU.H323]プロトコルスイートなどのオープンスタンダードに基づいていますが、相互に簡単に相互運用することはできません。オペレーターの支援と、あるベンダーのプロトコルから別のベンダーのプロトコルに変換する高価な追加機器なし。

The basic features that give telepresence its distinctive characteristics are implemented in disparate ways in different systems. Currently, telepresence systems from diverse vendors interoperate to some extent, but this is not supported in a standards-based fashion. Interworking requires that translation and transcoding devices be included in the architecture. Such devices increase latency, reducing the quality of interpersonal interaction. Use of these devices is often not automatic; it frequently requires substantial manual configuration and a detailed understanding of the nature of underlying audio and video streams. This state of affairs is not acceptable for the continued growth of telepresence -- these systems should have the same ease of interoperability as do telephones. Thus, a standard way of describing the multiple streams constituting the media flows and the fundamental aspects of their behavior would allow telepresence systems to interwork.

テレプレゼンスにその独特の特性を与える基本機能は、さまざまなシステムでさまざまな方法で実装されます。現在、さまざまなベンダーのテレプレゼンスシステムはある程度相互運用していますが、これは標準ベースの方法ではサポートされていません。インターワーキングでは、変換およびトランスコーディングデバイスがアーキテクチャに含まれている必要があります。そのようなデバイスはレイテンシを増加させ、対人関係の質を低下させます。これらのデバイスの使用は、多くの場合自動的ではありません。多くの場合、実質的な手動設定と、基になるオーディオおよびビデオストリームの性質の詳細な理解が必要です。この状況は、テレプレゼンスの継続的な成長には受け入れられません。これらのシステムは、電話と同じように簡単に相互運用できます。したがって、メディアフローを構成する複数のストリームとその動作の基本的な側面を説明する標準的な方法により、テレプレゼンスシステムが相互に作用します。

This document presents a set of use cases describing typical scenarios. Requirements will be derived from these use cases in a separate document. The use cases are described from the viewpoint of the users. They are illustrative of the user experience that needs to be supported. It is possible to implement these use cases in a variety of different ways.

このドキュメントでは、一般的なシナリオを説明する一連の使用例を紹介します。要件は、別のドキュメントでこれらのユースケースから導き出されます。ユースケースは、ユーザーの視点から説明されています。これらは、サポートする必要があるユーザーエクスペリエンスを示しています。これらのユースケースは、さまざまな方法で実装できます。

Many different scenarios need to be supported. This document describes in detail the most common and basic use cases. These will cover most of the requirements. There may be additional scenarios that bring new features and requirements that can be used to extend the initial work.

多くの異なるシナリオをサポートする必要があります。このドキュメントでは、最も一般的で基本的な使用例について詳しく説明します。これらはほとんどの要件をカバーします。最初の作業を拡張するために使用できる新しい機能と要件をもたらす追加のシナリオがあるかもしれません。

Point-to-point and multipoint telepresence conferences are considered. In some use cases, the number of screens is the same at all sites; in others, the number of screens differs at different sites. Both use cases are considered. Also included is a use case describing display of presentation material or content.

ポイントツーポイントおよびマルチポイントのテレプレゼンス会議が考慮されます。一部の使用例では、画面の数はすべてのサイトで同じです。他のサイトでは、画面の数はサイトごとに異なります。両方のユースケースが考慮されます。プレゼンテーション資料またはコンテンツの表示を説明する使用例も含まれています。

The multipoint use cases may include a variety of systems from conference room systems to handheld devices, and such a use case is described in the document.

マルチポイントユースケースには、会議室システムからハンドヘルドデバイスまでさまざまなシステムが含まれる場合があり、そのようなユースケースはドキュメントに記載されています。

This document's structure is as follows: Section 2 gives an overview of scenarios, and Section 3 describes use cases.

このドキュメントの構造は次のとおりです。セクション2はシナリオの概要を示し、セクション3は使用例を示します。

2. Overview of Telepresence Scenarios
2. テレプレゼンスシナリオの概要

This section describes the general characteristics of the use cases and what the scenarios are intended to show. The typical setting is a business conference, which was the initial focus of telepresence. Recently, consumer products are also being developed. We specifically do not include in our scenarios the physical infrastructure aspects of telepresence, such as room construction, layout, and decoration. Furthermore, these use cases do not describe all the aspects needed to create the best user experience (for example, the human factors).

このセクションでは、ユースケースの一般的な特性と、シナリオが示すことを意図しています。典型的な設定は、テレプレゼンスの最初の焦点であったビジネス会議です。最近では、消費者向け製品も開発されています。部屋の構造、レイアウト、装飾など、テレプレゼンスの物理的なインフラストラクチャの側面は、特にシナリオに含めません。さらに、これらのユースケースは、最高のユーザーエクスペリエンス(人的要因など)を作成するために必要なすべての側面を説明しているわけではありません。

We also specifically do not attempt to precisely define the boundaries between telepresence systems and other systems, nor do we attempt to identify the "best" solution for each presented scenario.

また、テレプレゼンスシステムと他のシステムの間の境界を正確に定義することも、提示されたシナリオごとに「最適な」ソリューションを特定することもありません。

Telepresence systems are typically composed of one or more video cameras and encoders and one or more display screens of large size (diagonal around 60 inches). Microphones pick up sound, and audio codec(s) produce one or more audio streams. The cameras used to capture the telepresence users are referred to as "participant cameras" (and likewise for screens). There may also be other cameras, such as for document display. These will be referred to as "presentation cameras" or "content cameras", which generally have different formats, aspect ratios, and frame rates from the participant cameras. The presentation streams may be shown on participant screens or on auxiliary display screens. A user's computer may also serve as a virtual content camera, generating an animation or playing a video for display to the remote participants.

テレプレゼンスシステムは、通常、1つ以上のビデオカメラとエンコーダー、および1つ以上の大きなサイズ(対角60インチ)のディスプレイ画面で構成されます。マイクが音を拾い、オーディオコーデックが1つ以上のオーディオストリームを生成します。テレプレゼンスユーザーのキャプチャに使用されるカメラは、「参加者カメラ」と呼ばれます(画面も同様)。ドキュメント表示用など、他のカメラが存在する場合もあります。これらは、「プレゼンテーションカメラ」または「コンテンツカメラ」と呼ばれ、参加者のカメラとは異なるフォーマット、アスペクト比、およびフレームレートが一般に使用されます。プレゼンテーションストリームは、参加者の画面または補助表示画面に表示されます。ユーザーのコンピュータは、仮想コンテンツカメラとしても機能し、リモートの参加者に表示するためにアニメーションを生成したり、ビデオを再生したりできます。

We describe such a telepresence system as sending one or more video streams, audio streams, and presentation streams to the remote system(s).

このようなテレプレゼンスシステムは、1つ以上のビデオストリーム、オーディオストリーム、およびプレゼンテーションストリームをリモートシステムに送信するものとして説明します。

The fundamental parameters describing today's typical telepresence scenarios include:

今日の典型的なテレプレゼンスシナリオを説明する基本的なパラメータは次のとおりです。

1. The number of participating sites

1. 参加サイト数

2. The number of visible seats at a site

2. サイトで表示可能なシートの数

3. The number of cameras

3. カメラの数

4. The number and type of microphones

4. マイクの数と種類

5. The number of audio channels

5. オーディオチャンネルの数

6. The screen size

6. 画面サイズ

7. The screen capabilities -- such as resolution, frame rate, aspect ratio

7. 画面の機能-解像度、フレームレート、アスペクト比など

8. The arrangement of the screens in relation to each other

8. 相互に関連する画面の配置

9. The number of primary screens at each site

9. 各サイトの主画面の数

10. Type and number of presentation screens

10. プレゼンテーション画面の種類と数

11. Multipoint conference display strategies -- for example, the camera-to-screen mappings may be static or dynamic

11. マルチポイント会議表示戦略-たとえば、カメラと画面のマッピングは静的または動的の場合があります

12. The camera point of capture

12. キャプチャのカメラポイント

13. The cameras fields of view and how they spatially relate to each other

13. カメラの視野とそれらの空間的な相互関係

As discussed in the introduction, the basic features that give telepresence its distinctive characteristics are implemented in disparate ways in different systems.

はじめに説明したように、テレプレゼンスにその独特の特性を与える基本機能は、さまざまなシステムにさまざまな方法で実装されています。

There is no agreed upon way to adequately describe the semantics of how streams of various media types relate to each other. Without a standard for stream semantics to describe the particular roles and activities of each stream in the conference, interoperability is cumbersome at best.

さまざまなメディアタイプのストリームが相互にどのように関連しているかのセマンティクスを適切に説明する方法については合意されていません。ストリームのセマンティクスが会議の各ストリームの特定の役割とアクティビティを記述するための標準がないと、相互運用性はせいぜい扱いにくいだけです。

In a multiple-screen conference, the video and audio streams sent from remote participants must be understood by receivers so that they can be presented in a coherent and life-like manner. This includes the ability to present remote participants at their actual size for their apparent distance, while maintaining correct eye contact, gesticular cues, and simultaneously providing a spatial audio sound stage that is consistent with the displayed video.

複数画面の会議では、リモートの参加者から送信されたビデオストリームとオーディオストリームを受信者が理解できるようにする必要があります。そうすることで、一貫性のあるリアルな方法でプレゼンテーションを提示できます。これには、リモート参加者を見かけの距離に対して実際のサイズで提示すると同時に、正しいアイコンタクト、ジェスチャーキューを維持し、同時に表示されたビデオと一致する空間オーディオサウンドステージを提供する機能が含まれます。

The receiving device that decides how to render incoming information needs to understand a number of variables such as the spatial position of the speaker, the field of view of the cameras, the camera zoom, which media stream is related to each of the screens, etc. It is not simply that individual streams must be adequately described, to a large extent this already exists, but rather that the semantics of the relationships between the streams must be communicated. Note that all of this is still required even if the basic aspects of the streams, such as the bit rate, frame rate, and aspect ratio, are known. Thus, this problem has aspects considerably beyond those encountered in interoperation of video conferencing systems that have a single camera/screen.

着信情報をレンダリングする方法を決定する受信デバイスは、スピーカーの空間位置、カメラの視野、カメラのズーム、各画面に関連するメディアストリームなど、多くの変数を理解する必要があります。 。個々のストリームが適切に記述されている必要があるだけでなく、大部分がすでに存在しているのではなく、ストリーム間の関係のセマンティクスが伝達されている必要があります。ビットレート、フレームレート、アスペクト比など、ストリームの基本的な側面がわかっている場合でも、これらすべてが必要であることに注意してください。したがって、この問題には、単一のカメラ/画面を持つビデオ会議システムの相互運用で遭遇する問題を大幅に超える側面があります。

3. Use Cases
3. ユースケース

The use cases focus on typical implementations. There are a number of possible variants for these use cases; for example, the audio supported may differ at the end points (such as mono or stereo versus surround sound), etc.

ユースケースは、一般的な実装に焦点を当てています。これらの使用例には、さまざまなバリエーションが考えられます。たとえば、サポートされるオーディオはエンドポイントで異なる場合があります(モノラルまたはステレオとサラウンドサウンドなど)。

Many of these systems offer a "full conference room" solution, where local participants sit at one side of a table and remote participants are displayed as if they are sitting on the other side of the table. The cameras and screens are typically arranged to provide a panoramic view of the remote room (left to right from the local user's viewpoint).

これらのシステムの多くは「フル会議室」ソリューションを提供し、ローカル参加者はテーブルの片側に座って、リモート参加者はテーブルの反対側に座っているかのように表示されます。カメラと画面は通常、リモートルームのパノラマビューを提供するように配置されます(ローカルユーザーの視点から左から右へ)。

The sense of immersion and non-verbal communication is fostered by a number of technical features, such as:

没入感と非言語的コミュニケーションの感覚は、次のような多くの技術的特徴によって促進されます。

1. Good eye contact, which is achieved by careful placement of participants, cameras, and screens.

1. 参加者、カメラ、画面を注意深く配置することで達成される、優れたアイコンタクト。

2. Camera field of view and screen sizes are matched so that the images of the remote room appear to be full size.

2. カメラの視野と画面サイズが一致するため、離れた部屋の画像がフルサイズで表示されます。

3. The left side of each room is presented on the right screen at the far end; similarly, the right side of the room is presented on the left screen. The effect of this is that participants of each site appear to be sitting across the table from each other. If 2 participants on the same site glance at each other, all participants can observe it. Likewise, if a participant at one site gestures to a participant on the other site, all participants observe the gesture itself and the participants it includes.

3. 各部屋の左側は、遠端の右側の画面に表示されます。同様に、部屋の右側が左側の画面に表示されます。これの効果は、各サイトの参加者がテーブルの向こう側に座っているように見えることです。同じサイトの2人の参加者がお互いを見ていると、すべての参加者がそれを見ることができます。同様に、あるサイトの参加者が他のサイトの参加者にジェスチャーを行うと、すべての参加者がジェスチャー自体とそれに含まれる参加者を観察します。

3.1. Point-to-Point Meeting: Symmetric
3.1. ポイントツーポイント会議:対称

In this case, each of the 2 sites has an identical number of screens, with cameras having fixed fields of view, and 1 camera for each screen. The sound type is the same at each end. As an example, there could be 3 cameras and 3 screens in each room, with stereo sound being sent and received at each end.

この場合、2つのサイトのそれぞれに同じ数の画面があり、カメラには固定視野があり、各画面に1つのカメラがあります。音のタイプは両端で同じです。例として、各部屋に3つのカメラと3つのスクリーンがあり、両端でステレオ音声が送受信されているとします。

Each screen is paired with a corresponding camera. Each camera/ screen pair is typically connected to a separate codec, producing an encoded stream of video for transmission to the remote site, and receiving a similarly encoded stream from the remote site.

各画面は対応するカメラとペアリングされています。通常、各カメラ/画面のペアは個別のコーデックに接続され、リモートサイトへの送信用にエンコードされたビデオストリームを生成し、リモートサイトから同様にエンコードされたストリームを受信します。

Each system has one or multiple microphones for capturing audio. In some cases, stereophonic microphones are employed. In other systems, a microphone may be placed in front of each participant (or pair of participants). In typical systems, all the microphones are connected to a single codec that sends and receives the audio streams as either stereo or surround sound. The number of microphones and the number of audio channels are often not the same as the number of cameras. Also, the number of microphones is often not the same as the number of loudspeakers.

各システムには、オーディオをキャプチャするための1つまたは複数のマイクがあります。場合によっては、ステレオマイクが使用されます。他のシステムでは、各参加者(または参加者のペア)の前にマイクを配置できます。一般的なシステムでは、すべてのマイクが、オーディオストリームをステレオまたはサラウンドサウンドとして送受信する単一のコーデックに接続されています。多くの場合、マイクの数とオーディオチャネルの数はカメラの数と同じではありません。また、マイクの数は、スピーカーの数と同じでないことがよくあります。

The audio may be transmitted as multi-channel (stereo/surround sound) or as distinct and separate monophonic streams. Audio levels should be matched, so the sound levels at both sites are identical. Loudspeaker and microphone placements are chosen so that the sound "stage" (orientation of apparent audio sources) is coordinated with the video. That is, if a participant at one site speaks, the participants at the remote site perceive her voice as originating from her visual image. In order to accomplish this, the audio needs to be mapped at the received site in the same fashion as the video. That is, audio received from the right side of the room needs to be output from loudspeaker(s) on the left side at the remote site, and vice versa.

オーディオは、マルチチャネル(ステレオ/サラウンドサウンド)または個別の個別のモノラルストリームとして送信できます。両方のサイトのサウンドレベルが同じになるように、オーディオレベルを一致させる必要があります。スピーカーとマイクの配置は、サウンドの「ステージ」(見かけのオーディオソースの方向)がビデオと調和するように選択されます。つまり、あるサイトの参加者が発言した場合、リモートサイトの参加者は彼女の声を彼女の視覚的イメージから発生したものとして知覚します。これを実現するには、受信したサイトで、ビデオと同じ方法でオーディオをマッピングする必要があります。つまり、部屋の右側から受信した音声は、リモートサイトの左側にあるスピーカーから出力する必要があり、その逆も同様です。

3.2. Point-to-Point Meeting: Asymmetric
3.2. ポイントツーポイント会議:非対称

In this case, each site has a different number of screens and cameras than the other site. The important characteristic of this scenario is that the number of screens is different between the 2 sites. This creates challenges that are handled differently by different telepresence systems.

この場合、各サイトには他のサイトとは異なる数の画面とカメラがあります。このシナリオの重要な特徴は、2つのサイト間で画面の数が異なることです。これは、異なるテレプレゼンスシステムによって異なる方法で処理される課題を作成します。

This use case builds on the basic scenario of 3 screens to 3 screens. Here, we use the common case of 3 screens and 3 cameras at one site, and 1 screen and 1 camera at the other site, connected by a point-to-point call. The screen sizes and camera fields of view at both sites are basically similar, such that each camera view is designed to show 2 people sitting side by side. Thus, the 1-screen room has up to 2 people seated at the table, while the 3-screen room may have up to 6 people at the table.

この使用例は、3画面から3画面の基本シナリオに基づいています。ここでは、1つのサイトで3つの画面と3つのカメラ、もう1つのサイトで1つの画面と1つのカメラをポイントツーポイントコールで接続するという一般的なケースを使用します。両方のサイトの画面サイズとカメラの視野は基本的に同じで、各カメラビューは2人が並んで座っているように設計されています。したがって、1画面の部屋にはテーブルに2人まで、3画面の部屋にはテーブルに6人まで座ることができます。

The basic considerations of defining left and right and indicating relative placement of the multiple audio and video streams are the same as in the 3-3 use case. However, handling the mismatch between the 2 sites of the number of screens and cameras requires more complicated maneuvers.

左と右を定義し、複数のオーディオおよびビデオストリームの相対的な配置を示す基本的な考慮事項は、3-3のユースケースと同じです。ただし、画面とカメラの数の2つのサイト間の不一致を処理するには、より複雑な操作が必要です。

For the video sent from the 1-camera room to the 3-screen room, usually what is done is to simply use 1 of the 3 screens and keep the second and third screens inactive or, for example, put up the current date. This would maintain the "full-size" image of the remote side.

1カメラルームから3スクリーンルームに送信されるビデオの場合、通常行われることは、3スクリーンのうちの1つを使用して2番目と3番目のスクリーンを非アクティブにするか、現在の日付を表示することです。これにより、リモート側の「フルサイズ」のイメージが維持されます。

For the other direction, the 3-camera room sending video to the 1-screen room, there are more complicated variations to consider. Here are several possible ways in which the video streams can be handled.

他の方向、つまり3カメラルームがビデオを1スクリーンルームに送信する場合、考慮すべきより複雑なバリエーションがあります。ここでは、ビデオストリームを処理できるいくつかの可能な方法を示します。

1. The 1-screen system might simply show only 1 of the 3 camera images, since the receiving side has only 1 screen. 2 people are seen at full size, but 4 people are not seen at all. The choice of which one of the 3 streams to display could be fixed, or could be selected by the users. It could also be made automatically based on who is speaking in the 3-screen room, such that the people in the 1-screen room always see the person who is speaking. If the automatic selection is done at the sender, the transmission of streams that are not displayed could be suppressed, which would avoid wasting bandwidth.

1. 受信側には画面が1つしかないため、1画面システムでは3つのカメラ画像の1つだけが表示される場合があります。実物大で2人見ていますが、4人は全然見えません。 3つのストリームのどれを表示するかの選択は、固定することも、ユーザーが選択することもできます。 3画面の部屋で話している人に基づいて自動的に作成することもできます。これにより、1画面の部屋の人は常に話している人を見ることができます。送信側で自動選択が行われると、表示されないストリームの送信が抑制され、帯域幅の浪費を回避できます。

2. The 1-screen system might be capable of receiving and decoding all 3 streams from all 3 cameras. The 1-screen system could then compose the 3 streams into 1 local image for display on the single screen. All 6 people would be seen, but smaller than full size. This could be done in conjunction with reducing the image resolution of the streams, such that encode/decode resources and bandwidth are not wasted on streams that will be downsized for display anyway.

2. 1画面システムは、3つすべてのカメラから3つすべてのストリームを受信して​​デコードできる場合があります。 1画面システムは、3つのストリームを1つのローカル画像に構成して、1つの画面に表示できます。 6人全員が表示されますが、フルサイズよりは小さくなります。これは、ストリームの画像解像度を下げることと組み合わせて行うことができます。これにより、エンコードとデコードのリソースと帯域幅が、とにかく表示用に縮小されるストリームで無駄になりません。

3. The 3-screen system might be capable of including all 6 people in a single stream to send to the 1-screen system. For example, it could use PTZ (Pan Tilt Zoom) cameras to physically adjust the cameras such that 1 camera captures the whole room of 6 people. Or, it could recompose the 3 camera images into 1 encoded stream to send to the remote site. These variations also show all 6 people but at a reduced size.

3. 3画面システムでは、6人全員を1つのストリームに含めて1画面システムに送信できる場合があります。たとえば、PTZ(パンチルトズーム)カメラを使用して、1台のカメラで6人の部屋全体を撮影するようにカメラを物理的に調整できます。または、3つのカメラ画像を1つのエンコードされたストリームに再構成して、リモートサイトに送信することもできます。これらのバリエーションも6人すべてを示していますが、サイズは小さくなっています。

4. Or, there could be a combination of these approaches, such as simultaneously showing the speaker in full size with a composite of all 6 participants in a smaller size.

4. または、スピーカーをフルサイズで同時に表示すると同時に、6人の参加者全員を小さいサイズで合成するなど、これらのアプローチを組み合わせることもできます。

The receiving telepresence system needs to have information about the content of the streams it receives to make any of these decisions. If the systems are capable of supporting more than one strategy, there needs to be some negotiation between the 2 sites to figure out which of the possible variations they will use in a specific point-to-point call.

受信側のテレプレゼンスシステムは、これらの決定を行うために、受信するストリームのコンテンツに関する情報を持っている必要があります。システムが複数の戦略をサポートできる場合、特定のポイントツーポイントコールでどのバリエーションを使用するかを理解するために、2つのサイト間のネゴシエーションが必要です。

3.3. Multipoint Meeting
3.3. 多地点会議

In a multipoint telepresence conference, there are more than 2 sites participating. Additional complexity is required to enable media streams from each participant to show up on the screens of the other participants.

マルチポイントテレプレゼンス会議では、2つ以上のサイトが参加しています。各参加者からのメディアストリームを他の参加者の画面に表示できるようにするには、さらに複雑にする必要があります。

Clearly, there are a great number of topologies that can be used to display the streams from multiple sites participating in a conference.

明らかに、会議に参加している複数のサイトからのストリームを表示するために使用できる多くのトポロジーがあります。

One major objective for telepresence is to be able to preserve the "being there" user experience. However, in multi-site conferences, it is often (in fact, usually) not possible to simultaneously provide full-size video, eye contact, and common perception of gestures and gaze by all participants. Several policies can be used for stream distribution and display: all provide good results, but they all make different compromises.

テレプレゼンスの1つの主要な目的は、「そこにいる」ユーザーエクスペリエンスを維持できるようにすることです。ただし、マルチサイト会議では、多くの場合(実際には、通常)フルサイズのビデオ、アイコンタクト、およびすべての参加者によるジェスチャーと視線の共通の認識を同時に提供することは不可能です。ストリームの配信と表示にはいくつかのポリシーを使用できます。すべてが良い結果をもたらしますが、それらはすべて異なる妥協をします。

One common policy is called site switching. Let's say the speaker is at site A and the other participants are at various "remote" sites. When the room at site A shown, all the camera images from site A are forwarded to the remote sites. Therefore, at each receiving remote site, all the screens display camera images from site A. This can be used to preserve full-size image display, and also provide full visual context of the displayed far end, site A. In site switching, there is a fixed relation between the cameras in each room and the screens in remote rooms. The room or participants being shown are switched from time to time based on who is speaking or by manual control, e.g., from site A to site B.

1つの一般的なポリシーは、サイト切り替えと呼ばれます。スピーカーがサイトAにいて、他の参加者がさまざまな「リモート」サイトにいるとします。サイトAの部屋が表示されると、サイトAのすべてのカメラ画像がリモートサイトに転送されます。したがって、各受信リモートサイトでは、すべての画面にサイトAからのカメラ画像が表示されます。これを使用して、フルサイズの画像表示を維持し、表示された遠端サイトAの完全な視覚的コンテキストを提供できます。サイト切り替えでは、各部屋のカメラと離れた部屋の画面の間の固定関係です。表示されている部屋または参加者は、発言者に基づいて、または手動制御によって、たとえばサイトAからサイトBに、時々切り替えられます。

Segment switching is another policy choice. In segment switching (assuming still that site A is where the speaker is, and "remote" refers to all the other sites), rather than sending all the images from site A, only the speaker at site A is shown. The camera images of the current speaker and previous speakers (if any) are forwarded to the other sites in the conference. Therefore, the screens in each site are usually displaying images from different remote sites -- the current speaker at site A and the previous ones. This strategy can be used to preserve full-size image display and also capture the non-verbal communication between the speakers. In segment switching, the display depends on the activity in the remote rooms (generally, but not necessarily based on audio/speech detection).

セグメントの切り替えは別のポリシーの選択です。セグメント切り替えでは、サイトAが発言者の場所にあり、「リモート」が他のすべてのサイトを指すと仮定して)、サイトAからすべての画像を送信するのではなく、サイトAの発言者のみが表示されます。現在の発言者と前の発言者(存在する場合)のカメラ画像は、会議の他のサイトに転送されます。したがって、各サイトの画面には通常、異なるリモートサイト(サイトAの現在の発言者と以前の発言者)の画像が表示されます。この戦略は、フルサイズの画像表示を維持し、スピーカー間の非言語的コミュニケーションをキャプチャするために使用できます。セグメント切り替えでは、表示はリモートルームでのアクティビティに依存します(一般に、音声/音声検出に基づく必要はありません)。

A third possibility is to reduce the image size so that multiple camera views can be composited onto one or more screens. This does not preserve full-size image display, but it provides the most visual context (since more sites or segments can be seen). Typically in this case, the display mapping is static, i.e., each part of each room is shown in the same location on the display screens throughout the conference.

3番目の可能性は、画像サイズを縮小して、複数のカメラビューを1つ以上の画面に合成できるようにすることです。これはフルサイズの画像表示を保持しませんが、(より多くのサイトまたはセグメントを表示できるため)最も視覚的なコンテキストを提供します。通常、この場合、ディスプレイマッピングは静的です。つまり、各部屋の各部分は、会議全体のディスプレイ画面上の同じ場所に表示されます。

Other policies and combinations are also possible. For example, there can be a static display of all screens from all remote rooms, with part or all of one screen being used to show the current speaker at full size.

他のポリシーと組み合わせも可能です。たとえば、現在の発言者をフルサイズで表示するために1つの画面の一部またはすべてを使用して、すべてのリモートルームからのすべての画面を静的に表示することができます。

3.4. Presentation
3.4. プレゼンテーション

In addition to the video and audio streams showing the participants, additional streams are used for presentations.

参加者を示すビデオおよびオーディオストリームに加えて、プレゼンテーションには追加のストリームが使用されます。

In systems available today, generally only one additional video stream is available for presentations. Often, this presentation stream is half-duplex in nature, with presenters taking turns. The presentation stream may be captured from a PC screen, or it may come from a multimedia source such as a document camera, camcorder, or a DVD. In a multipoint meeting, the presentation streams for the currently active presentation are always distributed to all sites in the meeting, so that the presentations are viewed by all.

現在利用可能なシステムでは、通常、プレゼンテーションに使用できる追加のビデオストリームは1つだけです。多くの場合、このプレゼンテーションストリームは本質的に半二重であり、プレゼンターが交代で参加します。プレゼンテーションストリームは、PC画面からキャプチャすることも、ドキュメントカメラ、カムコーダー、DVDなどのマルチメディアソースから取得することもできます。マルチポイント会議では、現在アクティブなプレゼンテーションのプレゼンテーションストリームが常に会議のすべてのサイトに配信されるので、プレゼンテーションはすべての人に表示されます。

Some systems display the presentation streams on a screen that is mounted either above or below the 3 participant screens. Other systems provide screens on the conference table for observing presentations. If multiple presentation screens are used, they generally display identical content. There is considerable variation in the placement, number, and size of presentation screens.

一部のシステムでは、3つの参加者の画面の上または下に取り付けられた画面にプレゼンテーションストリームが表示されます。他のシステムは、プレゼンテーションを観察するために会議テーブルに画面を提供します。複数のプレゼンテーション画面が使用されている場合、それらは通常同じコンテンツを表示します。プレゼンテーション画面の配置、数、サイズにはかなりのばらつきがあります。

In some systems, presentation audio is pre-mixed with the room audio. In others, a separate presentation audio stream is provided (if the presentation includes audio).

一部のシステムでは、プレゼンテーションの音声が部屋の音声と事前にミックスされています。また、別のプレゼンテーションオーディオストリームが提供されます(プレゼンテーションにオーディオが含まれている場合)。

In H.323 [ITU.H323] systems, H.239 [ITU.H239] is typically used to control the video presentation stream. In SIP systems, similar control mechanisms can be provided using the Binary Floor Control Protocol (BFCP) [RFC4582] for the presentation token. These mechanisms are suitable for managing a single presentation stream.

H.323 [ITU.H323]システムでは、H.239 [ITU.H239]は通常、ビデオプレゼンテーションストリームを制御するために使用されます。 SIPシステムでは、プレゼンテーショントークンにBinary Floor Control Protocol(BFCP)[RFC4582]を使用して、同様の制御メカニズムを提供できます。これらのメカニズムは、単一のプレゼンテーションストリームの管理に適しています。

Although today's systems remain limited to a single video presentation stream, there are obvious uses for multiple presentation streams:

今日のシステムは単一のビデオプレゼンテーションストリームに限定されたままですが、複数のプレゼンテーションストリームの明らかな用途があります。

1. Frequently, the meeting convener is following a meeting agenda, and it is useful for her to be able to show that agenda to all participants during the meeting. Other participants at various remote sites are able to make presentations during the meeting, with the presenters taking turns. The presentations and the agenda are both shown, either on separate screens, or perhaps rescaled and shown on a single screen.

1. 多くの場合、会議の議長は会議の議題に従っているため、会議中にすべての参加者にその議題を示すことができると便利です。さまざまなリモートサイトの他の参加者は、プレゼンターが交代で会議中にプレゼンテーションを行うことができます。プレゼンテーションとアジェンダは両方とも、別々の画面に表示されるか、おそらく再スケーリングされて1つの画面に表示されます。

2. A single multimedia presentation can itself include multiple video streams that should be shown together. For instance, a presenter may be discussing the fairness of media coverage. In addition to slides that support the presenter's conclusions, she also has video excerpts from various news programs that she shows to illustrate her findings. She uses a DVD player for the video excerpts so that she can pause and reposition the video as needed.

2. 単一のマルチメディアプレゼンテーション自体に、一緒に表示する必要のある複数のビデオストリームを含めることができます。たとえば、プレゼンターがメディア報道の公平性について話し合っている場合があります。プレゼンターの結論を裏付けるスライドに加えて、彼女はさまざまなニュースプログラムからの抜粋をビデオで示し、彼女の発見を説明しています。彼女は、ビデオの抜粋にDVDプレーヤーを使用して、必要に応じてビデオを一時停止および再配置できるようにしています。

3. An educator who is presenting a multiscreen slide show. This show requires that the placement of the images on the multiple screens at each site be consistent.

3. マルチスクリーンスライドショーを発表している教育者。このショーでは、各サイトの複数の画面での画像の配置が一貫している必要があります。

There are many other examples where multiple presentation streams are useful.

複数のプレゼンテーションストリームが役立つ他の多くの例があります。

3.5. Heterogeneous Systems
3.5. 異機種システム

It is common in meeting scenarios for people to join the conference from a variety of environments, using different types of endpoint devices. A multiscreen immersive telepresence conference may include someone on a PC-based video conferencing system, a participant calling in by phone, and (soon) someone on a handheld device.

会議のシナリオでは、さまざまな種類のエンドポイントデバイスを使用して、さまざまな環境から会議に参加するのが一般的です。マルチスクリーン没入型テレプレゼンス会議には、PCベースのビデオ会議システムの誰か、電話で参加者、および(すぐに)ハンドヘルドデバイスの誰かが含まれる場合があります。

What experience/view will each of these devices have?

これらの各デバイスにはどのようなエクスペリエンス/ビューがありますか?

Some may be able to handle multiple streams, and others can handle only a single stream. (Here, we are not talking about legacy systems, but rather systems built to participate in such a conference, although they are single stream only.) In a single video stream, the stream may contain one or more compositions depending on the available screen space on the device. In most cases, an intermediate transcoding device will be relied upon to produce a single stream, perhaps with some kind of continuous presence.

複数のストリームを処理できるものもあれば、単一のストリームしか処理できないものもあります。 (ここでは、レガシーシステムではなく、単一のストリームのみですが、そのような会議に参加するために構築されたシステムについて話しています。)単一のビデオストリームでは、使用可能な画面スペースに応じて、ストリームに1つ以上のコンポジションが含まれる場合があります。デバイス上。ほとんどの場合、中間トランスコーディングデバイスは単一のストリームを生成するために依存します。

Bit rates will vary -- the handheld device and phone having lower bit rates than PC and multiscreen systems.

ビットレートは異なります。ハンドヘルドデバイスと電話は、PCおよびマルチスクリーンシステムよりもビットレートが低くなります。

Layout is accomplished according to different policies. For example, a handheld device and PC may receive the active speaker stream. The decision can either be made explicitly by the receiver or by the sender if it can receive some kind of rendering hint. The same is true for audio -- i.e., that it receives a mixed stream or a number of the loudest speakers if mixing is not available in the network.

レイアウトはさまざまなポリシーに従って行われます。たとえば、ハンドヘルドデバイスとPCがアクティブなスピーカーストリームを受信する場合があります。決定は、受信者が明示的に行うことも、何らかのレンダリングヒントを受信できる場合は送信者が行うこともできます。同じことがオーディオにも当てはまります。つまり、ネットワークでミキシングが利用できない場合、混合ストリームまたは多数のスピーカーを受信します。

For the PC-based conferencing participant, the user's experience depends on the application. It could be single stream, similar to a handheld device but with a bigger screen. Or, it could be multiple streams, similar to an immersive telepresence system but with a smaller screen. Control for manipulation of streams can be local in the software application, or in another location and sent to the application over the network.

PCベースの会議参加者の場合、ユーザーのエクスペリエンスはアプリケーションによって異なります。ハンドヘルドデバイスに似ていますが、画面が大きいシングルストリームにすることもできます。または、没入型テレプレゼンスシステムに似ていますが、画面が小さい複数のストリームにすることもできます。ストリームの操作の制御は、ソフトウェアアプリケーション内でローカルにすることも、別の場所で行い、ネットワーク経由でアプリケーションに送信することもできます。

The handheld device is the most extreme. How will that participant be viewed and heard? It should be an equal participant, though the bandwidth will be significantly less than an immersive system. A receiver may choose to display output coming from a handheld device differently based on the resolution, but that would be the case with any low-resolution video stream, e.g., from a powerful PC on a bad network.

ハンドヘルドデバイスが最も極端です。その参加者はどのように視聴されますか?帯域幅はイマーシブシステムよりも大幅に狭くなりますが、同等の参加者である必要があります。レシーバーは、解像度に基づいてハンドヘルドデバイスからの出力を異なる方法で表示することを選択できますが、これは、たとえば、悪いネットワーク上の強力なPCからの低解像度ビデオストリームの場合に当てはまります。

The handheld device will send and receive a single video stream, which could be a composite or a subset of the conference. The handheld device could say what it wants or could accept whatever the sender (conference server or sending endpoint) thinks is best. The handheld device will have to signal any actions it wants to take the same way that an immersive system signals actions.

ハンドヘルドデバイスは、会議の複合またはサブセットである可能性がある単一のビデオストリームを送受信します。ハンドヘルドデバイスは、送信者(会議サーバーまたは送信エンドポイント)が最善と考えるものを何でも要求したり、受け入れたりすることができます。ハンドヘルドデバイスは、没入型システムがアクションを通知するのと同じ方法で実行したいアクションを通知する必要があります。

3.6. Multipoint Education Usage
3.6. マルチポイント教育の使用

The importance of this example is that the multiple video streams are not used to create an immersive conferencing experience with panoramic views at all the sites. Instead, the multiple streams are dynamically used to enable full participation of remote students in a university class. In some instances, the same video stream is displayed on multiple screens in the room; in other instances, an available stream is not displayed at all.

この例の重要性は、複数のビデオストリームを使用して、すべてのサイトでパノラマビューを備えた没入型の会議エクスペリエンスを作成しないことです。代わりに、複数のストリームを動的に使用して、遠隔地の学生が大学のクラスに完全に参加できるようにします。場合によっては、同じビデオストリームが部屋の複数の画面に表示されます。他の例では、利用可能なストリームはまったく表示されません。

The main site is a university auditorium that is equipped with 3 cameras. One camera is focused on the professor at the podium. A second camera is mounted on the wall behind the professor and captures the class in its entirety. The third camera is co-located with the second and is designed to capture a close-up view of a questioner in the audience. It automatically zooms in on that student using sound localization.

メインサイトは3台のカメラを備えた大学の講堂です。 1台のカメラは、表彰台の教授に焦点を当てています。 2台目のカメラが教授の後ろの壁に取り付けられ、クラス全体を撮影します。 3番目のカメラは2番目のカメラと同じ場所に配置され、聴衆の質問者のクローズアップビューをキャプチャするように設計されています。サウンドローカリゼーションを使用して、その生徒に自動的にズームインします。

Although the auditorium is equipped with 3 cameras, it is only equipped with 2 screens. One is a large screen located at the front so that the class can see it. The other is located at the rear so the professor can see it. When someone asks a question, the front screen shows the questioner. Otherwise, it shows the professor (ensuring everyone can easily see her).

講堂には3台のカメラが装備されていますが、2つの画面しか装備されていません。 1つは、正面に配置された大画面で、クラスがそれを見ることができます。もう1つは背面にあり、教授が見ることができます。誰かが質問すると、フロント画面に質問者が表示されます。それ以外の場合は、教授を表示します(誰でも簡単に彼女を見ることができるようにします)。

The remote sites are typical immersive telepresence rooms, each with 3 camera/screen pairs.

リモートサイトは典型的な没入型テレプレゼンスルームであり、それぞれに3つのカメラ/画面ペアがあります。

All remote sites display the professor on the center screen at full size. A second screen shows the entire classroom view when the professor is speaking. However, when a student asks a question, the second screen shows the close-up view of the student at full size. Sometimes the student is in the auditorium; sometimes the speaking student is at another remote site. The remote systems never display the students that are actually in that room.

すべてのリモートサイトでは、センター画面に教授がフルサイズで表示されます。 2番目の画面には、教授が話しているときの教室全体のビューが表示されます。ただし、生徒が質問をすると、2番目の画面に生徒の拡大図がフルサイズで表示されます。時々学生は講堂にいます。話す生徒が別のリモートサイトにいることもあります。リモートシステムは、実際にその部屋にいる生徒を表示しません。

If someone at a remote site asks a question, then the screen in the auditorium will show the remote student at full size (as if they were present in the auditorium itself). The screen in the rear also shows this questioner, allowing the professor to see and respond to the student without needing to turn her back on the main class.

リモートサイトの誰かが質問すると、講堂の画面にリモートの学生がフルサイズで表示されます(まるで講堂自体に存在しているかのように)。背面の画面にもこの質問者が表示されており、教授はメインクラスに戻る必要なく、生徒を見て応答することができます。

When no one is asking a question, the screen in the rear briefly shows a full-room view of each remote site in turn, allowing the professor to monitor the entire class (remote and local students). The professor can also use a control on the podium to see a particular site -- she can choose either a full-room view or a single-camera view.

誰も質問していないときは、背面の画面に各リモートサイトの部屋全体が表示され、教授はクラス全体(リモートおよびローカルの学生)を監視できます。教授は、演壇のコントロールを使用して特定のサイトを表示することもできます。部屋全体のビューまたはシングルカメラビューのいずれかを選択できます。

Realization of this use case does not require any negotiation between the participating sites. Endpoint devices (and a Multipoint Control Unit (MCU), if present) need to know who is speaking and what video stream includes the view of that speaker. The remote systems need some knowledge of which stream should be placed in the center. The ability of the professor to see specific sites (or for the system to show all the sites in turn) would also require the auditorium system to know what sites are available and to be able to request a particular view of any site. Bandwidth is optimized if video that is not being shown at a particular site is not distributed to that site.

この使用例の実現には、参加サイト間の交渉は必要ありません。エンドポイントデバイス(および存在する場合はマルチポイントコントロールユニット(MCU))は、誰が話しているのか、どのビデオストリームにそのスピーカーのビューが含まれているのかを知る必要があります。リモートシステムでは、どのストリームを中央に配置するかについての知識が必要です。教授が特定のサイトを見ることができる(またはシステムがすべてのサイトを順番に表示する)ためにも、講堂システムはどのサイトが利用可能であるかを知り、任意のサイトの特定のビューを要求できる必要があります。特定のサイトで表示されていないビデオがそのサイトに配信されない場合、帯域幅は最適化されます。

3.7. Multipoint Multiview (Virtual Space)
3.7. マルチポイントマルチビュー(仮想空間)

This use case describes a virtual space multipoint meeting with good eye contact and spatial layout of participants. The use case was proposed very early in the development of video conferencing systems as described in 1983 by Allardyce and Randal [virtualspace]. The use case is illustrated in Figure 2-5 of their report. The virtual space expands the point-to-point case by having all multipoint conference participants "seated" in a virtual room. In this case, each participant has a fixed "seat" in the virtual room, so each participant expects to see a different view having a different participant on his left and right side. Today, the use case is implemented in multiple telepresence-type video conferencing systems on the market. The term "virtual space" was used in their report. The main difference between the result obtained with modern systems and those from 1983 are larger screen sizes.

このユースケースは、参加者のアイコンタクトと空間レイアウトが良好な仮想空間マルチポイント会議について説明しています。この使用例は、AllardyceとRandal [virtualspace]によって1983年に説明されているように、ビデオ会議システムの開発の非常に早い段階で提案されました。ユースケースは、レポートの図2-5に示されています。仮想空間は、すべての多地点会議参加者を仮想部屋に「着席」させることにより、ポイントツーポイントのケースを拡大します。この場合、各参加者は仮想ルームに固定された「座席」を持っているので、各参加者は、左側と右側に異なる参加者がいる異なるビューを見ると予想します。現在、このユースケースは、市場にある複数のテレプレゼンスタイプのビデオ会議システムに実装されています。彼らの報告書では「仮想空間」という用語が使用されました。現代のシステムで得られた結果と1983年のものとの主な違いは、画面サイズが大きいことです。

Virtual space multipoint as defined here assumes endpoints with multiple cameras and screens. Usually, there is the same number of cameras and screens at a given endpoint. A camera is positioned above each screen. A key aspect of virtual space multipoint is the details of how the cameras are aimed. The cameras are each aimed on the same area of view of the participants at the site. Thus, each camera takes a picture of the same set of people but from a different angle. Each endpoint sender in the virtual space multipoint meeting therefore offers a choice of video streams to remote receivers, each stream representing a different viewpoint. For example, a camera positioned above a screen to a participant's left may take video pictures of the participant's left ear; while at the same time, a camera positioned above a screen to the participant's right may take video pictures of the participant's right ear.

ここで定義されている仮想空間マルチポイントは、複数のカメラとスクリーンを持つエンドポイントを想定しています。通常、特定のエンドポイントに同じ数のカメラと画面があります。各画面の上にカメラが配置されています。仮想空間マルチポイントの重要な側面は、カメラの向きの詳細です。カメラはそれぞれ、現場の参加者の同じ視野に向けられています。したがって、各カメラは同じ人物のセットを異なる角度から撮影します。したがって、仮想空間マルチポイント会議の各エンドポイント送信者は、リモートレシーバーにビデオストリームの選択肢を提供し、各ストリームは異なる視点を表します。たとえば、参加者の左に画面の上に配置されたカメラは、参加者の左耳のビデオ写真を撮ることができます。同時に、参加者の右の画面の上方に配置されたカメラは、参加者の右耳のビデオ写真を撮ることができます。

Since a sending endpoint has a camera associated with each screen, an association is made between the receiving stream output on a particular screen and the corresponding sending stream from the camera associated with that screen. These associations are repeated for each screen/camera pair in a meeting. The result of this system is a horizontal arrangement of video images from remote sites, one per screen. The image from each screen is paired with the camera output from the camera above that screen, resulting in excellent eye contact.

送信エンドポイントには各画面に関連付けられたカメラがあるため、特定の画面で出力された受信ストリームと、その画面に関連付けられたカメラからの対応する送信ストリームが関連付けられます。これらの関連付けは、会議の画面/カメラのペアごとに繰り返されます。このシステムの結果、画面ごとに1つずつ、リモートサイトからのビデオ画像が水平に配置されます。各画面の画像は、その画面の上のカメラからのカメラ出力とペアになっているため、優れたアイコンタクトが得られます。

3.8. Multiple Presentation Streams - Telemedicine
3.8. 複数のプレゼンテーションストリーム-遠隔医療

This use case describes a scenario where multiple presentation streams are used. In this use case, the local site is a surgery room connected to one or more remote sites that may have different capabilities. At the local site, 3 main cameras capture the whole room (the typical 3-camera telepresence case). Also, multiple presentation inputs are available: a surgery camera that is used to provide a zoomed view of the operation, an endoscopic monitor, a flouroscope (X-ray imaging), an ultrasound diagnostic device, an electrocardiogram (ECG) monitor, etc. These devices are used to provide multiple local video presentation streams to help the surgeon monitor the status of the patient and assist in the surgical process.

この使用例では、複数のプレゼンテーションストリームが使用されるシナリオについて説明します。この使用例では、ローカルサイトは、異なる機能を持つ1つ以上のリモートサイトに接続された手術室です。ローカルサイトでは、3つのメインカメラが部屋全体をキャプチャします(一般的な3カメラテレプレゼンスケース)。また、複数のプレゼンテーション入力が利用可能です:手術の拡大図を提供するために使用される手術カメラ、内視鏡モニター、X線透視鏡(X線画像)、超音波診断装置、心電図(ECG)モニターなど。これらのデバイスは、複数のローカルビデオプレゼンテーションストリームを提供して、外科医が患者の状態を監視し、外科プロセスを支援するために使用されます。

The local site may have 3 main screens and one (or more) presentation screen(s). The main screens can be used to display the remote experts. The presentation screen(s) can be used to display multiple presentation streams from local and remote sites simultaneously. The 3 main cameras capture different parts of the surgery room. The surgeon can decide the number, the size, and the placement of the presentations displayed on the local presentation screen(s). He can also indicate which local presentation captures are provided for the remote sites. The local site can send multiple presentation captures to remote sites, and it can receive from them multiple presentations related to the patient or the procedure.

ローカルサイトには3つのメイン画面と1つ(または複数)のプレゼンテーション画面があります。メイン画面を使用して、リモートエキスパートを表示できます。プレゼンテーション画面を使用して、ローカルサイトとリモートサイトからの複数のプレゼンテーションストリームを同時に表示できます。 3つのメインカメラは、手術室のさまざまな部分を撮影します。外科医は、ローカルプレゼンテーション画面に表示されるプレゼンテーションの数、サイズ、および配置を決定できます。また、リモートサイトに提供されるローカルプレゼンテーションキャプチャを示すこともできます。ローカルサイトはリモートサイトに複数のプレゼンテーションキャプチャを送信でき、患者または手順に関連する複数のプレゼンテーションをリモートサイトから受信できます。

One type of remote site is a single- or dual-screen and one-camera system used by a consulting expert. In the general case, the remote sites can be part of a multipoint telepresence conference. The presentation screens at the remote sites allow the experts to see the details of the operation and related data. Like the main site, the experts can decide the number, the size, and the placement of the presentations displayed on the presentation screens. The presentation screens can display presentation streams from the surgery room, from other remote sites, or from local presentation streams. Thus, the experts can also start sending presentation streams that can carry medical records, pathology data, or their references and analysis, etc.

リモートサイトの1つのタイプは、コンサルティングの専門家が使用するシングルスクリーンまたはデュアルスクリーンの1カメラシステムです。一般的なケースでは、リモートサイトはマルチポイントテレプレゼンス会議の一部にすることができます。リモートサイトのプレゼンテーション画面により、専門家は操作の詳細と関連データを確認できます。メインサイトと同様に、エキスパートは、プレゼンテーション画面に表示されるプレゼンテーションの数、サイズ、および配置を決定できます。プレゼンテーション画面には、手術室、他のリモートサイト、またはローカルプレゼンテーションストリームからのプレゼンテーションストリームを表示できます。したがって、専門家は、医療記録、病理学データ、またはそれらの参照と分析などを運ぶことができるプレゼンテーションストリームの送信を開始することもできます。

Another type of remote site is a typical immersive telepresence room with 3 camera/screen pairs, allowing more experts to join the consultation. These sites can also be used for education. The teacher, who is not necessarily the surgeon, and the students are in different remote sites. Students can observe and learn the details of the whole procedure, while the teacher can explain and answer questions during the operation.

別のタイプのリモートサイトは、3つのカメラ/画面ペアを備えた一般的な没入型テレプレゼンスルームであり、より多くの専門家がコンサルテーションに参加できます。これらのサイトは教育にも使用できます。必ずしも外科医ではない教師と生徒は、離れた場所にいます。生徒は全体の手順の詳細を観察して学ぶことができ、教師は手術中に質問を説明して答えることができます。

All remote education sites can display the surgery room. Another option is to display the surgery room on the center screen, and the rest of the screens can show the teacher and the student who is asking a question. For all the above sites, multiple presentation screens can be used to enhance visibility: one screen for the zoomed surgery stream and the others for medical image streams, such as MRI images, cardiograms, ultrasonic images, and pathology data.

すべての遠隔教育サイトは、手術室を表示できます。もう1つのオプションは、中央の画面に手術室を表示することです。残りの画面では、質問をしている教師と生徒を表示できます。上記のすべてのサイトで、複数のプレゼンテーション画面を使用して視認性を高めることができます。1つはズームされた手術ストリーム用、もう1つはMRI画像、心電図、超音波画像、病理データなどの医用画像ストリーム用です。

4. Acknowledgements
4. 謝辞

The document has benefitted from input from a number of people including Alex Eleftheriadis, Marshall Eubanks, Tommy Andre Nyquist, Mark Gorzynski, Charles Eckel, Nermeen Ismail, Mary Barnes, Pascal Buhler, and Jim Cole.

この文書は、Alex Eleftheriadis、Marshall Eubanks、Tommy Andre Nyquist、Mark Gorzynski、Charles Eckel、Nermeen Ismail、Mary Barnes、Pascal Buhler、およびJim Coleを含む多くの人々からの意見の恩恵を受けています。

Special acknowledgement to Lennard Xiao, who contributed the text for the telemedicine use case, and to Claudio Allocchio for his detailed review of the document.

遠隔医療のユースケースのテキストを提供してくれたLennard Xiaoと、ドキュメントの詳細なレビューを行ったClaudio Allocchioに特別な謝辞。

5. Security Considerations
5. セキュリティに関する考慮事項

While there are likely to be security considerations for any solution for telepresence interoperability, this document has no security considerations.

テレプレゼンスの相互運用性のソリューションにはセキュリティ上の考慮事項がある可能性が高いですが、このドキュメントにはセキュリティ上の考慮事項がありません。

6. Informative References
6. 参考引用

[ITU.H239] ITU-T, "Role management and additional media channels for H.300-series terminals", ITU-T Recommendation H.239, September 2005.

[ITU.H239] ITU-T、「ロール管理とH.300シリーズ端末用の追加メディアチャネル」、ITU-T勧告H.239、2005年9月。

[ITU.H264] ITU-T, "Advanced video coding for generic audiovisual services", ITU-T Recommendation H.264, April 2013.

[ITU.H264] ITU-T、「Advanced audiocoding for generic audiovisual services」、ITU-T Recommendation H.264、2013年4月。

[ITU.H323] ITU-T, "Packet-based Multimedia Communications Systems", ITU-T Recommendation H.323, December 2009.

[ITU.H323] ITU-T、「パケットベースのマルチメディア通信システム」、ITU-T勧告H.323、2009年12月。

[RFC3261] Rosenberg, J., Schulzrinne, H., Camarillo, G., Johnston, A., Peterson, J., Sparks, R., Handley, M., and E. Schooler, "SIP: Session Initiation Protocol", RFC 3261, June 2002.

[RFC3261] Rosenberg、J.、Schulzrinne、H.、Camarillo、G.、Johnston、A.、Peterson、J.、Sparks、R.、Handley、M。、およびE. Schooler、「SIP:セッション開始プロトコル」 、RFC 3261、2002年6月。

[RFC3550] Schulzrinne, H., Casner, S., Frederick, R., and V. Jacobson, "RTP: A Transport Protocol for Real-Time Applications", STD 64, RFC 3550, July 2003.

[RFC3550] Schulzrinne、H.、Casner、S.、Frederick、R。、およびV. Jacobson、「RTP:A Transport Protocol for Real-Time Applications」、STD 64、RFC 3550、2003年7月。

[RFC4582] Camarillo, G., Ott, J., and K. Drage, "The Binary Floor Control Protocol (BFCP)", RFC 4582, November 2006.

[RFC4582] Camarillo、G.、Ott、J。、およびK. Drage、「The Binary Floor Control Protocol(BFCP)」、RFC 4582、2006年11月。

[virtualspace] Allardyce, L. and L. Randall, "Development of Teleconferencing Methodologies with Emphasis on Virtual Space Video and Interactive Graphics", April 1983, <http://www.dtic.mil/docs/citations/ADA127738>.

[virtualspace] Allardyce、L。およびL. Randall、「仮想空間ビデオおよびインタラクティブグラフィックスに重点を置いたテレビ会議方法論の開発」、1983年4月、<http://www.dtic.mil/docs/citations/ADA127738>。

Authors' Addresses

著者のアドレス

Allyn Romanow Cisco San Jose, CA 95134 US

Allyn Romanow Cisco San Jose、CA 95134 US

   EMail: allyn@cisco.com
        

Stephen Botzko Polycom Andover, MA 01810 US

スティーブンボツコポリコムアンドーバー、MA 01810 US

   EMail: stephen.botzko@polycom.com
        

Mark Duckworth Polycom Andover, MA 01810 US

マークダックワースポリコムアンドーバー、MA 01810 US

   EMail: mark.duckworth@polycom.com
        

Roni Even (editor) Huawei Technologies Tel Aviv Israel

Roni Even(editor)Huawei Technologies Tel Aviv Israel

   EMail: roni.even@mail01.huawei.com