Démos

DEMO 1 - V3C demo on tablet and Meta Quest HMD (InterDigital)

Patrick Fontaine

The demonstration will present a real-time implementation of a platform jointly developed by InterDigital and Philips that showcases use cases leveraging the MPEG volumetric codecs (MPEG-I V3C).

MPEG’s Visual Volumetric Video-based Coding (V3C) standard is an extensive framework for the coding of volumetric video, from dynamic point clouds (V-PCC) to multi-view plus depth and multi-plane image representations (MIV), to offer a single bitstream structure with a uniform bridge to systems-level standards. The V3C carriage standard defines how volumetric content can be stored, transported, and delivered to the end-user.

The V3C Immersive Platform enables interoperability within existing and emerging extended reality (XR) ecosystems, including the acquisition, streaming, and real-time interactive playback of volumetric video on current and future client devices, for use in applications like telelearning, free-viewpoint sport replays, and 3D telepresence in connected ecosystems like the metaverse.
It is the first implementation of the MPEG-I V3C standards with support of multiple codecs and with a split architecture based on one native plug-in and one host application, providing 
implementation insights for the industry. The proposed architecture shows the path to an integration of MPEG-I standards into the XR ecosystem with off-the shelves devices and framework such as Unity and leveraging existing 2D video hardware decoding capabilities and GPUs to decode and render volumetric video.

The use of open standards like MPEG, demonstrates the ability to deploy such content and experience at large scale. Moreover, leveraging the compression efficiency of MPEG video codecs, the proposed solutions demonstrate viable use cases for streaming of volumetric assets and scenes. Integration of V3C into a future version of MPEG scene description standard will enable global scene compositing and more complex environment distribution.

This demonstration will enable viewers to access 2D video, dynamic point cloud content and multi-view plus depth content in a seamless interaction in both VR and AR context. It will show how such content can bring additional immersive experience even on a 2D screen such as a smartphone or a tablet, as well as on Handheld Mounted Display (HMD).

In the framework of the CORESA 2024 conference, this demonstration will highlight newly released standards and will help to engage discussions with researchers about future standard developments and multimedia signal processing tools required to enable such XR ecosystem and to improve the proposed experience. The V3C Immersive Platform has been recently released in 5G-MAG reference tools1 and is available for download and contributions. It comprises the native decoder plugin and a simple application for test, interoperability and enable the development of new demonstrations.

DEMO 2 - Diminution de consommation d'écran via des métadonnées (Projet 3EMS2 :  InterDigital, ATEME, IETR-Vaader)

Franck AUMONT, Pierre-Loup CABARAT, Olivier Le Meur, Daniel Ménard

Le démonstrateur adresse le contrôle de la réduction de consommation d'énergie 
d'écrans en utilisant des métadonnées lors de la visualisation d'un contenu High Dynamic Range (HDR). 

Un contenu en Standard Dynamic Range (SDR) est distribué en utilisant une technologie de compression VVC. Ce contenu est complémenté par des métadonnées Syntax Enhancement Information (SEI) SL_HDR qui sont transmises afin de permettre une conversion du contenu SDR en un contenu High Dynamic Range (HDR) pour les récepteurs compatibles.

En complément à ces données sont insérées d'autres métadonnées de contrôle dans un nouveau type de SEI qui contiennent une consigne de réduction de consommation énergétique d'écrans. Ces métadonnées peuvent être insérées à tout endroit de la chaîne de transmission vidéo et ne nécessitent pas nécessairement de connaître le contenu.

Le démonstrateur consiste en un player video intégrant un affichage de la réduction de consommation cible lue dans les metadonnées et l'adaptation de la valeur de pic luminance utilisées dans le contenu.

Les métadonnées de contrôle peuvent facilement être désactivées, ignorées et/ou 
contrôlées par le player, permettant la comparaison de l'expérience utilisateur en parallèle de la consommation observée. Aussi, elles peuvent être obligatoirement activées parle fournisseur du contenu pour atteindre un objectif global de réduction d’énergie. L'affichage est effectué sur un écran HDR muni d'un Wattmètre qui permet de suivre en temps réel l'évolution de la puissance consommée par l'écran.

DEMO 3 - Adaptation de la résolution optimale pour un débit donné à la séquence d'entrée (Projet DEEPTEC : IETR-Vaader, AVIWEST, TDF) 

Gwendal BOURDET, Pierre-Loup CABARAT, Luce MORIN, Ahmed TELILI

Le démonstrateur concerne la sélection dynamique de la résolution optimale pour la transmission de segments video à un débit cible donné. Il permet d'observer l'évolutiontemporelle de courbes débit distortions précalculées par segments de la séquence vidéo à plusieurs résolutions. L'observateur est ainsi sensibilisé au cararactère dynamique du compromis entre débit et distortion en fonction de l'évolution temporelle du contenu et de la résolution utilisée. L'affichage permet également de comparer le rendu sur écran UHD des différences entre les segments du contenu obtenus à diverses résolutions et débits. L'observateur peut ainsi établir sa propre impression du gain en distortion apporté par un changement derésolution et observer l'intérêt d'une sélection dynamique de la résolution optimale, par oppostion à une approche statique. DEEPTEC est un projet AAP Croisement de filières soutenu par le pôle Image&Réseaux, la Région Bretagne et Rennes Métropole.

DEMO 4 - Volumetric Video Player Demonstrator on Multiple Devices: PC, Tablet, Mobile, and VR Headset using Gaussian Splatting-Based 4D Representations (IRT b<>com) 

Nicolas RAMIN, Bangning WEI

This demonstration showcases a cutting-edge system for playing volumetric video on a wide range of platforms, including PC, tablet, mobile, and virtual reality (VR) headsets. The content used in the demonstration has been reconstructed using advanced techniques developed by b<>com, particularly leveraging the performance of the latest 4D representations powered by Gaussian Splatting.

Technology Overview:

Volumetric video, also known as 4D video, represents a major leap in immersive media, 
offering users the freely navigate in 3D content that changes over time. Gaussian Splatting is an innovative representation technique that efficiently reconstructs dynamic complex 3D scenes. This method outperforms traditional approaches such as point clouds or mesh-based representations in terms of rendering quality and computational efficiency.

The technology demonstrated here combines the high
-quality capture of 3D scenes using b<>com’s proprietary rig, which is designed to provide high-resolution data, with cutting-edge 4D reconstruction techniques. This allows us to deliver hyper-realistic volumetric video content to multiple platforms, ensuring a consistent and high-quality experience, regardless of the device used.

 

DEMO 5 - "Overview", une plateforme déportée de spatial computing (IRT b<>com) 

Jérôme Royan, Christophe Cutullic

L'IRT b<>com présente sa plateforme déportée d'informatique spatiale permettant de vivre des expériences en réalité augmentée à l’échelle d’un bâtiment ou d’un site de construction, quel que soit le dispositif utilisé (Hololens 2, iOS, Android, etc.). Offrant précision et robustesse, cette plateforme s’appuie sur un ensemble de services de vision par ordinateur déportées dans le cloud, à l’edge ou « on-premise » qui ont la capacité dans un premier temps de créer, d'étendre, de fusionner et de mettreà jour des cartographies 3D partagées, et dans un second temps de localiser précisément (6DoF) tout dispositif équipé d’une caméra et connecté à la plateforme. Aussi, cette plateforme intègre une fonction multi-agents permettant à tout dispositif connecteayant les droits de mettre à jour la cartographie 3D partagée afin d’assurer la pérennité du système de localisation en maintenant les cartographies 3D à jour, même dans des environnements changeant au fil du temps, et cela sur plusieurs milliers de mètres carrés.

Cette plateforme souveraine permet ainsi de répondre à de nombreux besoins 
industriels liés à la localisation en environnement intérieur, que ce soit pour des affichages en réalité augmentée ou non, adressant divers cas d'usage industriels (maintenance, d’assemblage, aide à la navigation, contrôle qualité, surveillance ou protection des individus, etc.) sans besoin de pré-équiper l’environnement réel avec divers capteurs (ex : des balises Bluetooth).

La démonstration consistera en une application de réalité augmentée multi
-utilisateurs à large échelle s’appuyant sur la plateforme b<>com *Overview*. Les utilisateurs pourront visualiser des contenus 3D parfaitement localisés dans l’environnement réel à travers un smartphone, une tablette ou un casque de réalité augmenté Hololens 2, et d’autres utilisateurs pourront observer sur un écran en temps réel la cartographie 3D ainsi que les positions des utilisateurs équipés d’un dispositif se déplaçant dans l’environnement réel.
 

DEMO 6 - MV-HEVC: How to optimize compression of immersive 3D content (Ateme) 

Thomas Guionnet, Eric Toullec, Thomas Burnichon, Mickaël Raulet

Multiview High Efficiency Video Coding (MV-HEVC) is an HEVC extension focused on efficiently coding spatially related images, such as a left eye and right eye views of 3D stereoscopic content. MV-HEVC was released in the second version of HEVC back in October 2014. MV-HEVC was created alongside another extension named SHVC, which is already used in ATSC 3.0 use cases since 2018. The two extensions share many fundamentals, codified in an annex for common specifications for multi-layer extensions. Their base principle is scalability: A traditional HEVC decoder can rely on the base layer only, hence providing backward compatibility, but a more elaborate decoder can use the second layer as well to improve the rendition.

The MV-HEVC format recently gained widespread attention with Apple announcing support for 3D movies on the Apple Vision Pro at WWDC23. Apple provided public guidelines on stereo video encoding, packaging, and streaming as well as on providing parallax information to improve caption placement. Apple also organized Apple Vision Pro developer labs.

The technical chain deployed for this demonstration is composed of a live video stream providing two synchronized pictures, a picture for each eye. This live stream is then ingested by an instance of ATEME’s Titan Live encoder hosted in ATEME’s lab in Rennes. This encoder produces an MV- HEVC compliant stream which is packaged following HLS standard. The stream is then pushed to a cloud CDN and can be viewed with an Apple Vision Pro. Additionally, insight is provided about performance in practice, as well as deployment aspects such as packaging and captioning.

 

DEMO 7 - A GAN-based video super-resolution solution leveraging on cloud capabilities (Mediakind) 

Julien Le Tanou, Nelson Francisco

High production costs have hindered the widespread adoption of UHD broadcasting, with only a few special events being produced in UHD. Most 4K content comes from streaming platforms, and even then, availability is limited compared to non-4K options. As a result, UHD displays often rely on upscaling, which is constrained by device capabilities. High-quality upscaling offers a solution to expand 4K content by enabling content owners to convert existing HD libraries, reduce costs, and optimize their production pipelines, while maintaining control over the final UHD output. We propose to demonstrate a cloud-based AI-driven upscaling solution, based on a proprietary Generative Adversarial Networks (GANs) architecture able to significantly outperform traditional upscaling and deinterlacing methods while retaining low and scalable operational costs.

Convolutional Neural Networks (CNNs) are widely studied for image upscaling and generally outperform traditional methods. The simplest approach uses supervised learning with high- resolution images and their downscaled versions to train a generator CNN to restore missing details. However, this can produce soft, blurred results if the loss function isn't chosen carefully. Generative Adversarial Networks (GANs) address this by adding a Discriminator to assess the quality of upscaled images. As the Generator and Discriminator train together, they improve each other, with the Generator creating increasingly realistic upscales to fool the Discriminator. Several Super-Resolution solutions rely on GANs but target mainly still image upscaling. Most video solutions simply apply an analogous approach on a frame-by-frame basis, resulting in temporal inconsistencies such as shimmering and flickering. By referencing multiple fields or frames from the low-resolution video to generate each upscaled picture, the proposed solution not only significantly improves temporal stability, but is also able to capture more detail from the multiple references. Simultaneous deinterlacing and upscaling can also be done by the same CNN, with far better results than what is possible by combining conventional deinterlacing methods with conventional or Super-Resolution upscaling techniques. The fact the network was also trained to mitigate compression artifacts from previous encoding stages also contributes to the real-world performance of the proposed solution.

The inference process is computationally intensive but can be significantly sped up using GPU-accelerated virtual machines (VMs) in the cloud, reducing the need for acquiring expensive hardware and enabling scalable, cost-efficient operations. Currently designed for offline upscaling, content is uploaded and retrieved from secure storage. Further work on parallel task scheduling will allow us to offer a real-time cloud deployed solution in the future. The upscaled content quality rivals native UHD and is being trialed by several European broadcasters.

The demonstration will include technical details via a slide presentation and side-by-side video comparisons on a TV display to highlight the advantages of this real-world solution over current methods.

 

DEMO 8 - 3DGS / Video volumetrique (Orange)

Matthieu Gendrin, Stéphane Denis 

Les technologies existantes de développement d’univers 3D pour les services immersifs ont été développées par l’industrie du cinéma, elles se heurtent à une problématique de coût très important de la conception à la distribution. 

En nous basant sur la technologie 3DGS (3D gaussian splatting), notre solution permet de produire un modèle 3D photoréaliste à partir de séquences vidéos de manière automatique. 
Grâce à des algorithmes de compression spatiale et temporelle, la distribution de données sur réseau 5G est permise avec réduction de débit à 144 Mbps actuellement. Une autre approche est également étudiée permettant de réaliser les traitements sur des cloud public permettant d’adresser des équipements avec des capacités de calculs plus limités. 

Les marchés adressés sont multiples et pour le salon deux domaines sont traités : le divertissement avec une captation de breaking et la communication avec la possibilité de revoir sous tous les angles les meilleurs moments d’un événement. 

Les modèles 3D peuvent être consultés en réalité augmentée sur les terminaux Apple (iPhone/iPad)  et en réalité virtuelle sur un casque Quest de Meta.
 

 

 

 

Personnes connectées : 2 Vie privée
Chargement...