I2V-GS: Infrastructure-to-Vehicle View Transformation with Gaussian Splatting

A051 — I2V‑GS: Infrastructure‑to‑Vehicle View Transformation with Gaussian Splatting

Citekey : I2VGS2025
Année : 2025
Thème : simulation
Fiche créée le : 2025‑11‑28
Lien PDF : local via Zotero (arXiv : 2507.23683)


1. Contexte et motivation

Les systèmes de conduite autonome de nouvelle génération (end‑to‑end, world‑models) exigent des volumes massifs de données véhicule‑centrées (caméras embarquées, LiDAR embarqué, perception 360°).
Or, ces données sont coûteuses à collecter, posent des problèmes de confidentialité, et nécessitent des flottes équipées.

Idée clé du papier :
exploiter des caméras d’infrastructure (sur poteaux / feux tricolores) pour générer des vues “véhicule” réalistes, exploitables pour l’entraînement de modèles de conduite.
Cette conversion infrastructure → véhicule implique un changement de point de vue drastique (top‑down → front‑view), difficile à gérer pour les techniques classiques.


2. Contributions principales

2.1. Pipeline “I2V‑GS” basé sur 3D Gaussian Splatting

Le papier propose la première pipeline complète pour transformer une séquence infrastructure en séquence véhicule :

  1. Estimation de profondeur monoculaire (Depth Anything v2).
  2. Recalage de la profondeur sur mesures LiDAR grâce à un modèle affine robuste (Huber).
  3. Adaptive Depth Warp — génération de pseudo‑vues cohérentes autour de la caméra cible.
  4. Cascade Diffusion Inpainting — combler les trous générés par le warp via diffusion.
  5. Confidence‑Guided Optimization — pondération dynamique des pertes selon la fiabilité des régions générées.
  6. Apprentissage final via 3D Gaussian Splatting avec vues pseudo‑réalistes.

2.2. Stratégie “Cascade” innovante

Les vues générées de façon itérative héritent de la cohérence des précédentes, augmentant la plage de viewpoints atteignables sans artefacts massifs.

2.3. Gestion de la confiance (W ∈ [0,1])

Comparaison GS prédit / pseudo‑vue, calcul d’un poids par patch permettant d’atténuer les hallucinations de la diffusion.


3. Dataset RoadSight (nouveau)

Le papier introduit RoadSight, un dataset infra‑centré rare :

  • Caméra haute résolution montée sur feux tricolores
  • 2 LiDARs montés sur le même support (dont un long‑range)
  • Scènes urbaines réelles, trafic variable
  • 25 Hz (caméra), 10 Hz (LiDAR)
  • Jour / nuit, anonymisation des plaques et visages

Ce dataset est directement pertinent pour des travaux type :

  • perception multi‑vue,
  • reconstruction 3D,
  • simulation de données véhicule.

4. Résultats et performances

4.1. Comparaison avec SOTA (DNGaussian, SparseGS, StreetGaussian, S³Gaussian)

Sur RoadSight et Waymo :

  • NTA‑IoU (véhicules) : +30 % à +45 %
  • NTL‑IoU (lignes/voies) : +4 % à +34 %
  • FID : amélioration de 15 % à 33 %

Les vues générées sont nettement plus cohérentes géométriquement sous grands changements de viewpoint.


5. Analyse critique

Forces

  • Pipeline robuste et réaliste, mélange raisonné de 3DGS + diffusion.
  • Très bonne gestion de la profondeur via recalage LiDAR (rare et efficace).
  • Dataset RoadSight : apport expérimental majeur.
  • Contrôle explicite des déformations warping → cohérence structurelle.

Faiblesses / limites

  • Forte dépendance à Depth Anything v2 → sensibilité aux scènes atypiques.
  • Cascade diffusion coûteuse en calcul.
  • Use‑case limité à environnements urbains statiques (caméra fixe).
  • Incompatible en l’état avec du trafic dense en 3D dynamique (3DGS classique).

6. Lien avec RS3 / Telemachus / projets Teleforge

Simulation RS3

  • Complément naturel à une simulation inertielle pure : générer des vues caméra réalistes sans moteur 3D complet.
  • Possibilité future : pipeline RS3 → (traj+IMU+GNSS) + I2V‑GS‑like pour la composante visuelle.

Telemachus

  • RoadSight inspire directement un schéma Telemachus‑Infra :
    • caméras infrastructure,
    • LiDAR roadside,
    • poses capteurs,
    • calibration multi‑modalité.

Research / Papier P001

  • Peut entrer dans un état de l’art simulation visuelle.
  • L’approche “adaptive depth warp” est une brique méthodologique réutilisable dans la simulation augmentée RS3.

7. Points à réutiliser pour des travaux

  • Notion de warp adaptatif (étendre/générer vues latérales dans RS3).
  • Stratégie cascade → pour cohérence temporelle dans génération de vues.
  • Score de confiance multi-vues → intégrable en fusion RS3 ou pipeline multimodale Telemachus.

8. Conclusion

I2V‑GS propose une solution élégante et complète pour générer des vues véhicule réalistes à partir de caméras d’infrastructure, combinant profondeur recalée LiDAR, warping adaptatif, diffusion et 3D Gaussian Splatting.
C’est une approche directement pertinente pour tes futurs travaux : simulation visuelle, jeux de données infra‑centrés, extensions de Telemachus, et état de l’art simulation.


9. Référence

  • arXiv : I2V‑GS: Infrastructure‑to‑Vehicle View Transformation with Gaussian Splatting for Autonomous Driving Data Generation, 2025.
Réseau 3 sortants 0 entrants

Sources · Liens sortants

  • B018 — Plateformes open-source pour la conduite autonome : où se positionne RoadSimulator3 ?
  • P001 — Dynamic Reprojection of Vehicle Trajectories: from Theoretical Modelling to Open Simulation (RS3)
  • V003 — Compétence C6 – Diffuser la recherche : du blog au préprint

Cité par · Liens entrants

Aucune citation détectée.