Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied Scenarios

Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied Scenarios (Wang et al., AAAI 2024)

Référence

  • Titre : Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied Scenarios
  • Auteurs : Yuxin Wang, Zunlei Feng, Haofei Zhang, Yang Gao, Jie Lei, Li Sun, Mingli Song
  • Conférence : AAAI 2024
  • Thème : vision-based navigation, GNSS-denied, UAV, angle-robustness
  • Citekey : AngleRobustnessUAV2024 oai_citation:0‡2402.02405v1.pdf

1. Contexte et problème étudié

Les UAV s’appuient classiquement sur le GNSS pour la navigation point-à-point. En environnement dégradé ou GNSS-denied (canyon urbain, météo, interférences magnétiques), les signaux GNSS deviennent faibles ou indisponibles. Les approches de navigation visuelle existantes reposent surtout sur :

  • Classification-based : prédire une “cellule” / position discrète à partir de l’image, puis déduire l’angle vers le point cible.
  • Matching-based : faire du matching entre l’image courante et un ensemble d’images de référence géolocalisées, puis en déduire l’angle.

Ces méthodes sont bi-étapes (position → angle), sensibles aux erreurs de position et aux perturbations (vent, dérive de trajectoire), avec des coûts mémoire et calcul non négligeables. oai_citation:1‡2402.02405v1.pdf


2. Contributions principales

  1. Nouveau paradigme “angle robustness”

    • Au lieu de “position → angle”, le réseau prédit directement l’angle de direction θ à partir d’une séquence d’images historiques + une image de l’objectif.
    • Objectif : corriger les déviations de trajectoire au fil du temps, au lieu de s’accrocher à une position absolue incertaine. oai_citation:2‡2402.02405v1.pdf
  2. Architecture dédiée angle-robuste

    • Adaptive Feature Enhance Module (AFEM) :
      • Feature Guidance (MobileNetV3-Small) pour extraire des embeddings d’images.
      • Displacement Guidance pour encoder les déplacements normalisés entre positions successives (vecteurs ΔP).
    • Cross-knowledge Attention-guided Module (CAM) :
      • Transformer “decoder-only” qui fusionne séquence d’images + info de déplacement + image de l’objectif pour produire un embedding global.
    • Robust Task-oriented Head :
      • Prédiction de l’angle sous forme (sin θ, cos θ), plus robuste aux discontinuités et aux frontières d’angles.
      • Robust Activation Module avec HardTanh + FFN pour stabiliser l’apprentissage en environnement perturbé. oai_citation:3‡2402.02405v1.pdf
  3. Tâches auxiliaires pour stabiliser l’apprentissage

    • Current Position Prediction Head (CPH) : classification de la position courante dans l’une des 100 cellules géographiques.
    • Next Position Prediction Head (NPH) : prédiction de la prochaine cellule.
      → Ces têtes auxiliaires améliorent la compréhension du contexte spatial et augmentent le taux de succès (SR@25). oai_citation:4‡2402.02405v1.pdf
  4. Dataset et banc de test dédiés

    • UAV AR368 :
      • 368 routes, 56 880 images, résolution 320×180.
      • 184 routes “idéales” (vitesse 5–15 m/s, altitude 60–100 m) + 184 routes synthétisées avec perturbations (cutout, pluie, neige, brouillard, variations de luminosité via imgaug).
      • Découpage en 100 “classes” géographiques, 45 398 images pour le train, 11 482 pour le test. oai_citation:5‡2402.02405v1.pdf
    • SFTI (Simulation Flight Testing Instrument) basé sur Google Earth :
      • Simule la navigation avec une distance de pas D = 30 m, altitude nominale 80 m.
      • Injecte des perturbations : vents (horizontal drift), variation d’altitude, cutouts, météo synthétique, luminosité.
      • Le test est considéré comme réussi si l’UAV est à moins de 25 m ou 50 m du point final, sinon on mesure les erreurs de route (MRE/MRD). oai_citation:6‡2402.02405v1.pdf
  5. Résultats chiffrés clés

    • Sur UAV AR368 :
      • Les méthodes classification-based (MobileNetV3, ResNet18, ViT-B/16) obtiennent 0 % de succès (SR@25 et SR@50).
      • Les méthodes matching-based (FSRA, RK-Net, LPN) plafonnent à ~3–7 % de SR@50 dans le meilleur des cas.
      • L’architecture proposée atteint :
        • SR@25 = 100 % (idéal) et 67,5 % (perturbé).
        • SR@50 = 100 % (idéal) et 78,8 % (perturbé).
        • MRE ≈ 20 m (idéal) vs 30 m pour le meilleur baseline ; ≈ 31 m (perturbé) vs 41 m.
        • MRD plus longue (≈ 1,2 à 1,7×) → le trajet reste sur la route plus longtemps sans diverger. oai_citation:7‡2402.02405v1.pdf
    • Coût : ≈10,7 M de paramètres, 419,7 M FLOPs, ≈49 ms d’inférence, sans stockage supplémentaire pour des banques d’images de référence. oai_citation:8‡2402.02405v1.pdf

3. Pipeline technique (résumé “ingé”)

  1. Entrées :

    • Séquence d’historiques (X = (X_1, …, X_K)) avec K = 5 (image + coordonnée 2D)
    • Image du point d’arrivée (X_e).
  2. Encodage :

    • MobileNetV3-Small → features RI_k (576-D).
    • Calcul du déplacement normalisé (\Delta P_k) entre positions successives → embedding RP_k (512-D).
    • Concatenation ([R^I_k, R^P_k]) → projection linéaire → token Z_k (512-D).
  3. Fusion séquentielle :

    • Token sequence ([Z_1, …, Z_K, Z_{K+1}]) → Transformer decoder-only avec positional embedding + masked multi-head attention → sortie ({Z’_k}).
    • On garde Z’_{K+1} comme “résumé global” (historique + cible + déplacement).
  4. Têtes de prédiction :

    • Angle Prediction Head : LayerNorm + Robust Activation Module + FFN → (sin θ, cos θ) → angle en degrés ∈ (−180°, 180°].
    • CPH/NPH : deux têtes de classification (100 classes) sur Z’_{K+1}.
  5. Boucle de navigation (SFTI) :

    • Au départ : seulement X1 (départ) et Xe (objectif).
    • Prédire θ, calculer P̂₂ = P₁ + (sin θ, cos θ) × D.
    • Récupérer la vue satellite (Google Earth) au nouveau point, appliquer perturbations, ajouter à la séquence, re-prédire, etc.
    • Glisser la fenêtre pour garder K images. Arrêt quand : arrivée (<25/50 m), sortie de carte ou >250 steps. oai_citation:9‡2402.02405v1.pdf

4. Liens avec RS3 / Telemachus / VAE

  • GNSS-denied & vision :

    • Complément direct de P007 (vision-based localization GNSS-denied / BEVRender).
    • Montre une approche où l’on commande directement un angle plutôt que de reconstituer une position, ce qui peut inspirer des pipelines RS3 pour la validation de stratégies de guidage angle-based (navigation visuelle ou fusion vision+IMU).
  • SFTI vs RS3 :

    • SFTI = testeur basé sur images Google Earth + perturbations contrôlées (vent, météo).
    • RS3 pourrait jouer un rôle analogue côté trajectoires inertielle + GNSS + “disturbances” (pertes GNSS, bruit MEMS, etc.), avec la même logique : boucle de décision → commande d’angle → nouvelle pose.
    • Intéressant comme benchmark de robustesse “angle-based” pour comparer :
      • Navigation purement visuelle (AngleRobustnessUAV2024),
      • Pipelines hybrides GNSS/INS/vision que tu croises dans P004/P007.
  • Point de doctrine pour V001 (fusion multi-capteurs) :

    • Exemple d’architecture où la séquence d’observations (images + déplacement) est plus importante qu’une estimation ponctuelle de position.
    • Argument pour défendre des approches séquentielles / trajectographiques (Kalman + constraints + map-matching) plutôt que des “snapshots GNSS” indépendants.
  • Télécom / standardisation :

    • Le jeu de données UAV AR368 et la SFTI pourraient être mappés dans un futur pipeline RS3 → Telemachus → “vision dataset”, en alignant :
      • positions GNSS,
      • angles de commande,
      • conditions environnementales (qualité signal, météo) → potentiellement exposables via Telemachus (RFC-0005, RFC-0009).
Réseau 3 sortants 0 entrants

Sources · Liens sortants

  • P004 — Robust GNSS/INS Integration in Urban Environments: Vehicle, Inertial, and SLAM Constraints
  • P007 — Vision-Based Localization in GNSS-Denied Environments: Integrating BEVRender and Multi-Model Inertial Fusion
  • V001 — Compétence C3 — Maîtriser les méthodes de fusion multi-capteurs (GNSS/IMU)

Cité par · Liens entrants

Aucune citation détectée.