Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied Scenarios (Wang et al., AAAI 2024)
Référence
- Titre : Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied Scenarios
- Auteurs : Yuxin Wang, Zunlei Feng, Haofei Zhang, Yang Gao, Jie Lei, Li Sun, Mingli Song
- Conférence : AAAI 2024
- Thème : vision-based navigation, GNSS-denied, UAV, angle-robustness
- Citekey : AngleRobustnessUAV2024 oai_citation:0‡2402.02405v1.pdf
1. Contexte et problème étudié
Les UAV s’appuient classiquement sur le GNSS pour la navigation point-à-point. En environnement dégradé ou GNSS-denied (canyon urbain, météo, interférences magnétiques), les signaux GNSS deviennent faibles ou indisponibles. Les approches de navigation visuelle existantes reposent surtout sur :
- Classification-based : prédire une “cellule” / position discrète à partir de l’image, puis déduire l’angle vers le point cible.
- Matching-based : faire du matching entre l’image courante et un ensemble d’images de référence géolocalisées, puis en déduire l’angle.
Ces méthodes sont bi-étapes (position → angle), sensibles aux erreurs de position et aux perturbations (vent, dérive de trajectoire), avec des coûts mémoire et calcul non négligeables. oai_citation:1‡2402.02405v1.pdf
2. Contributions principales
-
Nouveau paradigme “angle robustness”
- Au lieu de “position → angle”, le réseau prédit directement l’angle de direction θ à partir d’une séquence d’images historiques + une image de l’objectif.
- Objectif : corriger les déviations de trajectoire au fil du temps, au lieu de s’accrocher à une position absolue incertaine. oai_citation:2‡2402.02405v1.pdf
-
Architecture dédiée angle-robuste
- Adaptive Feature Enhance Module (AFEM) :
- Feature Guidance (MobileNetV3-Small) pour extraire des embeddings d’images.
- Displacement Guidance pour encoder les déplacements normalisés entre positions successives (vecteurs ΔP).
- Cross-knowledge Attention-guided Module (CAM) :
- Transformer “decoder-only” qui fusionne séquence d’images + info de déplacement + image de l’objectif pour produire un embedding global.
- Robust Task-oriented Head :
- Prédiction de l’angle sous forme (sin θ, cos θ), plus robuste aux discontinuités et aux frontières d’angles.
- Robust Activation Module avec HardTanh + FFN pour stabiliser l’apprentissage en environnement perturbé. oai_citation:3‡2402.02405v1.pdf
- Adaptive Feature Enhance Module (AFEM) :
-
Tâches auxiliaires pour stabiliser l’apprentissage
- Current Position Prediction Head (CPH) : classification de la position courante dans l’une des 100 cellules géographiques.
- Next Position Prediction Head (NPH) : prédiction de la prochaine cellule.
→ Ces têtes auxiliaires améliorent la compréhension du contexte spatial et augmentent le taux de succès (SR@25). oai_citation:4‡2402.02405v1.pdf
-
Dataset et banc de test dédiés
- UAV AR368 :
- 368 routes, 56 880 images, résolution 320×180.
- 184 routes “idéales” (vitesse 5–15 m/s, altitude 60–100 m) + 184 routes synthétisées avec perturbations (cutout, pluie, neige, brouillard, variations de luminosité via imgaug).
- Découpage en 100 “classes” géographiques, 45 398 images pour le train, 11 482 pour le test. oai_citation:5‡2402.02405v1.pdf
- SFTI (Simulation Flight Testing Instrument) basé sur Google Earth :
- Simule la navigation avec une distance de pas D = 30 m, altitude nominale 80 m.
- Injecte des perturbations : vents (horizontal drift), variation d’altitude, cutouts, météo synthétique, luminosité.
- Le test est considéré comme réussi si l’UAV est à moins de 25 m ou 50 m du point final, sinon on mesure les erreurs de route (MRE/MRD). oai_citation:6‡2402.02405v1.pdf
- UAV AR368 :
-
Résultats chiffrés clés
- Sur UAV AR368 :
- Les méthodes classification-based (MobileNetV3, ResNet18, ViT-B/16) obtiennent 0 % de succès (SR@25 et SR@50).
- Les méthodes matching-based (FSRA, RK-Net, LPN) plafonnent à ~3–7 % de SR@50 dans le meilleur des cas.
- L’architecture proposée atteint :
- SR@25 = 100 % (idéal) et 67,5 % (perturbé).
- SR@50 = 100 % (idéal) et 78,8 % (perturbé).
- MRE ≈ 20 m (idéal) vs 30 m pour le meilleur baseline ; ≈ 31 m (perturbé) vs 41 m.
- MRD plus longue (≈ 1,2 à 1,7×) → le trajet reste sur la route plus longtemps sans diverger. oai_citation:7‡2402.02405v1.pdf
- Coût : ≈10,7 M de paramètres, 419,7 M FLOPs, ≈49 ms d’inférence, sans stockage supplémentaire pour des banques d’images de référence. oai_citation:8‡2402.02405v1.pdf
- Sur UAV AR368 :
3. Pipeline technique (résumé “ingé”)
-
Entrées :
- Séquence d’historiques (X = (X_1, …, X_K)) avec K = 5 (image + coordonnée 2D)
- Image du point d’arrivée (X_e).
-
Encodage :
- MobileNetV3-Small → features RI_k (576-D).
- Calcul du déplacement normalisé (\Delta P_k) entre positions successives → embedding RP_k (512-D).
- Concatenation ([R^I_k, R^P_k]) → projection linéaire → token Z_k (512-D).
-
Fusion séquentielle :
- Token sequence ([Z_1, …, Z_K, Z_{K+1}]) → Transformer decoder-only avec positional embedding + masked multi-head attention → sortie ({Z’_k}).
- On garde Z’_{K+1} comme “résumé global” (historique + cible + déplacement).
-
Têtes de prédiction :
- Angle Prediction Head : LayerNorm + Robust Activation Module + FFN → (sin θ, cos θ) → angle en degrés ∈ (−180°, 180°].
- CPH/NPH : deux têtes de classification (100 classes) sur Z’_{K+1}.
-
Boucle de navigation (SFTI) :
- Au départ : seulement X1 (départ) et Xe (objectif).
- Prédire θ, calculer P̂₂ = P₁ + (sin θ, cos θ) × D.
- Récupérer la vue satellite (Google Earth) au nouveau point, appliquer perturbations, ajouter à la séquence, re-prédire, etc.
- Glisser la fenêtre pour garder K images. Arrêt quand : arrivée (<25/50 m), sortie de carte ou >250 steps. oai_citation:9‡2402.02405v1.pdf
4. Liens avec RS3 / Telemachus / VAE
-
GNSS-denied & vision :
- Complément direct de P007 (vision-based localization GNSS-denied / BEVRender).
- Montre une approche où l’on commande directement un angle plutôt que de reconstituer une position, ce qui peut inspirer des pipelines RS3 pour la validation de stratégies de guidage angle-based (navigation visuelle ou fusion vision+IMU).
-
SFTI vs RS3 :
- SFTI = testeur basé sur images Google Earth + perturbations contrôlées (vent, météo).
- RS3 pourrait jouer un rôle analogue côté trajectoires inertielle + GNSS + “disturbances” (pertes GNSS, bruit MEMS, etc.), avec la même logique : boucle de décision → commande d’angle → nouvelle pose.
- Intéressant comme benchmark de robustesse “angle-based” pour comparer :
- Navigation purement visuelle (AngleRobustnessUAV2024),
- Pipelines hybrides GNSS/INS/vision que tu croises dans P004/P007.
-
Point de doctrine pour V001 (fusion multi-capteurs) :
- Exemple d’architecture où la séquence d’observations (images + déplacement) est plus importante qu’une estimation ponctuelle de position.
- Argument pour défendre des approches séquentielles / trajectographiques (Kalman + constraints + map-matching) plutôt que des “snapshots GNSS” indépendants.
-
Télécom / standardisation :
- Le jeu de données UAV AR368 et la SFTI pourraient être mappés dans un futur pipeline RS3 → Telemachus → “vision dataset”, en alignant :
- positions GNSS,
- angles de commande,
- conditions environnementales (qualité signal, météo) → potentiellement exposables via Telemachus (RFC-0005, RFC-0009).
- Le jeu de données UAV AR368 et la SFTI pourraient être mappés dans un futur pipeline RS3 → Telemachus → “vision dataset”, en alignant :