Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied Scenarios

Référence

Titre : Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied Scenarios
Auteurs : Yuxin Wang, Zunlei Feng, Haofei Zhang, Yang Gao, Jie Lei, Li Sun, Mingli Song
Conférence : AAAI 2024
Thème : vision-based navigation, GNSS-denied, UAV, angle-robustness
Citekey : AngleRobustnessUAV2024 oai_citation:0‡2402.02405v1.pdf

1. Contexte et problème étudié

Les UAV s’appuient classiquement sur le GNSS pour la navigation point-à-point. En environnement dégradé ou GNSS-denied (canyon urbain, météo, interférences magnétiques), les signaux GNSS deviennent faibles ou indisponibles. Les approches de navigation visuelle existantes reposent surtout sur :

Classification-based : prédire une “cellule” / position discrète à partir de l’image, puis déduire l’angle vers le point cible.
Matching-based : faire du matching entre l’image courante et un ensemble d’images de référence géolocalisées, puis en déduire l’angle.

Ces méthodes sont bi-étapes (position → angle), sensibles aux erreurs de position et aux perturbations (vent, dérive de trajectoire), avec des coûts mémoire et calcul non négligeables. oai_citation:1‡2402.02405v1.pdf

2. Contributions principales

Nouveau paradigme “angle robustness”
- Au lieu de “position → angle”, le réseau prédit directement l’angle de direction θ à partir d’une séquence d’images historiques + une image de l’objectif.
- Objectif : corriger les déviations de trajectoire au fil du temps, au lieu de s’accrocher à une position absolue incertaine. oai_citation:2‡2402.02405v1.pdf
Architecture dédiée angle-robuste
- Adaptive Feature Enhance Module (AFEM) :
  - Feature Guidance (MobileNetV3-Small) pour extraire des embeddings d’images.
  - Displacement Guidance pour encoder les déplacements normalisés entre positions successives (vecteurs ΔP).
- Cross-knowledge Attention-guided Module (CAM) :
  - Transformer “decoder-only” qui fusionne séquence d’images + info de déplacement + image de l’objectif pour produire un embedding global.
- Robust Task-oriented Head :
  - Prédiction de l’angle sous forme (sin θ, cos θ), plus robuste aux discontinuités et aux frontières d’angles.
  - Robust Activation Module avec HardTanh + FFN pour stabiliser l’apprentissage en environnement perturbé. oai_citation:3‡2402.02405v1.pdf
Tâches auxiliaires pour stabiliser l’apprentissage
- Current Position Prediction Head (CPH) : classification de la position courante dans l’une des 100 cellules géographiques.
- Next Position Prediction Head (NPH) : prédiction de la prochaine cellule.
  → Ces têtes auxiliaires améliorent la compréhension du contexte spatial et augmentent le taux de succès (SR@25). oai_citation:4‡2402.02405v1.pdf
Dataset et banc de test dédiés
- UAV AR368 :
  - 368 routes, 56 880 images, résolution 320×180.
  - 184 routes “idéales” (vitesse 5–15 m/s, altitude 60–100 m) + 184 routes synthétisées avec perturbations (cutout, pluie, neige, brouillard, variations de luminosité via imgaug).
  - Découpage en 100 “classes” géographiques, 45 398 images pour le train, 11 482 pour le test. oai_citation:5‡2402.02405v1.pdf
- SFTI (Simulation Flight Testing Instrument) basé sur Google Earth :
  - Simule la navigation avec une distance de pas D = 30 m, altitude nominale 80 m.
  - Injecte des perturbations : vents (horizontal drift), variation d’altitude, cutouts, météo synthétique, luminosité.
  - Le test est considéré comme réussi si l’UAV est à moins de 25 m ou 50 m du point final, sinon on mesure les erreurs de route (MRE/MRD). oai_citation:6‡2402.02405v1.pdf
Résultats chiffrés clés
- Sur UAV AR368 :
  - Les méthodes classification-based (MobileNetV3, ResNet18, ViT-B/16) obtiennent 0 % de succès (SR@25 et SR@50).
  - Les méthodes matching-based (FSRA, RK-Net, LPN) plafonnent à ~3–7 % de SR@50 dans le meilleur des cas.
  - L’architecture proposée atteint :
    - SR@25 = 100 % (idéal) et 67,5 % (perturbé).
    - SR@50 = 100 % (idéal) et 78,8 % (perturbé).
    - MRE ≈ 20 m (idéal) vs 30 m pour le meilleur baseline ; ≈ 31 m (perturbé) vs 41 m.
    - MRD plus longue (≈ 1,2 à 1,7×) → le trajet reste sur la route plus longtemps sans diverger. oai_citation:7‡2402.02405v1.pdf
- Coût : ≈10,7 M de paramètres, 419,7 M FLOPs, ≈49 ms d’inférence, sans stockage supplémentaire pour des banques d’images de référence. oai_citation:8‡2402.02405v1.pdf

3. Pipeline technique (résumé “ingé”)

Entrées :
- Séquence d’historiques (X = (X_1, …, X_K)) avec K = 5 (image + coordonnée 2D)
- Image du point d’arrivée (X_e).
Encodage :
- MobileNetV3-Small → features RI_k (576-D).
- Calcul du déplacement normalisé (\Delta P_k) entre positions successives → embedding RP_k (512-D).
- Concatenation ([R^I_k, R^P_k]) → projection linéaire → token Z_k (512-D).
Fusion séquentielle :
- Token sequence ([Z_1, …, Z_K, Z_{K+1}]) → Transformer decoder-only avec positional embedding + masked multi-head attention → sortie ({Z’_k}).
- On garde Z’_{K+1} comme “résumé global” (historique + cible + déplacement).
Têtes de prédiction :
- Angle Prediction Head : LayerNorm + Robust Activation Module + FFN → (sin θ, cos θ) → angle en degrés ∈ (−180°, 180°].
- CPH/NPH : deux têtes de classification (100 classes) sur Z’_{K+1}.
Boucle de navigation (SFTI) :
- Au départ : seulement X1 (départ) et Xe (objectif).
- Prédire θ, calculer P̂₂ = P₁ + (sin θ, cos θ) × D.
- Récupérer la vue satellite (Google Earth) au nouveau point, appliquer perturbations, ajouter à la séquence, re-prédire, etc.
- Glisser la fenêtre pour garder K images. Arrêt quand : arrivée (<25/50 m), sortie de carte ou >250 steps. oai_citation:9‡2402.02405v1.pdf

4. Liens avec RS3 / Telemachus / VAE

GNSS-denied & vision :
- Complément direct de P007 (vision-based localization GNSS-denied / BEVRender).
- Montre une approche où l’on commande directement un angle plutôt que de reconstituer une position, ce qui peut inspirer des pipelines RS3 pour la validation de stratégies de guidage angle-based (navigation visuelle ou fusion vision+IMU).
SFTI vs RS3 :
- SFTI = testeur basé sur images Google Earth + perturbations contrôlées (vent, météo).
- RS3 pourrait jouer un rôle analogue côté trajectoires inertielle + GNSS + “disturbances” (pertes GNSS, bruit MEMS, etc.), avec la même logique : boucle de décision → commande d’angle → nouvelle pose.
- Intéressant comme benchmark de robustesse “angle-based” pour comparer :
  - Navigation purement visuelle (AngleRobustnessUAV2024),
  - Pipelines hybrides GNSS/INS/vision que tu croises dans P004/P007.
Point de doctrine pour V001 (fusion multi-capteurs) :
- Exemple d’architecture où la séquence d’observations (images + déplacement) est plus importante qu’une estimation ponctuelle de position.
- Argument pour défendre des approches séquentielles / trajectographiques (Kalman + constraints + map-matching) plutôt que des “snapshots GNSS” indépendants.
Télécom / standardisation :
- Le jeu de données UAV AR368 et la SFTI pourraient être mappés dans un futur pipeline RS3 → Telemachus → “vision dataset”, en alignant :
  - positions GNSS,
  - angles de commande,
  - conditions environnementales (qualité signal, météo) → potentiellement exposables via Telemachus (RFC-0005, RFC-0009).

Réseau 3 sortants 0 entrants

Sources · Liens sortants

P004 — Robust GNSS/INS Integration in Urban Environments: Vehicle, Inertial, and SLAM Constraints
P007 — Vision-Based Localization in GNSS-Denied Environments: Integrating BEVRender and Multi-Model Inertial Fusion
V001 — Compétence C3 — Maîtriser les méthodes de fusion multi-capteurs (GNSS/IMU)

Cité par · Liens entrants

Aucune citation détectée.

Carnet