Safe multi-agent uav flight planning for 6G-enabled internet of things (IoT) networks using deep reinforcement learning

Asadi, DavoodMowla, Md Najmul2026-04-092026-04-092026https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=KOgdn9H3uVnWeb15j2W4hzQAMRyy0w49KO7hLX1fEH5TwyAUESa0O0xPCoHj5QqGhttps://hdl.handle.net/20.500.14669/3432Lisansüstü Eğitim Enstitüsü, Havacılık ve Uzay Mühendisliği Ana Bilim DalıThis thesis investigates deployment-oriented autonomy for unmanned aerial vehicles (UAVs) in 6G-enabled Green Internet of Things (IoT) environments. Mobility decisions must jointly address collision avoidance, kinematic executability, energy sustainability, and connectivity under dynamic and partially observable conditions. The tasks are formulated as Markov decision processes and solved using four deep reinforcement learning frameworks: (1) proximal policy optimization (PPO) with kinematic optimization (KinOpt) for smooth, curvature-bounded, flight-feasible trajectories; (2) decentralized multi-agent PPO for smart agriculture with moving hazards and Simultaneous Wireless Information and Power Transfer (SWIPT)-inspired replenishment; (3) Reconfigurable Intelligent Surface (RIS)-supported multi-agent soft actor–critic (MASAC) jointly optimizing mobility, relay/recharge behavior, and connectivity; and (4) an Ensemble Distributional Dueling Double Deep Q-Network (ED3QN) with risk-aware action selection and a safety shield, evaluated in 2D benchmarks and a 3D Light Detection and Ranging (LiDAR) setting. The proposed multi-agent PPO achieves 100% success with an average reward of 1026.33 (baseline: 710.00) and a computation time of 34.84 ms. In RIS-assisted networking, MASAC attains 1.00 ± 0.00 success, 341.67 ± 8.32 final battery, 80.00 ± 4.21 harvested energy, 0.6291 ± 0.013 connectivity ratio, and 650.33 ± 11.6 total reward, outperforming MADDPG (p < 0.05). ED3QN achieves 100% success with zero collisions and path-efficiency 1.010–1.067, while PPO+KinOpt reduces trajectory length from 54.000 m to 34.463 m and smoothness cost from 87.967 to 2.107 rad. Overall, explicit feasibility and sustainability modeling yield more deployable UAV behavior for 6G aerial networking and energy-constrained IoT missions.Bu tez, 6G destekli Yeşil Nesnelerin İnterneti (IoT) ortamlarında insansız hava araçları (İHA'lar) için konuşlandırmaya yönelik otonomiyi incelemektedir. Hareketlilik kararları; dinamik ve kısmen gözlemlenebilir koşullar altında çarpışmadan kaçınma, kinematik olarak uygulanabilirlik, enerji sürdürülebilirliği ve bağlantı/süreklilik gereksinimlerini eşzamanlı olarak karşılamalıdır. Görevler Markov karar süreçleri olarak modellenmiş ve dört derin pekiştirmeli öğrenme çerçevesi kullanılarak çözülmüştür: (1) düzgün, eğrilik-sınırlı ve uçuşa elverişli yörüngeler üretmek için kinematik optimizasyon (KinOpt) ile birleştirilmiş Proximal Policy Optimization (PPO); (2) hareketli tehlikeler ve Eşzamanlı Kablosuz Bilgi ve Güç Transferi (SWIPT) esinli enerji yenileme ile akıllı tarım için merkeziyetsiz çok-etmenli PPO; (3) hareketliliği, aktarma/şarj davranışını ve bağlantıyı birlikte optimize eden Yeniden Yapılandırılabilir Akıllı Yüzey (RIS) destekli çok-etmenli Soft Actor–Critic (MASAC); ve (4) 2B kıyaslamalar ile 3B Işık Algılama ve Mesafe Ölçümü (LiDAR) ortamında değerlendirilen, risk-duyarlı eylem seçimi ve bir güvenlik kalkanı içeren Topluluk (Ensemble) Dağılımsal Düello Çift Derin Q-Ağı (ED3QN). Önerilen çok-etmenli PPO, ortalama ödülü 1026.33 (temel yöntem: 710.00) ve 34.84 ms hesaplama süresi ile %100 başarı elde etmiştir. RIS destekli ağ senaryosunda MASAC; 1.00 ± 0.00 başarı, 341.67 ± 8.32 nihai batarya, 80.00 ± 4.21 hasat edilen enerji, 0.6291 ± 0.013 bağlantı oranı ve 650.33 ± 11.6 toplam ödüle ulaşarak MADDPG'ye göre üstün performans göstermiştir (p < 0.05). ED3QN, beş ortamın tamamında sıfır çarpışma ile %100 başarı ve 1.010–1.067 yol-verimliliği sağlarken, PPO+KinOpt yörünge uzunluğunu 54.000 m'den 34.463 m'ye ve düzgünlük maliyetini 87.967'den 2.107 rad'a düşürmüştür. Genel olarak, uygulanabilirlik ve sürdürülebilirliğin açık biçimde modellenmesi, 6G hava ağları ve enerji kısıtlı IoT görevleri için daha konuşlandırılabilir İHA davranışları üretmektedir.eninfo:eu-repo/semantics/openAccessHavacılık ve Uzay MühendisliğiAeronautical EngineeringSafe multi-agent uav flight planning for 6G-enabled internet of things (IoT) networks using deep reinforcement learningDerin pekiştirmeli öğrenme kullanarak 6g destekli nesnelerin interneti (IoT) ağları için güvenli çok etmenli iha uçuş planlamasıMaster Thesis1671992747