哈利法大学等：5G网络实现语义理解能力为6G智能管理奠基突破

这项由阿联酋哈利法大学KU 6G研究中心、加拿大西蒙弗雷泽大学工程科学学院以及哈利法大学网络物理系统研究中心（C2PS）联合开展的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.11877v1，感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

**手机信号背后，有一套你从未听说过的"大脑"**

每当你用手机刷视频、打电话或者发消息，背后都有一套复杂的5G核心网络在悄悄运转。这套网络不仅要管理成千上万台设备的连接，还要实时调配资源、处理突发故障、预测网络拥堵。这听起来像是一个永不休眠的"神经中枢"，而负责这一切智能分析工作的，有一个专门的角色，叫做网络数据分析功能（NWDAF）。

然而，即便这套系统已经在5G标准中存在多年，现实中的开源实现却非常稀少，而且大多数实现都像是一个只会展示仪表盘、却不会主动采集数据或响应指令的"哑巴系统"。更别提让普通网络运维人员用自然语言来操作它了——现有系统要求操作者必须熟悉复杂的编程接口和专业命令行，门槛极高。

这正是这篇论文要解决的核心问题。研究团队不仅构建了一套完整的、可实际运行的开源NWDAF系统，还给它装上了一个能"听懂人话"的大语言模型（LLM）接口。换句话说，网络运维人员以后可以直接用日常语言问它"现在有多少台设备在线？"或者"帮我取消对AMF事件的订阅"，系统就能自动理解并执行——就像跟一位经验丰富的网络工程师对话一样。

这不仅是一项工程实现，更是朝着"AI原生6G网络"迈出的具体一步。

---

**一、5G网络的"神经中枢"到底是什么？**

要理解这项研究，得先搞清楚5G核心网络是怎么工作的。

5G网络采用一种叫做"服务化架构"（SBA）的设计思路，可以把它理解成一座现代化的办公大楼。大楼里住着很多部门，每个部门负责一件事，彼此之间通过标准化的内部通讯系统协作。这些"部门"在技术上叫做网络功能（NF），比如负责管理设备注册和移动的接入和移动管理功能（AMF）、负责建立和管理数据会话的会话管理功能（SMF）、负责转发用户数据的用户平面功能（UPF），以及负责服务目录的网络存储库功能（NRF）等等。

这些部门之间的沟通方式非常现代——用的是RESTful API，也就是类似网页请求的方式，任何部门都可以动态发现并联系其他部门，而不需要提前配置好固定的联系方式。这种设计让网络可以灵活扩展，新增或替换某个功能模块时，其他模块无需大幅改动。

NWDAF就是这座办公大楼里的"数据分析部门"。它的职责是从其他所有部门收集数据，进行分析，然后把分析结果提供给需要的人。比如，AMF会告诉NWDAF"设备A刚刚注册了"或"设备B发生了切换"，SMF会汇报"某个数据会话建立了"或"某个会话被终止了"，NWDAF把这些零散的信息汇聚起来，形成有价值的网络洞察。这套机制被3GPP（全球移动通信标准化组织）从第15版标准起就正式引入了5G体系。

然而，即便标准里有了NWDAF的定义，在真实的开源5G系统中，NWDAF的实现却极为有限。大多数开源项目要么根本没有NWDAF，要么只有一个非常基础的骨架，缺乏真正的数据采集能力和分析功能。这项研究的出发点，正是要填补这一空白。

---

**二、研究团队搭建了什么？一套完整的"智能网络大脑"**

研究团队基于Free5GC这个开源5G核心网络平台，从零开始构建了一套完整的NWDAF实现。Free5GC是目前最主流的开源5G核心网络之一，遵循3GPP第15版及以上标准，支持AMF、SMF、UPF、NRF等完整的网络功能套件。

整套系统由三个主要部分组成，相互配合，共同运转。

第一部分是5G核心网络本身，由Free5GC承担。核心网里住着前面提到的那些"部门"，它们各司其职，通过服务化接口（SBI）相互通信。研究团队在AMF和SMF中实现了完整的事件订阅机制，也就是说，NWDAF可以主动"订阅"这些部门的事件通知——就像订阅一份实时新闻推送，只要有感兴趣的事情发生，就会立即收到通知。AMF支持的订阅事件包括设备注册、取消注册、切换更新和连接状态变化；SMF支持的订阅事件包括PDU会话的建立和修改。

第二部分是无线接入网络（RAN）和用户设备（UE）的模拟，由UERANSIM这个开源工具承担。UERANSIM可以模拟多个基站（gNodeB）和用户设备，支持完整的5G协议栈，包括控制平面的NGAP协议和用户平面的GTP-U协议。研究团队在UERANSIM之上还开发了一套自定义的"基于活动的移动模型"，让模拟的用户设备能够按照接近真实人类行为的方式移动——早上去上班、中午去餐厅、晚上去健身房，还会在不同时间段以不同概率前往不同地点，从而触发真实的注册、注销和切换事件。

第三部分就是核心创新——NWDAF本身，以及集成在其中的大语言模型接口。

---

**三、NWDAF内部是如何运转的？**

研究团队的NWDAF架构可以用一个"智能秘书"来理解。这位秘书有几项核心能力。

首先，它会主动订阅信息。NWDAF启动时，会先向NRF（网络存储库功能）注册自己，告诉整个网络"我在这里，我提供分析服务"。然后，它读取一个配置文件，里面列出了需要订阅哪些网络功能的哪些事件，然后依次向AMF和SMF发送订阅请求。这个过程遵循3GPP标准定义的订阅流程：先向NRF查询目标网络功能的地址，然后发送包含事件类型和通知回调地址的POST请求，目标网络功能确认后返回一个订阅ID。之后每当对应事件发生，目标网络功能就会主动向NWDAF的回调地址推送通知，NWDAF确认收到后返回200 OK。取消订阅时，只需发送一个带有订阅ID的DELETE请求即可。整套流程清晰、标准、可靠。

其次，它会实时收集和存储数据。收到事件通知后，NWDAF会解析数据，格式化后存入数据库，并以Prometheus指标的形式对外暴露。Prometheus是一个广泛使用的开源监控系统，NWDAF通过它提供实时监控和历史查询能力。研究团队定义了三类核心指标：活跃用户设备数量（Active_UEs）及其持续时长、用户设备位置报告（UE_location_report，包含设备标识符SUPI、当前服务基站ID和跟踪区域码TAC）、以及用户设备注册状态（UE_registration_state，记录每台设备的活跃/非活跃状态变化和持续时长）。

再者，它还具备预测能力。NWDAF不仅能回顾历史，还能展望未来。研究团队在其中集成了机器学习模型，目前已实现的主要预测功能是：预测特定用户设备接下来最可能切换到哪个基站。这对于提前分配资源、减少切换延迟非常有价值。

最后，也是最引人注目的创新，是它具备了"听懂人话"的能力——也就是大语言模型接口。

---

**四、"听懂人话"的网络管理：LLM接口是如何工作的？**

在传统的网络管理中，运维人员想知道"现在网络里有多少台设备在线"，需要知道对应的API接口地址、请求格式、认证方式，还得理解返回数据的结构。这对非专业人员来说是一道极高的门槛。

研究团队集成的LLM接口彻底改变了这一局面。它的工作流程可以用"翻译官+执行者"来形容。

当运维人员输入一段自然语言请求，比如"帮我看看今天有多少台设备注册了"，系统首先用一个语义嵌入模型把这段文字转换成一个高维数字向量。嵌入模型的作用是把语言的"意思"而不是表面文字编码进向量里——所以"当前在线设备数量"和"现在有多少UE连接着"这两句话虽然用词不同，但它们的向量会非常相近。

系统维护着一个预定义意图数据库，里面存放了各种典型操作的示例表述，每条示例都标注了它属于哪个意图类别。目前系统支持七个意图类别，分别是：AMF订阅、AMF取消订阅、SMF订阅、SMF取消订阅、查询活跃设备数量、查询设备位置报告，以及查询注册状态。数据库里为每个类别准备了150条示例表述，共1000条。

拿到用户输入的向量后，系统计算它与数据库中每条示例向量的余弦相似度，找出最相似的那条，从而确定用户意图属于哪个类别。这个过程类似于在一个词典里找意思最接近的词——不是逐字比对，而是比较语义层面的距离。

意图类别确定后，系统进入执行阶段。如果是分析查询类（比如查询活跃设备数量），系统会自动构造对应的PromQL查询语句，提交给Prometheus服务器，获取原始数据。如果是订阅管理类（比如订阅或取消订阅AMF事件），系统则向NWDAF的对应REST端点发送POST请求，携带指定动作的JSON载荷。

拿到原始数据或执行结果后，系统把它以JSON格式连同原始用户问题和系统提示词一起传给大语言模型，由模型生成一段自然语言的最终回答。比如，当指标数据返回后，模型可能会回答"目前有52台设备已在所有基站上注册并处于活跃状态"；当订阅操作完成后，模型会回答"已成功取消对AMF事件通知的订阅"。

这套设计有一个非常关键的优势：它使用的是基于检索匹配的方式，而不是让大语言模型直接"自由发挥"地理解意图。这避免了大语言模型可能产生的"幻觉"——就是模型编造一个看起来合理但实际上不存在的答案的现象。因为系统只会从预定义的、经过验证的意图类别中选择，而不会凭空创造新的操作，这在网络管理这种对准确性要求极高的场景中尤为重要。

---

**五、如何模拟真实的人类移动行为？**

为了让NWDAF收集到有意义的真实数据，研究团队需要模拟真实的用户设备移动行为。他们开发的这套基于活动的移动模型，把每台模拟设备都当作一个有生活规律的"虚拟人"来对待。

每个"虚拟人"有一套固定的个人地点（比如家和工作地点）和一套共享的公共地点（比如公园、咖啡馆、健身房）。一天被划分为五个时间段：早晨、午餐时间、下午、傍晚和夜晚。不同时间段对不同活动类型的偏好不同——早晨会更倾向于去工作地点，傍晚则更倾向于去休闲场所。

当一台设备准备前往下一个目的地时，系统会根据当前时间段的权重向量随机抽取一个活动类型，并且对当前活动类型施加一个惩罚权重，以避免来回反复去同一个地方。选定活动类型后，从匹配该类型的地点中选择一个具体目的地，然后计算行进方向和速度（速度会根据地点类型和时间段进行调整），设备开始移动。到达目的地后，设备会按照该地点特定的停留时间分布随机停留一段时间，然后重新开始选择下一个目的地的过程。

这套模型产生的移动轨迹具有时间上的规律性和空间上的真实感，会自然地触发大量注册、注销和切换事件，为NWDAF提供了丰富的训练和测试数据。

实验环境中设置了四个虚拟基站（编号为30、40、50、60），呈正方形排列，每个基站的模拟覆盖半径为120单位（对应-120 dBm的信号强度阈值）。四台虚拟设备被部署到网络中：其中三台配置为动态接入和离开网络，一台则全程保持连接。

---

**六、实验跑了两周，数据说明了什么？**

研究团队让这套系统运行了整整两周，收集并分析了大量数据。

在用户活跃度方面，数据显示出了非常明显的时间规律，这与活动型移动模型的设计完全吻合。连接设备数量在一天中的不同时段有明显波动，在上午11点前后和下午2点到5点之间出现两个高峰期，而凌晨时段则几乎没有活跃设备。单台设备最长连续活跃时长达到了9000秒（约2.5小时），证明系统能够维持长时间的稳定连接。总体来看，设备活跃状态的平均持续时长在100到102分钟之间，非活跃状态的平均持续时长在37到40分钟之间。

在切换行为方面，数据揭示了一些有趣的规律。切换最频繁的时间集中在中午和傍晚，与高峰活跃时段基本吻合，而凌晨时段的切换次数最少。有一个基站因为在模拟地图上的位置更接近多个热门地点，其流量和切换次数都显著高于其他基站。某些基站对之间的双向切换非常频繁，这可能意味着这两个基站的覆盖区域有较大重叠，或者切换阈值设置得比较敏感。四台设备中，有一台的切换次数明显多于其他三台，反映出其"生活轨迹"跨越了更多基站的覆盖边界。

在系统性能方面，NWDAF表现出极高的效率：处理AMF和SMF的订阅确认只需约10毫秒，接收并处理事件通知的延迟约为109毫秒。更令人印象深刻的是资源占用：NWDAF仅使用了0.06%的CPU资源和0.17%的系统内存（约27 MB），几乎是"静音运行"，对核心网络的性能影响可以忽略不计。

---

**七、机器学习能预测下一次切换吗？**

研究团队用收集到的数据测试了切换预测的可行性。他们选取了四种经典的分类模型：随机森林、梯度提升、K近邻和决策树，让它们学习历史切换数据，然后预测某台设备接下来最可能切换到哪个基站。

输入特征包括设备的订阅者标识（SUPI）、最近两次访问的基站ID、当天所处的时间类别（早晨/午餐/下午/傍晚/夜晚）、当前基站的坐标，以及该设备在当前时间段内访问该基站的历史频次。数据集按70%训练、30%测试的比例分割。

梯度提升模型以80.65%的准确率摘得最高分，随机森林以80.24%紧随其后，决策树和K近邻分别达到80.11%和79.03%。这四个模型的表现非常接近，都在80%左右，说明数据本身具有相当强的可预测性。研究团队也指出，这四种模型都具有较强的鲁棒性，不容易因训练数据的质量波动而出现大幅偏差。

80%的准确率意味着什么？在一个只有4个基站的简单场景中，随机猜测的准确率是25%，而这些模型达到了80%，说明移动模型产生的轨迹具有明显的规律性，完全可以被机器学习捕捉和利用。当然，研究团队也坦承，目前的测试环境比较简单，在更复杂的真实网络中表现还需要进一步验证。

---

**八、"听懂人话"的能力究竟有多强？**

研究团队为LLM接口的意图分类能力进行了系统性评估。他们构建了一个包含700条测试提示词的数据集，按照七个意图类别平均分配，每类100条。测试了四个模型：两个大语言模型（GPT-4o和GPT-4o-mini）和两个语义嵌入模型（text-embedding-ada-002和all-MiniLM-L6-v2）。

结果相当出人意料。text-embedding-ada-002以98.43%的准确率排名第一，all-MiniLM-L6-v2以96.86%紧随其后，而GPT-4o只有89.5%，GPT-4o-mini更是只有55.1%。

这个结果揭示了一个反直觉的现象：在意图分类这个任务上，专门的语义嵌入模型反而比能写文章、能聊天的大语言模型表现更好。原因在于两者的工作方式不同。嵌入模型专注于把文字转换成能准确捕捉语义的向量，然后通过余弦相似度匹配来找到最接近的预定义意图——这个过程是确定性的，不会生成任何新内容，因此不会产生幻觉。而大语言模型在做分类时，是在"理解"后"生成"一个类别标签，这个生成过程引入了不确定性，尤其是GPT-4o-mini这类轻量模型，在面对网络管理领域的专业术语和特定格式要求时，容易产生偏差。

GPT-4o-mini只有55.1%的准确率意味着它几乎只比随机猜测（约14.3%，七选一）好一点点，完全无法满足网络管理的精度要求。相比之下，98.43%的准确率意味着每100个操作请求里只有不到2个会被错误分类，这在实际应用中已经是相当高的可靠性了。

---

**九、它能给出有价值的分析回答吗？**

除了分类准确性，研究团队还测试了整个系统端到端的问答质量，选取了五个代表性问题进行评估，涵盖切换历史查询、注册状态统计和活跃设备模式分析三类场景。

当被问到"展示SUPI 208930000000001的切换模式"时，系统正确识别了该设备最早和最晚的切换记录、最常驻留的基站（000000060），以及它在四个基站之间的切换轨迹，整体描述准确。不过回答中也包含了一些不必要的修饰性文字，研究团队指出这部分可以精简。

当被问到"2025年3月18日发生了多少次注册状态变化"时，系统正确列出了5条时间戳记录并给出了准确的计数，响应简洁。研究团队建议可以额外提供与日常平均值的对比，增加上下文价值。

当被问到"哪个SUPI的状态变化最频繁"时，系统给出了正确答案（SUPI 208930000000003），但描述用了"非常高的计数"这样模糊的表达，而不是给出具体数字。研究团队认为这是一个需要改进的地方，精确的数字对网络运维来说更有实用价值。

当被问到"按时间顺序展示每个SUPI的切换序列"时，系统返回了全部四台设备完整的、带时间戳的切换序列，内容详尽准确，研究团队认为如果能以时间轴表格的形式呈现会更直观。

当被问到"活跃UE的模式是什么"时，系统正确描述了不同时段的活跃设备数量变化规律，指出白天和傍晚高峰、夜间低谷等现象。不过系统还猜测某些时间段的数据波动"可能是由系统维护或外部因素引起的"——在受控测试环境中这种猜测是多余的，但研究团队也指出，在真实运营网络中，这种推理对故障排查反而很有价值。

---

**十、这项研究对6G意味着什么？**

说到底，这篇论文做的事情不只是造了一个好用的工具。它更深远的意义在于，它展示了一条通向"AI原生网络"的具体路径。

6G网络面临的挑战远比5G更复杂：元宇宙、XR（扩展现实）、大规模物联网、超低延迟实时通信……这些应用场景要求网络不仅能快速传输数据，还必须能够自主地理解、预测和响应复杂的网络状态变化。依靠人工操作API来管理这样的网络，显然既低效又容易出错。

研究团队已经指出了几个明确的未来方向。一个是让LLM接口具备更强的自主性——不仅仅是分类和执行固定操作，而是能够根据用户的高层次目标，自动判断需要向哪些网络功能请求哪些补充数据，然后综合多方信息给出更深入的分析和建议。另一个是降低成本——目前的实现调用了OpenAI的商业模型，在实际部署中成本不容忽视。未来可以考虑使用专门针对网络管理场景微调的小型语言模型，或者通过量化、剪枝等技术压缩模型体积，在保持性能的同时降低运行开销。此外，研究团队还提到了一个更远的目标：让系统能够根据用户的自然语言意图，自动生成和调用全新的NWDAF服务功能，而不仅限于现有的预定义操作集合——这才是真正意义上的"网络自编程"。

归根结底，这项研究证明了一件事：让网络"听懂人话"不是遥不可及的幻想，而是现在就可以动手实现的工程目标。每一项复杂的网络操作，背后都有一个可以被语义捕捉的意图，而这个意图，完全可以被一个设计精良的AI系统准确理解并可靠执行。当这种能力在6G时代成熟落地时，网络管理将真正从一门需要专业训练的技艺，变成任何人都能参与的日常对话。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2606.11877查阅完整原文，研究团队也在论文中提供的GitHub仓库（https://github.com/HenokDanielbfg/testbed）中开放了全部源代码和实验数据集，可供直接参考和二次开发。

---

Q&A

Q1：NWDAF是什么，它在5G网络中起什么作用？

A：NWDAF是5G核心网络中专门负责数据分析的功能模块，全称是"网络数据分析功能"。它的工作是从AMF、SMF等其他网络功能模块那里订阅并收集事件数据，比如设备注册、切换、会话建立等，然后对这些数据进行分析和预测，为网络的智能管理提供支撑。可以把它理解为5G网络的"数据分析部门"，专门把散落各处的网络事件汇聚成有价值的洞察。

Q2：为什么在NWDAF中用嵌入模型做意图分类，比直接用GPT效果更好？

A：这是因为两者的工作方式本质上不同。嵌入模型把文字转换成语义向量，然后通过数学上的余弦相似度来匹配最接近的预定义意图，整个过程是确定性的，不会凭空生成新内容，因此不会产生"幻觉"。而GPT这类生成式模型在做分类时，是先"理解"再"生成"一个答案，这个生成过程引入了不确定性，在专业术语密集的网络管理场景中更容易出偏差。实验中GPT-4o-mini的准确率只有55.1%，而text-embedding-ada-002达到了98.43%，差距明显。

Q3：基于活动的移动模型和普通随机移动模型相比有什么优势？

A：普通的随机移动模型让设备毫无规律地随机移动，产生的轨迹和真实用户行为差异很大，触发的网络事件也缺乏时间规律性。基于活动的移动模型则模拟了真实人类的日常行为模式：不同时间段偏好不同类型的地点，有个人专属地点也有共享公共地点，还会避免来回反复去同一个地方。这种模型产生的数据更接近真实网络中的流量特征，使得NWDAF收集到的数据能够反映真实的时间规律，机器学习模型在这类数据上训练出的切换预测准确率也因此达到了80%以上。