智猩猩

弥合BEV与FPV轨迹预测gap！港科广提出首个真实世界感知噪声基准，让机器人视野受限时也能准确预测

分类： AI论文解读

2026-03-05 19:13:00

香港科技大学（广州）投稿

智猩猩AI整理

近年来，行人轨迹预测已经成为机器人在人群环境中安全导航的关键基础能力。但大多数方法仍主要在理想化的鸟瞰视角（BEV）设置下训练与评测，在这一视角下观测完整、坐标一致、跟踪几乎不出错。

但在真实部署时，机器人看的往往是第一视角（FPV）。遮挡、出视野、错误ID、跟踪漂移、透视畸变等感知伪影是常态，它们会直接破坏“历史轨迹干净连续”的关键假设，导致模型鲁棒性显著下降。

青色表示遮挡；红色表示ID切换；绿色表示第一人称视角引起的畸变。其中，虚线为第一人称视角（FPV）衍生的历史轨迹，实线为鸟瞰视角（BEV）得到的对应轨迹

SOTA模型 MoFlow 在第一视角噪声下显著退化；FPV 为带噪观测，BEV 为干净历史设定。评估数据集为ETH-UCY（ETH/Hotel/Zara1/Zara2/Univ）与 TBD

为弥合这一gap，香港科技大学（广州）助理教授梁俊卫团队提出首个真实世界感知噪声基准EgoTraj-Bench，让机器人在视野受限和存在感知误差的情况下，依然能准确预测行人的未来轨迹。该基准能够把带噪的FPV 历史观测投影并对齐到世界坐标，同时配对干净的 BEV 未来轨迹 GT在保持真实噪声的前提下，提供可公平评测与可监督学习的平台。

在此基础上，该团队进一步提出带噪第一视角下的行人轨迹预测双流框架 BiFlow，同时做“历史去噪重建 + 未来轨迹预测”，并引入 EgoAnchor 机制，将历史中蒸馏的意图先验注入预测解码器，提升在部分缺失/被污染输入下的稳定性。相关论文成果已收录于ICRA 2026。

论文标题：《EgoTraj-bench: Towards robust trajectory prediction under ego-view noisy observations》
论文链接：https://arxiv.org/abs/2510.00405
开源代码：https://github.com/zoeyliu1999/EgoTraj-Bench

本论文的贡献可以概括为三点：

1）基准：EgoTraj-Bench——真实 FPV 噪声历史 + 世界坐标干净未来 GT，支持在部署级噪声下严格评测与学习；

2）方法：BiFlow + EgoAnchor——共享表征下的“重建+预测”一体化鲁棒建模；

3）结果：在多个数据集上达到 SOTA，minADE/minFDE 平均降低约 10–15%，并表现出更强抗噪性。

01 EgoTraj-Bench 基准

EgoTraj-Bench 是一个面向真实部署的轨迹预测基准，将真实第一视角（FPV）感知噪声转移到 BEV 世界坐标中，支持在部署级噪声下对现有 BEV 轨迹预测模型进行公平评测与鲁棒学习。

1.1 核心目标与样本配对方式

EgoTraj-Bench 采用“噪声历史+ 干净监督”的配对结构：以 FPV 导出的带噪历史轨迹作为输入，并与 BEV 提供的干净过去与未来轨迹进行时间对齐，从而实现度量一致的监督与评测。

该配对结构包含以下三项关键要素：

1）噪声历史（Input）：由真实 FPV 视频提取的历史轨迹，保留遮挡、ID 切换与 ego-motion 漂移等真实感知伪影；

2）干净过去与未来（Supervision）：由俯视相机（overhead cameras）提取的 BEV 轨迹标注，具备更强遮挡鲁棒性并经人工验证，用作干净监督；

3）有效性标记（Mask）：基于历史有效性生成的 mask，用于刻画部分缺失与不可靠观测。

1.2 数据来源与同步对齐

EgoTraj-Bench 构建于 TBD 数据集，利用其同步提供的 BEV 俯视视频与移动机器人 FPV 视频，实现跨视角的时间同步与几何对齐。

同步对齐流程包括：

1）坐标投影：将FPV 像素空间轨迹通过标定的相机内参与时间同步的机器人里程计（ego-motion）投影到全局 BEV 坐标系，保证与 BEV 预测框架的度量一致性；

2）时间对齐：将投影后的BEV 噪声历史与对应的 BEV 干净过去/未来轨迹进行时间对齐，形成一一配对样本。

1.3 轨迹提取与样本构建

为确保噪声来自真实部署条件，EgoTraj-Bench 在原始 FPV 视频上执行检测与跟踪：采用 YOLOv8 进行检测、BotSort 进行跟踪，并基于 YOLOv8-seg 的分割掩码量化可见性；随后将 2D 框底部中心点回投影到地平面，得到保留遮挡、ID 不稳定与定位误差的 BEV 轨迹。

样本构建采用滑动窗口策略：

1）窗口设置：每个样本包含8 帧（3.2s）观察与 12 帧（4.8s）预测；

2）跨轨迹关联：由于FPV 与 BEV 管线的 track ID 不对齐，采用 Hungarian matching 进行输入轨迹与 GT 轨迹关联；匹配代价使用融合位置、速度与加速度的加权 MSE，以提升噪声条件下的鲁棒性；

3）有效性筛选：仅保留观察窗口内至少3 帧有效观测的样本；有效性由可见性（分割掩码像素 >100）与运动合理性（估计速度 <2 m/s）共同决定。最终数据集包含 36,947 组对齐样本对。

1.4 统计对比与噪声摘要

EgoTraj-Bench 提供 210 分钟真实世界录制、30Hz 标注频率与 36,947 条轨迹样本；表中同时给出FPV noisy rate 与 history MSE 两项摘要指标，其中 noisy rate 表示被标记为 invalid 的平均概率，history MSE 表示估计历史与真实历史之间的距离。对比T2FPV-ETH（合成噪声），EgoTraj-Bench noisy rate更高，但MSE更低，体现出更真实更高质的噪声级别。

02 BiFlow 框架

双流 flow matching 框架 BiFlow 面向真实第一视角噪声下的多智能体轨迹预测任务，采用双流（Dual-stream）框架：同时重建干净历史轨迹，并预测干净未来轨迹。

BiFlow 的核心思想是：将“历史重建”中学习到的去噪运动模式迁移到“未来预测”中，从而在部分缺失或被污染观测下稳定预测结果。

2.1 BiFlow 的核心组件

BiFlow 由三大关键组件构成：

1）噪声感知上下文编码器（Contextual Encoder）：建模遮挡条件下的社交交互与历史动态；

2）EgoAnchor 机制：从历史隐藏特征中蒸馏意图先验，无需未来监督；

3）双解码器结构（Dual Decoder）：两条分支共享编码器潜在表示，并通过历史置信度调制未来预测。

2.2 上下文编码器：噪声社交动态建模

为刻画遮挡与噪声条件下的历史动态与社交交互，BiFlow 设计了基于 Transformer 的智能体感知上下文编码器。输入由噪声历史轨迹与可见性mask 拼接后经 MLP 嵌入，并通过多头自注意力学习交互语义与全局场景表征。

编码器输出作为共享潜在表示，同时供历史重建与未来预测两条分支使用。

2.3 EgoAnchor：意图先验蒸馏与可靠性调制

为在部分缺失或被污染观测下稳定预测，BiFlow 引入轻量级 EgoAnchor 模块，从中蒸馏意图先验。该先验同时包含：

1）智能体级锚点：刻画个体运动倾向；

2）场景级锚点：汇总全局上下文信息。

EgoAnchor 采用自监督方式，不依赖额外意图标签；并通过特征级仿射调制将锚点注入未来预测分支，根据历史置信度自适应调制特征分布。

2.4 双流 Flow Matching：多候选联合“历史重建 + 未来预测”

BiFlow 采用双流 flow matching 框架，从同一输入观测联合学习两项映射：

1）未来预测分支：结合、时间步与插值状态，生成K 条候选未来轨迹，并通过候选间交互建模保证“多样但一致”的预测；EgoAnchor 产生的仿射参数对隐藏特征进行调制以提升鲁棒性。

2）历史重建分支：结构与未来分支一致，但不启用 EgoAnchor 调制，专注于纯重建学习。

训练时，两条分支均采用多候选目标：通过最佳匹配候选的回归误差与模式选择的交叉熵联合优化，兼顾轨迹多样性与准确性。历史分支与未来分支分别从高斯噪声采样，并构造插值状态以提供监督信号；总损失由两项任务的flow matching 损失加权组成：

推理阶段仅保留“编码器 + 未来预测分支”，输入噪声历史与 mask，输出未来轨迹预测。

03 实验评估

BiFlow 在真实噪声基准 EgoTraj-Bench（Ego-TBD）与合成第一视角噪声基准T2FPV-ETH 上进行系统评测，并在标准ETH-UCY 轨迹预测设置下对比主流方法，验证真实 ego-view 噪声对轨迹预测的影响与鲁棒性提升。

3.1 评测设置与指标

评测采用行人轨迹预测的标准协议，使用8 帧（3.2s）观测与 12 帧（4.8s）预测设置，输出多模态候选轨迹，并以 minADE / minFDE 等指标衡量预测误差。

对比方法覆盖主流的BEV 轨迹预测模型与噪声修补策略，用于检验“仅修补缺失观测”与“整体去噪建模”的差异。

3.2 定量结果：总体性能对比

在 T2FPV-ETH 与 EgoTraj-TBD 两数据集设置下，总体结论非常明确：ego-view 噪声会显著拉低所有 BEV 训练的 SOTA 模型表现。而BiFlow 在 minADE / minFDE 指标上取得最优或显著领先表现，验证其对 ego-view 噪声的鲁棒性优势。

研究人员还对比了COFE，一个以预测模型为基准进行端到端训练精细化组件，基于validity mask来进行无效点噪声校正。在基于流量的模型中，使用COFE收益有限甚至效果更差。仅仅纠正无效的位置是不够的，因为观测数据还包含各种其他噪声，例如：跟踪误差和透视畸变。有效去噪需要进行整体轨迹建模，而不是零散地建模。

3.3 消融实验：组件贡献验证

为验证关键设计的有效性，消融实验对BiFlow 的核心模块进行逐项去除对比，重点考察：

1）双流联合学习（历史重建+ 未来预测）对鲁棒性的贡献；

2）EgoAnchor 的意图先验蒸馏与调制机制对高噪场景的增益；

3）共享编码器表征对“去噪知识迁移到预测”的作用。

BiFlow 在候选轨迹数更少时依然获得显著增益，体现出在噪声条件下更强的预测效率。整体来看，鲁棒性增益来自“整体去噪表征学习 + 预测耦合 + 意图先验注入”，而非对缺失点做局部修补。

3.4 定性结果：真实噪声场景下的预测稳定性

在噪声场景中，BiFlow 的预测结果表现出更强的连续性与一致性：在输入的FPV 噪声历史与 BEV 干净参考存在明显偏差时，预测仍能保持合理的运动趋势，终点误差小且更符合人群交互规律。

04 总结

本论文提出了一个面向真实部署的评测与学习平台EgoTraj-Bench，以真实FPV 噪声历史作为输入，并以世界坐标下的干净未来轨迹 GT 作为监督，使“ego-view 噪声下的鲁棒轨迹预测”具备可量化、可比较的研究基础。

在该基准上，进一步提出了BiFlow框架，通过双流flow matching 框架联合学习“历史去噪重建 + 未来轨迹预测”，并利用 EgoAnchor 蒸馏意图先验与特征调制机制提升部分缺失/污染观测下的稳定性，在多个设置上取得 SOTA，在EgoTraj-Bench上的实验验证了设计的有效性，并证明了其在噪声环境和资源受限场景下的明显优势。

核心结论可归纳为三点：

1）真实部署噪声会显著破坏 BEV 轨迹预测的关键假设，鲁棒评测必须以真实 ego-view 噪声为前提；

2）仅对无效点做局部修补不足以解决高噪问题，整体去噪表征与预测耦合更关键；

3）BiFlow 在高噪条件下更稳更准，尤其在少候选轨迹时仍能保持较高精度与合理分布，为机器人真机落地提供更可靠的轨迹预测能力。