dafa大发手机版app 港汉文团队发布7模态东说念主体动作数据集, 揭开大模子判辨才智短板


近日,香港汉文大学信息工程系邢国良耕作团队的博士生蒋想阳算作第一作家,完成了一项名为 CUHK-X 的大型多模态东说念主体动作数据集,这个数据集能让 AI 真实看懂东说念主在作念什么、为什么这样作念以及接下来要作念什么。这项考虑后果已被转移缠绵范围顶级外洋会议 ACM MobiSys 2026 继承。
有了它,功绩机器东说念主不错更贤惠地判辨你的需求,养老院能提前预警老东说念主跌倒风险,康复系统能分析病东说念主的动作是否圭臬。他们用这个数据集测了市面上好几款主流的大模子,发现即即是最贤惠的 AI,在判辨东说念主类真实动作这件事情上,平均正确率也只好四成掌握,还有很长的路要走。
这项考虑其实是被试验需求逼出来的,该团队之前在作念角落部署的 AI 系统时发现,现存的数据集都只停留在识别层面,比如拍一个东说念主跌倒,AI 知说念这是跌倒。不外大模子期间需要的不仅仅认出来,还门径会这个东说念主是若何跌倒的,是绊到了椅子照旧被东西砸到,以及跌倒之后应该若何办。
判辨和推理这两个才智,恰正是 AI 要走进家庭、病院、养老院这些真实场景时最需要的。市面上的主流大模子主要针对彩色像片优化,靠近深度图、热成像、毫米波雷达这些相等规传感器时发扬很差,根蒂原因就是空泛这类传感器的配对数据。
CUHK X 的数据网罗走了一条反惯例的旅途,传统作念法是先松懈拍一堆视频,然后找东说念主一帧一帧打标签,效力极低还容易出错。该团队先遐想好动作场景,再用大模子把动作串成一段有逻辑的剧情,临了让参与者照着剧情演。比如刷牙洗脸梳头穿穿着这几个动作,大模子会生成一段从起床到洗漱实现的好意思满形色,参与者照着演就行了。数据网罗前标签就仍是定好了,准确性大大提高。
统统这个词数据集包含 40 个动作,分红了七个大类。这套动作清单是从 12 个公开数据集的 349 个动作中筛选出来的高频动作。
数据网罗使用的传感器气势相等豪华,主录像头是一台 Goermicro Vzense NYX 650,2026世界杯赛事竞猜中国官网同期输出彩色、深度和红外三种信号。热成像用的是海康威视 TB4117,毫米波雷达是德州仪器 IWR6843ISK。惯性传感器具的是五台 WitMotion WT9011DCL BT50,鉴识绑在双手手腕、双脚脚踝和腰部。
统统传感器通过主机的全局时钟同步,用场记板标志肇端点,确保七路信号精准对皆。统统这个词数据网罗在两个室内环境中完成,隐敝了客厅、厨房、卧室和卫生间四个典型居室场景。

CUHK-X 数据集中,光是视觉类模态就包括 4,029 段视频,总时长达 19 小时 29 分钟。该团队期骗这套数据开展了一系列基准测试。在传统的动作识别任务上,热成像发扬最佳,准确率 92.57%,彩色录像头 90.89%,深度录像头 90.46%,红外 90.22%,骨架数据 79.08%。毫米波雷达和惯性传感器因为信号噪声大,准确率只好 46% 和 45% 掌握,大发官方网站(Dafabet) 讲明非视觉传感器在动作识别上还有很大进步空间。
最查看 AI 水平的是判辨和推理,因此该团队遐想了四个判辨层面和一个推理层面的的任务。
第一个是形色生成,让 AI 看一段视频,然后写出一段话形色画面里的东说念主在干什么。测试限度涌现,发扬最佳的模子在热成像和深度数据上也只可拿到三四十分的匹配度,和真实形色差得很远。
第二个是情境分析,让 AI 判断视频里的东说念主是得志照旧匆忙中。现在主流模子平均正确率与当场臆想无异。
第三个是动作排序,把一段打乱功令的视频片断再行排好,比如先拿杯子后倒水临了喝水。这个任务的挑战在于 AI 必须判辨动作之间的因果链条。
第四个是动作聘任,从 40 个动作里选出视频中出现的动作。这项测试平均正确率不到 25%,讲明现时大模子在多动作复杂场景下简直窝囊为力。
2026世界杯赛事竞猜中国官网
推理任务的难度则更进一步,通过让 AI 不雅察一段动作序列,议论下一秒会发生什么,来判断现存大模子的推理才智。该团队发现,浅显的形色型大模子在这个任务上发扬很差,它们只会照搬名义特征,比如看到有东说念主在餐桌前就猜吃饭,统统不论餐具拿没拿。
不外有推理才智的模子发扬好许多,它会分析高下文,看到桌子上有穿着、东说念主在擦手、掌握放着包,就会推断出接下来很可能是要穿穿着外出。这种模子还会给出推理经由,让东说念主知说念它是若何得出论断的。

不外,这些看似层次明晰的实验限度,并不是一蹴而就的。从开拓选型到时局搭建,从志愿者招募到数据清洗,团队遭受的极重远比联想中多,而其中最惨痛的一次劝诫,来自毫米波雷达。
据先容,毫米波雷达那次失利让统统这个词团队没世不忘。在实验室里调得好好的,搬到新时局信号全乱套了,十几个小时的相聚一皆作废,二十多个参与者得再行叫纪念。蒋想阳说这个劝诫很甘愿,那就是始终不要认为在一个环境跑通了,换个地点就理所固然能跑通。

图 | 第一作家像片(开头:受访者)
另据悉,蒋想阳本科主修数学专科,硕士毕业于中国台湾大学,考虑标的为硬件系统,博士就读于香港汉文大学信息工程系,从事缠绵机系统标的的考虑。
他行将博士毕业,并计议无间从事学术考虑,进一步真切和完善这一数据集。下一步计议把参与东说念主数从 30 东说念主膨胀到 100 东说念主dafa大发手机版app,加入 WiFi 信号和音频等新模态,还要去真实的养老机构作念实地考证。在他看来,AI 要真实判辨东说念主,光靠识别远远不够,必须在场景里开拓起好意思满的因果链条。CUHK-X 数据集的搭建为算法考虑者提供了考证模子的平台。
