AI这玩意儿现在真是无孔不入,但说实话,最让我这种搞内容创作的人心里发毛的,不是它能写几篇文章,而是它那双“眼睛”——也就是今天想跟大伙儿掏心窝子聊聊的视频肢体识别技术。

mysmile 科技百科 5

别急着划走,觉得这词儿太专业跟咱没关系。你想想,是不是每次跳完帕梅拉,手机App里那个小人儿能给你打分?或者刷短视频时,看到那种你一挥手屏幕里的卡通形象也跟着挥手的特效?这背后都是这技术在捣鼓-1-2。但咱今儿不聊那些虚头巴脑的概念,作为一个吃过亏、也捡过便宜的“过来人”,我就结合自个儿那点血泪史,把这玩意儿的底裤给它扒干净。

事情还得从上个月说起。我那不争气的老腰,坐久了就跟生锈的门轴似的,咯吱作响。我一咬牙,花大几千买了某知名品牌的智能健身镜。嘿,您还别说,刚开始新鲜劲儿十足,镜子里那个AI私教一口一个“哥哥加油”,动作错了立马提醒“请降低重心,保护膝盖”,那叫一个贴心。我当时还发朋友圈嘚瑟,觉得这钱花得值,这不比去健身房看教练脸色强?当时的想法很简单,这视频肢体识别技术,不就是个会“看”的机器嘛,能有多神?

AI这玩意儿现在真是无孔不入,但说实话,最让我这种搞内容创作的人心里发毛的,不是它能写几篇文章,而是它那双“眼睛”——也就是今天想跟大伙儿掏心窝子聊聊的视频肢体识别技术。-第1张图片-正海烽科技 - 领先的只能推广行业,智能制造解决方案提供商

但用了大概两周,我发现不对劲儿了。

有一次我做深蹲,特意把动作做得很标准(我自认为的),结果那个AI愣是没反应,既没表扬也没批评。而我媳妇,一个从来不怎么锻炼的人,随便蹲了两下,那AI就跟舔狗似的狂刷屏:“完美姿势!太棒了!”我当时就火了,这玩意儿是不是眼神不好使?后来我特意去查了些资料,又问了做算法工程师的朋友,才搞明白这里面的猫腻。

AI这玩意儿现在真是无孔不入,但说实话,最让我这种搞内容创作的人心里发毛的,不是它能写几篇文章,而是它那双“眼睛”——也就是今天想跟大伙儿掏心窝子聊聊的视频肢体识别技术。-第2张图片-正海烽科技 - 领先的只能推广行业,智能制造解决方案提供商

原来,我们现在接触到的绝大多数消费级视频肢体识别技术,它压根儿就不是在“看”你,而是在“猜”你!这话怎么讲?它依靠的是海量数据的训练。比如,工程师们喂给电脑十万张“正确深蹲”的照片,电脑就记住了,哦,原来屁股要低于膝盖多少度、背部要挺直多少度才叫标准。但如果你的动作不在它那个“标准答案库”里,或者你家灯光稍微暗一点,它就开始瞎蒙了-1-10

我那健身镜之所以对媳妇那么友好,是因为她的身形更接近训练模型里的“标准人”,而我这种有点发福、穿个宽松大裤衩的形象,在模型眼里属于“非主流数据”,算法一看,这谁啊?数据库里没见过啊,干脆闭嘴不评价了,免得说多错多。这就引出了这个技术目前最尴尬的一个痛点:它存在严重的“刻板印象”和“环境依赖症”-3-10

这一点在做虚拟主播或者动作捕捉时尤为明显。我有个哥们在B站做虚拟UP主,他用的是那种几百块的普通摄像头捕捉。他跟我吐槽,只要他一翘二郎腿,或者手放在桌子底下,屏幕里的那个二次元美少女的手就开始抽风,要么直接飞到头顶上去,要么就扭曲成麻花。为啥?因为摄像头看不见他的手了,算法一慌,就开始“脑补”,这一脑补可不就出事儿了嘛-2-3。而那种专业的、穿戴式的动捕设备,虽然贵得要死,但人家身上绑满了传感器,你动一下手指它都记录得清清楚楚,就不会出现这种“睁眼瞎”的情况-2

所以说,别太迷信现在市面上那些吹得天花乱坠的AI识别。真正前沿的视频肢体识别技术,现在都在攻克什么难题呢?我看了篇Nature上的论文,人家已经在用那种叫“生成对抗网络(GAN)”的东西来搞事情了-6-9。啥意思?就是让两个AI互相掐架。一个AI负责从被遮挡的视频里(比如手被挡住了)还原动作,另一个AI负责挑刺说你这还原得不对。俩AI打着打着,技术就进步了。据说这种新方法在复杂环境下的准确率能提升30%以上,甚至在一些测试里比那些顶流模型还猛-6-9

那这技术到底能干啥?除了咱们知道的健身、娱乐,其实在一些你压根想不到的地方,它已经开始“闷声发大财”了。我给大家爆点不一样的料。

第一个是养老院的“守护神”。我一个亲戚在养老院工作,她说现在最怕的就是老人夜里起来上厕所摔倒,没人发现。现在有些高端养老院,装的不是普通的监控,而是带AI肢体识别的摄像头。这玩意儿厉害在哪儿?它不拍脸,只捕捉骨骼点(就是你屏幕上那种小人儿)。一旦识别出老人是“跌倒”的姿态,比如突然从站立变成躺卧且长时间不动,它立马报警-1-4。这就叫“只认动作不认人”,既保护了隐私,又救了命。

第二个是在体育圈,尤其是职业运动员的康复训练。NBA很多球队已经在用了。比如一个球员跟腱断裂康复后重新跑步,教练肉眼看着觉得跑得挺好,但AI一分析,发现他左右脚落地时的膝盖弯曲角度差了5度。这5度就是潜在的二次受伤风险-1-7。这玩意儿相当于给运动员开了“透视眼”,把那些细微的、人眼看不出疲劳和损伤风险给量化出来。

不过,说一千道一万,这技术再牛,它也是个“铁憨憨”。为啥这么说?因为它能识别你在“挥手”,但它永远不知道你是在“打招呼”还是在“赶蚊子”-4。这涉及到“动作识别”和“姿态估计”的区别。姿态估计只是告诉你胳膊腿在哪,而动作识别是想弄明白你在干啥。现在的AI还停留在“知其然”的阶段,远没到“知其所以然”的层次-4-8

再说个有意思的事儿。现在有些在线教育平台,特别是教跳舞或者教体育的,开始用这技术给学生打分。但你猜怎么着?有那机灵鬼学生发现,只要慢慢做,或者把手脚的动作幅度做大一点,系统就会判定为“标准”,哪怕你节奏全错了。这就跟咱们小时候糊弄老师写的“虽然字写得丑,但篇幅够长”的作文一个道理。AI嘛,在某些方面聪明得吓人,在某些方面又傻得可爱。

说到这儿,我心里其实也挺感慨的。咱们一方面担心AI会取代人,另一方面又发现AI在理解和模仿人体这种最原始的生物信号时,还显得那么笨拙。它或许能精确到毫米级地追踪你的关节运动,但它读不懂你因为久坐康复后第一次能摸到脚趾头时那种喜悦的微表情。

所以,回到咱普通老百姓的生活里,面对无处不在的摄像头和传感器,咱们是该害怕还是该拥抱?我的想法是,把它当个工具,别把它当神。它能在你健身时纠正你姿势,省下你请私教的钱;它能在你老去时默默守护你,让你多一份安全感。但也别指望它能完全理解你身体的极限和感受,毕竟,身体的反馈只有你自己最清楚。

就像我那个破健身镜,虽然它有时候犯傻,对我不理不睬,但为了我那老腰,我还是会坚持用下去。只是现在,当它再给我推送“今日运动评分100分”的时候,我会淡定地摸摸肚子上的肉,对它说一句:“得了吧,你懂个屁。”

这,大概就是我们和这个充满视频肢体识别技术的世界,最好的相处方式吧。

抱歉,评论功能暂时关闭!