前几天,Rokid创始人在余杭高质量经济发展大会上,用AR眼镜Rokid Glasses脱稿演讲,被各大官媒转发报道之后。
大家对AI眼镜的关注度就直线上升。
上周黑马那篇讲AI眼镜的文章里,有将近80%的朋友,或多或少都了解过这个产品。
先跟大家打个补丁,这个AI眼镜其实就是我们常说的AR眼镜,主要是通过AR现实增强技术,将现实场景和虚拟图像信息结合,再辅以AI大模型的穿戴式智能设备。
当科幻照进现实,AI眼镜出现了
在Rokid的官方介绍里,我们通过Rokid Glasses看到的场景大概是这样的:
这样的:
还有这样的:
几乎一比一复刻了我们当年看的科幻电影里,汤姆·克鲁斯戴上眼镜,就可以看到其他人的信息、背景资料的场景。
不过虽然看上去有些魔幻,但本质上,你把Rokid Glasses当成一副正常的眼镜来看也没任何问题——
它正常到是一款Rokid和暴龙BOLONG眼镜合作的产品,我们甚至可以根据度数定制近视或者散光的光学镜片。
但是嗷,虽然看上去和普通眼睛没啥区别,从佩戴人视角来看,却有点“逆天”。
就像前面图片里的那样,我们从眼镜中看到的,除了正常的现实场景之外,还会有一些绿色的文字、图像信息。
比如最简单的场景识别和问答:
你走路上看到一只狗,你可以问“这狗是什么品种的?”,眼镜上的摄像头就会自动识别场景,再通过通义千问大模型生成狗的相关信息,然后在眼镜上显示。
同时镜腿位置还会有语音播报同步信息,视障人群也能使用。
说到对于视障人群的帮助,其实AR眼镜能做的远不于此。
打个比方,Rokid Glasses的场景识别能力能够及时识别红绿信号灯和周围路况,当视障人群行进路线中有危险时,又能通过语音播报,及时提醒用户。
换句话说,Rokid Glasses完全可以作为视障人群“眼睛”,为他们的日常生活保驾护航。
再比如实施导航:
骑车的时候,不想在车上架一部手机导航,就可以告诉你的眼镜“导航到XXXX”,经过大模型处理后,直接就可以通过眼镜,在现实场景上叠加生成直观的3D导航信息。
还有最近网上很火的实时翻译:
你可以设置各种语言互译,比如你设置中英互译,你说中文,眼镜上就会显示英文,和你对话的人如果说英文,眼镜上就会显示中文。
值得注意的是,目前市面上大部分卖得很好的眼镜形态的产品,比如雷朋和Meta合作的Ray-Ban Meta,都不具备显示功能。
它们主打的大多都是拍照、录制视频、听音乐啥的,还有社交媒体的交互,比如把拍摄的照片发到Ins上。
而在眼镜上同步视觉信息的技术,其实叫做光波导,简单来说就是让光线以特定路径传播,最终将系统发出的图像导入人眼。
其中Rokid Glasses采用了技术难度更大的衍射光波导技术,不仅使得成像更加清晰,镜片体积也能做得更轻薄,重量仅有49g,更接近普通眼镜的形态,很好解决了AR眼镜笨重的问题。(记住这个“衍射光波导技术”,下一趴要考的哈)
AR眼镜:移动智能终端的终极形态
实际上黑马发现,这两年大家对智能终端的要求,已经不再满足于手持式的设备。
一个原因是因为手持式的产品,始终局限于“握持”的物理形态,并没有真正做到随身,比如虽然我们常常吐槽手机不离手,但你睡觉、工作、运动的时候,还是要放下手机。
所以在很长一段时间里,穿戴式设备就是我们在特定场景中,更常使用的产品。
你看手表依旧需要抬起手臂,耳机也依旧无法提供视觉信息交互。
而另一个问题是,无论是手机还是手表,指令和内容的输入都是通过按键或者触屏操作的,可是AR眼镜很显然无法更细致的进行按键或者触屏操作。
对于语音内容的理解,是AI大模型的强项,而智能识别场景和搜索整合信息的部分,也由AI大模型来完成,比如Rokid Glasses上搭载的通义千问大模型:
其日常场景中常用的导航、播放音乐、实时翻译,其智能程度和响应速度,都随着今年AI大模型的快速迭代,在不断优化。
加上Rokid自研了YodaOS系统,使得Rokid Glasses在用户体验上更上一层楼。
正如Rokid创始人提到:“AR眼镜是AI最好的载体”。
眼镜是离我们视觉器官最近的设备,所有信息在收入眼底之前,首先都要经过眼镜。
换句话说,如果把信息投射到在眼镜上,就可以毫无障碍地和现实场景一起进入我们的视觉系统,真正意义上实现了无感交互。
但是,这里要说但是了,就算在眼镜形态的产品中,早些时候受限于技术,很多产品还是牺牲了一些核心功能:
比如屏显功能,上一篇文章里黑马提到过,早期出现过一批将蓝牙音箱和眼镜结合的AI音频眼镜,这种产品的的核心主要在镜腿上,那里集成了整副眼镜最核心的内容——开放式蓝牙耳机。

就算是后来卖得很好的Ray-Ban Meta,其实也没有提供视觉方面的交互。
而造成这种情况的很大一个原因在于,AR眼镜屏显的技术要求很高,特别是想做到轻便日常,非常困难。
在增强现实技术上,目前市面上比较常见的有两种技术,一个是VST(Video see through),一个是OST(Optical see through)。
其中VST是通过将虚拟图像叠加在真实世界中的实时视频流上,用户可以透过显示屏或眼镜等设备观看到增强现实内容,但本质上看到的只是一段视频。
苹果Vision Pro使用的就是VST技术。
不过我们都知道,Vision Pro不仅笨重,佩戴需要套住整个头部,时间长了还会有明显的挤压感。
这是因为VST虽然深度体验感强,但是功耗很大,同时对硬件设备要求高,体积大不说,重量也很明显,主要还是被用在娱乐、游戏、影音方面。
而OST则是通过光学显示模组,通过透明显示屏或眼镜等设备将虚拟图像投影到用户的视野中,使用户能够同时看到真实世界和增强现实内容。
本质上,看到的还是真实世界。
比如Rokid之前推出的Rokid AR Lite就是使用的OST方案。
而Rokid Glasses采用的衍射光波导技术,其实就是在OST技术的基础上优化出来的,更先进的光波导技术。
简单来说就是利用光栅的衍射特性来设计光路,比起传统OST显示信息浮于场景,易产生“鬼影”,衍射光波导更像是在把信息“刻”在场景中;
很显然,轻便和应用场景广泛,是用户最核心的痛点——
在手机依旧在强调轻薄的当下,只能在特定场景使用的,笨重的穿戴设备,远不如AR眼镜来得自然和高效。
规模化起势,AR眼镜爆发前夜
但对于消费者来说,从技术突破到实际应用其实还有一段距离。
尽管黑马对Rokid自主研发的各种技术津津乐道,但要把技术落地成为消费品,毫无疑问是一个非常大的挑战。
衍射光波导、纳米压印等技术的成本摆在那里,规模化量产没起来,价格下不去,谁买?手机才几千块钱一部,眼镜却要卖几万,这不符合逻辑啊。