过去十年,酒店智能化一直在做一件事——让客房”听懂人话”。你说”开灯”,它开灯。你说”空调26度”,它调到26度。
这个阶段,2026年基本走到头了。小度覆盖了260万间客房、市占率超过九成,语音控制已经成了中高端酒店的标配。
但今年3月和4月的两场发布会,释放了一个更深的信号:酒店智能化正在从”听命令”切换到”主动伺候”。
3月12日,AWE2026上海,小度首次以”超能小度”多模态AI助手为核心,展示了覆盖家庭、酒店、养老的完整生态。3月31日,上海国际酒店博览会,小度AI酒店解决方案4.0发布,核心变化就一个词:多模态感知理解。
这事的影响,可能比很多人想的要大。

一个被忽略的转折点:2025年底
很多人知道小度AI酒店4.0是2026年4月发布的。但很少有人注意到,技术底座的升级其实发生在2025年底。
那年年底,小度科技完成了一次关键升级——推出了基于大模型打造的“超能小度”多模态AI智能助手。这个升级的核心不在于优化了语音识别率(那已经是小数点后的战争了),而在于让小度从”只能听”变成了“能看、能感知、能理解环境”。
先看一组数据,理解这场升级的底座规模:
5400万
小度设备覆盖家庭数
71亿次/月
DuerOS单月语音交互次数
7亿台
搭载DuerOS的智能设备总量
3亿台
可连接IoT智能家居设备数
这组数据来自小度官方和中国电子报的调研报道。5400万家庭、71亿次月交互、7亿设备、3亿IoT——这不是一个音箱品牌的规模,而是一个AI操作系统的渗透率。
而”超能小度”的出现,意味着这个操作系统从”语音单模态”切换到了”多模态”。用百度集团副总裁、小度科技CEO李莹在AWE2026上的原话说:“未来消费级智能硬件的发展方向,不是打造更多新硬件形态,而是让AI在真实场景里创造更多新价值。”
“能看会想”四个字,对酒店意味着什么
先说清楚”多模态感知理解”到底是什么,否则这个话题容易变成AI黑话。
小度AI酒店3.0及之前版本,本质是“语音指令→设备执行”。住客开口说”开灯””关窗帘””空调26度”,设备照做。这个模式的问题是:住客必须主动发现问题并下达指令。
比如房间温度高了,住客感觉热了,才会说”空调调低”。如果住客睡着了、或者不擅长操作智能设备,系统就是”瞎的”——它感受不到温度变化,更不会主动做任何事。
4.0的”多模态感知理解”改变了这个逻辑。根据PChome和CNU科技对4.0发布会的报道,新系统可以实现三个层面的”主动感知”:
环境感知
系统自动监测房间温湿度、光线变化。室温升高时自动联动空调,湿度不足时启动加湿器,光线变暗时调节灯光——住客不需要开口,房间自己在”照顾”住客。
行为预判
通过对住客行为的连续分析,预判需求。比如检测到住客躺下并保持静止一段时间,系统判断”可能睡着了”,自动调暗灯光、降低电视音量、启动勿扰模式。
语义理解
住客不再需要固定指令。说”有点热”和说”空调调低两度”,系统能理解是同一个需求。说”帮我拿瓶水”可以直接触发机器人配送,不需要先唤醒再逐级选择菜单。
这四个字总结起来——“无感服务”。PChome的报道中引用了合作酒店的实际数据:方案日均减少前台通话量133次,相当于降低0.83人/店的人力成本,通过AI调度机器人配送物品的响应效率提升50%。
两代方案的底层逻辑:从”问答机”到”管家”
与其罗列技术参数,不如用一张表看清3.0和4.0的本质区别:
| 维度 | AI酒店3.0及之前 | AI酒店4.0(超能小度) |
|---|---|---|
| 交互模式 | 被动响应:住客提问→设备回答/执行 | 主动服务:设备感知→预判需求→自动执行 |
| 感知能力 | 单一语音:只”听”得住客说的话 | 多模态:视觉+语音+温湿度+光线+行为 |
| 指令方式 | 固定唤醒词+结构化指令 | 自然语言,不需固定句式 |
| 环境联动 | 住客手动触发 | 自动感知温湿度/光线→联动空调/灯光/窗帘 |
| 服务触发 | 住客明确下达服务指令 | 行为预判→主动建议或自动触发 |
| 设备协同 | 单设备独立响应 | 多设备协同:语音+机器人+窗帘+空调同时联动 |
| 住客感受 | “我在操作一台机器” | “房间在照顾我” |
这个转变的核心,不是语音识别率从98%提到了99%,而是交互范式变了——从”人主动找机器”变成”机器主动感知人”。
“第一双眼”:智能摄像机为什么是酒店多模态的入口
AWE2026上,小度重点展示了一个看似和酒店关系不大的产品——智能摄像机。但李莹将其定位为小度”能看会想”能力的“第一双眼”。
这台摄像机搭载了4K超清画质和高性能AI芯片,依托”超能小度”的多模态感知能力,能做到的不只是”监控画面变化”,而是对物理世界的深层情境认知。
腾讯新闻在AWE2026现场报道中提到一个细节:用户可以直接用自然语言下达看护指令,比如”孩子靠近窗台时提醒我”,系统会自动拆解意图,识别具体对象和行为,完成”看懂事件”的逻辑。
这个能力放到酒店场景里,想象空间就大了。虽然目前酒店版产品(智能屏X8 plus、4英寸无屏音箱、智能投影仪)主要走的是”环境传感器+语义理解”路线,但”超能小度”的技术底座是统一的——家庭端积累的视觉理解能力,理论上可以直接迁移到酒店场景。
小度科技核心策略:以”超能小度”为统一AI大脑,以智能音箱、智能屏、AI眼镜、智能摄像机为多元感知节点,构建覆盖家庭、可穿戴、酒店、养老等全场景的智能生态。酒店不是孤立业务线,而是整个多模态生态中的一个场景节点。
这也是为什么小度特别强调”超能小度·智能引擎”对合作伙伴开放。根据AWE2026的官方信息,小度已与超1500个优质品牌和平台、200+品类生态设备实现无缝连接。智能家居Skills已登陆ClawHub,深度融入OpenClaw生态。
中国电子报在调研报道中指出,”小度最得意的正是其核心操作系统DuerOS——依托在人工智能、语音识别、自然语言处理等领域的技术优势,以DuerOS为中枢,通过合作赋能的方式构建智能生态”。多模态升级后,这个生态的感知维度从一维变成了多维。
三款酒店版新品:硬件是载体,感知是灵魂
4.0发布会上,小度同时发布了三款酒店版定制硬件。很多人可能会把它们当成”常规新品迭代”,但如果放在”多模态感知”这个框架下看,每一款都有明确的感知升级定位:
智能屏X8 plus
酒店版
集成温湿度传感器,支持环境自适应调节。这是”环境感知”能力的硬件载体——不只是显示和控制,本身就是感知节点。
4英寸无屏音箱
酒店版
强化通话稳定性,配备一键呼叫功能。面向经济型酒店,降低多模态感知的硬件门槛——无屏不等于无感知,语音+环境传感器同样可以采集数据。
智能投影仪
酒店版
通过大屏娱乐升级客房体验。支持语音+语义自然交互。这个品类的加入说明小度正在把”智能客房”的定义从”控制设备”扩展到”内容+服务+环境”的全方位感知。
三款产品覆盖了从经济型到高端的不同档次,但内核是同一个——搭载”超能小度·智能引擎”,让客房从”能听话”变成”会照顾人”。
关键时间线:从”听命令”到”主动服务”的三个节点
2018-2023年 / 语音音箱时代
小度以智能音箱切入酒店客房,核心能力是”听得懂”。住客通过固定唤醒词+关键词控制灯光、空调、窗帘。本质是语音替代遥控器。
2023-2025年 / 智能屏+客控时代
小度推出酒店版智能屏,加入触控交互和PMS对接。从”语音控制”扩展到”可视化+场景联动+服务闭环”。本质是从遥控器变成服务入口。
2025年底 / “超能小度”多模态升级
基于大模型打造多模态AI助手,从”语音单模态”跨越到”视觉+语音+环境感知”。这是技术底座级别的升级,不只是一个版本迭代,而是一次范式切换。
2026年3月 / AWE2026全生态亮相
以”超能小度”为统一大脑,展示智能摄像机(第一双眼)、AI眼镜(随身场景)、全屋智能(家庭场景)+AI酒店/AI养老解决方案。酒店被定位为多模态AI生态的一个核心场景节点。
2026年4月 / 小度AI酒店4.0发布
搭载”超能小度·智能引擎”,首次实现多模态感知理解。三款酒店版新品发布。合作云迹(机器人)和杜亚(智能窗帘),从”设备控制”扩展到”环境感知+服务闭环”。启动全球化(首站泰国+新加坡)。
为什么说这次升级不只是”版本号加一”
回顾小度在酒店领域的七年历程,前两个阶段本质上都是在优化”指令-响应”这条链路的效率——识别更准、响应更快、场景更多。这是量变。
但4.0不一样。它改变了触发机制。
“过去住客往往需要通过非常生硬的固定口令来唤醒设备并下达指令。而现在,全新的系统实现了从基础的语音交互向多模态感知理解的跨越。”——aiflashdesk对4.0发布会的技术解读
这个转变有三个层次的行业影响:
第一层:住客体验的”去操作化”
住客不需要学任何指令,不需要知道设备怎么用。房间自己会“察言观色”——温度高了自动降温,光线暗了自动调光,人睡着了自动静音。这不是”智能”,是“隐形服务”。好酒店的服务本来就是看不见的——你在需要的时候它刚好出现,不需要的时候感觉不到它的存在。多模态感知让机器第一次有可能做到这一点。
第二层:酒店运营的”数据升维”
3.0时代,酒店拿到的是语音指令数据——住客说了什么、几点说的、说了多少次。4.0时代,数据维度从”语音”扩展到“环境+行为+时空”——哪个时段的房间温湿度波动最大?客人通常在什么状态下入睡?哪些客人更倾向于手动操作、哪些更接受自动调节?
这些数据对酒店的收益管理、能耗优化、服务排班都有直接价值。
第三层:行业竞争格局的”范式切换”
如果酒店智能化的竞争停留在”谁的语音识别更准”,那是一个可以靠砸钱追上的赛道。但一旦进入”多模态感知+主动服务”的范式,核心壁垒变成场景数据+算法模型+生态协同——不是你买一台音箱插上就能追上的。
小度在酒店场景有260万间客房、8年持续运营的数据积累。当这些数据从”语音指令”升级为”环境+行为”多维数据后,数据飞轮的转速会大幅加快。
三个必须正视的问题
第一,隐私边界在哪里?
多模态感知意味着设备在”看”和”感受”房间里的状态。智能摄像机即便不装在客房内部,环境传感器也在持续采集温湿度和光线数据。住客是否清楚什么数据被采集、什么数据不上传?这个信任问题,比语音时代的”偷听”争议更复杂。
小度在第一篇隐私白皮书中提出过”无摄像头、无账号登录、退房重置”的三道防线。但多模态时代,隐私保护的维度需要从”语音”扩展到”视觉+环境+行为”。目前官方尚未发布针对多模态场景的专门隐私方案。
第二,误判的风险有多大?
主动服务的另一面是“自作聪明”。客人只是躺在床上刷手机,系统误判为”睡着了”自动关灯——这个体验比被动响应还差。多模态感知的准确率需要比语音识别更高,因为错误的代价更直接。
从技术角度看,PChome报道中提到的”日均减少前台通话133次、降低0.83人/店人力成本”是一个正面信号,但”误判率”这个关键指标目前没有公开数据。
第三,成本会不会吃掉价值?
多模态感知需要更复杂的传感器和更强的边缘计算能力。虽然小度走的蓝牙Mesh直连路线在施工成本上有优势,但传感器硬件的增加和算力需求的提升,会不会让”智能化改造”的单价重新回到让经济型酒店望而却步的水平?
这个问题取决于小度能否像蓝牙Mesh方案一样,找到”砍掉中间环节”的成本优化路径——比如用云端算力替代本地算力、用软件定义替代硬件堆叠。
读者热议(模拟评论区)
酒店郑导
我们酒店去年装了小度3.0,客人反馈确实好,但主要还是当遥控器用。4.0这个”主动感知”如果能落地,那确实不一样了。不过我最担心的就是误判——客人半夜起来上厕所,别给人家把灯全打开了。
科技观察者老K
“超能小度”这个引擎从家庭切到酒店,逻辑上是通的。5400万家庭的场景数据训练出来的多模态模型,放到酒店场景调优,数据壁垒比单纯的语音深多了。
连锁酒店投资人
我最关心的是成本。蓝牙Mesh方案800块一间房我们装得起,温湿度传感器加边缘计算要多加多少?别搞到最后高端酒店专属,下沉市场又没戏了。
总结
小度从2018年第一台酒店版音箱到今天,走了七年。
前六年做的事,可以概括为“让客房听懂人”——把语音控制从一个噱头做成了行业标配。260万间客房、九成以上市占率,这个阶段的任务基本完成了。
但”超能小度”多模态升级揭开了下一个阶段:“让客房照顾人”。
这不是添几个传感器、加几个场景的事。这是交互范式的根本切换——从”人主动找机器”到”机器主动理解人”。一旦这个范式跑通,酒店智能化的竞争就不再是语音识别率的差异,而是数据维度、算法深度、生态广度的三维竞争。
当然,隐私边界的定义、误判率的控制、成本的平衡——这三个问题不解决,多模态感知就只是”2026年最热闹的PPT”。
但方向已经明确了。酒店智能化的下一程,不是”更准的耳朵”,而是“能看懂房间的眼睛”。





