谷歌PaLM-E模型推出,多模态语言模型走向机器人应用。AI与机器人发展相互独立,随2006年深度学习出现,AI开始落地机器人应用。早期AI+机器人主要集中于计算机视觉与语义分析两大应用。直到2017年Transformer模型推出后,多模态大模型飞速发展,机器人应用逐渐向情感交流、多维数据交互发展。2023年3月,谷歌推出全球最大视觉语言模型PaLM-E,实现机器人视觉与文字的同步训练;同期,微软发布论文尝试将CHATGPT接入机器人训练,引起行业广泛关注。我们认为多模态应用于机器人有助于降低机器人编程成本、提升人机交互能力、生动化应用场景,或是技术大势所趋。
► 场景要素:适当容错率与数据非私有化格外重要。我们总结多模态大语言模型应用在机器人场景需要四大要素:其中,工艺不涉及商业机密、容错率偏高是必要条件;另外,编程标准化程度高、一次性初始化编程是可选条件。我们认为To C端应用是理想场景,例如家庭陪伴服务机器人、送餐快递机器人;此外,移动机器人、食品鞋服等行业搬运机器人、售后运维环节机器人应用有望在工业场景率先落地。
► 落地难点:合理权衡商业机密与编程效率间的关系。编程效率的提高意味着数据要尽可能开源、生产工艺要尽可能标准化、人工反馈环节要尽可能减少,但这恰好意味着商业机密要公开、市场竞争规律被抹平。我们认为编程效率与机密伦理的权衡对于多模态大语言模型大规模推广至关重要。此外大模型天然具有可信度、时效性、训练成本高等问题,大模型或在部分应用场景落地率先到来。
► 格局冲击:固有格局较难打破。我们认为在企业间商业数据不完全打通背景下,数据要素是核心竞争力,固有格局较难打破;在商业数据打通背景下,机器人本体企业的核心竞争力更多体现为控制能力与硬件制造能力,即如何让运动变得更加高速、精准。
我们看好大语言模型应用长期落地的趋势,认为具有自主软件训练能力的机器人企业有望核心受益。
风险
CHATGPT技术迭代速度慢于预期、机器人零部件自主化进度不及预期。