学研动态
清华、哈工大提出OneBit方法:可把大模型压缩到1bit并保持83%性能 3月4日,清华大学和哈尔滨工业大学联合发布了一篇论文,论文提出乐OneBit方法,首次尝试将预训练大模型压缩到真正的1bit。通过全新的1bit层结构、基SVID的参数初始化和量化感知训练,成功将大模型参数压缩到1bit 表示。该方法不仅保留了模型的高精度和高秩,还能够在极大幅度压缩模型参数的同时,保证模型至少83%的性能。 港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力 3月4日,香港科技大学和南方科技大学的研究团队构建了首个包含视觉图的推理问答数据集GITQA,并在GPT-4 turbo,GPT-4V等开源模型和Vicuna,LLaVA等闭源模型上进行了广泛的实验,证实了Visual Graph在图推理中的作用,以及其可以和文本模态相互增强。 研究人员推新AI框架CyberDemo:通过视觉观察让机器人模仿学习 3月7日,加利福尼亚大学圣地亚哥分校(UCSD)和南加利福尼亚大学(USC)的研究人员最近推出了一种名为CyberDemo的新型人工智能框架,旨在通过视觉观察进行机器人模仿学习。相比传统方法,CyberDemo在任务成功率上取得了显著提高。在涉及未见过的物体时,CyberDemo的泛化能力特别突出,旋转新物体的成功率达到42.5%。 产业要闻 Stack Overflow与谷歌合作,将向Gemini开放API 3月3日,程序员问答平台Stack Overflow发布公告称,已与谷歌Google Cloud建立战略合作伙伴关系,后者将利用OverflowAPI获得接入Stack Overflow知识库的权限,以丰富Google Cloud中的Gemini,并在Google Cloud控制台中提供经过验证的Stack Overflow答案。 Anthropic 发布 Claude 3 系列大语言模型 3月4日,人工智能创业公司Anthropic宣布推出其突破性的Claude 3系列模型,该系列大型语言模型 (LLM) 在各种认知任务上树立了新的性能标杆。Claude3系列包含三个子模型,分别为Claude 3 Haiku、Claude 3 Sonnet和 Claude 3 Opus,它们提供不同程度的智能、速度和成本选择,以满足各种人工智能应用需求。 谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表 3月5日,谷歌发布了ScreenAI,这一AI模型不仅能理解用户界面和信息图表,而且在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。ScreenAI的核心创新在于对截图的文本表示方法。该模型能够识别UI元素的类型和位置,这一方法使用了Google LLM PaLM2-S生成的合成训练数据,使其能够回答关于屏幕信息、屏幕导航和总结屏幕内容的问题。 北京首个车联网新型基站完成验证 3月5日,北京移动联合中国移动研究院、中兴通讯共同部署完成了北京首个车联网业务新型基站的端到端验证。传统的无人驾驶车辆主要依靠车辆上的多重传感器实现智能驾驶。未来智能网联汽车将无需挂载昂贵的传感器设备,由路侧设备就能提供驾驶信息、交通信息和路况信息,让更多汽车具备自动驾驶功能。此次试验的车联网新型基站就相当于路的“眼睛”,能让道路更加智慧化。 星动纪元开源端到端强化学习训练框架“Humanoid-Gym” 3月5日,具身智能与人形机器人公司星动纪元联合清华大学、上海期智研究院开源了人形机器人强化学习训练框架Humanoid-Gym。Humanoid-Gym框架旨在通过精心设计的奖励函数以及域随机化技术,简化人形机器人的训练以及实现 sim-to-real转换的难度,从而解决由于人形机器人结构高度复杂性导致其在强化学习训练以及从模拟环境向真实世界迁移的过程中遇到的挑战。 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量 3月5日,谷歌宣布针对用户对搜索结果质量下降的反馈,将对算法进行调整,旨在打击AI生成的内容以及内容农场等垃圾信息,使用户能够看到更多“有用信息”。谷歌产品管理总监Elizabeth Tucker解释说,即将到来的更新重点在于增强核心排名系统,以评估网页质量、用户体验和真实性。这次更新还将识别大规模生成的低价值内容(如伪造成用户搜索结果的垃圾网站),并采取相应的措施。 欧盟《数字市场法》生效给全球科技巨头敲警钟 3月7日,欧盟《数字市场法》(DMA)正式落地生效。作为欧盟针对科技巨头颁布的反垄断举措之一,它将明确数字服务提供者责任,遏制大型网络平台恶性竞争行为,确保消费者有更多选择。《纽约时报》等外媒认为,该法案具有里程碑式意义,其落地意味着“监管大型科技公司的转折点”。 PreemptiveAI获640万美元资金,用智能手机和可穿戴设备数据构建AI医疗模型 3月7日,西雅图初创公司PreemptiveAI宣布成功融资640万美元,该公司致力于构建最具预测性的大型医疗模型,通过利用智能手机和可穿戴设备的生物医学信号,计划开发AI软件,用于预测健康结果。该初创公司的目标是回答关于心脏病发作或中风的可能性以及对药物剂量变化的反应等健康问题。潜在的客户群包括医疗服务提供商、药物开发商和保险公司。 阿里巴巴推出 AtomoVideo 图生视频框架,兼容多种文生图模型 3月7日,阿里巴巴研究团队推出了AtomoVideo高保真图生视频(I2V,Image to Video)框架,旨在从静态图像生成高质量的视频内容,并与各种文生图模型兼容。AtomoVideo使用预先训练好的T2I模型为基础,在每个空间卷积层和注意力层之后新添加一维时空卷积和注意力模块,只训练添加的时空层。由于输入的串联图像信息仅由VAE编码,代表的是低层次信息,能够增强视频相对于输入图像的保真度。