仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破
2025-01-15
清华大学、香港大学和上海AI Lab联合提出了一种新的多模态大模型位置编码方法——Variable Vision Position Embedding (V2PE),解决了视觉-语言模型(VLMs)在长上下文场景下的性能瓶颈问题。通过为视觉token分配可变位置增量,V2PE显著提升了模型处理超长上下文任务的能力,尤其是在32K至1M长度的序列中表现优异。研究团队还构建了增强的长上下文多模态数据集,验证了V2PE的有效性。
舆情等级
重要
舆情评分
正面舆情
舆情解析
点击查看舆情源网页
该舆情内容与MR(混合现实)股票概念板块直接相关,因为V2PE技术的进步将推动多模态大模型在长上下文场景中的应用,这对MR技术有积极影响。短期内,这一进展可能不会立即反映在股价上,但从中长期来看,技术突破将提升相关企业的竞争力,吸引更多投资。对于短线投资者,建议关注市场反应和技术应用进展;对于中长线投资者,这是一个积极信号,表明行业前景向好,值得继续持有或增持。
重要提示和声明
本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需详细阅读有关
请点击此处