上海 AI 实验室开源多模态大型语言模型 IXC-2.5，填补国内空白

aixo 2024-07-06 11:16:53

2024-07-06 11:16:53

昨天，上海AI实验室给我们带来了一个巨大的惊喜——开源了一款名为--2.5（简称IXC-2.5）的多模态大型语言模型。这不是一个普通的模型，它在多个方面展现出了超凡的能力，特别是在超高分辨率图像理解、细粒度视频理解和多轮图像对话上，它的表现让人印象深刻。

更令人称赞的是，IXC-2.5对网页制作和图文混排文章进行了特别的优化，这对于那些需要在网页上展示丰富内容的创作者来说，无疑是一个巨大的福音。而且，IXC-2.5的开源，也填补了国内在多模态LLM领域的空白。

IXC-2.5模型的特点:

长上下文处理:IXC-2.5原生支持24K标记的输入，并可扩展到96K，这意味着它能够处理超长的文本和图像输入，为用户提供了更大的创作空间。

多样化视觉能力:它不仅支持超高分辨率的图像理解，还能进行细粒度的视频理解和多轮多图对话，这在以往的模型中是难以想象的。

生成能力:IXC-2.5能够生成网页和高质量的图文文章，将文本和图像的结合提升到了一个新的高度。

模型架构:它包括了一个轻量级的视觉编码器、一个大型语言模型，以及部分LoRA对齐技术，这些技术的结合，让IXC-2.5在性能上有了显著的提升。

测试结果:在28个基准测试中，IXC-2.5在16项测试中超过了现有的开源模型，另外16项测试中的表现接近或超过了GPT-4V和 Pro，这足以证明其强大的实力。

多轮对话演示

IXC-2.5的研发是上海人工智能实验室、香港中文大学、商汤科技集团以及清华大学的联合团队的杰作。这个模型的设计初衷是为了支持长上下文的输入与输出，以应对日益复杂的文本图像理解和创作任务。

在图像处理方面，IXC-2.5采用了统一的动态图像分割策略，能够适应任意分辨率和纵横比的图像。而在视频处理方面，它能够将视频中的帧沿短边拼接，形成高分辨率图像，同时保留帧的索引以提供时间关系。

图文混排演示

预训练阶段，IXC-2.5通过位置编码外推，将上下文窗口扩展到96K，这在人机交互和内容创作方面展现出了卓越的能力。在监督式微调阶段，IXC-2.5通过特定的数据集进行训练，以处理极大的图像和视频。

此外，IXC-2.5还扩展了其在网页生成方面的应用，能够根据视觉截图、自由形式指令或简历文档自动构建网页。在文本图像文章创作方面，IXC-2.5通过结合多种技术，提出了一种可扩展的流程，以生成高质量和稳定的文本图像文章。

经过一系列综合实验，IXC-2.5在多个基准测试中表现出色，它在视频理解、结构化高分辨率图像理解、多轮多图对话和通用视觉问答等任务上，展现出了强大的竞争力。

IXC-2.5的开源，不仅是技术上的一次飞跃，更是对整个人工智能领域的一大贡献。它让我们看到了多模态LLM的无限可能，也为未来的AI应用开辟了新的道路。

项目地址：

论文地址：

副业搞钱交流群

欢迎大家加入交流群，扫码进入，畅谈AI赚钱心得，共享最新行业动态，发现潜在合作伙伴，迎接未来的赚钱机遇！。

LLM