Mistral AI 终于进军多模态领域。今天,这家法国 AI 初创公司与 OpenAI 和 Anthropic 等公司展开竞争,发布了 Pixtral 12B,这是其首款同时具备语言和视觉处理能力的多模态模型。
虽然该模型目前尚未在公共网络上发布,但可以从Hugging Face或GitHub下载其源代码,以在单个实例上进行测试。这家初创公司再次打破了AI 模型的典型发布趋势,首先提供了一个 torrent 链接来下载新模型的文件。
不过,该公司开发者关系主管 Sophia Yang 在X 帖子中指出,该公司将很快通过其网络聊天机器人提供该模型,让潜在的开发者可以试用。它还将在 Mistral 的 La Platforme 上推出,该平台提供使用该公司模型的 API 端点。
Pixtral 12B 带来了什么?
虽然新模型的官方细节(包括训练数据)仍处于保密状态,但核心理念似乎是 Pixtral 12B 将允许用户分析图像,同时结合文本提示。因此,理想情况下,人们可以上传图像或提供图像链接,并询问有关文件中主题的问题。
这是 Mistral 的首次举措,但值得注意的是,包括 OpenAI 和 Anthropic 等竞争对手在内的多种其他模型都已经具备图像处理能力。
当一位 X 用户询问杨先生,Pixtral 的 120 亿参数模型有何独特之处时,她回答说,该模型本身就可以支持任意数量和任意大小的图像。
正如X上的初始测试人员所分享的那样,24GB 模型的架构似乎有 40 层、14,336 个隐藏维度大小和 32 个注意力头,可进行大量的计算处理。
在视觉方面,它有一个专用的视觉编码器,支持 1024×1024 图像分辨率和 24 个隐藏层,用于高级图像处理。
然而,当公司通过 API 提供该功能时,这种情况可能会改变。
Mistral 将全力以赴挑战领先的 AI 实验室
随着 Pixtral 12B 的推出,Mistral 将进一步实现内容和数据分析等视觉应用的民主化。是的,开放模型的确切性能还有待观察,但这项工作无疑建立在该公司在 AI 领域采取的积极态度之上。
自去年推出以来,Mistral 不仅建立了强大的模型管道,与 OpenAI 等领先的人工智能实验室展开竞争,而且还与微软、AWS 和 Snowflake 等行业巨头合作,扩大其技术的影响力。
就在几个月前,它以 60 亿美元的估值筹集了 6.4 亿美元,随后推出了 Mistral Large 2,这是一个 GPT-4 类模型,具有先进的多语言功能以及在推理、代码生成和数学方面的改进性能。
它还发布了混合专家模型Mixtral 8x22B 、一个名为Codestral的 22B 参数开放权重编码模型,以及用于数学相关推理和科学发现的专用模型。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/pixtral-12b-xian-yi-shang-shi-mistral-de-xin-xing-duo-mo