法国人工智能初创公司Mistral发布了其首个可处理图像和文本的模型。
这个名为 Pixtral 12B 的模型拥有 120 亿个参数,大小约为 24GB。参数大致对应于模型解决问题的能力,参数较多的模型通常比参数较少的模型表现更好。
新模型基于 Mistral 的文本模型之一 Nemo 12B 构建,可以根据给定的 URL 或使用二进制到文本编码方案 base64 编码的图像回答有关任意数量和任意大小图像的问题。与其他多模态模型(例如 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o)类似,Pixtral 12B 至少在理论上应该能够执行诸如为图像添加字幕和计算照片中物体数量等任务。
Pixtral 12B 可通过GitHub和 AI 及机器学习开发平台Hugging Face上的种子链接下载,并可在 Apache 2.0 许可下无限制地进行微调和使用。(Mistral 发言人通过电子邮件确认了 Pixtral 12B 适用的许可。)
不幸的是,本文作者未能试用 Pixtral 12B — 截至本文发表时,还没有任何可用的网络演示。在X 上的一篇文章中,Mistral 开发者关系负责人 Sophia Yang 表示,Pixtral 12B 将很快在 Mistral 的聊天机器人和 API 服务平台 Le Chat 和 Le Plateforme 上进行测试。
目前尚不清楚 Mistral 可能使用了哪些图像数据来开发 Pixtral 12B。
大多数生成式人工智能模型(包括 Mistral 的其他模型)都是基于来自网络的大量公共数据进行训练的,这些数据通常受版权保护。一些模型供应商认为,“合理使用”权赋予他们抓取任何公共数据的权利,但许多版权持有者不同意这一观点,并已对 OpenAI 和 Midjourney 等大型供应商提起诉讼,以阻止这种做法。
Pixtral 12B 是在 Mistral 完成由 General Catalyst 领投的 6.45 亿美元融资后推出的,这轮融资对该公司的估值为 60 亿美元。Mistral 成立仅一年多,由微软持有少数股权,被人工智能界许多人视为欧洲版的 OpenAI。这家年轻公司迄今为止的策略包括发布免费的“开放”模型,对这些模型的托管版本收费,以及向企业客户提供咨询服务。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/mistral-tui-chu-qi-shou-kuan-duo-mo-tai-mo-xing-pixtral-12b