Mistral 推出其首款多模态模型 Pixtral 12B

王浩然 • 2024年9月13日上午8:00 • AI前沿 • 202 views

法国人工智能初创公司Mistral发布了其首个可处理图像和文本的模型。

这个名为 Pixtral 12B 的模型拥有 120 亿个参数，大小约为 24GB。参数大致对应于模型解决问题的能力，参数较多的模型通常比参数较少的模型表现更好。

新模型基于 Mistral 的文本模型之一 Nemo 12B 构建，可以根据给定的 URL 或使用二进制到文本编码方案 base64 编码的图像回答有关任意数量和任意大小图像的问题。与其他多模态模型（例如 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o）类似，Pixtral 12B 至少在理论上应该能够执行诸如为图像添加字幕和计算照片中物体数量等任务。

Pixtral 12B 可通过GitHub和 AI 及机器学习开发平台Hugging Face上的种子链接下载，并可在 Apache 2.0 许可下无限制地进行微调和使用。（Mistral 发言人通过电子邮件确认了 Pixtral 12B 适用的许可。）

不幸的是，本文作者未能试用 Pixtral 12B — 截至本文发表时，还没有任何可用的网络演示。在X 上的一篇文章中，Mistral 开发者关系负责人 Sophia Yang 表示，Pixtral 12B 将很快在 Mistral 的聊天机器人和 API 服务平台 Le Chat 和 Le Plateforme 上进行测试。

目前尚不清楚 Mistral 可能使用了哪些图像数据来开发 Pixtral 12B。

大多数生成式人工智能模型（包括 Mistral 的其他模型）都是基于来自网络的大量公共数据进行训练的，这些数据通常受版权保护。一些模型供应商认为，“合理使用”权赋予他们抓取任何公共数据的权利，但许多版权持有者不同意这一观点，并已对 OpenAI 和 Midjourney 等大型供应商提起诉讼，以阻止这种做法。

Pixtral 12B 是在 Mistral 完成由 General Catalyst 领投的 6.45 亿美元融资后推出的，这轮融资对该公司的估值为 60 亿美元。Mistral 成立仅一年多，由微软持有少数股权，被人工智能界许多人视为欧洲版的 OpenAI。这家年轻公司迄今为止的策略包括发布免费的“开放”模型，对这些模型的托管版本收费，以及向企业客户提供咨询服务。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/mistral-tui-chu-qi-shou-kuan-duo-mo-tai-mo-xing-pixtral-12b

AI Anthropic Apache Claude GPT-4o Midjourney Mistral OpenAI Pixtral

Like (0)

王浩然作者

0 0

字节入局AI硬件赛道，一切为火山引擎卖方案服务？

Previous 2024年9月12日下午10:00

Connectly 现已获得阿里巴巴的支持，利用人工智能向客户提供个性化短信

Next 2024年9月13日上午9:00

AI前沿

Couchbase 推出全新 Capella AI 服务，让企业 AI 更贴近数据

数据库平台开发商Couchbase正在寻求帮助解决企业 AI 部署中日益常见的问题。即如何以尽可能快速和安全的方式让数据更接近 AI。最终目标是使构建和部署企业 AI 变得更简单、…

王浩然
2024年12月3日
000
AI前沿

Forrester 谈网络安全预算：2025 年将成为 CISO 财务问责之年

90%的网络安全和风险领导者预测2025 年预算将增加，许多领导者正面临一个新的问责时代，董事会希望看到网络安全投资获得可观的回报。鉴于 CISO 的典型预算中有35.9%用于软…

王浩然
2024年12月31日
000
AI前沿

Microsoft Outlook 现在允许您创建个性化的 AI 主题

微软周四宣布，Outlook 将推出一项新功能，允许您使用生成式 AI 根据个人喜好创建主题。拥有 Copilot Pro 消费者订阅和启用了 Copilot 的企业帐户的用户可…

王浩然
2024年11月8日
000
AI前沿

改变我们在董事会中对 GenAI 的看法：把握短期和长期投资回报率

随着世界各地的领导团队开始规划 2025 年，每个人都在思考一个问题：他们在人工智能和/或生成式人工智能 (GenAI) 上的投资何时能获得回报。Google Cloud 的最新研…

点点
2024年10月11日
000
AI前沿

人工智能与人工智能：权威手机数据如何帮助预防人工智能欺诈

人工智能（AI）与任何其他技术一样，本质上没有好坏之分——它仅仅是人们可以用于正当或恶意目的的工具。例如，许多公司在语音和面部识别中使用人工智能生物识别解决方案来简化登录流程，并…

点点
2024年9月28日
000
AI前沿

Stability AI 发布迄今为止最强大的图像生成模型

Stability AI宣布发布Stable Diffusion 3.5，标志着开源AI图像生成模型的一次飞跃。 Stability AI 的最新模型包括多种变体，旨在满足从业余爱…

点点
2024年10月24日
000
AI前沿

人工智能需求推动数据中心耗水量飙升

人工智能热潮推动了对数据中心的需求，进而推高了水资源消耗。（水用于冷却数据中心内的计算设备。）《金融时报》报道，在弗吉尼亚州——世界上数据中心最集中的地方——2019 年至 202…

王浩然
2024年9月1日
000
AI前沿

AWS 将数据库价格降低近 50%，并增加了分布式扩展功能

AWS正在扩展其云数据库产品组合的功能，同时降低企业成本。在今天的AWS re:invent 2024会议上，这家云计算巨头概述了一系列云数据库创新。其中包括新的 Amazon …

王浩然
2024年12月6日
000
AI前沿

随着中国模型缩小人工智能领导地位的差距，OpenAI 面临严峻考验

在快速发展的人工智能领域，竞争日趋激烈，在高级推理模型的争夺中，竞争尤为明显。仅在过去几天，来自中国开发商的三款新人工智能模型——Deepseek R1（HighFlyer Cap…

王浩然
2024年12月1日
000
AI前沿

微软正致力于打造适用于Copilot的3D游戏体验‌

近期，有迹象表明微软正着手开发一款专为Copilot设计的3D游戏体验。这一举措不仅彰显了微软在游戏领域的持续探索与创新，也预示着AI与游戏技术的深度融合将迎来新的发展阶段。据悉…

王浩然
2025年3月12日
000
AI前沿

D-ID 推出可进行实时对话的全新高质量虚拟形象

AI 视频平台 D-ID 今天宣布推出两种用于内容创作的新类型化身——Express 和 Premium+。各家公司都在追逐创造更像人类的人工智能形象的金蛋，这些形象可能会减轻企…

王浩然
2024年11月2日
000
AI前沿

AI 女友就是一个陷阱

作为对 GPT-4o 的回应，谷歌在 8 月发布了 Gemini Live，试图让 AI 助手可以像真人一样对话。这个新助手的对话效果是如此之好，以至于让外媒记者 Joanna S…

点点
2024年9月3日
000
AI前沿

PlayAI 根据指令克隆声音

早在 2016 年，Hammad Syed 和前 WhatsApp 工程师 Mahmoud Felfel 就认为为 Medium 文章开发一款文本转语音 Chrome 扩展程序会很…

王浩然
2024年11月30日
000
AI前沿

谷歌开始在乌拉圭建设价值 8.5 亿美元的数据中心

新设施旨在提高人工智能能力、支持经济增长和实现可持续发展

点点
2024年9月5日
000
AI前沿

通过模块化人工智能打造数字化劳动力

工作平台Monday.com的AI发展历程、战略及技术特点，展现其如何借助AI提升竞争力并推动企业软件开发模式的演进，具体内容如下： 1. **发展背景**：Monday.com致…

王浩然
2025年2月11日
000
AI前沿

Meta 的最新研究如何证明可以使用生成式人工智能来理解用户意图

Meta ——Facebook、Instagram、WhatsApp、Threads 等的母公司——运行着世界上最大的推荐系统之一。在最近发布的两篇论文中，研究人员揭示了如何使用…

王浩然
2025年1月4日
000
AI前沿

为什么人工智能无法拼写“草莓”

在“strawberry”这个词中，字母“r”出现了多少次？根据GPT-4o和Claude等强大的 AI 产品的说法，答案是两次。大型语言模型 (LLM) 可以在几秒钟内写出论文…

王浩然
2024年8月28日
000
AI前沿

人工智能如何改变零售业：视频分析的作用

人工智能已成为重塑全球行业不可或缺的工具，零售业也不例外。从增强客户体验到优化运营，人工智能驱动的技术正在对整个零售生态系统产生深远影响。最引人注目的创新之一是视频分析，它通过使用…

王浩然
2025年1月12日
000
AI前沿

Hugging Face 上孕育出 100 万个 AI 模型

Hugging Face 引用社区驱动的定制作为多样化 AI 模型繁荣的动力。

点点
2024年10月1日
000
AI前沿

谷歌的人工智能笔记应用程序 NotebookLM 现在可以大声向你解释复杂的主题

谷歌周三宣布，其人工智能笔记和研究应用NotebookLM将添加“音频概览”功能。音频概览将为用户提供另一种方式来消化和理解他们上传到该应用的文档中的信息，例如课程阅读材料或法律摘…

王浩然
2024年9月13日
000

发表回复

Please Login to Comment

Mistral 推出其首款多模态模型 Pixtral 12B

相关推荐

发表回复

Share To :