Cohere今天在其 Aya 项目中发布了两个新的开放权重模型,以缩小基础模型中的语言差距。
Aya Expanse 8B 和 35B 现已在Hugging Face上推出,扩展了 23 种语言的性能提升。Cohere 在一篇博客文章中表示,8B 参数模型“让世界各地的研究人员更容易获得突破性进展”,而 32B 参数模型则提供了最先进的多语言功能。
Aya 项目旨在扩大除英语之外的更多全球语言的基础模型的使用范围。该公司的研究部门 Cohere for AI 去年启动了 Aya 计划。今年 2 月,它发布了 Aya 101 大型语言模型 (LLM ),这是一个涵盖 101 种语言的 130 亿参数模型。Cohere for AI 还发布了 Aya 数据集,以帮助扩大对其他语言的模型训练的使用范围。
Aya Expanse 采用与制造 Aya 101 相同的配方。
“Aya Expanse 的改进是我们持续关注如何通过重新思考机器学习突破的核心构建模块来扩展人工智能服务世界各地语言的结果,”Cohere 表示。“过去几年,我们的研究议程包括专注于弥合语言差距,其中有几项突破对当前的方案至关重要:数据套利、针对一般性能和安全性的偏好训练,以及最终的模型合并。”
Aya 表现优异
Cohere 表示,两款 Aya Expanse 模型的表现始终优于谷歌、Mistral 和 Meta 等同类规模的 AI 模型。
Aya Expanse 32B 在基准多语言测试中的表现优于 Gemma 2 27B、Mistral 8x22B 甚至比尺寸大得多的 Llama 3.1 70B 更好。尺寸较小的 8B 也比 Gemma 2 9B、Llama 3.1 8B 和 Ministral 8B 表现更好。
Cohere 使用一种称为数据套利的数据采样方法开发了 Aya 模型,以避免模型依赖合成数据时产生乱码。许多模型使用由“教师”模型创建的合成数据进行训练。然而,由于很难为其他语言(尤其是资源匮乏的语言)找到好的教师模型。
它还专注于引导模型适应“全球偏好”,并考虑到不同的文化和语言观点。Cohere 表示,它找到了一种在引导模型偏好的同时提高性能和安全性的方法。
该公司表示:“我们认为这是训练 AI 模型的‘最后一道亮光’。然而,偏好训练和安全措施往往过度拟合以西方为中心的数据集中普遍存在的危害。问题是,这些安全协议经常无法扩展到多语言环境。我们的工作是首批将偏好训练扩展到大规模多语言环境、考虑到不同文化和语言观点的工作之一。”
不同语言的模型
Aya 计划的重点是确保法学硕士 (LLM) 研究在英语以外的语言中也能取得良好表现。
许多法学硕士课程最终都以其他语言提供,尤其是广泛使用的语言,但很难找到数据来训练不同语言的模型。毕竟,英语往往是政府、金融、网络对话和商业的官方语言,因此找到英语数据要容易得多。
由于翻译质量的原因,准确对不同语言模型的性能进行基准测试也很困难。
其他开发人员也发布了自己的语言数据集,以进一步研究非英语 LLM。例如,OpenAI 上个月在 Hugging Face 上制作了多语言大规模多任务语言理解数据集。该数据集旨在帮助更好地测试 14 种语言(包括阿拉伯语、德语、斯瓦希里语和孟加拉语)的 LLM 性能。
Cohere 最近几周一直很忙。本周,该公司为其用于检索增强生成 (RAG) 系统的企业嵌入产品Embed 3 添加了图像搜索功能。本月,该公司还增强了对其 Command R 08-2024 模型的微调。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/cohere-tui-chu-quan-xin-ai-mo-xing-zhi-zai-mi-he-quan-qiu