ChatGPT 公开发布两年后,各行各业的公司都希望利用大型语言模型(LLM) 来改变业务流程,因此关于 AI 的讨论已不可避免。然而,尽管 LLM 功能强大且前景光明,但许多业务和 IT 领导者已经过度依赖它们,而忽视了它们的局限性。这就是为什么我预计未来专业语言模型 (SLM) 将在企业 IT 中发挥更大的补充作用。
SLM 通常被称为“小型语言模型”,因为它们需要的数据和训练时间更少,是“ LLM 的更精简版本”。但我更喜欢“专业化”这个词,因为它更好地传达了这些专用解决方案能够以比 LLM 更高的准确性、一致性和透明度执行高度专业化的工作的能力。通过用 SLM 补充 LLM,组织可以创建利用每个模型优势的解决方案。
信任与法学硕士“黑匣子”问题
LLM 非常强大,但它们也因有时“失去主线”而闻名,即由于其通用训练和海量数据集而提供偏离轨道的输出。OpenAI的 ChatGPT和其他 LLM 本质上是“黑匣子”,不会透露它们如何得出答案,这一趋势变得更加成问题。
这个黑箱问题将在未来成为一个更大的问题,特别是对于公司和业务关键型应用程序而言,准确性、一致性和合规性至关重要。医疗保健、金融服务和法律就是典型的例子,在这些行业中,不准确的答案可能会带来巨大的财务后果,甚至生死攸关的后果。监管机构已经注意到了这一点,并可能会开始要求可解释的人工智能解决方案,尤其是在依赖数据隐私和准确性的行业。
虽然企业通常会采用“人机交互”方法来缓解这些问题,但过度依赖 LLM 可能会导致虚假的安全感。随着时间的推移,自满情绪会逐渐滋生,错误也会被忽视。
SLM = 更高的可解释性
幸运的是,SLM 更适合解决 LLM 的许多局限性。SLM 并非为通用任务而设计,而是针对更狭窄的焦点进行开发,并针对特定领域的数据进行训练。这种特殊性使它们能够在精度至关重要的领域处理细微的语言要求。SLM 不是依赖于庞大的异构数据集,而是针对有针对性的信息进行训练,从而为它们提供上下文智能,以提供更一致、更可预测和更相关的响应。
这有几个好处。首先,它们更容易解释,更容易理解其输出的来源和理由。这在受监管的行业中至关重要,因为这些行业的决策需要追溯到源头。
其次,SLM 体积更小,这意味着它们通常可以比 LLM 运行得更快,这对于实时应用程序来说是一个关键因素。第三,SLM 为企业提供了对数据隐私和安全的更多控制,尤其是在内部部署或专为企业构建的情况下。
此外,虽然 SLM 最初可能需要专门培训,但它们降低了使用由外部供应商控制的第三方 LLM 带来的风险。这种控制在要求严格数据处理和合规性的应用中非常有用。
专注于发展专业知识(并警惕过度承诺的供应商)
我想明确指出,LLM 和 SLM并不相互排斥。实际上,SLM 可以增强 LLM,从而创建混合解决方案,其中 LLM 提供更广泛的背景,而 SLM 确保精确执行。即使就 LLM 而言,现在也还处于早期阶段,因此我总是建议技术领导者继续探索 LLM 的众多可能性和优势。
此外,虽然 LLM 可以很好地解决各种问题,但 SLM 可能无法很好地转移到某些用例。因此,提前清楚了解要解决哪些用例非常重要。
业务和 IT 领导者投入更多时间和精力来培养培训、微调和测试 SLM 所需的独特技能也很重要。幸运的是,Coursera、YouTube 和Huggingface.co等常见资源提供了大量免费信息和培训。随着 AI 专业知识的争夺愈演愈烈,领导者应确保其开发人员有足够的时间学习和试验 SLM。
我还建议领导者仔细审查合作伙伴。我最近与一家公司进行了交谈,他们向我征求了有关某家技术提供商的说法的意见。我的看法是,他们要么夸大其词,要么根本就不了解该技术的能力。
该公司明智地退后一步,实施了受控的概念验证来测试供应商的说法。正如我所料,该解决方案根本还没准备好迎接黄金时段,而该公司只需投入相对较少的时间和金钱就能成功。
无论公司是从概念验证还是实际部署开始,我都建议他们从小处着手,经常测试并在早期成功的基础上继续发展。我个人曾经历过使用一小部分指令和信息进行工作,但当我向模型输入更多信息时,却发现结果偏离了方向。这就是为什么稳扎稳打是一种谨慎的做法。
总而言之,虽然 LLM 将继续提供越来越有价值的功能,但随着企业扩大对 AI 的依赖,其局限性也变得越来越明显。补充 SLM 提供了一条前进的道路,特别是在需要准确性和可解释性的高风险领域。通过投资 SLM,公司可以为他们的 AI 战略提供面向未来的保障,确保他们的工具不仅能推动创新,还能满足信任、可靠性和控制的要求。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/yu-yan-guo-du-slm-ru-he-da-bai-gui-mo-geng-da-zi-yuan-mi-ji