谢谢您的订阅!
当新的内容发布后您将开始接收邮件。您也可以点击邮件内的链接随时取消订阅。关闭Close

大型语言模型(LLM):定义、普及原因、训练方式

by Canonical on 12 December 2023

大型语言模型(LLM)是专门用于理解自然语言的机器学习模型。生成式 AI 在世界范围内被广泛采用之后,大型语言模型便广为人知,但它们的应用范围不止于聊天机器人。LLM 适合生成翻译或内容摘要。本篇博客将介绍大型语言模型 (LLM),包括其优点、挑战、出名的项目和未来发展趋势。

大型语言模型(LLM)是机器学习模型。它们通常包含深度学习的最新进展。这些模型可以执行与语言相关的任务,不只是文本生成。它们采用非常大的非结构化数据集进行训练,以学习模式并识别文本中的关系。文本可以有条件地加以提示,从而简化自然语言或代码中的有用任务。

语言模型的复杂程度各不相同。通常,LLM 指的是使用深度学习技术捕获复杂模式以生成文本的模型。它们具有大量的参数,通常使用自监督学习进行训练。大型语言模型超出了大型转换器模型的范畴,因为它太大而无法在单台机器上运行。LLM 通常以 API 或网页界面的形式提供。

LLM 用例

LLM 的用例有很多。其中不仅包括纯文本生成,还包括翻译、人际互动或摘要。它们被企业组织用于解决各种问题,包括:

  • 通过减少重复性任务来提高生产力
  • 解决人才短缺问题
  • 内容创作
  • 情感分析

内容生成

根据应用程序的不同,有多个 LLM 可以用于基于触发器或不基于触发器的内容生成。虽然内容本身需要优化,但 LLM 可以生成很棒的初稿,非常适合进行头脑风暴、解决问题或捕获灵感。它们不应该被视作拥有真相之源的事实手册。 

聊天机器人

LLM 可能被用于聊天机器人,有助于提供客户支持,故障排除,甚至进行开放式对话。它们还可以加速信息收集过程,解决反复出现的问题或疑问。 

语言翻译

翻译是 20 世纪 50 年代促使 LLM 项目启动的主要动力。但如今,LLM 可以自动翻译各种语言的内容,实现内容本地化。虽然它们运行良好,但值得一提的是,其输出质量取决于不同语言的可用数据量。

情感分析

LLM 通常会提取文本并分析情绪和观点,以判断情绪。企业组织经常使用它来收集数据,总结反馈并快速识别改进机会。它既可以帮助企业提高客户满意度,又可以帮助企业识别开发和功能需求。

这些只是受益于 LLM 的部分用例。其他一些应用包括文本聚类、内容摘要或代码生成。

构建 LLM 时的挑战

LLM 看起来是一个复杂而创新的解决方案,可以为企业助力并让人工智能爱好者兴奋不已。但构建 LLM 却存在着一系列的挑战:

  • 大型数据集不可或缺。尽管企业在努力改进数据收集流程和数据质量,但仍有一些行业的数据由于不同的原因——要么是数字化程度不够,要么就是可用性不足——仍然不可用。 
  • 训练 LLM 需要提高计算能力。GPU 或 DGX 等强大计算资源的可用性成就了 LLM,这种可用性也代表了一种限制,因为其成本高昂且交付时间长。
  • 人才短缺是任何人工智能项目都会面临的挑战,因为寻找能够构建或微调 LLM 的熟练人员比较耗时。技能差距是任何举措中都存在的挑战——人们对人工智能的兴趣增长速度快于对人才增长速度。 
  • 训练缓慢会延迟项目交付。根据训练所用硬件以及数据集大小的不同,训练可能需要耗费数月。
  • 可解释性仍然是个难题,这也是专业人士经常难以理解 LLM 输出的一些预测信息的一个重要原因。在数十亿参数之间进行挖掘非常耗时,而且预测通常几乎不会受到偏倚数据所影响,而偏倚数据更加难以检测。

LLM 的好处

随着人工智能的普及以及更多 LLM 的构建,重申大型语言模型带来的好处至关重要。广大受众、各行各业的企业、热衷于深度学习的工程师以及跨越不同工作领域的专业人士对 LLM 都很感兴趣,因为它们具有复制人类语言的功能。

  • 它们可以捕捉语言的细微差别,通常会捕捉文档的上下文。这样可以让翻译或情感分析更加准确。
  • 它们可以减少耗费在重复性任务上的时间,甚至减轻花费时间收集信息的负担。例如,聊天机器人可以提出问题,帮助客户支持团队更快地处理工单。
  • 它们具有加速模型训练和减少所需数据的潜力。这与 LLM 可用的参数数量有关——数量越大,所需的数据量就越小。

开源 LLM

2023 年,社区的蓬勃发展让开源 LLM 应运而生。Huggingface 只是在 ChatGPT 发布后活跃量激增的例子之一,其目标是在不同的应用程序中获得遵循指令的大型语言模型。这就导致开源 LLM 的数量呈爆炸式增长,如 Guancoh2oGPTOpenAssistant。关于开源 LLM,以下几点值得注意:

  • 拥有数十亿参数的 LLM 在性能方面可以轻松与极大型数据集上训练的模型一较高下。
  • 微调小型 LLM 所需预算较低。
  • 社区的贡献让开源 LLM 进步速度快得多。
  • 诸如低秩自适应(LoRa)之类的技术可以降低训练成本。

即开即用的解决方案仍然对企业具有吸引力,但从长期来看,开源社区可能会加大力度在新的环境(包括笔记本电脑)中提供 LLM。这还有可能让拥有专有 LLM 的企业组织和开源社区之间开展前所未有的合作,前者专注于构建模型(因为他们拥有计算能力),后者则致力于对模型进行微调。

LLM 工具

大型语言模型需要使用大量的数据和高性能硬件。此外还需要用于实验跟踪、数据清洗和管道自动化的工具。开源机器学习平台,如 Canonical 推出的 Charmed Kubeflow,都是很好的选择,因为它们可以让开发人员在一个工具中运行端到端的机器学习生命周期。使用 Charmed Kubeflow,让专业人员能够通过使用应用或遵循 EKS 指南,在公共云上开始训练。Charmed Kubeflow 已在 NVIDIA DGX 等高性能硬件上经过测试和认证。Canonical 的产品组合包括 Charmed MLFlow 和一个可观察性堆栈

对机器学习操作 (MLOps) 生态系统感到好奇?

阅读我们的指南

阅读更多

订阅博客文章

订阅您感兴趣的主题

在提交此表格的同时,我确认已阅读和同意的隐私声明隐私政策。

查看更多内容

本地 AI 部署:您应当了解的相关信息

企业组织正在重塑自身的数字战略,而 AI 是这些变化的核心,许多项目如今已准备好在生产环境中运行。企业通常在公共云上启动这些 AI 项目,因为这样可以最大限度地减少硬件负担。然而,随着项目规模的扩大,出于成本、数字主权或合规性要求等原因,企业组织往往希望迁移本地工作负载。在自身的基础架构上运行 AI 有很多明显的益处,但同时也带来了基础架构和 MLOps 专家需要考虑的一些重大挑战。 MLOps 是以可重复和可再现方式运行 AI 工作负载的推动者。MLOps 平台,如 Charmed Kubeflow,是在 Kubernetes 上运行的云原生应用程序。在本地构建这样的架构有助于企业组织轻松部署、管理和扩展其 AI 应用程序。 本地 AI 部署的优点 在构建自身的 AI […]

Edge Computing Examples

您应当知道的 5 个边缘计算示例 在日新月异的科技世界中,创新是保持领先地位的关键。在企业追求效率、速度和实时数据处理能力的趋势下,人们越来越关注边缘计算。  边缘计算代表了数据处理和分析方式的范式转变。与将数据处理集中在远程数据中心的传统云计算不同,边缘计算是将数据处理带到了更接近数据源的地方。这样不仅减少了延迟,而且为各行各业开辟了一个充满可能性的世界。 我很高兴通过本篇博客跟大家一起来探讨这项尖端技术的示例及各种应用和用例,文中将特别着重于探讨 Canonical 的 MicroCloud 如何无缝地适应这一转变格局。 各行各业边缘计算示例 智慧城市和城市规划 边缘计算在智慧城市的发展中起着至关重要的作用。通过在整个城市环境中部署传感器、摄像头等边缘设备,数据可以就 […]

Canonical 发布 Ubuntu 24.04 LTS Noble Numbat

Canonical 的第 10 个长期支持版本树立了在性能工程、企业安全和开发人员体验方面的新标准。 伦敦,2024 年 4 月 25 日 Canonical 今日正式发布 Ubuntu 24.04 LTS,代号“Noble Numbat”(尊贵的袋食蚁兽),用户可前往 https://ubuntu.com/download 下载并安装。 Ubuntu 24.04 LTS 建立在前三个中期版本的进步以及世界各地开源开发人员的贡献之上,只为确保一个安全、优化和具有前瞻性的平台。 Canonical 首席执行官 Mark Shuttleworth 称:“Ubuntu 24.04 LTS 在性能工程和机密计算方面迈出了大胆的一步,实现了一个企业级创新平台,支持期限至少为 12 […]