从AI小白到大神的7个细节:让你开窍逆袭

来源:Agent智能体 作者:AI 超有料

在当今科技界,人工智能无疑是最炙手可热的话题。然而,这个领域充斥着专业术语,使得理解每次技术革新的具体内容变得颇具挑战性。


为了帮助读者更好地把握时代脉搏,本文整理了一系列常见的人工智能(AI)术语,并通过简单的例子和尽可能简明扼要地解释,阐述它们的含义及其重要性。


1.人工智能的本质

人工智能,简称AI,是一门致力于创造能够模拟人类思维过程的计算机系统的学科。目前,AI更多地被看作是技术甚至实体,其确切含义颇为模糊,有时也被当作营销术语使用。

多年来,谷歌一直积极宣传其在人工智能领域的深入投资。这不仅体现在其众多产品通过AI技术得到显著提升,也体现在公司推出的诸如 Gemini 这样的智能工具上。在这些智能工具背后,是一系列基础 AI 模型提供动力,例如 OpenAI 开发的 GPT 模型。同时,Meta 的首席执行官马克·扎克伯格(Mark Zuckerberg)也常将人工智能作为个人聊天机器人的代名词。

随着越来越多的企业将人工智能作为其创新的前沿,他们对这一术语及其相关概念的使用可能会变得更加复杂和多样化。在阅读有关人工智能的文章或接触市场营销材料时,您可能会遇到许多专业术语。为了帮助您更清晰地理解这些术语,本文概述了当前人工智能讨论中的一些关键词汇,归根结底,所有这些努力的核心目标都是推动计算机智能的进一步发展。

请注意,本文仅对人工智能(AI)的术语提供了一个入门级别的概览。虽然这些术语本身可能涉及复杂的科学原理,但本文的目的是简化这些概念,使您能够掌握其核心要点。即使在面对高度技术性的内容时,您也能够轻松地理解并应用这些基础术语。


2.AI 的关键术语


image.png



机器学习(Machine learning):这是一种让系统在数据上进行训练,从而对新信息做出预测的技术。机器学习是支撑众多AI技术的基石。

通用人工智能(AGI):与人类智能相当或超越人类的 AI。OpenAI 等公司正在大力投资 AGI,但许多人对其潜在风险表示担忧——想想我们看过的所有关于超级智能机器接管世界的电影!

生成式 AI(Gen AI):一种能够生成新文本、图像、代码等的 AI 技术。这类工具通常在大量数据上训练,有时会产生幻觉,即错误地编造答案。

幻觉(Hallucinations):在某些情况下,AI 可能会产生“幻觉”,即它们会自信地构造出看似合理的答案,而这些答案可能并非基于事实。换句话说,这些幻觉(如果我们用更直白的话说,就是无稽之谈)可能导致系统犯下事实性错误或提供不合逻辑的答复。

关于人工智能的这种幻觉现象是否可以被纠正,学术界和业界都存在一些争议。一方面,有人认为通过改进算法和训练数据可以减少幻觉的发生;另一方面,也有观点认为,幻觉是AI在尝试理解复杂问题时不可避免的一部分,需要我们以更开放的心态来接受和处理。

偏见(Bias):幻觉并非人工智能领域唯一需要关注的问题。事实上,这一问题的出现并不出人意料,毕竟人工智能系统是由人类设计和编程的。因此,它们可能会在处理数据时反映出训练数据中的偏见。例如,麻省理工学院媒体实验室的杰出计算机科学家乔伊·布兰维尼(Joy Buolamwini)和分布式人工智能研究所(DAIR)的创始人兼执行董事蒂姆尼特·格布鲁(Timnit Gebru),在 2018 年共同发表了一篇具有里程碑意义的论文。这篇论文揭示了面部识别技术在识别深色皮肤女性时,存在显著的高错误率问题。

这一发现不仅凸显了人工智能系统中潜在的偏见问题,也引发了对技术公平性和包容性的重要讨论。随着人工智能技术的不断发展和应用,确保其算法的公正性和消除偏见成为了一个亟待解决的全球性挑战。

3.AI 模型的架构

image.png

AI 模型(AI model):在数据上训练以执行任务或做出决策的系统。

大型语言模型(Large language models, or LLMs):一种能够处理和生成自然语言文本的 AI 模型。例如 Anthropic 的 Claude。

扩散模型(Diffusion Models):训练这些模型的过程非常独特,首先向图像中引入噪声,例如添加静态噪声,然后通过逆向操作,教会 AI 如何从噪声中恢复出清晰的图像。扩散模型的创新之处在于它们能够模拟从有序到无序再到有序的转换过程,通过这种方式,AI不仅学会了识别和理解数据中的模式,还学会了如何创造新的、有意义的内容。

基础模型(Foundation Models):这类模型通过在海量数据集上进行训练,从而具备了广泛的通用性。它们的强大之处在于,无需针对特定任务进行定制化训练,即可作为多种应用程序的基础。这一概念是由斯坦福大学的研究人员在 2021 年首次提出。OpenAI 的 GPT、Google 的 Gemini、Meta 的 Llama 以及 Anthropic 的 Claude 等,都是基础模型的杰出代表。

此外,许多公司正在将他们的人工智能模型作为多模态模型进行推广,这些模型不仅能够处理单一类型的数据,如文本,还能同时处理图像、视频等多种数据类型,满足不同领域和场景的需求。

前沿模型(Frontier Models):在基础模型的范畴之外,人工智能领域的探索者们正将目光投向所谓的"前沿模型"。这一术语通常被用作一种营销策略,指代那些尚未公开发布的、预计在未来推出的模型。理论上,这些前沿模型在性能和能力上有望远超当前市场上的人工智能模型,它们代表了技术进步的最前沿。

4.AI 的训练过程

AI 模型的智能并非与生俱来,而是通过训练获得的。训练是一个精心设计的过程,AI 模型通过分析庞大的数据集来学习如何以特定的方式理解数据,从而能够进行预测和识别模式。例如,大型语言模型通过“阅读”海量文本进行训练,这使得像 ChatGPT 这样的 AI 工具能够"理解"用户的查询,并生成听起来像人类语言的答案,以解决用户的问题。

训练通常需要消耗大量的资源和计算能力,许多公司依赖于高性能的 GPU 来支持这一过程。AI 模型可以处理各种类型的数据,包括文本、图像、音乐和视频等,这些数据在逻辑上被称为训练数据。

参数是 AI 模型在训练过程中学习的变量,它们决定了模型如何将输入转换为输出。关于参数的实质,海伦·托纳(Helen Toner)给出了最佳解释。她是乔治城大学安全与新兴技术中心的战略和基础研究资助主任,也是前 OpenAI 董事会成员:

"参数是 AI 模型中的数字,它们决定了如何将输入(比如一段提示文本)转换为输出(比如提示后的下一个单词)。'训练' AI 模型的过程包括使用数学优化技术反复调整模型的参数值,直到模型非常擅长将输入转换为输出。"

换句话说,AI 模型的参数是决定它们提供答案的关键因素。有时,公司会强调一个模型拥有的参数数量,以此来展示该模型的复杂性和能力。

5.AI 的其他重要概念

image.png

自然语言处理(NLP):使机器能够理解人类语言的技术。OpenAI 的 ChatGPT 就是一个基本示例:它可以理解您的文本查询并生成文本作为响应。另一个强大的能够进行 NLP 的工具是 OpenAI 的 Whisper 语音识别技术,据报道,该公司使用它从超过 100 万小时的 YouTube 视频中转录音频,以帮助训练 GPT - 4。

推理(Inference):生成式 AI 应用实际生成内容的过程。以 ChatGPT 为例,当用户提出如何制作巧克力曲奇的请求时,AI 能够通过推理生成并分享食谱。这个过程体现了计算机在执行本地人工智能命令时的能力,它不仅仅是简单的数据处理,而是能够理解、分析并创造性地生成响应。

推理过程是 AI 模型智能的体现,它涉及到对输入数据的深入分析,以及对可能的输出结果的预测和生成。这种能力使得 AI 能够在各种场景中提供有用的、创造性的解决方案,从而极大地扩展了人工智能的应用范围和实用性。

标记(Tokens):"标记"是指文本中的最小单位,它可以是一个单词、一个词的一部分,甚至是一个单独的字符。例如,大型语言模型(LLM)会将输入的文本分解成这些基本的标记单元,以便进行深入分析。通过这种方式,模型能够识别和理解标记之间的关系,并据此生成恰当的响应。

模型的"上下文窗口"大小,即它一次能够处理的标记数量,是衡量其复杂性和处理能力的关键指标。上下文窗口越大,模型能够考虑的信息就越丰富,从而能够生成更加复杂和精准的输出。例如 Kimi 的上下文数量是 20 万个汉字,其在处理长文本和复杂语境时比其他模型更加合适。

神经网络(Neural Networks):这是一种模仿人类大脑神经元运作方式的计算机架构。神经网络通过连接的节点处理数据,这些节点在功能上与大脑中的神经元相似。神经网络对 AI 至关重要,因为它们能够通过学习来识别和理解复杂的数据模式,而无需依赖于传统的显式编程。

这种能力使得神经网络在许多领域都显示出巨大的潜力,例如在医疗领域,它们可以通过分析大量的医疗数据来学习识别疾病模式,进而辅助医生做出更准确的诊断。神经网络的这种自学习能力,不仅提升了人工智能的智能水平,也为解决现实世界中的复杂问题提供了新的可能性。

Transformer 架构:Transformer 是一种先进的神经网络架构,它利用"注意力"机制来深入理解序列数据中各个部分之间的相互联系。这种机制使得 Transformer 能够捕捉词与词之间的细微关系,从而在处理语言和序列预测任务时表现出色。

以亚马逊的一个实例为例,考虑这样一个输入序列:"天空的颜色是什么?" 在这个例子中,Transformer 模型通过内部的数学表示,智能地识别出"颜色"、"天空"和"蓝色"这些词汇之间的相关性和联系。基于这种理解,模型能够生成一个准确的输出:"天空是蓝色的。"

Transformer 不仅在功能上极为强大,其训练速度也优于许多其他类型的神经网络。自从 2017 年谷歌的前员工发表了开创性的 Transformer 论文以来,这种架构已经成为推动生成式人工智能技术发展的关键因素。事实上,"ChatGPT"中的"T"就代表了 Transformer,这表明了它在我们日常对话和交互中的核心作用。

RAG 技术:RAG 是"检索增强的生成"(Retrieval-Augmented Generation)的缩写,它代表了一种先进的人工智能技术。RAG 允许 AI 模型在生成内容时,不仅依赖于其训练数据,还能从外部资源中检索并整合相关信息,从而显著提升生成内容的准确性和可靠性。

例如,当您向一个 AI 聊天机器人提出问题,而该问题超出了它的训练知识范围时,传统模型可能会基于有限的信息产生错误的推断。然而,应用了 RAG 技术的模型能够主动查询外部数据源,比如互联网上的其他网站,以获取更全面和准确的信息。通过这种方式,RAG 帮助 AI 模型利用最新的数据来生成更加精确和有根据的答案。

6.AI 的硬件基础

英伟达H100芯片:作为 AI 训练领域广受欢迎的图形处理单元(GPU),H100 以其卓越的性能在业界备受青睐。它被认为在处理 AI 工作负载方面,相较于其他服务器级 AI 芯片具有显著优势。这种优势使得英伟达在全球范围内对 H100 的需求居高不下,进一步巩固了其作为世界上最有价值的公司之一的地位。

神经处理单元(Neural Processing Unit, NPU):这是一种专为计算机、平板电脑和智能手机等设备设计的专用处理器,它能够高效地执行人工智能推理任务。苹果公司则使用“神经引擎”这一术语来描述类似的技术。与传统的中央处理单元(CPU)或图形处理单元(GPU)相比,NPU 在处理各种 AI 驱动的任务时表现出更高的能效比,例如在视频通话中实现背景虚化功能。

TOPS指标:TOPS,即“每秒万亿次操作(Tera Operations Per Second),是一种衡量芯片处理能力的指标。技术供应商经常使用这个术语来展示他们的芯片在执行人工智能推理任务时的卓越性能。TOPS 数值越高,表明芯片在处理复杂 AI 算法时的速度和效率越强。

7.AI 领域的主要参与者

image.png

有许多公司已成为开发人工智能和人工智能工具的领导者。有些是根深蒂固的科技巨头,而另一些则是较新的创业公司。以下是其中的一些参与者:

国外

OpenAI / ChatGPT:人工智能领域之所以变得如此重要,ChatGPT 功不可没。这款由 OpenAI 在 2022 年底推出的 AI 聊天机器人迅速走红,其影响力之大令许多大型科技公司措手不及。如今,几乎所有科技公司都在积极展示他们在人工智能领域的成就。

Microsoft / Copilot:微软正在将其 AI 助手 Copilot 整合到旗下众多产品中,该助手由 OpenAI 的 GPT 模型提供支持。这家总部位于西雅图的科技巨头不仅在产品上与 OpenAI 深度合作,还持有其 49% 的股份。

Google / Gemini:谷歌正致力于通过 Gemini 为其产品注入动力,Gemini 既是谷歌 AI 助手的名称,也代表了公司开发的一系列 AI 模型。

Meta / Llama:Meta 的人工智能研发聚焦于 Llama 模型,即大型语言模型 Meta AI。与其他科技巨头的闭源模型不同,Llama 是开源的,这使得它在 AI 领域具有独特的地位。

Apple / Apple Intelligence:苹果在其产品中不断加入以 AI 为中心的新功能,这些功能在 Apple Intelligence 的框架下进行开发。值得注意的是,ChatGPT 已被集成到 Siri 中,为用户带来全新的智能体验。

Anthropic / Claude:Anthropic 是由前 OpenAI 员工创立的 AI 公司,其开发的 Claude AI 模型备受瞩目。亚马逊已向 Anthropic 投资40亿美元,谷歌也投入了数亿美元,并有可能进一步投资 15 亿美元。此外,Anthropic 最近聘请了 Instagram 联合创始人迈克·克里格担任首席产品官,这一举措进一步凸显了公司在 AI 领域的雄心。

xAI / Grok:这是埃隆·马斯克参与的人工智能公司,其开发的 Grok 作为大型语言模型备受期待。该公司最近完成了 60 亿美元的融资,显示出其在 AI 领域的强大潜力。

Perplexity:Perplexity 是一家以其人工智能驱动的搜索引擎而闻名的公司。然而,该搜索引擎因其数据抓取行为而受到一些争议。

Hugging Face:作为一个 AI 模型和数据集的目录平台,Hugging Face 为用户提供了一个集中的资源库,以探索和利用各种 AI 技术。

国内

百度 / 文心大模型:百度的文心大模型是一系列知识增强型的人工智能模型,旨在为各行各业的 AI 开发提供基础和支持,模型覆盖了包括自然语言处理(NLP)、计算机视觉(CV)和跨模态任务等多个AI领域。

阿里巴巴 / 通义大模型:阿里巴巴的通义大模型是阿里巴巴达摩院自主研发的超大规模语言模型,其前身为通义千问,后更名为通义,意为“通情,达义”,通义大模型的应用范围广泛,已在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等多个领域进行合作和落地。

腾讯 / 混元大模型:混元大模型已经与腾讯的多个业务和产品进行了广泛的对接和集成,包括腾讯云、腾讯广告、腾讯游戏、腾讯会议、腾讯文档、微信搜一搜等超过 50 个业务和产品 。腾讯还推出了模型即服务(MaaS)解决方案,企业可以通过 API 调用混元大模型,也可以将混元作为基底模型,为不同产业场景构建专属应用。

华为 / 盘古大模型:盘古大模型具有强大的多模态能力和复杂逻辑推理能力,盘古大模型 5.0 能够理解包括文本、图片、视频、雷达、红外、遥感等在内的多种模态,生成符合物理世界规律的多模态内容。

字节跳动 / 豆包大模型:豆包大模型包含多种类型的模型,如通用模型、角色扮演模型、语音识别模型、语音合成模型、声音复刻模型、文生图模型等。豆包大模型被应用于字节跳动内部的50多个业务场景,如抖音、番茄小说、飞书、巨量引擎等,用以提升效率和优化产品体验

商汤科技 / 日日新大模型:商汤的日日新 V5.0 大模型在多模态能力上全面对标 GPT-4 Turbo,性能在多个评测中达到或超越了 GPT-4 Turbo 版本。

科大讯飞 / 星火大模型:这是一个具有强大中文处理能力的认知智能大模型,具备文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互等七大核心能力。


相关文档推荐

人工智能技术发展与应用实践.PDF

1743586449 史树明 5.88MB 35页 积分6

Deepseek技术全景解析.PDF

1743585886  6.52MB 47页 积分6

AI大模型技术在数据库DevOps的实践.PDF

1741935803 叶正盛 2.67MB 30页 积分6

通义灵码技术解析打造AI原生开发新范式.PDF

1741935300 陈鑫 1.3MB 23页 积分5

初始大模型 1.2大模型技术基础.PDF

1741175003 赵鑫 3.62MB 18页 积分5

大模型概念、技术与应用实践.PDF

1740034768 林子雨 5.57MB 134页 积分12

2025年人工智能十大发展趋势.PDF

1740034526  0.97MB 13页 积分5

大模型轻量化技术.PDF

1740031697 张鹏 12.62MB 123页 积分10

多模态大模型技术演进及研究框架.PDF

1739346109  5.61MB 46页 积分6

相关文章推荐