什么是机器学习,机器学习的在实际中的用处

来源:博客园 作者:网友

什么是(监督式)机器学习?简单来说,它的定义如下:

  • 机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

下面我们来了解一下机器学习的基本术语。

标签

标签是我们要预测的事物,即简单线性回归中的 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。

特征

特征是输入变量,即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方式指定:

{x1,x2,…xN}

在垃圾邮件检测器示例中,特征可能包括:

  • 电子邮件文本中的字词

  • 发件人的地址

  • 发送电子邮件的时段

  • 电子邮件中包含“一种奇怪的把戏”这样的短语。

样本

样本是指数据的特定实例:x。(我们采用粗体 x 表示它是一个矢量。)我们将样本分为以下两类:

  • 有标签样本

  • 无标签样本

有标签样本同时包含特征和标签。即:

  labeled examples: {features, label}: (x, y)

我们使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中,有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。

例如,下表显示了从包含加利福尼亚州房价信息的数据集中抽取的 5 个有标签样本:

housingMedianAge (特征)totalRooms (特征)totalBedrooms (特征)medianHouseValue (标签)
155612128366900
197650190180100
1772017485700
14150133773400
20145432665500

无标签样本包含特征,但不包含标签。即:

  unlabeled examples: {features, ?}: (x, ?)

在使用有标签样本训练了我们的模型之后,我们会使用该模型来预测无标签样本的标签。在垃圾邮件检测器示例中,无标签样本是用户尚未添加标签的新电子邮件。

模型

模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段:

  • 训练表示创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

  • 推断表示将训练后的模型应用于无标签样本。也就是说,您使用训练后的模型来做出有用的预测 (y')。例如,在推断期间,您可以针对新的无标签样本预测 medianHouseValue

回归与分类

回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:

  • 加利福尼亚州一栋房产的价值是多少?

  • 用户点击此广告的概率是多少?

分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:

  • 某个指定电子邮件是垃圾邮件还是非垃圾邮件?

  • 这是一张狗、猫还是仓鼠图片?

举例

监督式学习

假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件。下面的表述有助于理解

  • 未标记为“垃圾邮件”或“非垃圾邮件”的电子邮件是无标签样本。由于我们的标签由“垃圾邮件”和“非垃圾邮件”这两个值组成,因此任何尚未标记为垃圾邮件或非垃圾邮件的电子邮件都是无标签样本

  • 有些标签可能不可靠。

特征和标签

假设一家在线鞋店希望创建一种监督式机器学习模型,以便为用户提供合乎个人需求的鞋子推荐。也就是说,该模型会向小马推荐某些鞋子,而向小美推荐另外一些鞋子。下面表述有助于你理解 特种和标签

  • 用户点击鞋子描述的次数是一项实用特征。 用户可能只是想要详细了解他们喜欢的鞋子。因此,用户点击次数是可观察且可量化的指标,可用来训练合适的标签

  • 鞋码是一项实用特征 鞋码是一种可量化的标志,可能对用户是否喜欢推荐的鞋子有很大影响。例如,如果小马穿 43 码的鞋,则该模型不应该推荐 39 码的鞋。

相关文档推荐

AIGC如何助力工作和学习.PDF

1742949482 尹健 10.53MB 93页 积分8

提示工程 7.2上下文学习.PDF

1741174204 李军毅 2.17MB 15页 积分5

大规模强化学习技术原理与大模型技术发展研判.PDF

1738973514 刘知远 0.96MB 8页 积分5

面向经典用户的量子联邦学习框架.PDF

1738973482 高飞 1.69MB 0页 积分6

量子机器学习模型的逼近与泛化能力.PDF

1738973449 李绎楠 1.39MB 20页 积分5

腾讯大数据基于StarRocks的向量检索探索.PDF

1737425434 赵裕隆 3.48MB 34页 积分6

B站一站式大数据集群管理平台.PDF

1737421412 刘明刚 1.37MB 30页 积分6

StarRocks在爱奇艺大数据场景的实践.PDF

1737365327 林豪 3.57MB 27页 积分5

相关文章推荐

智能工厂的信息化系统建设

先进制造业 梁华 

信息化建设项目建设管理流程

CIO之家的朋友们 CIO之家的朋友 

企业信息化建设与系统选型

CIO之家的朋友们 CIO之家的朋友 

大数据开发流程及规范

网络收集 CIO之家的朋友