Skip to content

Latest commit

 

History

History
386 lines (236 loc) · 14.5 KB

0.Foreword.md

File metadata and controls

386 lines (236 loc) · 14.5 KB

前言

机器学习是一种最新的尝试,它试图将将人类的知识和推理提炼成适合机器化和工程自动化的系统。 随着机器学习变得越来越普遍,它的软件包也变得越来越易于使用, 一些底层的技术细节被抽象出来,相关从业者无需知道相关知识也能轻松使用。 然而,这带来了一些危险,即从业者不知道相关设计的根源,因此也不知道机器学习算法的局限性。

此外,那些有兴趣了解机器学习算法背后魔力的活跃从业者也面临着一些令人生畏的先决知识:

  • 编程语言和数据分析工具
  • 大规模计算和相关框架
  • 数学和统计学以及机器学习是如何在此基础上构建的

在大学里,关于机器学习的入门课程通常在课程的早期就会涉及到这些知识。 由于历史原因,机器学习课程往往在计算机科学系教授,学生通常在前两个知识领域接受培训,但在数学和统计学方面则没有那么多。

当前的机器学习教科书主要侧重于机器学习算法和方法,并假设读者精通数学和统计学。 因此,这些书只在书的开头或附录中用了一两章介绍背景数学。 我们发现很多人本来想要深入研究机器学习的理论知识,他们却在为弄明白其中的数学而苦苦挣扎。 在大学教授本科和研究生课程后,我们发现高中数学与阅读标准机器学习教科书所需的数学水平之间的差距对很多人来说太大了。

本书将基本机器学习概念的数学基础放在首位,并将信息集中在一起,从而缩小甚至完全弥补了这种技能差距。

为什么又是一本关于机器学习的书?

机器学习建立在数学语言的基础上,用以表达看似直观但难以形式化的概念。 一旦正确形式化,我们就可以深入了解我们想要解决的任务。 全球数学专业学生的一个普遍抱怨是,所涵盖的主题似乎与实际问题几乎没有关系。 我们相信机器学习是人们学习数学的明显而直接的动机。

这本书的目的是作为现代机器学习基础的数学文献的指南。

我们通过直接指出数学概念在基本机器学习问题的背景下的有用性来激发对数学概念的需求。为了使这本书保持简短,许多细节和更先进的概念被省略了。在了解了这里提出的基本概念,以及它们如何适应机器学习的更大背景之后,读者可以找到大量的资源进行进一步的研究,我们将在相关章节的末尾提供这些资源。对于具有数学背景的读者,本书简要但准确地介绍了机器学习。与其他专注于机器学习方法和模型的书籍相比(MacKay,2003;Bishop,2006;Alpaydin,2010;Barber,2012;Murphy,2012;Shalev-Shwartz 和 Ben-David,2014;Rogers 和 Girolami,2016)或机器学习的程序方面(M¨uller 和 Guido,2016;Raschka 和 Mirjalili,2017;Chollet 和 Allaire,2018),我们只提供了机器学习算法的四个代表性示例。同时,我们专注于模型本身背后的数学概念。我们希望读者能够对机器学习中的基本问题有更深入的理解,并将机器学习中出现的实际问题与数学模型选择联系起来。

我们的目标不是写一本经典的机器学习书籍。 相反,我们的目的是提供应用于四个核心机器学习问题的数学基础,以便更容易阅读其他机器学习教科书。

谁适合看本书?

随着机器学习在社会中的应用越来越广泛,我们相信每个人都应该对其基本原理有所了解。 本书以学术数学风格编写,使我们能够准确了解机器学习背后的概念。 我们鼓励不熟悉这种看似简洁的风格的读者坚持不懈,并牢记每个主题的目标。 我们在整篇文章中有大量的评论和注释,希望它为您的全局理解提供有用的指导。

本书假设读者具有高中数学和物理中常见的数学知识。 例如,读者之前应该已经看过微分和积分,以及二维或三维的几何向量。 从这里开始,我们归纳这些概念。 因此,本书的目标读者包括本科大学生、自学者和参加在线机器学习课程的学习者。

与音乐类似,人们与机器学习有三种类型的交互:

精明的倾听者 通过提供开源软件、在线教程和基于云的工具,机器学习的大众化使用户不必担心这些过程的细节。 用户可以专注于使用现成的工具从数据中提取见解。 这使得不精通技术的领域专家能够从机器学习中受益,这类似于听音乐; 用户能够选择和辨别不同类型的机器学习,并从中受益。 更有经验的用户就像音乐评论家一样,询问有关机器学习在社会中应用的重要问题,例如道德、公平和个人隐私。 我们希望本书为思考机器学习系统的认证和风险管理提供了基础,并允许他们利用他们的领域专业知识来构建更好的机器学习系统。

经验丰富的艺术家 熟练的机器学习从业者可以将不同的工具和库插入到分析过程中。 典型的从业者是数据科学家或工程师,他们了解机器学习接口及其用例,并且能够从数据中进行出色的预测。 这类似于演奏音乐的演奏家,高技能的从业者可以将现有的乐器带入生活,并为观众带来乐趣。 使用此处介绍的数学作为入门,从业者将能够了解他们最喜欢的方法的优点和局限性,并扩展和概括现有的机器学习算法。 我们希望本书为机器学习方法的更严格和更有原则的发展提供动力。

初出茅庐的作曲家 随着机器学习应用于新领域,机器学习开发人员需要开发新方法并扩展现有算法。 这些研究人员需要了解机器学习的数学基础并发现不同任务之间关系。 这类似于音乐作曲家,他们在音乐理论的规则和结构内,创作出令人惊叹的新作品。我们希望这本书为那些想成为机器学习作曲家的人提供其他技术书籍的高水平概述。社会需要新的研究人员,他们能够提出和探索新的方法来应对数据学习中的更多挑战。

致谢

我们感谢许多看过本书早期草稿并经历了痛苦的概念阐述的人。 不是原则性的问题,我们尽量试图实现他们的想法。 我们要特别感谢 Christfried Webers 对本书许多部分的仔细阅读,以及他对结构和表述的详细建议。 许多朋友和同事也很友好地为每一章的不同版本付出了他们的时间和精力。 我们很幸运地受益于在线社区的慷慨解囊,他们通过 https://github.com 提出了改进建议,这极大地改进了本书。 以下人员通过 https://github.com 或个人交流发现了错误、建议的澄清和建议的相关文献。 他们的名字按字母顺序排列。

Abdul-Ganiy Usman

Adam Gaier

Adele Jackson

Aditya Menon

Alasdair Tran

Aleksandar Krnjaic

Alexander Makrigiorgos

Alfredo Canziani

Ali Shafti

Amr Khalifa

Andrew Tanggara

Angus Gruen

Antal A. Buss

Antoine Toisoul Le Cann

Areg Sarvazyan

Artem Artemev

Artyom Stepanov

Bill Kromydas

Bob Williamson

Boon Ping Lim

Chao Qu

Cheng Li

Chris Sherlock

Christopher Gray

Daniel McNamara

Daniel Wood

Darren Siegel

David Johnston

Dawei Chen

Ellen Broad

Fengkuangtian Zhu

Fiona Condon

Georgios Theodorou

He Xin

Irene Raissa Kameni

Jakub Nabaglo

James Hensman

Jamie Liu

Jean Kaddour

Jean-Paul Ebejer

Jerry Qiang

Jitesh Sindhare

John Lloyd

Jonas Ngnawe

Jon Martin

Justin Hsi

Kai Arulkumaran

Kamil Dreczkowski

Lily Wang

Lionel Tondji Ngoupeyou

Lydia Kn¨ufing

Mahmoud Aslan

Mark Hartenstein

Mark van der Wilk

Markus Hegland

Martin Hewing

Matthew Alger

Matthew Lee

Maximus McCann

Mengyan Zhang

Michael Bennett

Michael Pedersen

Minjeong Shin

Mohammad Malekzadeh

Naveen Kumar

Nico Montali

Oscar Armas

Patrick Henriksen

Patrick Wieschollek

Pattarawat Chormai

Paul Kelly

Petros Christodoulou

Piotr Januszewski

Pranav Subramani

Quyu Kong

Ragib Zaman

Rui Zhang

Ryan-Rhys Griffiths

Salomon Kabongo

Samuel Ogunmola

Sandeep Mavadia

Sarvesh Nikumbh

Sebastian Raschka

Senanayak Sesh Kumar Karri

Seung-Heon Baek

Shahbaz Chaudhary

Shakir Mohamed

Shawn Berry

Sheikh Abdul Raheem Ali

Sheng Xue

Sridhar Thiagarajan

Syed Nouman Hasany

Szymon Brych

Thomas B¨uhler

Timur Sharapov

Tom Melamed

Vincent Adam

Vincent Dutordoir

Vu Minh

Wasim Aftab

Wen Zhi

Wojciech Stokowiec

Xiaonan Chong

Xiaowei Zhang

Yazhou Hao

Yicheng Luo

Young Lee

Yu Lu

Yun Cheng

Yuxiao Huang

Zac Cranko

Zijian Cao

Zoe Nolan

通过 GitHub 的贡献者(其真实姓名未在其 GitHub 个人资料中列出)是:

SamDataMad

bumptiousmonkey

idoamihai

deepakiim

insad

HorizonP

cs-maillist

kudo23

empet

victorBigand

17SKYE

jessjing1995

我们也非常感谢 Parameswaran Raman 和剑桥大学出版社组织的许多匿名审稿人,他们阅读了手稿早期版本的一章或多章,并提出了建设性的批评意见,从而带来了相当大的改进。 特别值得一提的是 Dinesh Singh Negi,我们的 LATEX 支持人员,提供有关 LATEX 相关问题的详细而及时的建议。 最后但同样重要的是,我们非常感谢我们的编辑 Lauren Cowles,他一直耐心地指导我们完成本书的构思过程。

数学符号表

符号 常规含义
$$ a, b, c, \alpha, \beta, \gamma $$ 标量是小写的
$$ {\boldsymbol x, \boldsymbol y, \boldsymbol z} $$ 向量是粗体小写
$$ {\boldsymbol A, \boldsymbol B,\boldsymbol C} $$ 矩阵是粗体大写
$$ \boldsymbol x^\top, \boldsymbol A^\top $$ 向量或矩阵的转置
$$ \boldsymbol A^{-1} $$ 矩阵的逆
$$ \langle \boldsymbol x, \boldsymbol y \rangle $$ $ \boldsymbol x $ 和 $ \boldsymbol y $ 的内积
$$ \boldsymbol x^\top \boldsymbol y $$ $ \boldsymbol x $ 和 $ \boldsymbol y $ 的点积
$$ B = (\boldsymbol b_1, \boldsymbol b_2 ,\boldsymbol b_3 ) $$ (有序)元组
$$ \boldsymbol B = [\boldsymbol b_1, \boldsymbol b_2 ,\boldsymbol b_3] $$ 水平堆叠的列向量矩阵
$$ \mathcal B = {\boldsymbol b_1, \boldsymbol b_2 ,\boldsymbol b_3 } $$ 一组向量(无序)
$$ \mathbb{Z}, \mathbb{N} $$ 分别是整数和自然数
$$ \mathbb{R}, \mathbb{C} $$ 分别为实数和复数
$$ \mathbb{R}^n $$ 实数的 n 维向量空间
$$ \forall x $$ 全部量词: 对于所有 x
$$ \exists x $$ 存在量词: 存在 x
$$ a := b $$ a 定义为 b
$$ a =: b $$ b 定义为 a
$$ a \propto b $$ a 与 b 成正比,即 a = 常数 · b
$$ g \circ f $$ 复合函数: "g after f"
$$ \Longleftrightarrow $$ 当且仅当
$$ \Longrightarrow $$ 隐含
$$ \mathcal A, \mathcal C $$ 集合
$$ a \in \mathcal A $$ a 是集合 $ \mathcal A $ 的一个元素
$$ \emptyset $$ 空集
$$ \mathcal A \setminus \mathcal B $$ $ \mathcal A $ 和 $ \mathcal B $ 的差集: 属于$ \mathcal A $ 但不属于$ \mathcal B $的元素集合
$$ D $$ 维数; 由 d = 1,...,D 索引
$$ N $$ 数据点的数量; 由 n = 1,...,N 索引
$$ \boldsymbol I_m $$ 大小为 m × m 的单位矩阵
$$ \boldsymbol 0_{m,n} $$ 大小为 m × n 的零矩阵
$$ \boldsymbol 1_{m,n} $$ 大小为 m × n 元素都为1的矩阵
$$ \boldsymbol e^i $$ 标准/规范向量(其中 i 是 1 的分量)
$$ \rm dim $$ 向量空间的维数
$$ \rm rk(\boldsymbol A) $$ 矩阵 $ \boldsymbol A $ 的秩
$$ \rm Im(\Phi) $$ 线性映射 $ \Phi $ 的像
$$ \rm ker(\Phi) $$ 线性映射 $ \Phi $ 的核(零空间)
$$ \rm span[\boldsymbol b_1] $$ $ \boldsymbol b_1 $ 的生成子空间 (生成集合)
$$ \rm tr(\boldsymbol A) $$ 矩阵 $ \boldsymbol A $ 的迹
$$ \rm det(\boldsymbol A) $$ 矩阵 $ \boldsymbol A $ 的行列式
$$ \lvert {·} \rvert $$ 绝对值或者行列式(取决于上下文)
$$ \lVert {·} \rVert $$ 范数; 欧几里得,除非另有说明
$$ \lambda $$ 特征值或拉格朗日乘数
$$ E_\lambda $$ 对应于特征值 $ \lambda $ 的特征空间
$$ \boldsymbol x \bot \boldsymbol y $$ 向量 $ \boldsymbol x $ 和 $ \boldsymbol y $ 是正交(垂直)的
$$ V $$ 向量空间
$$ V^\bot $$ 向量空间 V 的正交补
$$ \sum^{N}_{n=1} {x_n} $$ $ x_n$ 累加:$ x_1 + \ldots + x_N $
$$ \prod^{N}_{n=1} {x_n} $$ $ x_n$ 累乘:$ x_1 + \ldots + x_N $
$$ \boldsymbol \theta $$ 参数向量
$$ \frac{\partial f}{\partial x} $$ $ f $ 关于 $ x $ 的偏导数
$$ \frac{ {\rm d}f}{ {\rm d}x} $$ $ f $ 关于 $ x $ 的全导数
$$ \nabla $$ 倾斜度
$$ f_* = \min{_x}f(x) $$ $ f $ 的最小函数值
$$ x_* \in {\rm arg} , \min{_x}f(x) $$ 使得 $ f $ 最小化的值 $ x_∗ $(注意:arg min 返回一组值)
$$ \mathfrak{L} $$ 拉格朗日
$$ \mathcal{L} $$ 负对数似然
$$ \left(^n_k \right) $$ 二项式系数,$ n $ 选 $ k $
$$ \mathbb{V}_X[\boldsymbol x] $$ 方差是 $ \boldsymbol x $ 的随机变量 $ X $
$$ \mathbb{E}_X[\boldsymbol x] $$ 期望是 $ \boldsymbol x $ 的随机变量 $ X $
$$ {\rm Cov}_{X,Y}[\boldsymbol x, \boldsymbol y] $$ $ x $ 和 $ y $ 之间的协方差
$$ a \perp\kern-9mu\perp b \mid c $$ $ X,Y $对于给定 $ Z $ 是条件独立的
$$ X \sim p $$ 随机变量 $ X $ 根据 $ p $ 分布
$$ \mathcal N (\boldsymbol \mu, \boldsymbol \Sigma) $$ 具有均值 $ \boldsymbol \mu $ 和协方差 $ \boldsymbol \Sigma $ 的高斯分布
$$ {\rm Ber}(\mu) $$ 参数为 $ \mu $ 的伯努利分布
$$ {\rm Bin}(N, \mu) $$ 参数为 $ N, \mu $ 的二项式分布
$$ {\rm Beta}(\alpha, \beta) $$ 参数为 $ \alpha, \beta $ 的Beta分布

缩略语表

首字母缩略词 含义
e.g. Exempli gratia(拉丁文:例如)
GMM 高斯混合模型(Gaussian mixture model)
i.e. Id est(拉丁语:这意味着)
i.i.d. 独立同分布(Independent, identically distributed)
MAP 最大后验(Maximum a posteriori)
MLE 最大似然估计(Maximum likelihood estimation/estimator)
ONB 正交基(Orthonormal basis)
PCA 主成分分析(Principal component analysis)
PPCA 概率主成分分析(Probabilistic principal component analysis)
REF 行阶梯形矩阵(Row-echelon form)
SPD 对称,正定(Symmetric, positive definite)
SVM 支持向量机(Support vector machine)