type
status
date
slug
summary
tags
category
icon
password

专业课复习-数学

3.概率论与数理统计

3.1 概率论与数理统计的区别?
概率论基于随机变量分布已知的情况下讨论随机变量的性质和数字特征;
数理统计是伴随概率论发展出来的学科,是根据总体中抽出的样本的统计量来推测样本的分布。
3.2 概率论和数理统计的联系?
通过中心极限定理大数定律结合在一起的。
大数定律:当随机事件发生的次数足够多时,随机事件发生的频率趋近于预期的概率
切比雪夫大数定律:揭示了样本均值和真实期望的关系
伯努利大数定理:揭示了概率与频率的关系;
辛钦大数定理:揭示了算术平均值和数学期望的关系(条件:独立同分布;样本均值等同于分布的期望)
大数定律的条件: 1、独立重复事件;2、重复次数足够多。
中心极限定理:条件:独立同分布、期望和方差同时存在;
独立同分布的随机变量序列取样足够多,当n趋近于正无穷时,其算数平均值可以满足正态分布
3.3 有哪些常见的分布,分布函数是什么?
  • 离散分布:
    • 伯努利分布:
    • 二项分布: ,n很大,p很小时可以看作泊松分布
    • 泊松分布:
    • 超几何分布:,n很大时近似为二项分布。
  • 连续分布
    • 均匀分布:
    • 指数分布:
    • 正态分布:
    • 标准正态分布:
    • Gamma分布:
  • 三大常见抽样分布
    • 卡方分布
    • t分布
    • F分布
3.4 什么是概率密度函数和概率密度分布函数?
概率密度函数:描述这个随机变量在某个确定的取值点附近的可能性的函数。随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。
概率分布函数:描述随机变量小于某个特定取值的可能性的函数,公式形式为
3.5 什么是独立?什么是相关?二者之间有什么关系?
独立:事件独立的定义是,随机变量独立是由分布函数定义的,如果两个变量独立则他们既没有线性关系也没有非线性关系。相关:用一阶矩定义;
不相关:指的是A,B之间不存在线性相依性,但是可能存在非线性关系;不相关的充要条件:
关系:独立一定不相关,不相关不一定独立
3.6 贝叶斯公式和全概率公式?
全概率公式:已知原因推结果。
给定有限或无限个事件 两两互斥且每次试验至少发生一个,即,且 (必然事件)。那么对于任意一个事件A,利用 为必然事件且上述事件两两互斥有: 理论和实用意义在于:在比较复杂的情况下直接计算P(A)不容易,但是A总是随着某个出现,如果能够找到一组伴随A发生的完备事件组,则可以简化概率计算。
贝叶斯公式:已知结果求原因,已知先验概率求后验概率。
如果把事件A看作“结果”,把事件B看作导致这个结果的可能的“原因”,则可把全概率公式看作“由原因推结果”,把贝叶斯公式看作“由结果推原因”(有一个结果发生了,在众多可能的原因中,到底哪一个导致了这个结果?)。
3.7 什么是Markov性?
当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。
3.8 如何理解泊松分布?泊松分布和二项分布之间的关系?
若X服从参数为的泊松分布,记为
概率密度函数为:
泊松分布->二项分布->超几何分布是一个逐渐近似的过程。即可以使用泊松分布来近似二项分布,可以使用二项分布来近似超几何分布。
3.9 如何理解联合分布和边缘分布?
联合分布是指两个或多个随机变量的概率分布,以两个随机变量的分布为例子,公式为:。几何意义如果将二维随机变量(X,Y)看成是平面上随机点的坐标,那么分布函数F(x,y)在(x,y)处的函数值就是随机点(X,Y)落在以点(x,y)为顶点而位于该点左下方的无穷矩形域内的概率。
边缘分布是指对其中一个或多个变量进行积分或求和后得到的概率分布,在意义上表现为不考虑某个变量对于这个分布概率的影响;几何意义是其在某个点的函数值等于随机变量(X,Y)落在x=a左半平面的无穷矩形区域内的概率。
3.10 切比雪夫不等式?
由切比雪夫不等式可以推出各种各样的大数定理:切比雪夫大数定理,伯努利大数定理,辛钦大数定理等。
3.11 极大似然估计
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。另外一种方法是矩估计法,核心观点是 样本矩等于总体矩;即 X的期望会等于X的均值;
3.12 假设检验
关于总体的每一种论断称为统计假设,然后根据样本观察数据或实验结果所提供的信息去推断这个看法是否成立,这类统计推断问题称为假设检验;对这些假设进行检验地基本思想是采用概率性质的反证法,这两类错误分别为“弃真”和“存伪”。
3.13 K阶矩
一阶原点矩:随机变量到原点的距离
二阶中心矩:方差
三阶中心矩:一个随机密度函数向左偏或向右偏的程度

4.线性代数

4.1 什么是矩阵的幂运算 and 幂等矩阵 and 投影算子?
矩阵的几次幂就是把矩阵自身乘几次,满足AA=A的矩阵称为幂等矩阵。
投影算子是指将一个向量空间的向量映射到另一个向量空间的向量的线性变换。一个投影算子的矩阵是幂等矩阵,这是因为一个投影算子将向量投影到一个子空间上,而它的平方将再次将向量投影到同一子空间上。
4.2 什么是线性组合?
两个向量与标量的乘法之和可以称为这两个向量的线性组合,这个过程可以看作是对向量的缩放后相加,当两个不共线的向量线性组合时,它可以张成一个二维空间
4.3 什么是线性无关和线性相关?
线性无关:从数学定义角度看:当且仅当a=b=c=0时,成立,则称 线性无关;从代数角度看:如果向量组线性无关,则向量组任何一个向量都不能表示为其余向量的线性组合;从几何角度看:这个向量组的任意一个向量都不在其他向量张成的空间中。
线性相关:对于一个向量组A,如果存在不全为0的数使得成立,则称向量组线性相关。
极大线性无关组:极大线性无关组B是向量组A的一部分,即,其中B满足 :(1)B中的各个向量线性无关 2)A中的任一向量皆可以被向量组B线性表示
4.4 如何判定线性无关
  • 当向量组所包含的向量的个数与向量的维数相等时,该向量组构成的行列式不为零的充分必要条件是该向量组 线性无关;
  • 当向量组所含向量的个数多于向量的维数时,该向量组一定线性相关;
  • 通过向量组构成的齐次线性方程组解的情况判断向量组的线性相关性;线性方程组有非零解向量组就线性相关,反之,线性无关;
  • 通过向量组的秩研究向量组的相关性。若向量组的秩等于向量的个数,则该向量组是线性无关的;若向量组的秩小于向量的个数,则该向量组是线性相关的。
4.5 什么是线性空间、向量空间?
线性空间是满足加法和数乘封闭的空间,该空间的所有向量都满足乘一个常数后或者和其它向量相加后后仍然在这个空间里。进一步可以理解为该空间中的所有向量满足加法和数乘的组合封闭
且满足八条运算规则:加法交换律,加法结合律、加零等于本身、加相反数等于0、结合律,乘以1等于本身,数乘分配律*2;
向量空间的一个基是张成该空间的一个线性无关向量集;
4.6 什么叫做矩阵的秩,什么叫矩阵的迹,正定是什么意思?
矩阵的秩:从子式的角度定义:矩阵的秩就是矩阵中非零子式的最高阶数。从极大线性无关组的角度定义,是最大线性无关组的向量的个数;从标准型的角度定义:求一个矩阵的秩,可以先将其化为行阶梯型,非零行的个数即为矩阵的秩。
矩阵的迹: 方阵对角元素的和,也是所有特征值的和;
正定: 顺序主子式全大于0;特征值全为正。
4.7 什么是行列式?
行列式可以看做是有向面积或体积的概念在一般的欧几里得空间中的推广。具体来说,它是线性变换的伸缩因子。
行列式为0代表这种线性变换造成了空间的降维,是不可逆的。
行列式的定义主要来源于求解非齐次线性方程组的克拉默法则
4.8 列空间、行空间、零空间、左零空间
行空间:对于一个 m*n 的矩阵A,行空间是由矩阵A的所有行向量所张成的空间,这个空间是上的子空间;
列空间,是由矩阵A的所有列向量所张成的空间,这个空间是上的子空间;其实矩阵的线性变换也可以理解成行空间到列空间的映射;
零空间,是的所有x组成的空间,即基础解系张成的空间,零空间的维度等于列数减去rank;
左零空间,是方程的解,也可以认为是,因此成为左零空间;
行空间与零空间共同组成了空间,列空间与左零空间共同组成了空间;
行空间与列空间的关系:考虑这么一个过程,b中每一个元素是A中列空间的线性组合,所以可以认为 b 存在于 A的列空间中,而 x 的维度是 n,其实 x 是存在于A的行空间,所以矩阵的线性变换是行空间到列空间的映射
4.9 点积与叉积
点积:也称内积,有两种计算方式:一种是对应元素相乘,最后所有元素相加,获得一个标量;另一种方式是一个向量a在另一个向量b上投影后相乘。 叉积:也称外积,它的结果是一个向量,该向量的长度是a与b组成的平行四边形的面积,该向量的方向是平行四边形所在平面的法向量。
4.10 如何理解特征值和特征向量?
特征向量: 如果某个向量是经过某一个矩阵的线性变换后,它并未发生旋转,方向还是原来那个方向,只是发生了伸缩,那么它就是特征向量。 特征值:是衡量特征向量在变换中拉伸或压缩的比例因子。
当然,我们不一定存在特征值和特征向量,特征值没有实数解代表了他没有特征向量;当 出现n重根时,即可能会出现只有一个特征值,而特征向量可能只有一个,也可能有n个;
4.11 线性变换
线性变换,其中的变换可以理解为函数,是指一个向量空间到另一个向量空间的映射,而“线性”两个字同时保持加法和数乘运算。线性变换在线性代数中是一个重要的概念,它可以用矩阵来表示。直观的理解是,线性变换后直线依旧是直线,原点保持固定,它是一种保持网格线平行并等距分布的变换;
仿射变换:仿射变换变化包括缩放平移旋转反射错切,原来的直线仿射变换后还是直线,原来的平行线经过仿射变换之后还是平行线,这就是仿射。
4.12 矩阵等价、相似和合同的关系
notion image
4.13 正交矩阵与正交变换
正交矩阵的定义是:。正交矩阵具有以下性质:
  • 正交矩阵的行向量和列向量都是单位向量,并且两两正交。
  • 两个正交矩阵的乘积仍然是正交矩阵。
要构造一个正交矩阵,可以使用施密特正交化将一组线性无关向量正交化,并单位化,然后将这些向量作为矩阵的行或者列。
正交变换性质:能使变换后的向量长度,向量之间的内积、距离、夹角等都不变
正交变换的几何意义:正交变换在几何上可以理解为旋转、反射或他们的组合。例如,二维平面上的旋转变换和镜像变换都是正交变换。
4.14 伪逆矩阵
奇异矩阵和非方阵没有逆矩阵,但可以有伪逆矩阵。满足,但不满足的矩阵 称为矩阵 的左逆矩阵。类似地,满足,但是不满足 的矩阵 称为矩阵 的右逆矩阵。
伪逆矩阵是对奇异矩阵和非方阵的矩阵而言的。
4.15 奇异值分解SVD
降维算法例如PCA等需要进行特征值分解,即,要求A必须为方阵,如果A不为方阵,必须使用奇异值分解。
SVD并不要求分解的矩阵为方阵,假设矩阵A为一个m×n的矩阵,那么矩阵A的SVD如下。其中为m×m的矩阵; 为m×n的矩阵,除了主对角线上的元素之外全为0,主对角线上的每个元素都称为奇异值,为一个n×n的矩阵。U和V均为酉矩阵,满足
为n×n的矩阵,可以对其进行特征值分解,得到n个特征值和特征向量。将所有特征向量张成一个n×n的矩阵V,就得到SVD分解中的矩阵V。一般将V中的每个特征向量叫做A的右奇异向量。
为m×m的矩阵,可以对其进行特征值分解,得到m个特征值和特征向量。将所有特征向量张成一个m×m的矩阵U,就得到SVD分解中的矩阵U。一般将U中的每个特征向量叫做A的左奇异向量。
的求法:

5.高等数学

5.1 映射、函数和初等函数
映射:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素a,B中总有唯一的一个元素b与它对应,就这种对应为从A到B的映射。
函数:函数也是一种映射,只不过是实数集到实数集的映射。
初等函数:幂函数(power function)、指数函数(exponential function)、对数函数(logarithmic function)、三角函数(trigonometric function)、反三角函数(inverse trigonometric function)与常数经过有限次的四则运算和有限次的函数复合步骤所组成的可用一个解析式表示的函数。
5.2 函数极限的定义与数列极限的定义
函数的极限:若f(x)在 的去心邻域中有定义(注意:在处可以没有定义)且时,恒成立。
极限存在 左右极限存在且相等
的极限: 时,使得 恒成立。
数列的极限,当时,使得 恒成立。称
5.3 连续
连续:函数在处及其邻域有定义,时,有
一致连续:连续是考察函数在一个点的性质,而一致连续是考察函数在一个区间的性质。一致连续,说明这个函数在这个区间上,任意接近的两个自变量的函数也是任意接近的。从数学定义上看, 时,有。从图形上看,就是不会产生陡然上升或下降的情况。
归根结底,“连续”和“一致连续”的不同,都是定义中 选取的依赖不同(连续的选取可以依赖于一致连续只能依赖于
闭区间内连续一定在这个区间内一致连续(Cantor定理)。
5.4 间断
不连续的点称为间断点。
都存在,则称的第一类间断点。此时若,则称它为可去间断点,否则称它为跳跃间断点。
至少有一个不存在,则称的第二类间断点。
可去间断点:比如,通过补充x=1的定义可以使其变为连续;
跳跃间断点:比如阶跃函数,在0处的左右极限不相等。
第二类间断点:比如
5.5 求函数零点的方法
解方程、数形结合、结合零点定理和函数单调性、二分法、牛顿迭代法(泰勒展开取前两项)
5.6 零点问题与微分不等式
在[a,b]上连续,且,则 在(a,b)内至少有一个根。
在(a,b)内单调,则在(a,b)内至多有一个根,这里a,b可以是有限数,也可以是无穷大。
引出推论:实系数奇次方程至少有一个根(提示:正无穷和负无穷)
5.7 连续、可导、可微
  • 一元
极限存在:在的去心邻域内有定义,且左极限=右极限;
连续:
可导: 存在
可微:同上
可导与连续:可导必连续,连续不一定可导;连续则极限必定存在
  • 多元
极限存在:邻域内各个方向的极限均相等,四面八方皆可到达
连续: 极限值等于函数该点的值
偏导存在:存在
可微:,线性增量:,若此时极限则可微。
关系:偏导连续 一定可微 ;可微一定存在偏导,原函数一定连续 ;函数连续与偏导是否存在无必然关系
5.8 积分中值定理,微分中值定理,函数的中值定理
函数的中值定理:有界与最值、介值定理、平均值定理、零点定理。
微分中值定理
费马定理:如果一个点可导,并且取到了极值,则其一阶导为0
罗尔定理:如果f(x)在[a,b]上连续,在(a,b)上可导,f(a)=f(b),则存在,使得。(闭区间连续,开区间可导)不需要闭区间可导,例如
拉格朗日中值定理:如果f(x)在[a,b]上连续,在(a,b)上可导,则存在,使得
这个定理的几何意义就是,至少存在一点的切线与端点的连线平行;物理意义是,至少存在一点的速度与平均速度相等。
柯西中值定理:如果在[a,b]上连续,在(a,b)上可导,则存在使得
拉格朗日的扩展,是二维运动至少存在一点的速度与平均速度相等
泰勒公式
简单来说就是用一个多项式函数去逼近一个给定的函数,逼近的时候是从函数图像上的某个点展开;麦克劳林公式是的情况展开来的。
积分中值定理:设在[a,b]上连续(闭区间连续),则存在,使得
5.9 驻点、拐点、凹凸函数
驻点:一阶导数为0的点;
拐点:二阶导数为0的点;
凹函数: 或者 ;
凸函数: 或者 ;
二元函数根据对应海塞矩阵的正定性来判断凹凸性,若海塞矩阵所有特征值均不小于0,则称为半正定;若所有特征值均大于0,则称为正定。如果为正定矩阵,则为凸函数,否则为凹函数。
5.10 解析
解析:函数在某点处解析指函数在该点及其领邻域内处处可导。(如果一个函数 f(x) 不仅在某点处可导,而且在点的某个邻域内的任一点都可导,则称函数 f(x) 在点解析)。
在区域中解析等价于可导,在点上解析不等价于可导。
奇点:不解析的点,或者称为未定义的点,奇点分为孤立奇点和非孤立奇点。
孤立奇点:函数在一个点不解析,但是在这个点的某个去心邻域内解析,这个点就是孤立奇点。
  • 可去奇点:洛朗级数当 n 小于0 时系数为0 ; 补上此点的定义就可使曲线解析
  • N阶奇点:含有有限个负幂次项,称为N阶奇点
  • 本性奇点:含无限个负幂次项,称为本性奇点
5.11 黎曼积分 VS 勒贝格积分
本质都是四步:分割、近似、求和、取极限,此时若此极限存在,则可积。
黎曼积分是将给定的函数的定义域分小而产生的,而勒贝格积分是通过划分函数的值域而产生的,前者的优点是Δx的度量容易给出,但当分割的细度加细时,函数的振幅仍可能较大,后者的优点是函数的振幅较小,从而扩展了可积函数类,使许多问题迎刃而解,但一般不再是区间,而是可测集,其度量一般不容易给出,对定义域和值域的划分是这两大积分最本质的区别。
在求和步骤中引入了积分中值定理;
黎曼可积的必要条件是在积分的闭区间上有界(有界并不一定可积,比如Dirichlet函数)
5.12 梯度、散度、旋度
梯度:梯度是一个向量,它表示某个函数s=s(x,y,z)在空间某一位置沿某一方向的变化量。代表了空间中任意点上梯度变化最大的方向和变化量,而且垂直于该点处的等值线或等值面。
散度:针对矢量函数,结果是一个数,对应内积;表示某一个区域流入或流出的矢量多少。
旋度:运算结果是一个向量,代表了矢量做旋转运动的方向和强度
5.13 几个重要的积分定理
  • 梯度定理(线积分定理):标量的梯度沿某一曲线的积分等于该标量在曲线两端的值得差。
物理意义:梯度场得曲线积分与积分路径无关,这也定义了物理学中得保守力或守恒力(Conservation force),守恒力做功与路径无关,而是取决于做功得起点和终点,比如重力做功。
  • 格林定理:格林定理建立了二维空间线积分与面积分的联系。它是指二维中沿某一封闭曲线C的线积分与以C为边界的平面区域R上的双重积分相等。
物理意义:当v表示速度矢量场时,速度矢量在封闭曲线C上的线积分等于流场的旋度在区域D上的面积分。
Stokes定理:将上述格林定理中的闭平面推广到了三维空间的闭曲面,它建立了空间曲线积分与空间曲面积分之间的联系。设C为空间中的封闭曲线,S是以C为边界的任意空间曲面,则:
Gauss定理(散度定理):格林公式的另一种推广(闭平面推广到三维闭空间),表达三维空间闭区域上的三重积分与边界曲面上的曲面积分之间的关系。定理表明在空间中穿过某一封闭曲面S的净通量等于其散度在S包围的控制体上的体积分。
5.14 二重积分和二次积分的区别
二重积分的几何背景是曲顶柱体的体积,积分区域是一个面,是用底面积乘以高得到的一个个小竖条的体积并累加,而二次积分本质上是两次单变量积分,积分区域是线性区间;
我们一般通过将二重积分转换为二次积分来计算二重积分
5.15 傅里叶级数和傅里叶变换
是一个时域到频域的桥梁。傅里叶级数仅适用于周期信号,傅里叶变换可以视作傅里叶级数的延伸,可以用于 分析非周期信号的频谱特性。
傅里叶变换的推导基于傅里叶级数,我们是认为待变换的非周期函数的周期为无穷大,按照傅里叶级数的公 式,分母会有一个无穷大的T,在傅里叶变换中就把这个无穷大的分母给丢掉。
5.16 定积分 vs 不定积分
定积分存在的条件:
  • 定理1:设f(x)在区间[a,b]上连续,则f(x)在[a,b]上可积;
  • 定理2:设f(x)在区间[a,b]上有界,且只有有限个间断点,则f(x)在[a,b]上可积;
  • 定理3:设f(x)在区间[a,b]上单调,则f(x)在[a,b]上可积。
不定积分获得的是原函数,定积分获得是一个值; 定积分的计算可以借助牛顿-莱布尼茨公式 一个函数,可以存在不定积分,而不存在定积分;也可以存在定积分,而不存在不定积分; 一个连续函数,一定存在定积分和不定积分; 若只有有限个间断点,则定积分存在; 若有跳跃间断点,则原函数一定不存在,即不定积分一定不存在。
5.17 拉格朗日乘数法
要求函数 约束下的极值这种问题可以表示为:,从而将等式约束化为无等式约束。
在含有不等式约束时要使用KKT条件,KKT条件使通过引入一个松弛变量 ,目的是将不等式约束经过松弛后变为一个等式约束,若原题的不等式约束为则此时要对应的
KKT条件:Karush-Kuhn-Tucker (KKT)条件是非线性规划(nonlinear programming)最佳解的必要条件。KKT条件将拉格朗日乘数法所处理涉及等式的约束优化问题推广至不等式。在实际应用上,KKT条件(方程组)一般不存在代数解,可以使用优化算法获取数值解(例如SVM中的SMO算法)。
当最优解满足KKT条件时,它可能是问题的最优解,但不保证一定是最优解。而当问题满足一些其他条件(如凸性),并且最优解满足KKT条件时,KKT条件可以成为最优解的充分条件。
 
 
 
 
 
 
OCSR论文阅读笔记保研复试——机器学习
JsingMog
JsingMog
一个热爱探索未知的少年
公告
type
status
date
slug
summary
tags
category
icon
password
🎉JsingMog个人博客将持续更新🎉
博客将涉及各种内容
个人成长、研究历程、升学经历等等
-- 感谢您的支持 ---
👏欢迎到来👏