求对一矩阵求导过程的推导在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置.请问这是怎么来的,根据哪个矩
来源:学生作业帮助网 编辑:六六作业网 时间:2024/12/26 01:00:30
求对一矩阵求导过程的推导在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置.请问这是怎么来的,根据哪个矩
求对一矩阵求导过程的推导
在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置.请问这是怎么来的,根据哪个矩阵求导公式而来的,请帮忙推导.
这两个网页里都有这样的叙述,我就是看不明白那一步是怎么来的。
求对一矩阵求导过程的推导在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置.请问这是怎么来的,根据哪个矩
简单的做法:用{,}表示内积,则任意依赖于实数t的向量X=X(t),||X||^2={X,X}=X'X,且有莱布尼茨法则:d/dt({X,X})=2{d/dt(X),X}.
任取矩阵A,令g(t)=Θ+tA,则g(0)=Θ,dg/dt=A
令 f(t)=J(g(t))=1/2*||g(t)X−Y||^2={g(t)X−Y,g(t)X−Y}/2,
对t求导,得到d/dt(f(t))={d/dt(g(t))X,g(t)X−Y}={AX,g(t)X-Y}
取t=0,就得到df/dt(0)={AX,ΘX-Y}={AX,ΘX}-{AX,Y}
这是一个A的线性函数:dJ(A)=X'A'ΘX-X'A'Y
这个线性函数就是J的微分.
矩阵的微分是函数导数的概念形式推广到矩阵的情形。矩阵微分根据对不同变量的求导,有不同形式。
定义一: 设m×n矩阵
A(t)=【amn(t)】
的每个元素aij(t)都是自变量t的可导函数,则称m×n矩阵【δamn(t)/δt】为A(t)关于变量t的导数,记为δA(t)/δt;
定义二:设A为m×n阵,f(A)为矩阵A的数量值函数。若f(A)关于A的任一元素aij...
全部展开
矩阵的微分是函数导数的概念形式推广到矩阵的情形。矩阵微分根据对不同变量的求导,有不同形式。
定义一: 设m×n矩阵
A(t)=【amn(t)】
的每个元素aij(t)都是自变量t的可导函数,则称m×n矩阵【δamn(t)/δt】为A(t)关于变量t的导数,记为δA(t)/δt;
定义二:设A为m×n阵,f(A)为矩阵A的数量值函数。若f(A)关于A的任一元素aij的偏导δf/ δaij都存在,则称【δf/δamn】为f(A)关于A=(aij)的导数,记为δf(A)/δA;
定义三:设A为m×n维矩阵型变量,A=(aij),G(A)维A的矩阵值函数(p×q维)即G(A)=【g(A)pq】,其中g(A)ij都为A的数值量函数,且关于A可导,则称【δG/δaij】=△⊙G(△应是倒三角,为[δ/δaij],Hamilton算子矩阵;⊙应是乘号加圈,为Kronecker积)
收起
在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X Y||^2矩阵微分根据对不同变量的求导,有不同形式。 定义一: 设m×n矩阵 A(t
梯度下降的那篇文章已经有详细的介绍了,就是多变元函数的链式法则求导而已,哪一步没有看懂?求导后为什么X变成X'了,并且是X'(*X*Θ−Y)而不是(*X*Θ−Y)X求和(k=1到n)X(i k)b(k)是Xb的第i个分量,记为(Xb)i,而求和(i=1到m)求和[(k=1到n)X(i k)b(k)]X(i j)=求和(i=1到m)X(i j)(Xb)i=X的第i列的转置乘以...
全部展开
梯度下降的那篇文章已经有详细的介绍了,就是多变元函数的链式法则求导而已,哪一步没有看懂?
收起