auto-grad

1. Base Principle
2. Useful Rules
- 2.1. Differential
- 2.2. Trace
3. Common differential calculations
- 3.1. MSE
- 3.2. Eigenvalue and Eigenvector
  - 3.2.1. Eigenvalue
  - 3.2.2. Eigenvector

1. Base Principle

$l = f (A), f : R^{m \times n} \to R, f \in C^{1}$

\frac{\partial f}{\partial A} = \frac{\partial f}{\partial A _{1, 1}} \frac{\partial f}{\partial A _{2, 1}} ⋮ \frac{\partial f}{\partial A _{m, 1}} \frac{\partial f}{\partial A _{1, 2}} \frac{\partial f}{\partial A _{2, 2}} ⋮ \frac{\partial f}{\partial A _{m, 2}} \dots \dots ⋱ \dots \frac{\partial f}{\partial A _{1, n}} \frac{\partial f}{\partial A _{2, n}} ⋮ \frac{\partial f}{\partial A _{m, n}}

d l = t r (d l) = t r (df (A)) = t r (i, j \sum \frac{\partial f}{\partial A _{i, j}} d A_{i, j}) = t r ((\frac{\partial f}{\partial A})^{T} d A)

$\forall d A, d l = t r (B^{T} d A) ⟹ \frac{\partial f}{\partial A} = B$

So all we need to do is to find a $B$ that satisfies $\forall d A, d l = t r (B^{T} d A)$ .

2. Useful Rules

2.1. Differential

Addition rule: $d (X \pm Y) = d X \pm d Y$
Product rule: $d (X Y) = (d X) Y + X d Y$
Inverse: $d X^{- 1} = - X^{- 1} d X X^{- 1}$
Transpose: $d (X^{T}) = (d X)^{T}$
Trace: $d tr (X) = tr (d X)$
Determinant: $d ∣ X ∣ = tr (X^{#} d X)$ , where $X^{#}$ is the adjugate matrix
Hadamard product: $d (X ⊙ Y) = d X ⊙ Y + X ⊙ d Y$
Component-wise(element-wise) function: $d σ (X) = σ^{'} (X) ⊙ d X$

2.2. Trace

Scalar trace: $a = tr (a)$
Transpose: $tr (A^{T}) = tr (A)$
Linearity: $tr (a A + b B) = a tr (A) + b tr (B)$
Cyclic property: $tr (A B) = tr (B A)$ , where $A$ and $B^{T}$ are conformable. Both equal to $\sum_{i, j} A_{ij} B_{ji}$
Cyclic property with Hadamard product: $tr (A^{T} (B ⊙ C)) = tr ((A ⊙ B)^{T} C)$ , where $A, B, C$ have the same dimensions. Both equal to $\sum_{i, j} A_{ij} B_{ij} C_{ij}$

3. Common differential calculations

$n$ : dimension of output
$\hat{y}$ : predicted value
$y$ : target value

3.1. MSE

$\hat{y} = W x + b$

$l = \sum_{i = 1}^{n} (y_{i} - \overset{y}{^}_{i})^{2} = (\hat{y} - y)^{T} (\hat{y} - y)$

let $t = \hat{y} - y$ ,

$d l = t r (d l) = t r (t^{T} d t + d t^{T} t) = t r (t^{T} d t) + t r (d t^{T} t) = t r ((2 t)^{T} d t)$

Thus.
$\frac{\partial l}{\partial t} = 2 t$

$d t = d (\hat{y} - y) = d \hat{y}$

$\frac{\partial l}{\partial y ^} = 2 t$

$d \hat{y} = d (W x + b) = d W x$

$d l = t r ((\frac{\partial l}{\partial y ^})^{T} d W x) = t r (x (\frac{\partial l}{\partial y ^})^{T} d W) = t r (((\frac{\partial l}{\partial y ^}) x^{T})^{T} d W)$

$\frac{\partial l}{\partial W} = (\frac{\partial l}{\partial y ^}) x^{T}$ = $2 t x^{T}$

3.2. Eigenvalue and Eigenvector

Suppose $A \in Sym_{n} (R)$ , then $A$ can be decomposed as

A = Q Λ Q^{T}

Λ = diag (λ_{1}, λ_{2}, \dots, λ_{n}), λ_{i} \leq λ_{i + 1} Q = (q_{1}, q_{2}, \dots, q_{n}) \in O_{n} (R), where O_{n} (R) = {M \in R^{n \times n} ∣ M^{T} M = I}

where $λ_{i}$ are the eigenvalues of $A$ and $Q$ is the eigenvector matrix.

3.2.1. Eigenvalue

Λ d Λ d l = Q^{T} A Q = Q^{T} d A Q = t r (d l) = t r ((\frac{\partial l}{\partial Λ})^{T} d Λ) = t r ((\frac{\partial l}{\partial Λ})^{T} Q^{T} d A Q) = t r (Q (\frac{\partial l}{\partial Λ})^{T} Q^{T} d A) = t r ((Q \frac{\partial l}{\partial Λ} Q^{T})^{T} d A)

Thus,

\frac{\partial l}{\partial A} = Q \frac{\partial l}{\partial Λ} Q^{T}

3.2.2. Eigenvector

$Q^{T} d Q + d Q^{T} Q = 0$ , because $Q^{T} Q = I$
Let $H = Q^{T} d Q$

d A Q^{T} d A Q = d Q Λ Q^{T} + Q d Λ Q^{T} + Q Λ d Q^{T} = (Q^{T} d Q) Λ + d Λ + Λ (d Q^{T} Q) = H Λ + d Λ + Λ H

(Q^{T} d A Q)_{ii} \forall i \neq = j, (Q^{T} d A Q)_{ij} \forall i \neq = j, H_{ij} \forall i, H_{ii} = d Λ_{ii} = H_{ij} (λ_{j} - λ_{i}) = \frac{1}{λ _{j} - λ _{i}} (Q^{T} d A Q)_{ij} = 0

Let $F_{ij} = {\frac{1}{λ _{j} - λ _{i}} 0 if i \neq = j if i = j$

$H = F ⊙ (Q^{T} d A Q)$

t r (d l) = t r (\frac{\partial l}{\partial Q}^{T} d Q) = t r (\frac{\partial l}{\partial Q}^{T} Q H) = t r ((Q^{T} \frac{\partial l}{\partial Q})^{T} (F ⊙ (Q^{T} d A Q))) = t r (((Q^{T} \frac{\partial l}{\partial Q}) ⊙ F)^{T} (Q^{T} d A Q)) = t r (Q ((Q^{T} \frac{\partial l}{\partial Q}) ⊙ F)^{T} Q^{T} d A)

Blogs

探索