5. Gradientti ja suunnattu derivaatta

Määritelmä

Olkoon D\subset \mathbb{R}^n ja \mathbf{f} = (f_1,f_2,\ldots,f_m) vektori, missä jokainen funktion f komponentti on funktio f_j\colon D \to \mathbb{R} ja m,n\ge 2. Tällainen vektori määrittelee vektoriarvoisen funktion \mathbf{f}\colon \mathbb{R}^n \to \mathbb{R}^m, jota kutsutaan myös vektorikentäksi. Usein käytetään merkintää \mathbf{y} = \mathbf{f}(\mathbf{x}).

Vektoriarvoisia funktiota esiintyy usein mm. fysiikassa sellaisten suureiden yhteydessä, joilla on voimakkuus ja suunta (esimerkiksi nopeus- ja voimakentät).

Huomautus. Yllä f_j:t ovat tässä vektorin \mathbf{f} komponentteja (eivät siis osittaisderivaattoja).

Vektoriarvoisen funktion derivointi

Derivaatan luonnollinen vastine vektoriarvoisen funktion \mathbf{f} =(f_1,f_2,\ldots,f_m) tapauksessa on Jacobin matriisi 
  D\mathbf{f}(\mathbf{x}) =
  \begin{bmatrix}
  \frac{\partial f_1}{\partial x_1} &  \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n}\\
  \frac{\partial f_2}{\partial x_1} &  \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n}\\
  \vdots & \vdots & & \vdots \\
  \frac{\partial f_m}{\partial x_1} &  \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n}.
  \end{bmatrix}
  Jos m=n, Jacobin matriisi on neliömatriisi ja sen determinattia sanotaan funktion \mathbf{f} Jacobin determinantiksi pisteessä \mathbf{x}. Tätä determinanttia tarvitaan kurssin loppuosassa.

Jacobin matriiseilla ketjusääntö voidaan kirjoittaa yleisessä muodossa 
  D(\mathbf{f} \circ \mathbf{g})(\mathbf{x})= D\mathbf{f}\big(\mathbf{g}(\mathbf{x})\big)D\mathbf{g}(\mathbf{x}).

Sovellus: implisiittifunktiolause

Oletetaan, että skalaarifunktiot F_{(1)}, F_{(2)}, \ldots , F_{(n)} ovat derivoituvia. Tutkitaan yhtälöryhmää 
  \left\{\begin{array}{l}
  F_{(1)}(x_1,x_2,\ldots,x_m,y_1,y_2,\ldots,y_n)=0,\\
  F_{(2)}(x_1,x_2,\ldots,x_m,y_1,y_2,\ldots,y_n)=0,\\
  \vdots\\
  F_{(n)}(x_1,x_2,\ldots,x_m,y_1,y_2,\ldots,y_n)=0,\\
  \end{array}\right.
  pisteen P_0 = (a_1,a_2,\ldots,a_m,b_1,b_2,\ldots,b_n) lähellä. Muuttujat \mathbf{y}=(y_1,\ldots,y_n) voidaan esittää muuttujien \mathbf{x}=(x_1,\ldots,x_m) funktioina pisteen P_0 lähellä, jos funktion \mathbf{f}(\mathbf{y}) = (F_{(1)},\ldots,F_{(n)})(\mathbf{y}) Jacobin determinatti 
  \det D\mathbf{f}(\mathbf{y})\Big|_{P_0} \neq 0.

Esimerkki

Osoitetaan, että (u,v) voidaan esittää muuttujien (x,y,z) funktiona systeemistä 
  \left\{\begin{array}{l}
  F(x,y,z,u,v) = xy^2+xzu + yv^2-3 = 0,\\
  G(x,y,z,u,v) = x^3yz+2xv -u^2v^2-2 = 0,\\
  \end{array}\right.
  pisteen P_0=(1,1,1,1,1) lähellä.

Selvästi F(P_0) = G(P_0) = 0. Muodostetaan Jacobin determinatti 
  \left|\begin{array}{cc}
  \frac{\partial F}{\partial u} &
  \frac{\partial F}{\partial v} \\
  \frac{\partial G}{\partial u} &
  \frac{\partial G}{\partial v}
  \end{array}\right|\Big|_{P_0}
  =
  \left|\begin{array}{cc}
  xz & 2yv \\
  -2uv^2 & 2x-2u^2v
  \end{array}\right|\Big|_{P_0}
  =
  \left|\begin{array}{cc}
  1 & 2 \\
  -2 & 0
  \end{array}\right|=4.
  Koska determinantti ei ole nolla, voidaan kirjoittaa u = u(x,y,z)\quad \text{ ja }\quad v = v(x,y,z) kolmen muuttujan funktioina. Kaavoja näille funktioille ei kuitenkaan voida yleensä antaa.

Gradientti

Olkoon f\colon D\subset \mathbb{R}^n\to\mathbb{R}, n\ge 2, derivoituva pisteessä \mathbf{x}\in D.

Määritelmä. Funktion f gradientti pisteessä \mathbf{x} on vektori 
  \nabla f = \mathrm{grad}\, f = \Big(\frac{\partial}{\partial x_1}f,\frac{\partial}{\partial x_2}f,\ldots,\frac{\partial}{\partial x_n}f\Big)\in\mathbb{R}^n.

Gradientti kertoo funktion f nopeimman kasvun suunnan. Se on vektoriarvoinen funktio \nabla f\colon D \to \mathbb{R}^n. Tapauksessa n=3 voidaan kirjoittaa 
  \nabla = \mathbf{i} \frac{\partial}{\partial x} + \mathbf{j}\frac{\partial}{\partial y} + \mathbf{k}\frac{\partial}{\partial z}.
  Tapauksessa n=2 kolmas termi jää pois. Gradientti on (m\times n -) Jacobin matriisin erikoistapaus m=1.

Esimerkki

Olkoon f(x,y)=x^2+y^2. Tällöin saadaan \nabla f = 2x\mathbf{i} + 2y \mathbf{j}. Erityisesti \nabla f (a,b) on kohtisuorassa origokeskisen (yksikkö)ympyrän mielivaltaiseen pisteeseen (a,b) piirrettyä tangenttisuoraa vastaan. Tämä on erikoistapaus yleisemmästä tasa-arvokäyriä koskevasta totuudesta.

Huom. Derivaatan ketjusääntö voidaan kirjoittaa myös gradientin avulla: Jos \mathbf{r}=x(t)\,\mathbf{i}+y(t)\,\mathbf{j}, niin \frac{d}{dt}f(\mathbf{r}(t)) = \frac{\partial f}{\partial x}\frac{dx}{dt}+\frac{\partial f}{\partial y}\frac{dy}{dt}=
  \nabla f(\mathbf{r}(t))\cdot \mathbf{r}'(t).

Tasa-arvokäyrät

Olkoon c\in\mathbb{R} vakio, D\subset\mathbb{R}^2 ja f\colon D \to \mathbb{R} funktio. Tällöin joukko C= \{(x,y) : f(x,y)=c\} on usein tasokäyrä. Kyseinen pistejoukko voi olla myös tyhjä (jos f ei saa arvoa c) tai vaikkapa koko taso (jos f on vakio). Mikäli joukko C on tasokäyrä, sitä sanotaan funktion f arvoon c liittyväksi tasa-arvokäyräksi.

Esimerkiksi korkeuskäyrät kartalla ovat tasa-arvokäyriä funktiolle, joka liittää kartalla olevaan pisteeseen (x,y) sen korkeuden meren pinnasta.

Gradientti

Lause. Olkoon D\subset \mathbb{R}^2, (a,b)\in D ja f\colon D\to \mathbb{R} derivoituva pisteessä (a,b) ja \nabla f(a,b)\neq \mathbf{0}. Tällöin \nabla f(a,b) on kohtisuorassa pisteen (a,b) kautta kulkevaa funktion f tasa-arvokäyrää (t.s., sen tangenttia) vasten.

Seuraus: Jos piste \mathbf{x}\in D on funktion f paikallinen ääriarvo (minimi tai maksimi), niin \nabla f(\mathbf{x})=\mathbf{0}. Gradientin nollakohta ei kuitenkaan välttämättä ole funktion ääriarvo. Edes skalaarifunktion derivaatan nollakohta ei välttämättä ole minimi eikä maksimi, kuten nähdään jos f(x) = x^3.

Todistus. Olkoon I = [-1,1] ja \mathbf{r}(t)\colon I \to \mathbb{R}^2 tasa-arvokäyrän sellainen parametrisointi, että \mathbf{r}(0)=(a,b). Koska \mathbf{r}(t)=x(t)\mathbf{i} +y(t)\mathbf{j} on tasa-arvokäyrä, kaikilla t\in I pätee f(x(t),y(t))=f(a,b) eli vakio. Ketjusäännöstä saadaan (koska vakiofunktion derivaatta on nolla) 
  f_{x}\big(x(t),y(t)\big)x'(t) + f_{y}\big(x(t),y(t)\big)y'(t)=0.
  Erityisesti pisteessä t=0 tämä tarkoittaa, että 
  \nabla f(a,b)\cdot \mathbf{r}'(0)=0,
  eli toisin sanoen vektori \nabla f ja tangentin suuntainen \mathbf{r}'(0) ovat kohtisuorassa.

Suunnattu derivaatta

Edellinen tulos voidaan tulkita niin, että tasa-arvokäyrän tangentti antaa suunnan, johon edettäessä funktio ei kasva eikä vähene. Niinpä funktio kasvaa jyrkimmin gradienttinsa suuntaan, joka on tasa-arvokäyrän normaalivektori. Muihin suuntiin liikuttessa kasvunopeuden antaa suunnattu derivaatta 
     D_{\mathbf{u}}f(a,b) = \frac{dg}{dt}(0),
     \text{ jossa } g(t) = f(a + t u_1, b + t u_2)
  ja \mathbf{u} = u_1 \mathbf{i} + u_2 \mathbf{j} on yksikkösuuntavektori.

Lause. Olkoon f\colon D\subset \mathbb{R}^2\to \mathbb{R} funktio, (a,b)\in D ja \mathbf{u} =
  u_1 \mathbf{i} + u_2 \mathbf{j} sellainen vektori, että \|\mathbf{u}\|^2= u_1^2 +
  u_2^2 = 1. Tällöin funktion f suunnattu derivaatta suuntaan \mathbf{u} saadaan kaavasta 
  D_{\mathbf{u}}f(a,b) = \mathbf{u} \cdot \nabla f(a,b).

Esimerkki

Olkoon f(x,y)=y^4+2xy^3+x^2y^2. Etsitään D_{\mathbf{u}}f (0,1), kun \mathbf{u} on

a) \mathbf{i} +2\mathbf{j}~ b) \mathbf{j} - 2\mathbf{i}~ c) 3\mathbf{i}~ d) \mathbf{i}+\mathbf{j}.

Lasketaan \nabla f(x,y) = (2y^3+2xy^2)\mathbf{i} + (4y^3+6xy^2+2x^2y)\mathbf{j}, \nabla f(0,1) = 2\mathbf{i} + 4\mathbf{j}. a) \|\mathbf{i} +2\mathbf{j}\| = \sqrt{5} ja siten \mathbf{u} = (\mathbf{i} +2\mathbf{j})/\sqrt{5}. Saadaan 
  D_{\mathbf{u}}f(0,1)=\frac{1}{\sqrt{5}}(\mathbf{i} +2\mathbf{j})\cdot (2\mathbf{i} + 4\mathbf{j}) = \frac{2+8}{\sqrt{5}}=2\sqrt{5}.

Huomaa, että tässä \mathbf{u} ja \nabla f(0,1) ovat yhdensuuntaiset.

b) \|\mathbf{j} -2\mathbf{i}\| = \sqrt{5} ja siten \mathbf{u} = (\mathbf{j} -2\mathbf{i})/\sqrt{5}. Saadaan 
  D_{\mathbf{u}}f(0,1)=\frac{1}{\sqrt{5}}(\mathbf{j} -2\mathbf{i})\cdot (2\mathbf{i} + 4\mathbf{j}) = \frac{-4+4}{\sqrt{5}}=0.
  Vektorit \mathbf{u} ja \nabla f(0,1) ovat siis kohtisuorassa.

c) \|3\mathbf{i}\| = 3 ja siten \mathbf{u} = \mathbf{i}. Saadaan D_{\mathbf{u}}f(0,1)=\mathbf{i} \cdot (2\mathbf{i} + 4\mathbf{j}) = 2. Tämä on sama kuin f_1(0,1).

d) \|\mathbf{i} +\mathbf{j}\| = \sqrt{2} ja siten \mathbf{u} = (\mathbf{i} +\mathbf{j})/\sqrt{2}. Saadaan 
  D_{\mathbf{u}}f(0,1)=\frac{1}{\sqrt{2}}(\mathbf{i} +\mathbf{j})\cdot (2\mathbf{i} + 4\mathbf{j}) = \frac{2+4}{\sqrt{2}}=3\sqrt{2}.

Huomaa, että 3\sqrt{2}\approx 4.243 < 2\sqrt{5} \approx 4.472.