Differentiaali- ja integraalilaskenta 2

6. Ääriarvojen luokittelu

Kertausta: ääriarvot yhden muuttujan tapauksessa

Funktiolla

$f\colon I\subset \mathbb{R} \to \mathbb{R}$ on lokaali (paikallinen) maksimi pisteessä

$a\in I$ , jos

$f(x)\le f(a)$ kaikilla

$x$ :n arvoilla jossakin

$a$ :n ympäristössä (eli riittävän lähellä pistettä

$a$ ). Vastaavasti lokaali minimi tarkoittaa sitä, että

$f(x)\ge f(a)$ jossakin

$a$ :n ympäristössä. Maksimi tai minimi on globaali, jos kyseinen epäyhtälö on voimassa kaikilla

$x\in I$ .
Ääriarvoja voi esiintyä:

Funktion $f$ kriittisissä pisteissä, joissa $f'(x)=0$ ,
pisteissä joissa $f$ :n derivaatta ei ole määritelty, ja
määrittelyjoukon $I$ reunalla.

Seuraavaksi yleistetään vastaavat ehdot funktion $f\colon D\subset \mathbb{R}^n\to\mathbb{R}$ tapaukseen.

Ääriarvot ja usean muuttujan funktiot

Funktiolla

$f\colon D\subset \mathbb{R}^n\to\mathbb{R}$ on pisteessä

$\mathbf{x}_0\in D$ lokaali maksimi, jos jossakin pisteen

$\mathbf{x}_0$ ympäristössä

$U\subset D$ pätee

$f(\mathbf{x})\le f(\mathbf{x}_0)$ kaikilla

$\mathbf{x}\in U$ . Vastaavasti

$f\colon D\subset \mathbb{R}^n\to\mathbb{R}$ on pisteessä

$\mathbf{x}_0\in D$ lokaali minimi, jos löytyy sellainen pisteen

$\mathbf{x}_0$ ympäristö

$U\subset D$ , että

$f(\mathbf{x})\ge f(\mathbf{x}_0)$ kaikilla

$\mathbf{x}\in U$ . Ääriarvo on globaali eli absoluuttinen, jos kyseinen epäyhtälö on voimassa kaikilla

$\mathbf{x}\in D$ .
Ääriarvoja voi esiintyä:

Funktion $f$ kriittissä pisteissä eli gradientin nollakohdissa $\nabla f(\mathbf{x})=0$ ,
pisteissä joissa $\nabla f$ ei ole määritelty, sekä
määrittelyjoukon $D$ reunalla.

Joukon

$D$ kriittistä pistettä

$\mathbf{x}_0$ , joka ei ole maksimi tai minimi, kutsutaan funktion

$f\colon D\to \mathbb{R}$ satulapisteeksi.

Esimerkki

Funktiolla $f(x,y)= 1-x^2-y^2$ on globaali maksimi $f(0,0)=1$ pisteessä $(0,0)$ . Tämä piste on funktion $f$ kriittinen piste, koska $\nabla f(0,0) = -2x\mathbf{i} -2y\mathbf{j} \Big|_{(0,0)}= \mathbf{0}.$

Esimerkki

Funktiolla

$f(x,y)= y^2-x^2$ on satulapiste

$(0,0)$ . Tämä piste on funktion

$f$ kriittinen piste, koska

$\nabla f(0,0) = -2x\mathbf{i}+2y\mathbf{j}\Big|_{(0,0)}= \mathbf{0}.$

Esimerkki

Kaikki pisteet suoralla

$x=0$ ovat funktion

$f(x,y)= -x^3$ satulapisteitä. Huomaa, että

$\nabla f(0,y) = -3x^2\mathbf{i} \Big|_{(0,y)}= \mathbf{0} \text{ kaikilla }y\in \mathbb{R}.$

Esimerkki

Funktiolla

$f(x,y)= \sqrt{x^2+y^2}$ on lokaali minimi

$f(0,0)=0$ pisteessä

$(0,0)$ . Funktio

$f$ on jatkuva, mutta sen gradientti

$\nabla f$ ei ole määritelty tässä pisteessä.

Esimerkki

Funktiolla

$f(x,y)=1-x$ ei ole paikallisia ääriarvoja, jos sen määrittelyjoukko on koko taso

$D=\mathbb{R}^2$ . Jos määrittelyjoukoksi kuitenkin ajatellaan esimerkiksi kiekko

$D=\{(x,y): x^2+y^2 \leq 1\}$ , niin sen reunalla saadaan maksimi

$f(-1,0)=2$ ja minimi

$f(1,0)=0$ .

Ääriarvojen luokittelu: johdanto

Ääriarvojen luokittelu perustuu suureen

$\Delta f= f(\mathbf{x} + \mathbf{h}) -f(\mathbf{x})$ tarkasteluun kriittisessä pisteessä

$\mathbf{x}\in D$ . Jos

$\Delta f$ saa vain positiivisia arvoja (kun

$\|\mathbf{h}\|$ on pieni), on piste

$\mathbf{x}$ minimi ja negatiivisessa tapauksessa maksimi. Jos

$\Delta f$ vaihtaa merkkiä, niin piste

$\mathbf{x}$ ei ole minimi eikä maksimi. Tämä johtaa funktion

$f$ toisen derivaatan tarkasteluun kriittisessä pisteessä.
Yhden muuttujan tapauksessa:

Jos $f''(x)< 0$ , niin funktiolla $f$ lokaali maksimi pisteessä $x$ .
Jos $f''(x)>0$ , niin funktiolla $f$ lokaali minimi pisteessä $x$ .
Jos $f''(x)=0$ , niin testi ei anna vastausta, ja kysymys täytyy ratkaista muulla tavoin.

Seuraavaksi yritetään yleistää tätä ajatusta monen muuttujan funktiolle.

Hessen matriisi

Olkoon

$f\colon D\subset \mathbb{R}^n \to \mathbb{R}$ funktio, jolla on jatkuvat toisen kertaluvun osittaisderivaatat. Funktion

$f$ luonnollinen derivaattakäsite on gradientti, joka itsessään on vektoriarvoinen funktio

$\nabla f\colon \mathbb{R}^n \to \mathbb{R}^n$ . Siten funktion

$f$ toinen derivaatta on matriisi, jota nimitetään Hessen matriisiksi

$H_f(\mathbf{x})= \begin{bmatrix} \frac{\partial^2}{\partial x_1^2} f(\mathbf{x}) & \frac{\partial^2}{\partial x_2\partial x_1} f(\mathbf{x}) & \cdots & \frac{\partial^2}{\partial x_n\partial x_1} f(\mathbf{x})\\ \frac{\partial^2}{\partial x_1\partial x_2} f(\mathbf{x}) & \frac{\partial^2}{\partial x_2^2} f(\mathbf{x}) & \cdots & \frac{\partial^2}{\partial x_n\partial x_2} f(\mathbf{x})\\ \vdots & \vdots & & \vdots \\ \frac{\partial^2}{\partial x_1\partial x_n} f(\mathbf{x}) & \frac{\partial^2}{\partial x_2\partial x_n} f(\mathbf{x}) & \cdots & \frac{\partial^2}{\partial x_n^2} f(\mathbf{x}) \\ \end{bmatrix}.$ Koska

$f$ on kaksi kertaa jatkuvasti derivoituva, derivoinnin järjestystä voidaan vaihtaa, ja kyseinen matriisi on symmetrinen.

Miksi Hessen matriisi kiinnostaa meitä? Kun gradientin avulla voidaan kirjoittaa lineaarinen (ensimmäisen asteen) approksimaatio funktiolle $f$ , niin Hessen matriisilla saadaan kvadraattinen tarkennus: $f(\mathbf{x} + \mathbf{h}) \approx f(\mathbf{x}) + \mathbf{h} \cdot \nabla f (\mathbf{x}) + \frac{1}{2} \mathbf{h} H_f(\mathbf{x}) \mathbf{h}^T,$ jossa (vaaka)vektori $\mathbf{h} = (h_1, h_2, \ldots , h_n)$ on pieni.

Tämä kaava on itse asiassa ainoastaan uusi tapa kirjoittaa toisen kertaluvun Taylorin approksimaatio $n$ :n muuttujan funktiolle. Muotoa $\mathbf{z} ^T A \mathbf{z}$ oleva lauseke on $n\times n$ -neliömatriisille $A$ niin kutsuttu neliömuoto, jossa $\mathbf{z}$ on $n$ -pystyvektori.

Kirjoita kaava auki tapauksessa $n = 2$ !

Pisteessä, jossa $\nabla f (\mathbf{x}) = 0$ , on voimassa approksimaatio $f(\mathbf{x} + \mathbf{h}) - f(\mathbf{x}) \approx \frac{1}{2} \mathbf{h} H_f(\mathbf{x}) \mathbf{h}^T.$ Tätä voidaan käyttää hyväksi mahdollisen ääriarvon luokittelussa pisteessä $\mathbf{x}$ ajattelemalla, että $\mathbf{h} \approx 0$ .

Matriisin (ja neliömuodon) definiittisyys

Symmetristä $n\times n$ -matriisia $A$ sanotaan positiividefiniitiksi, jos sen kaikki ominaisarvot ovat positiivisia ja negatiividefiniitiksi, jos $-A$ on positiividefiniitti. Matriisin sanotaan olevan indefiniitti, jos sen kaikki ominaisarvot ovat nollasta poikkeavia ja sillä on vähintään yksi positiivinen sekä yksi negatiivinen ominaisarvo. Positiivi/negatiividefiniiteillä matriiseilla on monia samoja ominaisuuksia kuin positiivisilla/negatiivisilla reaaliluvuilla.

Symmetrisen matriisin $A$ definiittiys tai indefiniittiys periytyy sitä vastaavalle neliömuodolle.
$A$ on positiividefiniitti $\Leftrightarrow$ $\mathbf{x}^T A \mathbf{x}>0$ kaikilla nollasta poikkeavilla pystyvektoreilla $\mathbf{x}\in \mathbb{R}^n$ .
$A$ on negatiividefiniitti $\Leftrightarrow$ $\mathbf{x}^T A \mathbf{x}< 0$ kaikilla nollasta poikkeavilla pystyvektoreilla $\mathbf{x}\in \mathbb{R}^n$ .
$A$ on indefiniitti $\Leftrightarrow$ $\mathbf{x}^T A \mathbf{x}$ saavuttaa sekä negatiivisia että positiivisia arvoja pystyvektorin $\mathbf{x}$ vaihdellessa.

Väite nähdään todeksi ortogonaalidiagonalisoimalla symmetrinen matriisi

$A$ muotoon

$A = U^T \Lambda U$ , jossa diagonaalimatriisi

$\Lambda$ sisältää

$A$ :n ominaisarvot.

Toisen derivaatan testi monen muuttajan tapauksessa

Lause. Olkoon

$f\colon D\subset \mathbb{R}^n\to\mathbb{R}$ funktio, jolla on jatkuvat toisen kertaluvun osittaisderivaatat kriittisen pisteen

$\mathbf{x}\in D$ ympäristössä. Tällöin:

Jos $H_f(\mathbf{x})$ on positiividefiniitti, niin $f$ :llä on lokaali minimi pisteessä $\mathbf{x}$ .
Jos $H_f(\mathbf{x})$ on negatiividefiniitti, niin $f$ :llä on lokaali maksimi pisteessä $\mathbf{x}$ .
Jos $H_f(\mathbf{x})$ on indefiniitti, niin $\mathbf{x}$ on funktion $f$ satulapiste.
Muussa tapauksessa testi ei anna tietoa funktiosta $f$ .

Lause seuraa approksimaatiosta $f(\mathbf{x} + \mathbf{h}) - f(\mathbf{x}) \approx \frac{1}{2} \mathbf{h} H_f(\mathbf{x}) \mathbf{h}^T$ kun $\mathbf{h} \approx 0$ . Väite täytyy nimittäin ainoastaan tarkastaa Hessen matriisin määräämälle neliömuodolle.

Esimerkki

Etsitään ja luokitellaan funktion $f(x,y,z) = x^2y+y^2z+z^2-2x$ kriittiset pisteet.

Yhtälöt kriittisille pisteille ovat \begin{align*} 0 &= f_{x}(x,y,z)=2xy-2,\\ 0 &= f_{y}(x,y,z)=x^2+2yz,\\ 0 &= f_{z}(x,y,z)=y^2+2z.\\ \end{align*} Nämä yhtälöt ratkaisemalla nähdään, että funktion $f$ ainoa kriittinen piste on $P=(1,1,-1/2)$ .

Lasketaan Hessen matriisi $H_f(1,1,-1/2)=\left [ \begin{smallmatrix} 2 & 2 & 0 \\ 2 & -1 & 2 \\ 0 & 2 & 2 \end{smallmatrix} \right ]$ ja lasketaan matriisin ominaisarvot vaikkapa MATLABilla

   >> a = [2 2 0 ; 2 -1 2 ; 0 2 2]
   a =
       2     2     0
       2    -1     2
       0     2     2
   >> eig(a)
   ans =
      -2.7016
       2.0000
       3.7016

Niinpä funktiolla $f$ on satulapiste pisteessä $P=(1,1,-1/2)$ .