4. Ääriarvot

4.1. Kriittisten pisteiden luokittelu

Johdanto

Ääriarvojen luokittelu perustuu suureen \Delta f= f(\mathbf{x} + \mathbf{h}) -f(\mathbf{x}) tarkasteluun kriittisessä pisteessä \mathbf{x}\in D. Jos \Delta f saa vain positiivisia arvoja (kun \|\mathbf{h}\| on pieni), on piste \mathbf{x} minimi ja negatiivisessa tapauksessa maksimi. Jos \Delta f vaihtaa merkkiä, niin piste \mathbf{x} ei ole minimi eikä maksimi. Tämä johtaa funktion f toisen derivaatan tarkasteluun kriittisessä pisteessä.
Yhden muuttujan tapauksessa:

  1. Jos f''(x)< 0, niin funktiolla f lokaali maksimi pisteessä x.
  2. Jos f''(x)>0, niin funktiolla f lokaali minimi pisteessä x.
  3. Jos f''(x)=0, niin testi ei anna vastausta, ja kysymys täytyy ratkaista muulla tavoin.
Seuraavaksi yritetään yleistää tätä ajatusta monen muuttujan funktiolle.

Hessen matriisi

Olkoon f\colon D\subset \mathbb{R}^n \to \mathbb{R} funktio, jolla on jatkuvat toisen kertaluvun osittaisderivaatat. Funktion f luonnollinen derivaattakäsite on gradientti, joka itsessään on vektoriarvoinen funktio \nabla f\colon \mathbb{R}^n \to \mathbb{R}^n. Siten funktion f toinen derivaatta on matriisi, jota nimitetään Hessen matriisiksi  H_f(\mathbf{x})= \begin{bmatrix} \frac{\partial^2}{\partial x_1^2} f(\mathbf{x}) & \frac{\partial^2}{\partial x_2\partial x_1} f(\mathbf{x}) & \cdots & \frac{\partial^2}{\partial x_n\partial x_1} f(\mathbf{x})\\ \frac{\partial^2}{\partial x_1\partial x_2} f(\mathbf{x}) & \frac{\partial^2}{\partial x_2^2} f(\mathbf{x}) & \cdots & \frac{\partial^2}{\partial x_n\partial x_2} f(\mathbf{x})\\ \vdots & \vdots & & \vdots \\ \frac{\partial^2}{\partial x_1\partial x_n} f(\mathbf{x}) & \frac{\partial^2}{\partial x_2\partial x_n} f(\mathbf{x}) & \cdots & \frac{\partial^2}{\partial x_n^2} f(\mathbf{x}) \\ \end{bmatrix}. Koska f on kaksi kertaa jatkuvasti derivoituva, derivoinnin järjestystä voidaan vaihtaa, ja kyseinen matriisi on symmetrinen.

Miksi Hessen matriisi kiinnostaa meitä? Kun gradientin avulla voidaan kirjoittaa lineaarinen (ensimmäisen asteen) approksimaatio funktiolle f, niin Hessen matriisilla saadaan kvadraattinen tarkennus:  f(\mathbf{x} + \mathbf{h}) \approx f(\mathbf{x}) + \mathbf{h} \cdot \nabla f (\mathbf{x}) + \frac{1}{2} \mathbf{h} H_f(\mathbf{x}) \mathbf{h}^T, jossa (vaaka)vektori \mathbf{h} = (h_1, h_2, \ldots , h_n) on pieni.

Tämä kaava on itse asiassa ainoastaan uusi tapa kirjoittaa toisen kertaluvun Taylorin approksimaatio n:n muuttujan funktiolle. Muotoa \mathbf{z} ^T A \mathbf{z} oleva lauseke on n\times n-neliömatriisille A niin kutsuttu neliömuoto, jossa \mathbf{z} on n-pystyvektori.

Kirjoita kaava auki tapauksessa n = 2!

Pisteessä, jossa \nabla f (\mathbf{x}) = 0, on voimassa approksimaatio f(\mathbf{x} + \mathbf{h}) - f(\mathbf{x}) \approx \frac{1}{2} \mathbf{h} H_f(\mathbf{x}) \mathbf{h}^T. Tätä voidaan käyttää hyväksi mahdollisen ääriarvon luokittelussa pisteessä \mathbf{x} ajattelemalla, että \mathbf{h} \approx 0.

Matriisin (ja neliömuodon) definiittisyys

Symmetristä n\times n-matriisia A sanotaan positiividefiniitiksi, jos sen kaikki ominaisarvot ovat positiivisia ja negatiividefiniitiksi, jos -A on positiividefiniitti. Matriisin sanotaan olevan indefiniitti, jos sen kaikki ominaisarvot ovat nollasta poikkeavia ja sillä on vähintään yksi positiivinen sekä yksi negatiivinen ominaisarvo. Positiivi/negatiividefiniiteillä matriiseilla on monia samoja ominaisuuksia kuin positiivisilla/negatiivisilla reaaliluvuilla.

Symmetrisen matriisin A definiittiys tai indefiniittiys periytyy sitä vastaavalle neliömuodolle.
A on positiividefiniitti \Leftrightarrow \mathbf{x}^T A \mathbf{x}>0 kaikilla nollasta poikkeavilla pystyvektoreilla \mathbf{x}\in \mathbb{R}^n.
A on negatiividefiniitti \Leftrightarrow \mathbf{x}^T A \mathbf{x}< 0 kaikilla nollasta poikkeavilla pystyvektoreilla \mathbf{x}\in \mathbb{R}^n.
A on indefiniitti \Leftrightarrow \mathbf{x}^T A \mathbf{x} saavuttaa sekä negatiivisia että positiivisia arvoja pystyvektorin \mathbf{x} vaihdellessa.

Väite nähdään todeksi ortogonaalidiagonalisoimalla symmetrinen matriisi A muotoon A = U^T \Lambda U, jossa diagonaalimatriisi \Lambda sisältää A:n ominaisarvot.

Toisen derivaatan testi monen muuttajan tapauksessa

Lause. Olkoon f\colon D\subset \mathbb{R}^n\to\mathbb{R} funktio, jolla on jatkuvat toisen kertaluvun osittaisderivaatat kriittisen pisteen \mathbf{x}\in D ympäristössä. Tällöin:
  1. Jos H_f(\mathbf{x}) on positiividefiniitti, niin f:llä on lokaali minimi pisteessä \mathbf{x}.
  2. Jos H_f(\mathbf{x}) on negatiividefiniitti, niin f:llä on lokaali maksimi pisteessä \mathbf{x}.
  3. Jos H_f(\mathbf{x}) on indefiniitti, niin \mathbf{x} on funktion f satulapiste.
  4. Muussa tapauksessa testi ei anna tietoa funktiosta f.

Lause seuraa approksimaatiosta f(\mathbf{x} + \mathbf{h}) - f(\mathbf{x}) \approx \frac{1}{2} \mathbf{h} H_f(\mathbf{x}) \mathbf{h}^T kun \mathbf{h} \approx 0. Väite täytyy nimittäin ainoastaan tarkastaa Hessen matriisin määräämälle neliömuodolle.

Esimerkki

Etsitään ja luokitellaan funktion  f(x,y,z) = x^2y+y^2z+z^2-2x kriittiset pisteet.

Yhtälöt kriittisille pisteille ovat \begin{align*} 0 &= f_{x}(x,y,z)=2xy-2,\\ 0 &= f_{y}(x,y,z)=x^2+2yz,\\ 0 &= f_{z}(x,y,z)=y^2+2z.\\ \end{align*} Nämä yhtälöt ratkaisemalla nähdään, että funktion f ainoa kriittinen piste on P=(1,1,-1/2).

Lasketaan Hessen matriisi H_f(1,1,-1/2)=\left [ \begin{smallmatrix} 2 & 2 & 0 \\ 2 & -1 & 2 \\ 0 & 2 & 2 \end{smallmatrix} \right ] ja lasketaan matriisin ominaisarvot vaikkapa MATLABilla

   >> a = [2 2 0 ; 2 -1 2 ; 0 2 2]
   a =
       2     2     0
       2    -1     2
       0     2     2
   >> eig(a)
   ans =
      -2.7016
       2.0000
       3.7016

Koska ominaisarvoissa on erimerkkisiä lukuja, niin funktiolla f on satulapiste pisteessä P=(1,1,-1/2).