Differentiaali- ja integraalilaskenta 2

7. PNS-menetelmä

Regressio-ongelma

Regressioanalyysissa pyritään valitsemaan parametrin β arvo siten, että käyrä y=f(x;β) kulkisi mahdollisimman läheltä jokaista havaintopistettä (xj,yj)R2,j=1,2,,n. Tällaista optimaalisesti valittua käyrää kutsutaan regressiomalliksi y=f(x;β), jossa funktion f muoto on valittu tilanteen ja harkinnan mukaan. Kunhan f on valittu, niin eräs ratkaisu käyränsovitusongelmaan on pienimmän neliösumman menetelmä.

Pienimmän neliösumman menetelmä

Pienimmän neliösumman menetelmässä pyritään minimoimaan regressiomallin virhetermien εj εj=yjf(xj;β),j=1,2,,n neliösummaa eli funktiota F(β)=nj=1ε2j=nj=1(yjf(xj;β))2. muuttamalla parametrivektorin β=(β0,β1,,βm) arvoa. Optimaalinen β:n arvo on parametrin β pienimmän neliösumman estimaatti eli PNS-estimaatti.

Kysymys: Miksi ei minimoitaisi lauseketta nj=1|yjf(xj;β)| neliösumman sijasta?

PNS-sovitus


Kuvassa vihreällä parametreista β=(β1,β2,,βm) riippuva sovitettava funktio f(x;β) eräällä kiinteällä parametrin arvolla. Datapisteet (xj,yj) ja vastaavat virhetermit εj, kun j=1,,n.

Lineaarinen regressio

Lineaarisessa regressiossa f(x;β)=β0β1x jossa β=(β0,β1) ja neliösumma on F(β0,β1)=i(yiβ0β1xi)2. Etsitään piste (β0,β1) siten, että F(β0,β1)=0.

Lasketaan osittaisderivaatta β0F(β0,β1)=2(β1ixi+nβ0iyi). Ratkaistaan nollakohta β0=1niyiβ1nixi=¯yβ1¯x missä ¯x on datavektorin x=(x1,x2,,xn) komponenttien aritmeettinen keskiarvo.

Lasketaan seuraavaksi osittaisderivaatta β1F(β0,β1)=2(β0ixi=n¯x+β1ix2iixiyi). Sijoittamalla β0:n lauseke, saadaan n¯x¯ynβ1¯x2+β1ix2iixiyi=0. Ratkaistaan nollakohta: β1=n¯x¯yixiyin¯x2ix2i=i(xi¯x)(yi¯y)i(xi¯x)2. Tarkista jälkimmäinen yhtälö!

Esimerkki

Sovita PNS-suora dataan

xi0.01.02.03.04.0
yi 2.10 1.92 1.84 1.71 1.64

ja estimoi (ekstrapoloi) y kun x=5.

Saadaan ¯x=2.0, ¯y=1.842, ja β1=1.1310.0=0.113. Siten β0=1.842+0.1132.0=2.068. Näin ollen y=0.113x+2.068, ja kysytty estimaatti pisteessä x=5 on y=0.1135+2.068=1.503.

Esimerkki: Toisen asteen sovitus

Tutkitaan lisäaineen määrän x vaikutusta kuivumisaikaan y. Eri lisäaineen määrillä xi (grammaa) saatiin kuivumisajat yi (tuntia), i=1,,9:

xi0.01.02.03.04.05.06.07.08.0
yi 11.0 9.4 9.1 7.0 6.2 7.1 6.6 7.5 8.2

Huomataan, että kuivumisajan riippuvuus lisäaineen määrästä on epälineaarista.

Minimikohdan estimoimiseksi sovitetaan havaintoihin paraabeli y=β0+β1x+β2x2.

Pienimmän neliösumman yhtälöryhmä mallille on βk(yiβ0β1xiβ2x2i)2=0,k=0,1,2. Näistä saadaan yhtälöryhmä {nβ0+β1xi+β2x2i=yi,β0xi+β1x2i+β2x3i=xiyiβ0x2i+β1x3i+β2x4i=x2iyi. Laskemalla yhtälöryhmän kertoimet havainnoista saadaan {9β0+36β1+204β2=72.136β0+204β1+1296β2=266.6204β0+1296β1+8772β2=1515.4

Ratkaisuna ovat β0=11.15, β1=1.806 ja β2=0.1803. Pienimmän neliösumman mielessä parhaiten havaintoihin liittyvä paraabeli on siten y=11.151.806x+0.1803x2.