Hessen matriisi  yleiselle usean muuttujan funktiolle
This presentation is the property of its rightful owner.
Sponsored Links
1 / 15

Hessen matriisi yleiselle usean muuttujan funktiolle (Edwards&Penney Luku 13.10) PowerPoint PPT Presentation


  • 56 Views
  • Uploaded on
  • Presentation posted in: General

Hessen matriisi yleiselle usean muuttujan funktiolle (Edwards&Penney Luku 13.10). Neliömuotojen yhteydessä tutustuimme jo reaalisiin, symmetrisiin 3 3-matriiseihin ja toisaalta kahden muuttujan ääriarvojen etsimisen yhteydessä 2. kl. derivaatojen testiin .

Download Presentation

Hessen matriisi yleiselle usean muuttujan funktiolle (Edwards&Penney Luku 13.10)

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Hessen matriisi yleiselle usean muuttujan funktiolle(Edwards&Penney Luku 13.10)

Neliömuotojen yhteydessä tutustuimme jo reaalisiin, symmetrisiin 33-matriiseihin ja

toisaalta kahden muuttujan ääriarvojen etsimisen yhteydessä 2. kl. derivaatojen testiin.

Nyt näemme, että nämä kaksi asiaa voidaan yleistää ja yhdistää, kun otetaan käyttöön

käsite Hessen matriisi. Aluksi asetetaan seuraava

Määritelmä. Reaalinen, symmetrinen matriisi A on

(i) positiividefiniitti, jos jokaiselle reaaliselle vektorille X (¹ 0) pätee XTAX > 0,

(ii) negatiividefiniitti, jos jokaiselle reaaliselle vektorille X (¹0) pätee XTAX < 0,

(iii) indefiniitti, jos on olemassa reaalinen vektori X jolle XTAX < 0 ja reaalinen

vektori Y jolle YTAY > 0.

Lasketaanpas A:n ominaisarvot eli

ratkaistaan l yhtälöstä

Esimerkki 1. Koska

neliömuoto!

Huomaamme, että positiividefiniitin matriisin A

kaikki ominaisarvot ovat positiivisia. Olisiko tämä

vain sattumaa?

aina, kun (x,y,z) ¹ (0,0,0),

on A positiividefiniitti.


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Esimerkki 2. Koska

Lasketaan taas A:n ominaisarvot:

neliömuoto!

Huomaamme, että indefiniitillä matriisillaA on sekä

positiivisia että negatiivisia ominaisarvoja

Olisiko tämäkin vain sattuman kauppaa?

on A on indefiniitti.

Esimerkki 3. Koska

Laskemalla A:n ominaisarvot huomamme, että ne kaikki

ovat negatiivisia.

Yleinen totuus on seuraava

Lause. Reaalinen, symmetrinen matriisi A on

(i) posit.definiitti joss A:n ominaisarvot ovat positiivisia,

(ii) negat.definiitti joss A:n ominaisarvot ovat negatiivisia,

(iii) indefiniitti joss A:lla on sekä positiivisia että

negatiivisia ominaisarvoja.

aina, kun (x,y,z) ¹ (0,0,0),

on A negatiividefiniitti.


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Tarkastellaan nyt yleistä n:n muuttujan reaaliarvoista funktiota f:Rn→R. Oletetaan, että

f:n kaikki toisen kertaluvun osittaisderivaatat ovat olemassa vieläpä jatkuvina jossakin

avaruuden Rn pisteen X = (x1, x2, ... ,xn) ympäristössä. Määritellään funktion f

Hessen matriisi seuraavalla tavalla:

Kyseessä on siis nn-matriisi,

jonka alkioina on funktioita.

Koska oletimme osittaisderi-

vaatat jatkuviksi, on matriisi

H(X) symmetrinen.

Kiinteällä X:n arvolla X0

on H(X0) reaalinen.

Voimme siis puhua matriisin

H(X0) definiittisyydestä!

Esim. Tutki funktion f(x,y) = excos(y) Hessen matriisi definiittisyyttä pisteessä (0,π/2).

Ratkaisu. Hesse:

excos(y)

-exsin(y)

=

-exsin(y)

-excos(y)

Nyt det(H0 - lI) = l2 – 1 = 0.

Siis l1 = -1 < 0 ja l2 = 1 > 0.

Johtopäätös: Ko. Hessen

matriisi on indefiniitti


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Tässä vaiheessa huomaamme, että kahden muuttujan funktioon liittyvä diskriminantti,

jota tarkastelimme kriittisten pisteiden ja ääriarvojen yhteydesä (toisen derivaatan testi!)

on itse asiassa erikoistapaus Hessen matriisiista. Teoriaa voidaan nyt yleistää ja yksin-

kertaistaa seuraavasti:

Lause. Olkoon funktiolla f:Rn→Rjatkuvat toisen kertaluvun osittaisderivaatat ja olkoon

piste X0kriittinen piste (käytännössä siis ∂f/∂xi(X0) = 0 kaikilla i = 1, ... , n). Silloin

(i) Jos H(X0) on positiividefiniitti, on X0lokaali minimipiste,

(ii) Jos H(X0) on negatiividefiniitti, on X0lokaali maksimipiste,

(iii) Jos H(X0) on indefiniitti, on X0satulapiste.

(Muissa tapauksissa lause ei sano mitään, kriittinen piste on tutkittava muilla keinoin!)

Esim. Tutkitaan funktion f(x,y) = sin(xy) mahdollista ääriarvoa origossa.

(1) Aluksi pitää varmistaa, onko origo funktion f(x,y) kriittinen piste: osittaisderivoidaan!

(3) Tutkitaan tämän

ominaisarvot:

Erityisesti origossa osittaisderivaattojen arvot ovat

Kyseessä on kriittinen piste.

(2) Muodostetaan Hesse:

det(H0-l I) = (-l)2 - 1 = 0 , josta

l1 = -1 < 0 ja l2 = 1 > 0.

Koska kyseinen matriisi on

indefiniitti, on origo

satulapiste

Erityisesti origossa (merk) H0=


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

y=2x^2

Differentiaaleista [1-dim tapauksessa, kun y=f(x), on y = f’(x)x] (Erwards&Penney: Luku 13.6)

Olkoon n:n muuttujan funktiolla f(x1,x2,…,xn) on osittaisderivaatat

Silloin f:n kokonaisdifferentiaalif on

Lisäämällä tähän kaavaan itseisarvomerkit

saadaan kaava, jota fysiikassa ym. käytetään

mittaus-, ym. virheen arviointiin, nim.kaava

Jos siis muuttujan xi mittaus- tai arviointi-

virhe on xi:n suuruinen (i=1,…,n), niin f:n

kokonaisvirhe on enintään fmax:n suuruinen.

Ratkaisu. x=0.02x, y=0.03y, z=0.01z.

Esim. Olkoon f(x,y,z) = xyz + xy + 2y2z3,

missä x,y ja z ovat mitattuja fysikaalisia

suureita. Jos mittaustulokseksi on saatu

x=1, y=2 ja z=3, ja x:n mittauksessa on

mahdollista mittausvirhettä 2%, ja y:lle ja

z:lle vastaavasti 3% ja 1%, niin mikä on

f:n kokonaisvirhe suurimmillaan?

Huom: E&P käyttää

merkintää df eikä Δf

f:n kokonaisvir-

heelle saadaan näin

yläraja

fmax = |yz +y|0.02x + |xz+x+4yz3|0.03y + |xy + 6y2z2|0.01z

=26.46

x=1

y=2

z=3

Yleensä fysikaalinen

mittaustulos annetaan

muodossa f  fmax,

tässä 224  26.5

Toisaalta f(1,2,3) = 1·2·3 + 1·2 + 2·22 ·33 = 224,

joten prosentuaalinen

virhe on


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Usean muuttujan funktion differentioituvuudesta

Usean muuttujan funktion osittaisderivaatat ovat helposti ymmärrettäviä, ja ne yleistävät

(eräällä tavalla!) yhden muuttujan funktion derivaatan. Derivaatta voidaan yleistää myös

toisella ’vaativammalla’ tavalla, nimittäin puhutaan differentioituvasta usean muuttujan

funktiosta. Käsitellään tämä kolmen muuttujan funktiolle eli funktiotyypille f(x,y,z) = w.

Määr. Funktion f(x,y,z) = w on differentioituva pisteessä/alueessa, jos osittaisderivaatat

fx, fy, ja fz, ovat olemassa tässä pisteessä/alueessa JA on olemassa funktio g(x,y,z) siten,

että

f(x+x,y+y,z+z)-f(x,y,z) = fx(x,y,z)x + fy(x,y,z)y + fz(x,y,z)z +g(x,y,z)

eli vektorimuodossa

Tässä x = (x,y,z)

ja 0 = (0,0,0)!

Esim. Onko funktio

Määritelmän mukaan siis

’f differentioituva  f:llä osittaisderivaatat’.

Implikaatio toisin päin ei välttämättä päde,

mutta aina sen sijaan pätee

’f:llä jatkuvat osittaisderivaatat 

f differentioituva’

Myös voidaan todistaa implikaatio

’f differentioituva  f jatkuva’

kaikkialla differentioituva?

Kuvaajan perusteella

voi jo päätellä, että

suorat y = x ja y = -x

ovat epäjatkuvuus-

kohtia  ei osit.deriv.

 f ei differentioituva

suorilla y= x ja y = -x


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Usean muuttujan reaaliarvoisen funktion suunnattu derivaatta yksikkövektorin u suuntaan

määritellään raja-arvona

Käytännössä suunnattu derivaatta lasketaan vektorin u ja f:n gradienttivektorin

pistetulon avulla, nimittäin

Kiinteällä arvolla x = (x1,...,xn) suunnattu derivaatta on luku. Mihin suuntaan se on suurin?

Vektoreiden välisen kulman θ cosini toteuttaa tunnetusti

Siten

Tämä arvo on suurin, kun θ = 0 eli

yksikkövektori u on gradientin suuntainen


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Kahden muuttujan funktion gradientti (Edwards&Penney Luku 13.8)

Määr. Funktion f(x,y) = z pisteeseen (a,b,f(a,b))

piirretyn gradienttivektorinf(a,b) lauseke on

f(a,b) = f1(a,b)i + f2(a,b)j ( luetaan ’nabla’)

Esim. Etsi funktion

gradientti(vektori) pisteessä (1,2,1/5)

Geometrisesti tulkittuna gradientti ilmoittaa

funktion f(x,y) suurimman muutossuunnan

xy-tasossa pisteessä (a,b).

Esim. Ajatellaan paikkakunnasta piirretyn

tasokartta, jolla pisteessä (x,y) korkeuden

ilmoittaa yhtälö h(x,y) = x2y (jossakin rajoi-

tetussa alueessa). Jos seisotaan pisteessä

(-1,-1,-1), niin missä xy-tason suunnassa

(eli kartalla) ’rinne on jyrkin’?

Ratkaisu.

Vektorin h(-1,-1) = h1(-1,-1)i + h2(-1,-1)j

suunnassa:

h(x,y) = h1(x,y)i + h2(x,y)j = 2xyi + x2j,

erityisesti

h(-1,-1) = 2i + j

Ratkaisu.

x=1

y=2

x=1

y=2

Siis f(1,2) = 1/25(3i - 4j)


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Huom! Tämä suunta on vain

ajanhetkellä t = 0, se muuttuu

kun pallo liikkuu eteenpäin,

kuitenkin aina (suurin piirtein)

suuntaan -h(x,y)

Jatkokysymys: Jos pisteeseen (1,3) asetetaan pallo,

niin mihin suuntaan se lähtee vierimään?

Vastaus: vektorin - h(1,3) = -(2·1·3i + 12j) = -6i - j

suuntaan!

Suunnattu derivaatta

Gradienttivektori f(a,b) = f1(a,b)i + f2(a,b)j kertoo funktion f(x,y) suurimman muutos-

suunnan (’suunnan, missä mäki on jyrkin ylöspäin’). Voidaan kysyä toisinpäin ja ylei-

semmin: jos on annettu jokin xy-tason vektori v, niin paljonko on rinteen ’jyrkkyys’

pisteessä (a,b,f(a,b)) tämän vektorin suuntaan?

Vastauksen tähän antaa suunnatun

derivaatan käsite, joka lasketaan kaavalla

Gradientti

antaa suurimman

kasvusuunnan ?

Esim. Laske suunnattu derivaatta funktiolle

h(x,y) = x2y pisteessä (-1,-1) vektorin v= i +2j

suuntaan.

Ratkaisu.

Aiemmin laskimme jo, että h(-1,-1) = 2i + j.

Siten

Jatkokysymys 1. Missä xy-tason suun-

nassa pisteessä (-1,-1,-1) jyrkkyys = 0

eli tapahdu nousua eikä laskua?

Ratkaisu. Etsitään vektori v= xi + yj, s.e.

Siis suunnissa

v= i - 2j tai

v= -i + 2j

 2x+y=0

 y =-2x

eli v = xi - 2xj, x0

Siis rinteen h(x,y) = x2y jyrkkyys suunnassa

i +2j on

Nousua arctan

= n. 60°


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Jatkokysymys 2. Mitkä ovat niiden xy-tason

käyrien yhtälöt, joissa h(x,y) = ±1,±2 ja ±4?

[ne ovat tasa-arvokäyriä]

Ratkaisu. Merkitään yksinkertaisesti

x2y = ±1,±2 ja ±4

Huomaa yhteys tasa-arvokäyrien ja topografi-

karttojen korkeuskäyrien välillä: jos kuljet

maastossa kartan mukaan yhdellä korkeskäy-

rällä, et nouse ylöspäin etkä laskeudu alaspäin.

Jatkokysymys 3. Jos pisteeseen (-1,-1,-1) ase-

tetaan pallo, mitä ’xy-tason käyrää se vierii’ ?

Ratkaisu. Vierimiskäyrä on kohtisuorassa kaik-

kia ohittamiaan tasa-arvokäyriä (i) x2y = C

vastaan. Lasketaan siis ensin tasa-arvokäyrien

tangentin kulmakerroin y’ derivoimalla implisiit-

tisesti lauseketta (i), saadaan 2xy + x2y’= 0.Siis

(ii) 2yy’ = x. Mikä on tällainen käyrä?

No, senhän pitää selvästikin olla muo-

toa y2 =1/2x2 + D (D vakio), nimittäin

derivoimalla tämä puolittain x:n suht-

teen saadaan tulokseksi yhtälö (ii)!

Ehdosta, että kyseinen käyrä kulkee

pisteen (-1,-1) kautta voidaan laskea

vakion D arvo:

(-1)2 =1/2(-1)2 + D  D = 1/2

Kysytty vierimiskäyrä on siis

y2 =1/2x2 + 1/2

Toisiaan vastaan kohtisuorien suorien

kulmakertoimille k1 ja k2 on k1 =-1/ k2

Siis ilmeisesti etsityn käyrän tangentin kulma-

kertoimelle on voimassa y’= x/2y

|·2y 


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Usean muuttujan funktion sidotut ääriarvot. Lagrangen menetelmä (Edward&Penney Luku 13.8)

Tähän asti olemme etsineet usean muuttujan funktiolle f ääriarvoa asettamatta ratkaisulle

mitään erityistä rajoitusta. Nyt vaadimme, että ääriarvon tulee lisäksi toteuttaa reunaehto

(eli side-ehto) g(x) = 0. Lagrange keksi jo 18. vuosisadalla, miten ongelma ratkaistaan.

Teoreema. n-n muuttujan funktion f(x) sidotut ääriarvot, side-ehtona g(x) = 0, löytyvät

Lagrangen polynomin L(x,) = f(x) +  g(x) (n+1 muuttujaa!) kriit.pist. joukosta.

Esim. Etsi funktion f(x,y,z) = x2 + y2 +z2 ääriarvot lisäehdolla z2 = x2 -1.

Ratkaisu. Lisäehto on yhtäpitävä ehdon g(x) = 0 kanssa, kun g(x) = x2 -1- z2.

Siten Lagrangen polynomi on 4:n muuttujan funktio

L(x,y,z, ) = x2 + y2 +z2 + (x2 -1- z2).

Etsitään L:n kriittiset pisteet, jotka ovat osittaisderivaattojen nolla-kohdat.

Tämä L on neljän muuttujan funktio, joten sen kuvaaja on jokin ’pinta’ 5-ulotteisessa avaruudessa. Bill Gates ei vielä ole keksinyt, miten sen saisi

PowerPointilla näkymään ...


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

L(x,y,z, ) = x2 + y2 +z2 + (x2 -1- z2).

Jos nyt x = 0

on -z2 = 1 eli z = i, ei käy

Jos taas z = 0, on x2 = 1 eli x = ± 1. O.K

Siis osittaisderivaattojen nollakohdat saadaan arvoilla x=1, y=0, z=0, = -1; (1,0,0,-1)

x=-1, y=0, z=0, = -1; (-1,0,0,-1)

Arvo f(±1,0,0) = (±1)2+02+02 = 1

on selvästikin funktion minimi.

Maksimia funktiolla

f(x,y,z) = x2 + y2 +z2 ei selvästikään

ole; kun siihen sijoitetaan side-ehto

z2 = x2 -1, saadaan funktio

h(x,y) = 2x2 + y2 -1, joka voi saada

kuinka suuria arvoja tahansa.

Huomautus. Joskus esiintyy seuraava virhe:

sijoitetaan lisäehto g(x) alkuperäiseen minimoi-

tavaan funktioon f(x), ja etsitään näin saadun

uuden funktion h(x) vapaita ääriarvoja. Näin

ei tietenkään voida tehdä; edellisen esimerkin

tapauksessa saataisiin minimiksi -1.

Sijoittamisella siis hukataan lisävaatimus.


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Esim. Etsi funktion f(x,y) = cosxsiny ääriarvot ehdolla x = y alueessa

Ratkaisu. Lagrangen polynomi on L(x,y,) = cos(x)sin(y) + (x-y), osittaisderivoidaan!

Siis sidotut ääriarvot ovat

Esim. Etsi pisteen (7,2,1) lyhin etäisyys tasosta

-2x+8z =-5 Lagrangen menetelmällä.

Ratkaisu. Minimoimme etäisyyttä

>L:=...

>solve({diff(L,x)=0, diff(L,y)=0,

diff(L,z)=0, diff(L,)=0},{x,y,z, });

ja saadaan vastaus

lisäehdolla g(x,y,z) = -2x+8z +5 = 0.

Lagrangen polynomi on nyt muotoa

Näillä arvoilla

etäisyys on

Etsitään taas osittaisderivaattojen nollakohdat,

siihen tarvitaan vain 2 Maple-käskyä:


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Lagrangen menetelmä, kun side-ehtoja on kaksi kpl; g(x) = ja h(x) =0, saa muodon

L(x,,) = f(x) + g(x) +h(x) (n+2 muuttujaa); ratkaisut löytyvät tämän funktion

kriittisten pisteiden joukosta

Esim. Tutki, onko funktiolla f(x,y,z) = xyz ääriarvoja side-ehdoilla x2+z2=1 ja x=y.

Ratkaisu. Side-ehdot tulee kirjoittaa muotoon g(x,y,z) = x2+z2-1=0 ja h(x,y,z) = x-y= 0.

Silloin Lagrangen polynomi on viiden muuttujan x,y,z,, funktio

L(x,y,z,, ) = xyz + (x2+z2-1) +(x-y)

Sen kriittiset pisteet ovat osittaisderivaattojen 0-kohdat:

Tämä viiden tuntemattoman ja viiden yhtälön

ei-lineaarinen yhtälöryhmä on ratkaistu

Maplen solve-käskyllä, joka antaa vastaukseksi

x = y = 0, z = ± 1, eli kriittisiä pisteitä on

kaksi kappaletta: (0,0,-1) ja (0,0,1)

Mikä on niiden luonne?

Piste (0,0,1) on selvästi satulapiste,

* ensinnäkin f (0,0,1) = 0

* toisaalta, jos ollaan hyvin lähellä pistettä (0,0,1),

saa f(x,y,z) kuinka pieniä positiivisia ja negatiivisia

arvoja hyvänsä sen perusteella, onko x ja y

positiivinen/negatiivinen.

Vastaavalla perusteella (0,0,-1) on satulapiste,


Hessen matriisi yleiselle usean muuttujan funktiolle edwards penney luku 13 10

Taylor polynomi usean muuttujan funktiolle

Yhden muuttujan reaaliarvoiselle funktiolle f(x) tunnetaan (m. asteen) Taylor-polynomi

pisteen c ympäristössä, kun f(x):llä on (ainakin) m+1 asteen jatkuvat derivaatat c:n

sisältämällä välillä:

Kun f(x) on ’riittävän säännöllinen’ pisteen c läheisyydessä, voidaan se lisäksi esittää

Taylor kehitelmänsä avulla eli lausekkeena

Nämä käsiteet voidaan yleistää n:n muuttujan reaaliarvoiselle funktiolle f(x). Funktion

f(x1,...,xn) m. asteen Taylor polynomi pisteen c = (c1,...,cn) ympäristössä on

...kertaa vastaavien

koordinaattien erotus

kaikki m:n asteen sekaderivaatat...

...pisteessä C


  • Login