Hồi quy PLS
This presentation is the property of its rightful owner.
Sponsored Links
1 / 36

Hồi quy PLS PowerPoint PPT Presentation


  • 81 Views
  • Uploaded on
  • Presentation posted in: General

Hồi quy PLS. Hervé Abdi Đại học Texas, Dallas [email protected] Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?. Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999).

Download Presentation

Hồi quy PLS

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


H i quy pls

Hồi quy PLS

Hervé Abdi

Đại học Texas, Dallas

[email protected]


H i quy pls

Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?

Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999).

Cảm giác trong miệng (mouthfeel): mối quan hệ cảm quan –lưu biến trong thức uống ca cao nóng. Journal of Sensory Studies, 14, 181-195.

(Data set courtoisie of

Marten, H., Marten M. (2001) Multivariate Analysis of Quality: An introduction. London: Wiley.

Tải về từ địa chỉ sau:

www.wiley.co.uk/chemometrics

Bảng số liệu: Cocoa-ii.mat

Mục tiêu.

Dự đoán

Các thuộc tính cảm quan (mouthfeel): Các biến phụ thuộc (tập Y)

từ

Các tính chất lý/ hoá/ lưu biến: Các biến dự báo (predictors)/ biến độc lập (tập X)


H i quy pls

Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?

6 Biến dự báo / độc lập (tập X)

Các tính chất lý/ / hoá lưu biến

%COCOA %SUGAR %MILK SEDIMENT COLOUR VISCOSITY

(%ca cao % đường % sữa cặn màu sắc độ nhớt)

10 Biến phụ thuộc (Tập Y)

colour cocoa-odour milk-odour thick-txtr mouthfeel

Màu sắc mùi ca cao mùi sữa độ đặc cảm giác trong miệng

smooth-txtr creamy-txtr cocoa-taste milk-taste sweet

Trơn nhẵn mịn vị ca cao vị sữa ngọt

14 Mẫu(n-:không có chất ổn định, n+: có chất ổn định)

1- 2- 3- 4- 5- 6- 7- 1+ 2+ 3+ 4+ 5+ 6+ 7+


H i quy pls

X

20.00 30.00 50.00 2.60 44.89 1.86

20.00 43.30 36.70 2.65 42.77 1.80

20.00 50.00 30.00 2.40 41.64 1.78

26.70 30.00 43.30 3.10 42.37 2.06

26.60 36.70 36.70 3.55 41.04 1.97

33.30 36.70 30.00 4.30 39.14 2.13

40.00 30.00 30.00 4.70 38.31 2.26

20.00 30.00 50.00 0.12 44.25 48.60

20.00 43.30 36.70 0.09 41.98 44.10

20.00 50.00 30.00 0.10 41.18 43.60

26.70 30.00 43.30 0.10 41.13 47.80

26.60 36.70 36.70 0.10 40.39 50.30

33.30 36.70 30.00 0.10 38.85 51.40

40.00 30.00 30.00 0.09 37.91 54.80


H i quy pls

Y

1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48

3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76

4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50

4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69

7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.05

10.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.48

11.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91

3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24

6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71

7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67

9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.02

12.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.59

13.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34


H i quy pls

Vì sao sử dụng PLS , PCA và MLR

Giới thiệu ngắn


V p c a euclide

Vẻ đẹp của Euclide …

J

  • Bảng số liệu có I hàng vàJ cột: PCA, CA, Biplots, v.v...

I


V p c a euclide1

J

1

I

Vẻ đẹp của Euclide

  • I hàng, J cột các bảng số liệu có I hàng và 1 cột (với J << I): Hồi quy đa biến (Multiple Regression )


V p c a euclide2

K

J

I

Vẻ đẹp của Euclide

  • I hàng và J cột  các bảng số liệu có I hàng và K cột: PLS, CANDIS, v.v…


H i quy pls

Vì sao sử dụng PLS ?

  • Để giải thích sự tương tự nhau giữa các quan sát (ở đây là các mẫu ca cao)

  • Để phát hiện Cấu trúc trong mối quan hệ giữa các biến phụ thuộc và biến độc lập

  • Để có thể biểu diễn các số liệu dưới dạng biểu đồ

  • Để dự đoán giá trị của các quan sát mới


H i quy pls

Hồi quy PLS là gì ?

PLS kết hợp các điểm đặc trưng của Phân tích thành phần chính (Principal Component Analysis - PCA) và Hồi quy đa tuyến tính (Multiple Linear Regression - MLR).

Giống PCA: PLS trích lấy các yếu tố (factor) từ X.

Giống MLR: PLS dự đoánY từ X

Kết hợp PCA & MLR.

PLS trích lấy các yếu tố từ X để dự đoán Y


H i quy pls

Sử dụng PLS khi nào?

1 … j … J

1 … k … K

1

.

.

.

i

.

.

.

I

1

.

.

.

i

.

.

.

I

……...

……...

…...

...............

xi,j

yi,k

Để phân tích hai bảng số liệu có cùng I sốquan sát với J biến dự đoán và K biến phụ thuộc

Các biến

phụ thuộc

Các biến

độc lập

Số quan sát


H i quy pls

Nguyên tắc chung của PLS:

ℓ= tℓ cT

1 … k … K

1

.

.

.

i

.

.

.

I

……...

...............

yi,k

Biến ẩn _ latent variables

Biến dự đoán X

1 … j … J

t1 … tℓ ... tL

1

.

.

.

i

.

.

.

I

1

.

.

.

i

.

.

.

I

NIPALS

……...

……...

Số quan sát

…...

…...

xij

ti,ℓ

tℓ= Xwℓ

Dự đoán

Các biến

phụ thuộc


H i quy pls

PLS: Mặt phẳng các quan sát

X

Biến ẩn

1 … j … J

t1 … tℓ ... tL

1

.

.

.

i

.

.

.

I

NIPALS

……...

……...

…...

…...

xij

ti,ℓ

tℓ= Xwℓ

ℓ= tℓ cT

1 … k … K

……...

...............

yi,k

Quan sát: tℓ

lv2

1

2 4

I

lv1

3

i


H i quy pls

PLS: Mặt phẳng các quan sát

X

Biến ẩn

1 … j … J

t1 … tℓ ... tL

1

.

.

.

i

.

.

.

I

NIPALS

……...

……...

…...

…...

xij

ti,ℓ

tℓ= Xwℓ

Vòng tròn tương quan

ℓ= tℓ cT

Mặt phẳng thông thườngwℓ& cℓ

y

y y

y y

lv2

lv2

1 … k … K

x

x

y

lv1

……...

lv1

x

...............

yi,k


H i quy pls

PLS: Dự đoán Y từ X

X

Biến ẩn

1 … j … J

t1 … tℓ ... tL

1

.

.

.

i

.

.

.

I

NIPALS

……...

……...

…...

…...

xij

ti,ℓ

tℓ= Xwℓ

ℓ= tℓ cT

1 … k … K

……...

...............

yi,k

Vài biến hoá

Ở đây!

tℓ= Xwℓ & = tℓ cT = XBpls


H i quy pls

PLS: Giải thíchY theo X như thế nào?

1 … k … K

1 … k … K

1

.

.

.

i

.

.

.

I

1

.

.

.

i

.

.

.

I

Y

ℓ= XBpls

So sánh số quan sát (Y) với giá trị dự đoán (Ŷ)

RESS (REsidual Sum of Squares)

RESS = (Y – Ŷ)2


H i quy pls

PLS: Dự đoánY từ X như thế nào?

Với số liệu mới thì sự dự đoán này tốt như thế nào?

Cross-validation. Here Jackknife

1 … k … K

1 … k … K

1 … k … K

1

.

.

.

i

.

.

.

I

1

2

.

.

.

i

.

.

.

I

Y

Y(-1)

2

.

.

.

i

.

.

.

I

(-1)= X(-1) Bpls

Predict y1 from X(-1)

Predict y2 from X(-2)

…etc

Predict yIfrom X(-I)


H i quy pls

PLS: Dự đoánY từ X như thế nào?

Với số liệu mới thì sự dự đoán này tốt như thế nào?

Cross-validation. Here Jackknife

1 … k … K

1 … k … K

1

.

.

.

i

.

.

.

I

1

.

.

.

i

.

.

.

I

Y

jack= XBpls

So sánh số quan sát (Y) với giá trị dự đoán Jackknifed (Yjack)

PRESS (Predicted REsidual Sum of Squares)

PRESS = (Y – Ŷjack)2


H i quy pls

Câu hỏi lớn trong PLS :

Có bao nhiêu biến ẩn?

So sánh RESS và PRESS, hoặc sử dụng PRESS.

Phương pháp nhanh :

Min(PRESS) => Số biến ẩn tối ưu


H i quy pls

Trở lại ví dụ về Ca cao

Mục tiêu: Giải thích và Dự đoán

cảm giác (Y)

từ

tính chất Lý – Hóa (X)


H i quy pls

X

20.00 30.00 50.00 2.60 44.89 1.86

20.00 43.30 36.70 2.65 42.77 1.80

20.00 50.00 30.00 2.40 41.64 1.78

26.70 30.00 43.30 3.10 42.37 2.06

26.60 36.70 36.70 3.55 41.04 1.97

33.30 36.70 30.00 4.30 39.14 2.13

40.00 30.00 30.00 4.70 38.31 2.26

20.00 30.00 50.00 0.12 44.25 48.60

20.00 43.30 36.70 0.09 41.98 44.10

20.00 50.00 30.00 0.10 41.18 43.60

26.70 30.00 43.30 0.10 41.13 47.80

26.60 36.70 36.70 0.10 40.39 50.30

33.30 36.70 30.00 0.10 38.85 51.40

40.00 30.00 30.00 0.09 37.91 54.80


H i quy pls

Y

1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48

3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76

4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50

4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69

7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.05

10.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.48

11.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91

3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24

6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71

7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67

9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.02

12.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.59

13.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34


T ng quan trong t p x

Tương quan trong tập X


T ng quan trong t p y

Tương quan trong tập Y


T ng quan gi a x v y

Tương quan giữa X và Y


C c bi n n the t latent variables

Các biến ẩn -The t (latent) variables

  • -0.42 -0.19 -0.34 -0.35

  • -0.25 -0.17 0.22 -0.20

  • -0.17 -0.14 0.50 -0.22

  • -0.13 -0.25 -0.26 -0.11

  • -0.03 -0.27 0.02 0.33

  • 0.23 -0.36 0.10 0.30

  • 0.41 -0.42 -0.11 0.06

  • -0.32 0.27 -0.37 0.04

  • -0.15 0.27 0.19 0.14

  • -0.08 0.27 0.46 0.03

  • 0.01 0.25 -0.29 0.38

  • 0.07 0.27 -0.02 0.33

  • 0.32 0.25 0.05 -0.22

  • 0.51 0.23 -0.16 -0.50


H i quy pls

w

  • 0.61 -0.15 -0.20 -0.46

  • -0.22 0.09 0.77 0.08

  • -0.39 0.06 -0.57 0.38

  • 0.01 -0.70 -0.00 0.41

  • -0.62 0.00 -0.15 -0.62

  • 0.20 0.69 -0.10 0.28


H i quy pls

c

  • 0.38 0.12 0.07 0.28

  • 0.38 0.11 -0.07 0.25

  • -0.37 -0.05 -0.30 -0.57

  • 0.15 0.55 -0.18 0.18

  • 0.27 0.41 -0.25 0.36

  • -0.23 0.46 0.22 0.10

  • -0.16 0.53 0.09 0.04

  • 0.38 0.03 -0.28 0.30

  • -0.37 0.03 0.07 -0.50

  • -0.33 0.09 0.81 -0.16


B pls x to y in z scores

Bpls: X to Y (in Z-scores)

-0.11 -0.05 0.63 -0.21 -0.36 -0.48 -0.31 -0.09 0.45 -0.18

-0.03 -0.09 -0.13 -0.03 -0.07 0.24 0.15 -0.17 0.04 0.41

0.14 0.15 -0.50 0.24 0.43 0.25 0.16 0.26 -0.50 -0.24

0.32 0.29 -0.80 -0.19 0.19 -0.25 -0.40 0.43 -0.78 -0.33

-1.04 -0.97 1.70 -0.56 -1.10 -0.02 0.06 -1.07 1.54 0.68

0.52 0.5 -0.77 0.71 0.83 0.40 0.42 0.49 -0.65 -0.26


B pls from x to y original units

B*pls from X to Y (original units)

79.86 43.18 -52.77 29.23 32.63 6.91 4.32 52.51 -50.26 -19.07

-0.06 -0.01 0.15 -0.06 -0.06 -0.16 -0.06 -0.03 0.12 -0.05

-0.01 -0.02 -0.03 -0.01 -0.01 0.08 0.03 -0.05 0.01 0.11

0.07 0.04 -0.12 0.06 0.07 0.08 0.03 0.08 -0.13 -0.07

0.67 0.31 -0.82 -0.22 0.12 -0.33 -0.34 0.52 -0.84 -0.37

-1.85 -0.88 1.47 -0.54 -0.6 -0.02 0.04 -1.10 1.40 0.66

0.08 0.04 -0.06 0.06 0.04 0.04 0.03 0.04 -0.05 -0.02


Ress press

RESS & PRESS

< min PRESS for 4

1182.39 8505.47

2 50.86 8318.84

3 30.28 8292.23

4 15.69 8286.95

5 13.00 8299.23

6 11.91 8309.38

Keep 4 latent variables


Plot w t 1 vs 2

Plot w & t (1 vs 2)


Plot w c 1 vs 2

Plot w & c (1 vs 2)


V ng tr n t ng quan

Vòng tròn tương quan


K t lu n

Kết luận

  • Tài liệu tham khảo hữu ích (contain bibliography):

    Abdi (2007, 2003) see www.utd.edu/~herve


  • Login