1 / 79

CHAPTER 4: Principal Components Analysis ( 主成份分析 )

CHAPTER 4: Principal Components Analysis ( 主成份分析 ). Introduction. 研究人員的分析中往往涉及許多變數,要了解這麼多變數的相關型態是非常困難的!這些變數可能有高度相關,使得很多資訊是重複的。也可能導致研重的多元共線性的問題。 主成份分析 是一個可以將這些資料重新表達的方法。 也就是說主成份分析結果以新的 相互不相關的 變數取代原有相關之變數,此新的變數為原有變數之線性組合,我們稱其為主成份 (principal components) 。

chick
Download Presentation

CHAPTER 4: Principal Components Analysis ( 主成份分析 )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CHAPTER 4:Principal Components Analysis(主成份分析)

  2. Introduction • 研究人員的分析中往往涉及許多變數,要了解這麼多變數的相關型態是非常困難的!這些變數可能有高度相關,使得很多資訊是重複的。也可能導致研重的多元共線性的問題。 • 主成份分析是一個可以將這些資料重新表達的方法。也就是說主成份分析結果以新的相互不相關的變數取代原有相關之變數,此新的變數為原有變數之線性組合,我們稱其為主成份(principal components)。 • 將變數視為多度空間的坐標軸,主成份分析的概念就是對這些座標軸進行旋轉(線性組何合)而已。 • 如果有過多重覆資訊,主成份分析能夠將原始資訊濃縮,使分析問題更明確且簡易。研究者必須去決定到底要取幾個主成份,取得數量愈少愈容易管理分析,而取得數量愈多,就可獲得較多的資訊。主成份分析有一個很大的優點,就是它不會有多元共線性的問題。

  3. The first principal component, ξ1, accounts for the maximum variance in the data, the second principal component, ξ2, accounts for the maximum variance that has not been accounted for by the first principal component, and so on.

  4. 4.1.1 Potential Applications Dimension Reduction (資料構面縮減) • Ofir和Simonson在2001年藉著Cacioppo、Petty以及Kao在1984的研究發展出18個問項來評估need for cognition,見表4.1。

  5. TABLE 4.1 Eighteen items used in measuring a survey respondent’s “need for cognition” Item Response C1 I prefer complex to simple problems. C2 I like to have the responsibility of handling a situation that requires a lot of thinking. C3 Thinking is not my idea of fun.(R) C4 I would rather do something requiring little thought than something that is sure to challenge my thinking abilities. C5 I try to anticipate and avoid situations where there is a likely chance that I will have to think in depth about something.(R) C6 I find satisfaction in deliberating hard for long hours. C7 I only think as hard as I have to.(R) C8 I prefer to think about small daily projects to long-term ones.(R) C9 I like tasks that require little thought once I’ve learned them.(R) C10 The idea of relying on thought to make my way to the top appeals to me. C11 I really enjoy a task that involves coming up with new solutions to problems. C12 Learning new ways to think doesn’t excite me much.(R) C13 I prefer my life to be filled with puzzles that I must solve. C14 The notion of thinking abstractly is appealing to me. C15 I prefer tasks that are intellectual , difficult , and important to ones that do not require much thought. C16 I feel relief rather than satisfaction after completing a task that required a lot of mental effort.(R) C17 It’s enough for me that something gets the job done ; I don’t care how or why it works.(R) C18 I usually end up deliberating about issues even when they do not affect me personally

  6. 由此18個問項建立need for cognition單一指標的方法: • 直接加總 • 主成份分析 (可知各變數對此指標的貢獻程度) • Table4.3所列的第一個主成份可說明大約1/3(32%)的原始資料總變異(Eigenvalue=5.7794,是第一個主成份的變異數),而權重是主成份與變數間的相關,反映變數對此主成份的貢獻程度。

  7. 主成份分析同樣可被用來研究以人口統計及心理描述為基礎的行銷研究,行銷研究公司如AC Nielson及Information Resources等,都為它們廣大的客戶去追查特定的經濟活動。 • 每個家庭都有其一系列背景資料,如家庭成員的背景及年紀、雜誌訂購、電視收看情形、不同產品購買行為甚至態度的評估等,而使用主成份分析就可以去補捉包涵在原始資料中最主要的部分。

  8. 在某一產業下,欲觀察某一公司的財務狀況是否健全,可利用很多的財務變數 (ex. 120個);但此法非常耗時,而且可能也很難找出其間關係。 解決辦法:利用主成份分析將變數個數簡化成少數幾個指標(主成份)

  9. Identifying patterns of association among variables(尋找變數間的關聯型態) • 除了dimention reduction,因此我們可以觀察主成份和原始變數間的關係,來定義每一個主成份其可能的解釋。 • Rentz和Reynolds(1979)在他們的研究取七個主成份並且觀察它們和原始變數之間的關係,來定義這七個主成份,其相關係數的矩陣列於表4.4。

  10. 例如:在第一個主份其係數大於0.5包括下列雜誌:Better Homes&Gardens、Family Circle、Good Housekeeping、Ladies Home Journal、McCall's以及Woman's Day,這些雜誌都和家庭有關,因此我們將第一個主成份定名為”Home Operations”。 • 在第二個主成份其係數超過0.6的雜誌有Comopolitan、Glamon和Vogue。因此將它定名為”Glamour”。 • 透過此種方法來了解雜誌的讀者,可以使我們更有效率的訂定行銷的計畫。

  11. 4.2 Principal Components: How it worksTABLE 4.5 X1,X2,X3之相關係數矩陣

  12. 圖4.3..P91 陰影部分表示每兩個變數資料投射之結果

  13. 圖4.4..P92 X1,X2,X3在三度空間之資料散佈圖

  14. 圖4.5..P92 X1,X2,X3兩兩之相關性可看出..P92 :X2,X3之相關程度最弱(r=0.304) :X1,X3之相關程度最強(r=0.704)

  15. 什麼是主成分分析? • 在前述的例子中.我們是否可以使用單一的構面就足以補捉X1,X2,X3大部份的變異資訊? 「主成份分析」,它的目的是希望用較少的變數去解釋原始資料. 並獲取足夠的資訊..(P92-第二段)

  16. 圖4.6 將資料投射到長軸上.代表著新的變數.稱之為Z1

  17. 圖4.7 將X1扣掉Z1. 將X2扣掉Z1. 將X3扣掉Z1. 再將資料重新投射—P93下

  18. 圖4.8 已扣掉Z1關係所殘餘的部份之資料散佈圖

  19. 圖4.9 1.消除了Z1之後,X1 X2 X3兩兩變數的相關性 2.由此可看出與圖4.5不同的是:變數間並不再是正相關

  20. TABLE 4.6 -Z1.Z2.Z3相關係數矩陣 Z1,Z2,Z3之間不相關

  21. 圖4.10 將Z1,Z2,Z3的資料投射,得到新的區域

  22. 圖4.11 Z1, Z2, Z3新的觀察值散佈圖

  23. TABLE 4.7 Principal Component Loadings 1:(0.9279)-----Z1解釋X1變異的比例 2:Z1與X1,X2,X3顯著正相關,可將Z1命名為綜合指標 2

  24. 4.2.2Mechanics

  25. 4.2.2 Mechanics(續)

  26. 4.2.2 Mechanics(續)

  27. Sample Problem Data:以下列13種不同的經濟活動來評估美國各州的GSP(gross state product)。 • agriculture、forestry and fishing • mining • construction • manufacturing(durable goods) • manufacturing(nondurable goods) • Transportation • communications • electricity、gas and sanitation • wholesale trade • retail trade • fiduciary、insurance and real estate • services • government

  28. 觀察值:50筆(美國50州) • 以下列2種方法來評估: 1、raw data:生產毛額 2、share data:比率

  29. 因此,若以金額來做為資料評估的話,會有偏差(大州及較繁榮的州, 各產業的GSP都會較高),故除了raw data之外,我們另用比率(share data)來分析

  30. 將資料集命名

  31. 資料路徑

  32. 指定原始資料中各個資料欄(attribute) 所對應的變數

  33. 指定變數的註解

  34. 執行主成分分析

  35. 指定行為變數

  36. 相關係數較大

  37. 結果(raw data) Z1=10.9443,也就是對整體而言,其解釋能力為84.19%。0.824522=agriculture可用Z1解釋的百分比特徵值的選取標準:一  般而言為>1,然而仍需視情況而定。以生產毛額(金額)來評估會有瑕疪。

More Related