1 / 70

Ch7 Multidimensional scaling

Ch7 Multidimensional scaling. 7.1 前言. 前述四、五、六章中,我們談論到主成分分析與因素分析,聚焦於變數之間的關聯性。接下來兩張的焦點將轉移至試著去了解觀察值之間的相似性型態。 Multidimensional scaling (MDS) 一組方法用來獲得 個體 (entities) 間的相似性的空間表達。 主成分分析與因素分析也是一種 scaling 的方法,將觀察值以較少構面表達於空間圖。

oro
Download Presentation

Ch7 Multidimensional scaling

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ch7 Multidimensional scaling

  2. 7.1前言 • 前述四、五、六章中,我們談論到主成分分析與因素分析,聚焦於變數之間的關聯性。接下來兩張的焦點將轉移至試著去了解觀察值之間的相似性型態。 • Multidimensional scaling (MDS)一組方法用來獲得個體(entities)間的相似性的空間表達。 • 主成分分析與因素分析也是一種scaling的方法,將觀察值以較少構面表達於空間圖。 • MDS所使用的資料與主成分分析(或因素分析)不同,它所利用的資訊是成對個體間的相對接近性或相似性,它的目的是利用此種資訊去建構合適的低次元空間,使得個體間在此空間的距離與其相似性盡可能保持一致。

  3. 7.1前言(續) • 當相似性資料的性質具度量性(metric)時,(即它們代表個體間的真實距離),我們所使用的方法為 metric MDS 去還原資料空間。本章所要介紹的metric MDS 方法是Torgerson(1958)所提出的古典MDS。 • 就大部分的應用問題而言,其相似性資料並不具有metric scale的性質,(例如ordinal),此時我們使用nonmetric MDS。在nonmetric MDS方法中,排序資料是由單一個人提供,或由多人提供但整合為一個排序(假設這些人在評估個體間相似性時,所使用的標準及權重都是一樣的,homogeneous) • 但若承認不同個人使用的標準及權重有差異時,我們需使用另一種方法:Individual differences scaling;此法所建立的空間圖,允許不同個人對在評估的個體間相似性時,使用不同的特徵及不同權重。

  4. 7.1前言(續) • 有時資料涉及兩個不同組的個體間的相似性資料,例如一組包含若干消費者,另一組為三種品牌手機,每一個消費者表達他對三種手機的偏好順序,因此我們就有每個消費者與三種手機的相對相似性,本章將介紹MDPREF (multidimensional analysis of preference)的方法來解決此種資料的尺度還原問題。

  5. 7.1.1 Potential Applications -- Perceptual Mapping • Perceptual Mapping 是MDS最廣泛的應用之一。Nonmetric MDS的一個優點是它能提供心理距離的尺度以描繪個人心中的心理地圖。 • Perceptual Mapping最經典的範例是Roger.N. Shepard探討個別居民關於美國本土各州間相對接近性的主觀判斷。他用的是nonmetric MDS。 • 以圖7.1為例,此為波士頓居民對於美國本土各州相對接近性的主觀判斷所繪成之美國地圖。雖然結構上與實際的美國地圖相似,但東半部各州的相對距離似乎被誇大。

  6. --Market Segmentation and Product Positioning • 當做產品定位時,我們除了要確定我們的產品與目標顧客心中的其他品牌產品能有所區別外,也希望我們的產品能在顧客的知覺空間中佔有一個有吸引力的地位。 • 為了要解決這樣的問題,我們可以使用MDS來同時決定產品空間圖及個別顧客每個產品偏好的分佈圖。 • 圖7.2是根據32位學生以1到10分來表示每個人對10種不同廠牌啤酒喜好,使用MDPREF分析所獲得的空間知覺圖。 • 這樣的圖可以告訴我們這32位學生對於不同廠牌啤酒喜好的分佈形態及不同啤酒的空間知覺分布。因此,我們可以根據這樣的資料來作為新啤酒品牌投入市場時其產品定位及市場區隔。

  7. 7.2 Classical Metric MDS:How it works--Intuition • 以表7.1為例,其顯示出歐洲10個城市之間的直線距離,我們將以此為資料來重建此10個城市的相對位置圖 • 若我們以手製圖(程序為何?),所描繪出的地圖(圖7.3)與實際地圖之間可能會產生以下問題: • 會失去個別城市的絕對位址(absolute location) • 地圖有可能是實際地圖的鏡像 • 地圖可能被旋轉而與實際不同 • 我們可以利用Metric MDS來解決上述問題

  8. 7.2.2 Classical Metric MDS:How it works--Mechanics • 首先列出不同受估個體(object)間的相似性或不相似性矩陣,而這些矩陣內的數字與個體之間的距離是線性相關(透過一個線性函數)的,其斜率可為正向(不相似性)或負向(相似性) • 若資料是屬於相似性資料,我們先將資料中每一個資料值減去資料中的最大值,以轉換為不相似性資料,隨後在上述的線性函數中求出常數項,函數的斜率可設為1,因為圖是任意的,如此只剩下截距項(常數項)需設法求出 • 另外,在Torgerson(1958)中指出,有許多方法可以求出上述的常數項,但最為被廣泛使用的是其書上所提到的〝one-dimensional subspace〞,此法為每一個不相似係數加上一個正數,且此正數為確保讓加過正數的每一個相似性係數都滿足三角不等式公理的最小常數,如此加過正數的不相似性係數才能成為距離係數

  9. 7.2.2 Classical Metric MDS:How it works--Mechanics • 根據Torgerson,將上述求得的常數項作為所有不相似性資料δjk之加項,以轉換成估計的距離djk: • 當資料矩陣為對稱的且其對角線直接為零,則我們所求得的距離近似於〝Euclidean distance〞

  10. 7.2.2 Classical Metric MDS:How it works--Mechanics • 為了解決每個受估個體在空間構面座標位置的問題,我們使用圖7.4的幾何關係,亦可表達為下式: • 上式重新排列後為: • 以個體i為原點,dij指個體j在空間圖上距離原點的距離,dik類同,因為 • 故上式可再轉換為

  11. 7.2.2 Classical Metric MDS:How it works--Mechanics • 由前式,我們可以用以求得個受測體的座標位置。 • 為求個體i的座標位置,我們另外創造了(n-1)by(n-1)的矩陣B(i),i表示個體i被選為座標圖上的原點, • 因為B(i)矩陣為對稱的故又可表達為 ,U為特徵向量的矩陣,而Λ為特徵值的對角矩陣,所以

  12. 7.2.3 Sample Problem:Mapping cities from intercity distances • 當使用Metric MDS時,例如在本例,若我們所選擇的起點城市太靠近空間圖的邊緣,資料間的微小差異性可能在求最後解時被放大。因此一般而言,不以任選一個體為原點,而選所有個體的中心為原點。 • 因此我們將B(i)略作修改,我們創造一個nbyn的矩陣B,而其組成資料bjk係由以下式子計算求得(Torgerson 1958): • 表7.2即利用上式推算求得;另外B矩陣的Sigular value decomposition之結果呈現在表7.3,其中只有兩個特徵值是非常大的,其餘的皆相對地非常小,這也表示此雙構面的解足以將這些城市的相對位置描繪出來

  13. 7.2.3 Sample Problem:Mapping cities from intercity distances • 圖7.5係根據表7.3繪製而成,但須注意的是,這與我們實際上看到的歐洲城市相對位置是不同的,將圖旋轉以後,這些城市也不在其正常位置。 • 若將圖先鏡射再旋轉,則可得到這些城市正常的相對位置。

  14. 7.3 Nonmetric MDS:How it works • 雖然前節談到Torgerson對於Metric MDS問題的解決方法是很有用的,但通常我們所遇到的應用問題,通常不涉及實際距離資料或可度量(metric)相近性資料。因此,我們通常對於nonmetric資料的空間表達較感興趣。 • 以下範例針對單一個人對於10種車價相當的不同車款之不相似性的認知。接受測試的人以1至45分來排序每對車款的相似性,1分代表最相似,45分代表最不相似。表7.4為不同車款的知覺不相似性矩陣中,矩陣中的資料為次序尺度(ordinal)。 • Nonmetric不相似性資料轉換成距離資料是困難的,因為兩者間非簡單的線性關係,而是非線性關係;因此Togerson的metric MDS方法不適合用來解決問題。以下將介紹Kruscal的iterative approach。

  15. 7.3.1 Intuition 於本節中,我們將探討Kruskal的two-way nonmetric MDS approach,我們將用到前述表7.4中的相異性資料。 Step1:選擇空間圖的構面數 r 。 Step2:選擇起始空間分布圖。用metric MDS所獲得的解,可以作為一個很好的起始分布。若能嘗試使用多個起始分佈,可避免最終圖形分布陷入local optimum 。 Step3:計算空間圖上的點兩兩間的距離 Step4:評估距離dij與不相似性δij之間的一致性。利用least squares monotone regression 將δij轉換為 ,再利用下頁的公式計算當前解的壓力係數。圖7.7為Shepard diagram,即可用以評估dij與δij之間的 一致性

  16. 7.3.1 Intuition Krustal(1964)為前述的一致性找到衡量的指標〝Stress〞值,當此值越小時,空間圖點的兩兩間距離的排序與原始不相似性資料的排序越一致,即越fit: Step5:使用數值最適法(例如gradient search method)搜尋空間圖各點的移動方向,使減低壓力係數;回Step3。若所有點都無法移動以得到更好的壓力係數時,表示已經收斂,此時可回Step1,選擇另一個r或終止此程序。

  17. 決定r的經驗法則 • Smallest number of objects generally necessary for a viable nonmetric MDS solution in r dimensions:

  18. 7.3.3 Sample problem:

  19. PROC MDS < options > ;VAR variables ;INVAR variables ;ID | OBJECT variable ;MATRIX | SUBJECT variable ;WEIGHT variables ;BY variables ;The PROC MDS statement is required. All other statements are optional. MDS的語法

  20. 例: 美國各大都市的飛行距離 • data city; • title 'Analysis of Flying Mileages Between Ten U.S. Cities'; • input (atlanta chicago denver houston losangeles • miami newyork sanfran seattle washdc) (5.) • @56 city $15.; • datalines; • 0 Atlanta • 587 0 Chicago • 1212 920 0 Denver • 701 940 879 0 Houston • 1936 1745 831 1374 0 Los Angeles • 604 1188 1726 968 2339 0 Miami • 748 713 1631 1420 2451 1092 0 New York • 2139 1858 949 1645 347 2594 2571 0 San Francisco • 2182 1737 1021 1891 959 2734 2408 678 0 Seattle • 543 597 1494 1220 2300 923 205 2442 2329 0 Washington D.C. • ; • procprint data=city; • procmds data=city level=absolute converge=0.0001 pfinal out=out outres=res; • id city; • run; • %plotit(data=out, datatype=mds, labelvar=city, • vtoh=1.75, labfont=swissb); • run; • procprint data=res; • procgplot data=res; • plot data*distance data*fitdata /overlay; • run;

  21. Configuration Dim1 Dim2 --------------------------------------------- Atlanta 717.82 142.25 Chicago 382.26 -341.51 Denver -481.62 -25.53 Houston 161.74 572.41 Los Angeles -1203.56 382.92 Miami 1132.66 578.39 New York 1072.90 -515.58 San Francisco -1419.83 108.69 Seattle -1342.00 -568.77 Washington D.C. 979.64 -333.27

  22. Perceptual Map of Automobiles • 目的:挑選價格區間在$30,000~$35,000的10種汽車品牌,試圖由一般人的觀點來評論此10種品牌車輛之間的相似性。 • 方法:接受測試的個人會領到一張測試表,表上列出共有45對品牌組合,評分範圍為1~45分,1分代表最相似,45分代表最不相似。

  23. 不相似性評分表

  24. Sas 程式 • data carModel; • title 'Analysis of similarities of 10 car models'; • infile 'D:\多變量分析上課資料\MultivariateData\Data sets\ASCII\Ch07\CAR_DISSIM.txt'; • input car $ 10. (BMW Ford Infinity Cherokee Lexus Chrysler Mercedes Saab Porsche Volvo) (3.); • procprint; • /* • proc mds data=carModel level=ordinal converge=0.0001 dim=1 to 3 by=1 pfinal out=out outres=res; • id car; • */ • procmds data=carModel level=ordinal converge=0.0001 dim=2 pinit pfinal out=out outres=res; • id car; • %plotit(data=out, datatype=mds, labelvar=car, • vtoh=1.75, labfont=swissb); • run;

  25. 7.3.4 Question regarding the application of nonmetric MDS • How good is the fit? MDS的解的適當性(Stress)評估,並沒有絕對的門檻值,但Kruskal建議了以下經驗法則: • 需注意的是,使用太多構面(r)來捕捉過少受測體的相對位置雖可得到非常好的適合度,但最終的空間圖可能會是高度不穩定的

  26. 7.3.4 Question regarding the application of nonmetric MDS • How many dimensions do I need? • 一般而言,MDS分析中使用的構面數越多,配適就越好,不相似性的空間表達也會越準確;但構面越多,分析也越顯複雜 • 構面數太多,將不容易以視覺方式觀看結果,同時Stress值過低亦造成過度配適的風險,使空間構面圖的最終解不穩定 • 我們另外以1與3個構面分別分析表7.4的資料,壓力係數的比較見圖7.13;我們可以看出由一個構面增加到兩個構面可能是有必要的,但若增加到第三個構面可能就會出現上述的風險

  27. 7.3.4 Question regarding the application of nonmetric MDS • How do I interpret the dimensions? • 如果我們使用的資料只有觀察的不相似性,則最終空間圖構面的解釋則以我們對個體所擁有特性的主觀評估,及它們在空間圖的分布為基準 • 在某些情況中,我們也許會有額外的資料,例如個體某些屬性的值。如表7.5為某一個人對10種不同廠牌車型的的六種屬性的評分值 • 將表7.5的各屬性與空間圖兩個構面的相關係數繪製於圖7.14。根據此圖,第一象限可能表示落在此一空間的車款是屬於安全或家庭房車導向,第三象限可能是比較屬於跑車導向的車款。若加以適當旋轉,也可為兩構面命名。

  28. 7.3.4 Question regarding the application of nonmetric MDS • What about using data other than rank order similarity data? • 表7.6為8種心理學期刊的交互參照引用次數,我們可加總任兩個期刊的相互引用次數總合來定義它們的相似性,相互引用次數總合愈多則兩期刊愈相似。表7.7即為對稱的相似性矩陣。 • Nonmetric MDS的分析結果顯示於圖7.15,我們可以注意到空間圖中間的JEXP與JASP兩期刊相互引用次數最多。 • 在此圖中,我們可觀察到當客體互相引用次數越多的,越相似,越會出現在空間圖中央,反之則會出現在圖的邊緣。

  29. 7.3.4 Question regarding the application of nonmetric MDS • 為了解決上述問題,我們可使用另一種方式定義期刊間的相似性: • 上述轉換結果呈現於表7.8之中,而我們執行Nonmetric MDS法後的結果顯示於圖7.16 • 此時我們可以看見空間圖中出現三群(AJP, JCPP, JEXP)、(JASP, JCP)、(PKA, JAP, JEDP) • 利用這個相似性定義,我們可以得出修正後的空間圖,並且更深入了解期刊間的相似性

  30. 7.3.4 Question regarding the application of nonmetric MDS What if the ranking is not complete? • 當我們使用Nonmetric MDS時,我們假設有充分的資訊以排序資料矩陣來得出最後空間圖 • 然而有時這樣的排序不可得,例如當某個主體無法分辨出某些組合間的差異(會產生ties或missing values) • 解決方法是任意打破tie • 另外,排序無法完成的情形時,資料矩陣會有遺漏值,此問題的解決方法在7.5節會討論

  31. 7.4 The INDSCAL Model and Method For Individual differences scaling:How it works?

  32. 7.4 .1 Intuition • 〝人們對於某種事物之認知是同質的〞的假設是相當好的,在精簡的角度來看,我們可用一樣的構面來溝通不同物體的相對位置 • 人們雖然以相同的方式(構面)看這個世界,但不代表他們一定以相同的方式做物體相似性的判斷。在判斷事物間的相似性時,往往會因為其本身所重視的客體屬性而使判斷有差異;例如有人會認為A&W牌啤酒與Pepsi皆屬於無熱量的飲料,但也有人認為Pepsi與Diet Coke較為相似,因為皆是可樂口味 • Individual differences scaling model考慮一般主體普遍擁有的判斷特性,亦考慮到不同主體於判斷相似性時,對不同屬性要求的權重

  33. Carrol and Chang • The individual differences scaling model was proposed by Carrol and Chang in 1970. • The model allows for a single underlying configuration (called group stimulus space) that is common to all individuals but which allows individuals to have different weights influencing their perception pf similarity. • Define as the position of object j on dimension t of the group stimulus space. • Define as the weight that stretches or shrinks dimension t for subject i. • Define as the position of object j on dimension t as perceived by subject i.

  34. 7.4 .1The INDSCAL Model and Method For Individual differences scaling:Intuition • 個人的認知可以用右式表示: (7.11) • 而客體j與k (perceived by subject i)間的認知距離可以用序數性的Euclidean距離的式子來表示: (7.12) • 由上面兩式可以再轉換為下式以表達不同主體所認知的距離: (7.13) • 其中唯一受到不同主體影響的係數是認知權重

  35. 7.4 .1The INDSCAL Model and Method For Individual differences scaling:Intuition • 解Carrol and Chang的模型後,所得資訊繪製於圖7.17a (group stimulus space)與圖7.17b (subject space) 。根據公式7.13可得出圖7.18a與b,分別代表主體1與主體2的個別相似性認知空間圖。

  36. 7.4.2 Mechanics • 在下節範例中,我們使用的是被廣泛使用的INDSCAL模型,此模型的建立係基於canonical decomposition of N-way table;在此情況下, 資料將會出現m個nxn的矩陣,然後再依據Togersons的metric MDS程序做資料轉換,轉換後的資料將如下: (7.14) • 在metric MDS中bijk又被稱作在裡,客體j與k在group stimulus 空間的向量的加權內積;當dijk係由7.13式所求得,則加權後的數量化乘積即可以下列形式表達:

  37. How to solve the model? • Canonical decomposition involves finding the values of thw w’s and x’s that yield the best fit (in the least squares sense) to the observed values of the b’s. • Carroll and Chang solve the problem using nonlinear iterative least squares. By fixing the values of the x’s, they are able to determine an exact least squares solution for the values of the w’s. Similarly, by fixing thw w’s, they are able to find the least squares solution for the x’s. • Please refer to Carroll and Chang (1970) and Carroll(1972) for more details.

  38. 7.4.3 Sample problem:Perception of Breakfast • 目的:藉由兩男兩女等四個接受測驗,取得其對15個不同種類的早餐食物之相似性認知。 • 方法一:四個接受測試的人均會收到一份問卷,其上列有共105種不同的早餐食物配對,隨後對這105種不同配對的相似性進行評分 • 方法二:請每一個人逐一對每一項食物與其他食物相似性進行評分。例如編號42號的受測者以Toast pop-up為主,評斷其他每種食物與此食物的相似性。此種資料稱為row conditional matrix 。見表7.10 • 請上網搜尋並下載SINDSCAL程式(免費),並解此題。

More Related