1 / 8

Đa cộng tuyến, định nghĩa, nguyên nhân và cách khắc phục

u0110a cu1ed9ng tuyu1ebfn lu00e0 mu1ed9t hiu1ec7n tu01b0u1ee3ng thu01b0u1eddng gu1eb7p u1edf trong thu1ed1ng ku00ea vu00e0 u0111a su1ed1 nu00f3 cu00f3 u1ea3nh hu01b0u1edfng u0111u1ebfn ku1ebft quu1ea3 cu1ee7a thu1ed1ng ku00ea. Vu1eady u0111a cu1ed9ng tuyu1ebfn lu00e0 gu00ec? Nguyu00ean nhu00e2n vu00e0 cu00e1ch khu00e1c phu1ee5c nhu01b0 thu1ebf nu00e0o? u0110u1ec3 hiu1ec3u ru00f5 hu01a1n vu1ec1 cu00e1c khu00e1c niu1ec7m cu0169ng nhu01b0 nu1ed9i dung cu1ee7a u0111a cu1ed9ng tuyu1ebfn, hu00e3y cu00f9ng theo du00f5i bu00e0i viu1ebft du01b0u1edbi u0111u00e2y nhu00e9.

luanvan123
Download Presentation

Đa cộng tuyến, định nghĩa, nguyên nhân và cách khắc phục

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Đa cộng tuyến: Định nghĩa, nguyên nhân và cách khắc phục_ Luận văn 123 Đa cộng tuyếnlà một hiện tượng thường gặp trong thống kê, và đôi khi có ảnh hưởng đến kết quả của thống kê. Vậy đa cộng tuyến là gì? Nguyên nhân và cách khắc phục nó như thế nào? Mời các bạn tham khảo bài viết dưới đây. Đa cộng tuyến là gì? Đa cộng tuyến ( tiếng Anh là Multicollinearity)là một thuật ngữ thống kê thường xảy ra khi có sự tương quan cao giữa hai hoặc nhiều biến độc lập trong mô hình hồi quy. Nói cách khác, một biến độc lập có thể được sử dụng để dự báo cho một hay nhiều biến độc lập khác. Chẳng hạn như ta có 2 biến độc lập “chiều cao” và “cân nặng”. Hiện tượng đa cộng tuyến xảy ra, tức là khi biến “chiều cao” tăng thì biến “cân nặng” tăng và ngược lại “chiều cao” giảm thì “cân nặng” cũng giảm. Điều này tạo ra thông tin dư thừa, làm sai lệch kết quả trong mô hình hồi quy. Hiện tượng này thường xảy ra phổ biến hơn đối với trong các nghiên cứu quan sát và ít gặp hơn với dữ liệu thử nghiệm. Ảnh hưởng mà đa cộng tuyến gây ra với mô hình hồi quy Hiện tượngđa cộng tuyếnkhông phải là vấn đề quá nghiêm trọng. Tuy nhiên, trong một số trường hợp thì nó lại gây ra rắc rối.

  2. •Trường hợp đa cộng tuyến hoàn hảo: Đa cộng tuyến hoàn hảo khiến các ước lượng hồi quy không ổn định và không đáng tin cậy. •Trường hợp đa cộng tuyến không hoàn hảo:Hiệp phương sai và phương sai của của các ước lượng OLS lớn. •Khoảng tin cậy của các hệ số ước lượng bị mở rộng hơn. •Thống kê t không có ý nghĩa. •R cao nhưng tỉ số t ít ý nghĩa. •Làm sai dấu của các ước lượng hệ số hồi quy. •Mô hình sẽ thay đổi về độ lớn của các ước lượng hoặc dấu của biến cộng tuyến: sai số tiêu chuẩn cao hơn cho thấy sự biến thiên của hệ số hồi quy mẫu này đến mẫu khác cũng cao hơn do đó một sự thay đổi nhỏ trong mô hình hoặc số liệu cũng gây ra thay đổi lớn trong mô hình -> Dễ dẫn chúng ta đến việc bác bỏ giả thiết H0, và điều này có thể không đúng. Nguyên nhân gây ra hiện tượng đa cộng tuyến Có rất nhiều nguyên nhân gây ra hiện tượngđa cộng tuyến, nhưng sau đây là 2 nguyên nhân thường gặp nhất: •Dựa trên cơ sở dữ liệu: Điều này thường xảy ra khi các thử nghiệm bị bài bố kém, phương pháp thu thập dữ liệu không thể vận dụng được hoặc do

  3. dữ liệu bị sai số quan trắc. Trong một số trường hợp, các biến có thể có mối tương quan cao. •Do cấu trúc: Do người thực hiện khảo sát, tạo ra nhiều biến độc lập mới. Ngoài ra, đa cộng tuyếncó thể xảy ra do: •Cơ sở dữ liệu không đầy đủ, trong trường hợp này cần thu thập thê dữ liệu. •Do việc sử dụng không chính xác các biến giả •Một biến trong mô hình hồi quy là sự kết hợp từ hai biến khác •Xảy ra do sự trùng lặp của cùng một loại biến. Cách phát hiện đa cộng tuyến trong SPSS Có hai cách đểphát hiện hiện tượng đa cộng tuyến: dùng hệ số phóng đại phương sai VIF hoặc ma trận hệ số tương quan. Dựa vào hệ số phóng đại phương sai ( VIF) Hệ số phóng đại phương sai (Variance Inflation Factors) có chức năng đo lường mối tương quan và độ mạnh của mối tương quan giữa các biến dự báo trong mô hình hồi quy. Cách đơn giản nhất để có được hệ số VIF, ta thực hiện thao tác trên công cụ SPSS. Cách phân tích kết quả hệ số phóng đại phương sai trong SPSS: •Nếu giá trị VIF = 1 không xảy ra hiện tượng đa cộng tuyến •Nếu 1 < VIF < 5: có sự tương quan vừa phải giữa một biến độc lập nhất định với các biến độc lập khác trong mô hình -> Có thể xảy ra hiện tượng đa cộng tuyến. Tuy nhiên, điều này thường không nghiêm trọng lắm. •Nếu VIF > 5 thì xảy ra hiện tượng đa cộng tuyến. Ngoài ra, ta cũng có thể xem xétgiá trị Tolerancenằm ở bên trái V (với Tolerance = 1/VIF). •Nếukết quả Tolerance > 0.5 thì có thể bạn đã gặp phải hiện tượng đa cộng tuyến. •Nếu kết quả Tolerance > 0.1 thì chắc chắn bạn đã gặp phải đa cộng tuyến. •Nếu kết quả Tolerance < 0.5 thì không bị đa cộng tuyến. Dưới đây là một ví dụ cụ thể:

  4. Ví dụ: Giả sử chúngta có tập dữ liệu sau cho biết điểm thi của 10 sinh viên cùng với số giờ họ đã học, số kỳ thi thử mà họ đã thực hiện và điểm hiện tại của họ trong khóa học: Trong đó, biến phụ thuộc là "score", các biến độc lập là "hours", "prep_exams" và "current_grade" Cách thực hiện: •Ở màn hình chính của SPSS, chọnAnalyze > Regression > Linear.

  5. •ChọnStatistics > check vào ô Collinearity diagnostics.

  6. •OK > ở kết quả Output, ta tập trung quan sátgiá trị VIF tại bảng Coefficients. Giải thích: Các giá trị VIF cho mỗi biến độc lập như sau:

  7. •hours: 1.169 •prep_exams: 1.403 •current_grade: 1.522 Chúng ta có thể thấy rằng không có giá trị VIF nào cho các biến độc lập lớn hơn 5 => Không xảy ra đa cộng tuyến trong mô hình hồi quy này. Dựa vào hệ số tương quan Một cách dễ dàng để phát hiện đa cộng tuyến là tính toán hệ số tương quan cho tất cả các cặp biến độc lập. Nếuhệ số tương quan Rchính xác là +1 hoặc -1, thì xảy ra hiện tượng đa cộng tuyến hoàn hảo. Nếu r gần hoặc chính xác là -1 hoặc +1 nên cân nhắc loại bỏ một trong các biến khỏi mô hình nếu có thể. Cách làm: •Ở màn hình chính của SPSS, chọn Analyze > Regression > Linear. •Chọn Statistics > check vào ô Collinearity diagnostics. •Nhìn vào kết quả hồi quy, ta thấy R cao (tầm trên 0.8) => Có khả năng xảy ra hiện tượng đa cộng tuyến. Tuy nhiên thông thường chúng ta sẽ sử dụng cách 1 thay vì cách thứ 2 vì nó dựa vào phán đoán chủ quan. Biện pháp khắc phục tình trạng đa cộng tuyến Đây là tình trạng thường xảy ra trong thống kê, nhưng nếu muốn khắc phục tình trạng này thì chúng ta phải làm sao? Thật không may, tình huống này có thể khó giải quyết. Có nhiều phương pháp mà bạn có thể thử, nhưng mỗi phương pháp đều có một số nhược điểm. Bạn cần phải sử dụng kiến thức và yếu tố trong từng lĩnh vực của mình trong các mục tiêu của nghiên cứu để chọn giải pháp kết hợp tốt nhất giữa ưu điểm và nhược điểm. Loại bỏ biến giải thích ra khỏi biến mô hình hồi quy •Bước 1: Xác định các biến có mối quan hệ tương quan chặt chẽ với nhau. •Bước 2: Tìm R2 hiệu chỉnh của mô hình. •Bước 3: Dùng R2 hiệu chỉnh để xác định biến cộng tuyến nào cần loại bỏ khỏi mô hình. Thu thập thêm số liệu hoặc lấy mẫu mới hoàn toàn Vấn đề vềđa cộng tuyếnlà đặc tính của mẫu, nhưng tùy theo mẫu khác nhau mà độ nghiêm trọng của đa cộng tuyến cũng khác nhau. Nên việc lấy mẫu khác có thể làm giảm mức độ nghiêm trọng của đa cộng tuyến.

  8. Thay đổi dạng mô hình Do trong kinh tế lượng có rất nhiều loại mô hình khác nhau nên có thể tái cấu trúc mô hình để khắc phục hiện tượngđa cộng tuyến. Tùy vào thực tế mà việc khắc phục đa cộng tuyến có thể đơn giản hoặc vô cùng phức tạp. Đối với các trường hợp đơn giản, bạn hoàn toàn có thể tự “fix”. Nếu giải pháp này không khả thi, đừng lo lắng, hãy sử dụngDịch vụ phân tích định lượng - Hỗ trợ SPSS của Luận Văn 123. Chúng tôi sẽ giúp bạn “gỡ bỏ” hoàn toàn vấn đề một cách chính xác - nhanh chóng và tiết kiệm!

More Related