1 / 27

Nhập số liệu nghiên cứu

Nhập số liệu nghiên cứu. Nguyễn Văn Tuấn Nguyễn Đình Nguyên. Các thông số trong dữ liệu. Các ký hiệu nhận dạng : số mã nghiên cứu, số thứ tự, các mã số xét nghiệm. Biến phụ thuộc chính : Yếu tố kết cục được đặc ra trong thiết kế nghiên cứu.

adara
Download Presentation

Nhập số liệu nghiên cứu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nhập số liệu nghiên cứu Nguyễn Văn Tuấn Nguyễn Đình Nguyên

  2. Các thông số trong dữ liệu • Các ký hiệu nhận dạng: số mã nghiên cứu, số thứ tự, các mã số xét nghiệm. • Biến phụ thuộc chính: Yếu tố kết cục được đặc ra trong thiết kế nghiên cứu. • Các biến phụ thuộc thứ yếu: Cũng là các yếu tố kết cục cần quan tâm nhưng không phải là yếu tố chính. • Các yếu tố dự đoán hay là yếu tố nguy cơ.

  3. Ký hiệu nhận dạng • Cần phải có một mã số nhận dạng duy nhất cho mỗi bệnh nhân, nhất là khi có nhiều bảng số liệu cho cùng một nghiên cứu. • Chỉ nên sử dụng mã bằng số. • Mã số nhận dạng phải dưới dạng “mã” để không tiết lộ chi tiết bệnh nhân để có thể nhận dạng. • Hồ sơ chi tiết liên hệ với cá nhân bệnh nhân (tên, địa chỉ, số điện thoại…) không để cùng trong dữ liệu dùng để phân tích; vì có thể phải trao đổi số liệu với đồng nghiệp.

  4. Ký hiệu nhận dạng: ví dụ • Hồ sơ dùng để phân tích • id gioitinh noio vung • nam rach gia • nu ba ria • nam soc trang Cần tách biệt với • Hồ sơ dùng để theo dõi • id gioitinh ho ten diachi dienthoai • nam nguyen A thon 2 ap 4 xa… 894347 • nu tran B so 3 duong… 439845 • nam phan C ap 5 xa… 945709

  5. Dữ liệu phân tích • Bất luận dữ liệu để phân tích là kết cục (outcome) hay là yếu tố nguy cơ, dự đoán đều có thể sắp xếp thành hai nhóm số liệu chính: • Biến số liên tục (huyết áp, chiều cao, cân nặng, tuổi, cholesterol…) • Biến số rời rạc: gồm biến số nhị phân (có, không) biến số phân nhóm theo định tính (tốt, vừa, xấu)

  6. Dữ liệu phân tích • Dữ liệu phân tích phải được nghiên cứu kỹ lưỡng trước khi bắt tay vào thu thập số liệu đầu tiên. • Các dữ liệu sau khi đã thu thập phải được lưu trữ trong dạng bảng vi tính hóa, tùy theo quy mô của nghiên cứu (micro-access, hoặc với số liệu nhỏ, đơn giản và hiệu quả là file xcel) • Mã số của dữ liệu nên thiết kế trước từ khi lập bộ câu hỏi nghiên cứu và để đi kèm với bộ câu hỏi nghiên cứu. • Cần nhập số liệu mới thu thập được sớm để có thể nhận dạng các yếu tố bất hợp lý phát sinh trong quá trình mã hóa và nhập dữ liệu. • Kiểm tra chéo số liệu đã nhập, đảm bảo chính xác trước khi bắt tay vào phân tích. • Cần phải có những phân tích nhanh (interim) tạm thời để xem số liệu thu thập được có tin cậy và hợp lý không.

  7. Nghiên cứu kỹ số liệu trước • Tham khảo y văn về chủ đề liên quan, xem cách thức thu thập số liệu như thế nào, cách trình bày số liệu như thế nào. • Thí dụ: Tuổi: trẻ nhỏ dưới 5 tuổi, tính bằng tháng, từ 5 tuổi trở lên tính bằng năm cho đến ngày thu thập số liệu. • Do đó “khôn ngoan” nhất là nên hỏi ngày tháng năm sinh của đối tượng chứ không nên hỏi bao nhiêu tuổi là cách để giảm thiểu sai số qua nhiều giai đoạn. • Và khi đó ngày ghi nhận số liệu (ngày phỏng vấn, hoặc ngày xuất hiện bệnh, hoặc ngày chết…) có khi là một dữ kiện “phụ” nhưng lại đóng một vai trò quan trọng phải để vào trong bộ câu hỏi thu thập số liệu.

  8. Ghi nhận và nhập số liệu • Các số liệu ghi nhận và nhập luôn luôn phải giữ ở dạng số liệu thô, như trong bộ câu hỏi. • Không nhập số liệu cần phải thông qua quá trình tính toán vào trong bảng dữ liệu gốc. Thí dụ: chỉ số trọng lượng cơ thể (BMI) là được ước tính là cân nặng (kg)/ chiều cao bình phương (m2), do đó chỉ nhập số liệu cân nặng (kg) và chiều cao (cm); BMI sẽ được ước tính sau, chứ không nên tính BMI rồi nhập vào bảng số liệu để đảm bảo tính nhất quán trong tính toán tránh error và bias.

  9. Dữ kiện cần thu thập và lưu trữ Số liệu thu thập và nhập bảng lưu trữ Số liệu tính toán

  10. Ví dụ thực hành trên R Hồ sơ dữ liệu “hoso” save ở dạng file hoso.csv, các trường ngày tháng được định dạng trong cvs là “yyyy-mm-dd” (tức là năm-tháng-ngày) Để đọc dữ liệu hoso này trên R thì dùng lệnh ‘read.csv’ như sau: hoso <- read.csv("C:/DOES/NGUYEN/LECTURES/VN Epi workshop 2007/Data/Kien Giang/hoso.csv", header=T, na.strings=‘NA') hoso id ngaysinh ngaychet ngaypvan phatbenh 1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 3 3 1990-04-23 2006-06-05 • 4 1991-03-05 2006-10-18 2006-07-14 #Kiem tra ngay thang library(date) is.date(hoso$ngaysinh) [1] FALSE # Định dạng lại ngảy tháng

  11. Ví dụ thực hành trên R hoso$ngaysinh <- as.Date(hoso$ngaysinh) hoso$ngaychet <- as.Date(hoso$ngaychet) hoso$ngaypvan <- as.Date(hoso$ngaypvan) hoso$phatbenh <- as.Date(hoso$phatbenh) # Xac dinh ngay phan tich hoso$phantich <- Sys.Date() # Ngay hom nay hoso$tuoi1 <- hoso$ngaypvan-hoso$ngaysinh hoso id ngaysinh ngaychet ngaypvan phatbenh phantich tuoi1 1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2007-07-16 8652 days 2 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 2007-07-16 9620 days 3 3 1990-04-23 2006-06-05 <NA> 2007-07-16 5887 days • 4 1991-03-05 2006-10-18 2006-07-14 <NA> 2007-07-16 5610 days Vì ở đây tuổi được tính bằng ngày, nên cần phải tính lại

  12. Ví dụ thực hành trên R hoso$tuoi <- round(as.numeric((hoso$ngaypvan-hoso$ngaysinh)/365),0) hoso id ngaysinh ngaychet ngaypvan phatbenh phantich tuoi1 tuoi 1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2007-07-16 8652 days 24 2 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 2007-07-16 9620 days 26 3 3 1990-04-23 <NA> 2006-06-05 <NA> 2007-07-16 5887 days 16 4 4 1991-03-05 2006-10-18 2006-07-14 <NA> 2007-07-16 5610 days 15 # Xac dinh tinh trang chet va phat benh hoso$chet <- ifelse(is.na(hoso$ngaychet),0,1) hoso$benh <- ifelse(is.na(hoso$phatbenh),0,1) # Tinh thoi gian theo doi # Chu y: # Co benh thi tinh den ngay phat benh #Khong benh: Chet tinh den ngay chet #Khong benh: khong chet, tinh den ngay phan tich #Do do: hoso$tgtheodoi[hoso$chet==1 & hoso$benh==0] <- hoso$ngaychet-hoso$ngaypvan hoso$tgtheodoi[hoso$chet==0 & hoso$benh==0] <- hoso$phantich-hoso$ngaypvan hoso$tgtheodoi[hoso$benh==1] <- hoso$phatbenh-hoso$ngaypvan

  13. Ví dụ thực hành trên R hoso id ngaysinh ngaychet ngaypvan phatbenh phantich 1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2007-07-16 2 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 2007-07-16 3 3 1990-04-23 <NA> 2006-06-05 <NA> 2007-07-16 4 4 1991-03-05 2006-10-18 2006-07-14 <NA> 2007-07-16 tuoi1 tuoi chet benh tgtheodoi 1 8652 days 24 1 1 176 days 2 9620 days 26 1 1 238 days 3 5887 days 16 0 0 369 days 4 5610 days 15 1 0 243 days Từ các thông số “thô” ban đâu, chúng ta có thể tính toán được các biến cần thiết dùng để phân tích mà không bị lỗi do quá trình nhập số liệu

  14. Tiêu đề, ‘text’ của bảng số liệu • Ngắn, không có dấu cách, dễ nhớ, dễ gõ bằng bàn phím, không có dấu tiếng việt, hạn chế chữ IN HOA. • Hint: nên sử dụng ba chữ cái đầu hoặc hai chữ cái đầu và cuối. • stt: số thứ tự • hatth: huyết áp tâm thu; hattr: huyết áp tâm trương. • ccao: chiều cao; can/cnang: cân nặng • Cần phải có một hồ sơ lưu trữ chú thích các mã mình đã sử dụng trong tiêu đề cũng như nội dung của bảng số liệu một cách chi tiết.

  15. Ví dụ Đây là file lưu trữ trên csv Đây là file khi đọc trên hệ thống phân tích (R) stt H. Tên ngày.sinh noisinh 1 1 Tr?n Nguyên 12/03/2000 camau 2 2 Nguy?n Ng?c 23/04/1999 cantho 3 3 Ph?m Hoang 11/02/2003 vinhlong 4 4 Ngo Huyen 10/10/1996 chaudoc 5 5 Tran Tuan 3/03/2001 sadec

  16. Nghiên cứu kỹ số liệu trước • Một ví dụ khác: Xác định chiều cao của đối tượng, nếu mô tả trong phương pháp là sai số đến 0.1cm thì khi thu thập số liệu nên lấy chỉ số đến 1 số thập phân (155.5cm). • Trong khi đó BMI thì được tính toán không có số thập phân, nên cần phải làm tròn số liệu. • Cần cân nhắc mã hóa hoặc câu trả lời của đối tượng nghiên cứu phải phủ hết vùng (spectrum) của câu hỏi. • Thí dụ: rất thích, thích, bình thường, không thích, rất ghét…nhưng còn phải cân nhắc đến tình huống ‘không có ý kiến’ hoặc ‘không muốn trả lời’, vẫn là một khả năng để phân tích.

  17. Mã số liệu đi kèm câu hỏi • Trong năm qua ông/bà có bị té ngã không? • Không (0) • Có (1) • Cảm giác của ông/bà tại vết mổ sau khi hồi tỉnh 3 tiếng? • không đau (0) • đau ít (1) • đau vừa (2) • rất đau (3) Đối với các biến số phân nhóm, có thể đặt mã trước cùng với bộ câu hỏi. Mã số nên đặt: cho biến nhị phân: không (0), và có (1) cho biến biểu thị mức độ: 0,1,2,3…tuỳ theo tình huống Nhưng không cần thiết. Nhập số liệu thô, và có thể mã hoá lại sau

  18. Mã hoá số liệu hoso3 id gioitinh dausaumo 1 1 nam rat dau 2 2 nu dau it 3 3 nu khong dau 4 4 nam dau vua 5 5 nam rat dau hoso3$gioitinh.1 <- ifelse(hoso3$gioitinh =="nam",1,0) hoso3$dausaumo.1[hoso3$dausaumo=="khong dau"] <- 0 hoso3$dausaumo.1[hoso3$dausaumo=="dau it"] <- 1 hoso3$dausaumo.1[hoso3$dausaumo=="dau vua"] <- 2 hoso3$dausaumo.1[hoso3$dausaumo=="rat dau"] <- 3 hoso3 id gioitinh dausaumo gioitinh.1 dausaumo.1 1 1 nam rat dau 1 3 2 2 nu dau it 0 1 3 3 nu khong dau 0 0 4 4 nam dau vua 1 2 5 5 nam rat dau 1 3

  19. Biến (yếu tố) cùng đặc tính Luôn luôn để các biến có cùng đặc tính vào trong cùng một cột số liệu • id gioitinh tuoinam tuoinu • nam 23 • nu 33 • nam 31 • nu 42 • id gioitinh tuoi • nam 23 • nu 33 • nam 31 • nu 42

  20. Ví dụ về tính toán dữ kiện: BMI hoso2$bmi1 <- hoso2$cannang/((hoso2$chieucao/100)^2) hoso2 id cannang chieucao bmi1 1 1 55.2 155.5 22.82855 2 2 50.3 147.3 23.18262 3 3 46.1 149.6 20.59860 4 4 70.0 160.2 27.27552 5 5 52.5 154.4 22.02240 BMI= cân nặng (kg)/chiều cao (m)^2 id cannang chieucao 1 1 55.2 155.5 2 2 50.3 147.3 3 3 46.1 149.6 4 4 70.0 160.2 5 5 52.5 154.4 Việc tính toán và làm tròn BMI có thể thực hiện dễ dàng và không sai số hoso2$bmi2 <- round(hoso2$cannang/((hoso2$chieucao/100)^2),0) hoso2 id cannang chieucao bmi1 bmi2 1 1 55.2 155.5 22.82855 23 2 2 50.3 147.3 23.18262 23 3 3 46.1 149.6 20.59860 21 4 4 70.0 160.2 27.27552 27 5 5 52.5 154.4 22.02240 22

  21. Lưu trữ số liệu

  22. Định dạng (format) trường ngày tháng Chọn (highlight) toàn bộ cột có ngày tháng, sau đó click chuột phải > format cell > Date > nên chọn ‘2001-03-14’ > bấm OK. Tương tự các trường khác tuỳ chọn.

  23. Lưu trữ file dữ liệu • Việc đầu tiên là chúng ta cần làm, như nói trên, là vào Excel để lưu dưới dạng csv: • Vào Excel, chọn File \ Save as • Chọn Save as type “CSV (Comma delimited)”

  24. Lưu lệnh R ở đâu? Tinn-R Địa chỉ để tải ở đây: http://www.sciviews.org/Tinn-R/ và tải chỗ này: Setup for Tinn-R, old stable version (1.17.2.4) (.exe, 5.2 Mb) compatible with Rgui in SDI or MDI mode, with SciViews R Console and with S-PLUS. Kích hoạt Tinn-R cùng với R Chọn R ở đây Gõ lệnh trên Tinn-R Gửi lệnh đến R ơ đây

  25. Muốn lưu lại file dữ liệu vừa mới thao tác? hoso id ngaysinh ngaychet ngaypvan phatbenh phantich 1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2007-07-16 2 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 2007-07-16 3 3 1990-04-23 <NA> 2006-06-05 <NA> 2007-07-16 4 4 1991-03-05 2006-10-18 2006-07-14 <NA> 2007-07-16 tuoi1 tuoi chet benh tgtheodoi 1 8652 days 24 1 1 176 days 2 9620 days 26 1 1 238 days 3 5887 days 16 0 0 369 days 4 5610 days 15 1 0 243 days Thí dụ muốn lưu lại file này để có thể mở nhanh lại lần sau, cũng nên lưu bằng file đuôi ‘.csv’. Dùng lệnh: write.table(hoso,file="C:/duong dan/hosoluu.csv")

  26. Vài điểm quan trọng • Thiết kế bộ câu hỏi đi kèm với các mã cần thiết. • Nhập toàn bộ số liệu thu thập được ngay vào hồ sơ điện tử, chỉ nhập các số liệu thô có trong bộ câu hỏi, không tính toán. • Lưu file hồ sơ gốc bằng ‘.csv’ và luôn luôn phải có một file dự trữ. • Nếu chưa quen, chỉ làm việc trên file copy.

  27. Lời Cảm tạ • Chúng tôi xin chân thành cám ơn Công ty Dược phẩm Bridge Healthcare, Australia đã tài trợ cho chuyến đi.

More Related