Skip to main content

Phân tích dữ liệu với R Kienhoc

Về khóa học

Khóa học là tập hợp của gần 60 bài giảng về R do giáo sư Nguyễn Văn Tuấn trực tiếp giảng dạy bằng tiếng Việt qua slide. Đây có thể xem như là một bộ bài giảng hay nhất, chi tiết nhất bằng tiếng Việt về một công cụ phân tích dữ liệu rất phổ biến và hoàn toàn miễn phí như R. Chân thành cảm ơn giáo sư Nguyễn Văn Tuấn đã rộng lượng cho phép Kiến Học chia sẻ lại các nội dung của khoá học tại đây với mục đích phi lợi nhuận.

Về R

Nguồn: Blog Nguyễn Văn Tuấn

Câu hỏi 1: Tại sao tôi phải học R trong khi đó ở Việt Nam người ta giảng dạy về Stata và SPSS?
 
Trả lời: Có nhiều lí do để học R, và tôi nghĩ đến 4 lí do sau đây:
·       Thứ nhất là nó miễn phí, chứ không tốn tiền như Stata và SPSS (mà phần lớn bạn ở VN dùng là lậu, bất hợp pháp).
·       Thứ hai là R được thiết kế bởi giới làm về khoa học thống kê, và những phương pháp phân tích hiện đại nhất, mới nhất đều được triển khai trong R trước. Điều đó có nghĩa là chúng ta sẽ làm chủ phương pháp sớm nhất và do đó nghiên cứu có cái "mới" sớm nhất.
·       Thứ ba là R là ngôn ngữ chính cho Dữ liệu Lớn (Big Data), còn các software khác như Stata và SPSS thì chỉ dùng cho những nghiên cứu tầm nhỏ và trung mà thôi. Vì thế, học R các bạn sẽ tiếp cận và cập nhật hoá với khoa học "nóng" như Big Data rất nhanh.
·       Thứ tư là biểu đồ trong R có phẩm chất tốt hơn hẳn các software thông thường khác như SPSS và Stata.
 
Bởi thế, các bạn nên học R. Không phải vì tôi giảng về R mà nói như thế đâu (tôi không có thói này), nhưng khách quan mà nói thì R là ngôn ngữ của khoa học thống kê phổ biến nhất, phát triển nhanh nhất, và "hot" nhất hiện nay. Tôi học R từ một nghiên cứu sinh của tôi, và cho đến nay tôi đã vứt hết SAS để chỉ dùng R trong việc phân tích.
 
Câu hỏi 2: Những gì R làm được thì các software khác cũng làm được, vậy tại sao tôi phải dùng R?
 
Trả lời: Nếu bạn không có tiền và có lòng tự trọng (không dùng đồ lậu) thì R là lựa chọn lí tưởng. Tất cả những phương pháp mà các software khác làm được thì R cũng làm được. Nhưng có cái khác: Khi dùng R, các bạn biết hơn về vấn đề mình làm. Với các software khác (như SPSS), các bạn chỉ cần nhấn nút menu là có kết quả, các bạn không biết đằng sau đó là cái gì. Nhưng với R, các bạn không thể làm thế được, mà phải viết xuống mô hình hay phải biết mình làm cái gì, rồi mới dùng lệnh R. Tôi có khi xem R như là một ... cách suy nghĩ.
 
Nhưng như tôi nói trên, có những vấn đề mà các software khác không giải quyết được, nhưng R thì giải quyết được. Ví dụ như nếu các bạn muốn đánh giá tầm quan trọng của mỗi biến tiên lượng đến một biến phụ thuộc, hay nếu các bạn muốn dùng phương pháp BMA, thì chỉ có R mới trả lời được những câu hỏi này. Trước đây, chỉ có mấy người ở các nước phương Tây mới tiếp cận các phương pháp mới trước; còn ngày nay với R thì các nhà khoa học từ các nước nghèo vẫn có thể tiếp cận được. Do đó, tôi xem R là một công cụ để dân chủ hoá trong khoa học.
 
Câu hỏi 3: Lớp học có giảng về big data hả thầy?
 
Trả lời: Tôi muốn giảng về chủ đề này, nhưng cần phải xem xét thời gian và nhu cầu nữa. Big Data hiện nay rất "nóng" và tôi nghĩ có lẽ nên dành vài bài giảng về chủ đề này, nhưng tôi chưa dám hứa chắc. Tôi có thể chỉ cho các bạn những khái niệm, công cụ R dùng cho Big Data, và những tài liệu cần biết. Vấn đề lớn nhất là máy tính (vì Big Data cần phải có máy tính loại parallel hoặc supercomputer mà VN mình chưa có?) nên khó mà thực hành gì được. Giảng lí thuyết thì ok, còn thực hành thì tôi không dám hứa.
 
Câu hỏi 4: Tôi nghe bạn bè nói là R rất khó học vì phải gõ lệnh?
 
Trả lời: Khó hay dễ tuỳ thuộc vào thời gian chúng ta sử dụng và làm quen với một công cụ mới, do đó, khó hay dễ chỉ là tương đối thôi. Tất cả các software nghiêm chỉnh (như SAS, Stata) đều dùng lệnh, chứ không dùng menu. R cũng thế, vì R được thiết kế cho những người PHẢI BIẾT mình làm cái gì, chứ không phải chỉ bấm bấm menu cho ra kết quả và nghĩ là mình hiểu thống kê học! Đẳng cấp của người sử dụng R và SPSS khác nhau, nên không thể so sánh được. Thật ra, R cũng có menu, nhưng tôi không muốn giới thiệu, vì tôi muốn các bạn phải học từ gốc, chứ đừng học từ ngọn chẳng ra làm sao cả.
 
Câu hỏi 5: R có nhiều lệnh và packages quá, làm sao nhớ hết?
 
Trả lời: Thật ra, chỉ có một số lệnh thông thường thôi, nên chẳng cần nhớ làm gì. Tôi có hẳn một cuốn sách viết bằng tiếng Việt, và có phần phụ chú liệt kê tất cả các lệnh và packages cần thiết, kèm theo ví dụ. Không! Các bạn không cần nhớ hết các hàm và packages, mà chỉ cần biết mình muốn làm gì mà thôi.
 
Câu hỏi 6: Có giảng viên nói rằng R không được kiểm chứng như SPSS hay SAS, nên không đáng tin cậy và ít ai dùng.
 
Trả lời: Tôi cũng từng nghe qua ý kiến này, nhưng tôi có thể nói thẳng rằng đó là ý kiến rất bậy bạ. R là ngôn ngữ của giới thống kê học, và cộng đồng khoa học thống kê kiểm chứng trước khi đưa vào packages. Ngoài ra, R có một nhóm chuyên kiểm định codes của các packages, nên người sử dụng có thể yên tâm hơn so với Stata hay SPSS. R được rất nhiều người trong giới khoa học sử dụng. Đặc biệt là trong genomics thì hầu hết đều dùng R. Do đó, nói rằng ít ai dùng R là quá bậy bạ, và nó chứng tỏ người nói câu đó chưa cập nhật tình hình khoa học.
 
Câu hỏi 7: Nhiều khi thầy cô em không chấp nhận R, vậy em học R làm gì?
 
Trả lời: R chỉ là công cụ, chứ đâu phải là ý tưởng khoa học hay phương pháp khoa học đâu mà có chuyện chấp nhận hay không chấp nhận. Để ước tính tham số của một mô hình, người ta có thể dùng Stata, SPSS, SAS, Fortran, hay R, chứ đâu phải chỉ có một software nào đó là độc nhất. Việc chấp nhận hay không chấp nhận R không cần phải đặt ra, vì nó quá thấp.

Yêu cầu khóa học

Khóa học được giảng dạy khá dễ hiểu, tuy nhiên người học cần thiết phải có hiểu biết nhất định về xác suất thống kê trước khi bắt đầu.

Giảng viên

Course Staff Image #1

GS.TS. Nguyễn Văn Tuấn

Giáo sư Nguyễn Văn Tuấn là một nhà nghiên cứu loãng xương nổi tiếng trên thế giới với hơn 250 công trình nghiên cứu khoa học được đăng tải trên các tạp chí y khoa và khoa học quốc tế. Ông hiện đang là Principal Fellow đứng đầu một lab chuyên nghiên cứu về di truyền và dịch tễ học loãng xương thuộc Viện Nghiên cứu Y khoa Garvan (Úc), là giáo sư y khoa của Đại học New South Wales, là giáo sư xuất sắc của Đại học Công nghệ Sydney, và là giáo sư thỉnh giảng của Đại học Khon Kaen (Thái Lan) và Đại học Tôn Đức Thắng. Ông bảo vệ thành công hai bằng tiến sĩ tại Đại Học Sydney (chuyên ngành thống kê dịch tễ học) và Đại Học New South Wales (chuyên ngành y khoa). Ông có kinh nghiệm làm nghiên cứu tại nhiều nước như Thuỵ Sỹ, Anh, Mĩ, Na Uy, Thái Lan, và hợp tác với hơn 30 viện, bệnh viện và nhiều trường đại học trên thế giới. Giáo sư Tuấn rất nổi tiếng trong nước với nhiều bài phỏng vấn, sách báo và nhiều công trình nghiên cứu khoa học có giá trị cho nghiên cứu, đào tạo tại Việt Nam. Ông là một trong 15 nhà khoa học được trao giải thưởng “Vinh danh Nước Việt” vào năm 2005

Nguồn: http://www.vjsonline.org

Câu hỏi thường gặp

Khoá học này có miễn phí không?

Có. Cùng với nhiều khoá học khác, đây là đóng góp của đội ngũ Kiến Học (bao gồm cả các cố vấn, các tình nguyện viên, và đội ngũ kỹ thuật) cho cộng đồng. Hãy ghé thăm Website Kiến Học để tìm hiểu về những lợi ích mà Kiến Học mang lại. Đồng thời, hãy like Facebook Kiến Học để nhận thông tin về các khoá học mới và các tin tức khoa học thú vị.

Kiến Học có cung cấp trợ giảng cá nhân không?

Không, chúng tôi khuyến khích bạn thảo luận, đặt câu hỏi với cố vấn của khoá học và các bạn học khác, thông qua Diễn đàn thảo luận Kiến Học

  1. Course Number

    DS110
  2. Classes Start

    May 12, 2017
  3. Estimated Effort

    04
Enroll