Posted on Leave a comment

Never trust summary statistics alone – always visualize your data

“Never trust summary statistics alone – always visualize your data” Đó là mục tiêu của Alberto Cairo khi tạo ra Datasaurus  dataset. Qua ví dụ này chúng ta thấy được mức độ quan trọng của việc Visualize dữ liệu để thấy được nhiều góc độ của dữ liệu đó. 12 data set khác nhau, thể hiện phân bố hoàn toàn khác nhau và có chung Mean, Standard Deviation, Correlation. Nếu bỏ qua bước Visualize, rất có thể analyst sẽ bỏ lỡ nhiều khía cạnh quan trọng của dữ liệu.

Tất cả các biểu đồ này thể hiện dữ liệu có chung mean, standard deviation, and Pearson’s correlation đến 2 chữ số sau dấu phẩy
Tất cả các biểu đồ này thể hiện dữ liệu có chung mean, standard deviation, and Pearson’s correlation đến 2 chữ số sau dấu phẩy

Cẩn thận với Boxplot

Boxplot thường được dùng làm công cụ thể hiện phân bổ của dữ liệu mẫu theo các phân vị. Tuy nhiên, một số trường hợp Boxplot không thể hiện được đặc trưng riêng của từng Dataset.

3 dataset có phân bổ rất khác biệt nhưng các điểm phân vị giống nhau nên BoxPlot thể hiện giống hệt nhau.
Một giải pháp thay thế là chúng ta có thể sử dụng Violin-Plot để thể hiện phân bổ của dữ liệu

Các bạn có thể tham khảo bài viết chi tiết, Source Code, Dataset tại đây.

Leave a Reply

Your email address will not be published. Required fields are marked *