Posted on Leave a comment

Data Visualization: 5 lưu ý để trực quan hóa dữ liệu hiệu quả

1. Chọn đúng loại biểu đồ

Điều này có vẻ hiển nhiên, tuy nhiên chúng ta thường chọn biểu đồ theo thói quen hoặc cảm tính.

Chúng ta cần nhớ rằng “form follows function” (chức năng đi trước, trình bày đi sau) – mục đích của việc trực quan hóa luôn cần được cân nhắc đầu tiên.

Bạn có thể tự hỏi mục đích của bạn là so sánh các giá trị, thể hiện xu hướng, tìm hiểu về sự phân phối hay mối quan hệ giữa các biến? Từ đó bạn có thể chọn 1 hoặc 1 số biểu đồ phù hợp để thể hiện mục đích này.

Với ví dụ dưới đây ta có dataset về tỉ lệ lỗi của các loại sản phẩm. Chúng ta đang cần tìm ra loại sản phẩm có tỉ lệ lỗi cao (parts per million). Biểu đồ cột như hình bên phải là cách đơn giản và hiệu quả để biểu diễn điều này. Bên cạnh đó, tree maps và packed bubble charts như hình bên trái rối mắt và khiến người đọc gặp khó khăn trong việc so sánh.

Image for post
Chọn biểu đồ dựa trên mục đích biểu diễn & chức năng

2. Không phải tất cả các giá trị (data points) đều quan trọng như nhau

Bạn không nên ném toàn bộ dataset vào một biểu đồ, hãy phân tích trước để biểu diễn/ highlight những thông tin quan trọng sao cho người xem dễ nắm bắt.

Image for post

Biểu đồ này thể hiện chuỗi giá trị theo thời gian. với đường A A’, ta thấy được 1 thời điểm có sự thay đổi về chu kỳ và cường độ, liên quan đến sự sụt giảm mạnh vài chu kỳ sau đó. Bạn thấy biểu đồ nào giúp ta phát hiện điều này tốt hơn?

Biểu đồ phía trên chỉ đơn thuần trực quan hóa toàn bộ dataset, trong khi biểu đồ dưới giúp người xem dễ dàng phát hiện các điểm đặc biệt hơn.

Một ví dụ khác là khi muốn biểu diễn tổng doanh thu của năm theo ID dự án (với 41 dự án khác nhau). Biểu đồ bên trái biểu diễn tất cả 41 dự án nên khá lộn xộn, trong khi biểu đồ bên phải biểu diễn 5 dự án có doanh thu lớn nhất và gộp các dự án còn lại vào nhóm “others”, một cách gọn gàng và hợp lý hơn.

Tuy nhiên cách lọc này có thể khiến tổng không bằng 100% và gây hiểu nhầm. Nên cần đảm bảo khi nhóm các giá trị còn lại là tổng luôn bằng 100% hoặc giải thích rõ tại sao 1 số giá trị không được tính đến.

Image for post
Loại bỏ các giá trị gây nhiễu

3. Biểu đồ nói thật hay nói dối?

Việc trực quan hóa nên giúp biểu diễn thực tế về số liệu, thay vì làm sai lệch hoặc gây nhầm lẫn cho người xem. Việc trình bày biểu đồ rất quan trọng để tạo nên một khung tham chiếu cho người xem.

Trong ví dụ dưới đây, sản lượng của một quy trình tăng từ 56% lên 67% trong vòng 6 tháng. Biểu đồ phía bên trái đang cố tình phóng đại sự tăng trưởng này bằng cách để gốc của trục y ở giá trị 50%. Biểu đồ bên phải biểu diễn chính xác hơn khi trục y bắt đầu ở giá trị 0 và có kèm theo đường mục tiêu để so sánh.

Image for post
Tạo khung tham chiếu, không gây nhầm lẫn cho người xem

4. Sử dụng màu sắc hợp lý

Việc sử dụng màu sắc nên giúp thêm thông tin hoặc highlight những điểm quan trọng trong biểu đồ. Trong các trường hợp khác, màu sắc thường thừa thãi và gây rối mắt.

Image for post

5. Đơn giản và hiệu quả

Các công cụ trực quan hóa hiện nay giúp chúng ta tạo ra những biểu đồ đẹp mắt và phức tạp với chỉ vài cái click chuột. Tuy nhiên, quá nhiều yếu tố về thẩm mỹ có thể làm người xem sao nhãng khỏi thông điệp chính của biểu đồ. Less is more.

Image for post

Bên cạnh việc sử dụng công cụ, thì tư duy phân tích và thiết kế cũng rất quan trọng trong việc xây dựng báo cáo.

Nguồn: http://towardsdatascience.com/

Khóa học Power BI & Analytical Thinking mang đến các nội dung về ứng dụng Tư duy phân tích, thiết kế báo cáo cũng như ứng dụng Power BI. Khóa học đã được Datapot triển khai tại các doanh nghiệp như Unilever, SHB, MB Ageas Life.

Leave a Reply

Your email address will not be published. Required fields are marked *