Posted on Leave a comment

[Power BI Basic] Nhóm các hàng (Group rows) với Power Query Editor

Power BI không chỉ mạnh mẽ với tính năng Visualize dữ liệu cùng các biểu đồ bắt mắt, việc xử lý, biến đổi dữ liệu với Power BI cũng rất tiện lợi.

Với Power Query Editor của Power BI, bạn có thể chỉnh sử dữ liệu cho phù hợp ngay khi thêm vào Power BI. Chỉnh sửa với Power Query Editor sẽ giúp dữ liệu dù từ nhiều nguồn đồng bộ hơn, và tiết kiệm thời gian hơn đối với các file có dung lượng lớn.

Cụ thể, bạn có thể nhóm các giá trị từ nhiều hàng (Group by). Tính năng này có thể ứng dụng để tính tổng số sản phẩm, tổng doanh thu hay đếm tổng số học sinh.

Trong VD dưới đây, bạn sẽ nhóm các hàng trong một bộ dataset về tuyển sinh từ một file Excel, tính số cơ sở giáo dục (Agency) ở mỗi bang (State).

Chọn cột State Abbr (Mã vùng của các bang), sau đó chọn nút Group By ở tab Transform hoặc tab Home.

Screenshot shows how to group rows in a table.

Khi hộp thoại Group By xuất hiện, bạn có thể điều chỉnh cách nhóm các hàng bằng những cách sau:

  1. Dropdown list để chọn các cột bạn muốn nhóm. Thường thì Power Query Editor sẽ chọn sẵn 1 cột, tuy nhiên bạn có thể thay đổi.
  2. Tên cột mới tạo ra
  3. Cách nhóm: có thể là tính tổng, tìm Median hoặc đếm. Giá trị mặc định sẽ là đếm số hàng.
  4. Thêm các cách nhóm khác.
Screenshot shows the Group By dialog box with Add grouping and Add aggregation called out.

Sau đó bạn chọn OK và xem kết quả. Bạn có thể thấy một cột mới với số cơ sở giáo dục ở mỗi bang.
Với Power Query Editor, nếu như bạn thấy cách nhóm này không phù hợp, chỉ cần vào phần Query Setting và xóa thao tác Group by vừa thực hiện.

Count column, Group By operation, Power Query Editor, Power BI Desktop

Tham khảo video về Transform dữ liệu với Power BI tại.

Tìm hiểu về Tư duy phân tích – Xây dựng báo cáo sử dụng Power BI với khóa học Power BI and Analytical Thinking khai giảng 19/10.

Posted on Leave a comment

Hãy chọn Chart đúng (Phần 2)

Tiếp nối bài viết tuần vừa rồi, tuần này mình sẽ chia sẻ về 1 ví dụ thực hành để có được 1 line chart best practice. Chúng ta đều hiểu rằng sự lộn xộn trong thể hiện thông tin có thể khiến cho thông điệp hay insight quan trọng của biểu đồ không được truyền tải đầy đủ. Do đó điều quan trọng là làm thế nào để nhận ra và loại bỏ các yếu tố gây nhiễu ra khỏi biểu đồ của chúng ta, hãy xem một ví dụ thực tế và kiểm tra xem quá trình xác định và loại bỏ lộn xộn cải thiện thị giác của chúng ta như thế nào nhé.

Kịch bản

No photo description available.
Đây chính là biểu đồ đầu tiên khi chúng ta chưa tối ưu, hãy cùng theo dõi quá trình lột xác của em nó nhé!

Hãy tưởng tượng rằng bạn quản lý một nhóm công nghệ thông tin (CNTT). Nhóm của bạn nhận được ticket (yêu cầu) về các vấn đề kỹ thuật từ nhân viên trong công ty. Trong năm vừa qua, bạn đã có một vài người rời đi và bạn quyết định không bổ sung nhân sự thay thế họ vào thời điểm này. Bạn đã nghe những phàn nàn các nhân viên còn lại về việc phải bổ sung nhân lực để giải quyết sự quá tải công việc do các nhân sự đã rời đi để lại. Bạn cũng vừa được hỏi về nhu cầu tuyển dụng của bạn trong năm tới và đang tự hỏi liệu bạn có nên thuê thêm một vài người nữa không. Đầu tiên, bạn muốn hiểu những gì ảnh hưởng đến sự ra đi của cá nhân trong năm qua đã ảnh hưởng đến năng suất chung của nhóm của bạn. Bạn vẽ xu hướng hàng tháng của những tickets gửi đến team và những tickets đã được xử lý trong năm dương lịch vừa qua. Bạn thấy rằng có một số bằng chứng cho thấy năng suất của nhóm bạn đang bị suy giảm do thiếu hụt nhân viên và giờ muốn nhanh chóng có 1 biểu đồ tổng hợp tình hình để làm cơ sở cho yêu cầu tuyển dụng của bạn.

Bước 1. Xóa đường viền biểu đồ

Đường viền biểu đồ thường không cần thiết theo những nguyên tắc nhận thức thị giác của Gestalt (Gestalt Principles of Visual Perception). Thay vào đó, hãy suy nghĩ về việc sử dụng khoảng trắng để phân biệt hình ảnh với các yếu tố khác trên trang khi cần.

No photo description available.

Bước 2. Xóa đường lưới

Nếu bạn nghĩ rằng người xem báo cáo của bạn có thể dùng đường lưới để xác định giá trị tương ứng trên trục hiệu quả hơn, bạn có thể sử dụng nó. Nhưng hãy làm cho chúng mỏng đi và sử dụng một màu sáng như màu xám. Đừng để những đường lưới nổi bật làm ảnh hưởng đến dữ liệu của bạn. Khi bạn có thể, hãy loại bỏ chúng hoàn toàn: điều này cho phép độ tương phản cao hơn và dữ liệu của bạn sẽ nổi bật hơn.

No photo description available.

Bước 3. Loại bỏ những ký hiệu đánh dấu dữ liệu

Hãy nhớ rằng, mỗi yếu tố thêm vào biểu đồ sẽ gia tăng lượng thông tin phải xử lý từ người xem biểu đồ của bạn. Việc sử dụng ký hiệu đánh dấu dữ liệu nên được sử dụng cho mục đích nào đó (chẳng hạn như muốn nhấn mạnh) thay vì mặc định chúng sẽ hiển thị trên đồ thị của bạn.

No photo description available.

Bước 4. Làm sạch nhãn trục

Có một sự thật rằng số 0 sau dấu phẩy trên các trục bản thân chúng không mang lại giá trị thông tin, và làm cho các con số phức tạp hơn so với thực tế! Loại bỏ chúng, giảm gánh nặng không cần thiết của chúng đối với lượng thông tin cần tiếp nhận của người đọc báo cáo. Ngoài ra, chúng ta cũng cần căn chỉnh các giá trị tháng trong năm nằm song song với chiều ngang trên trục x (cần tránh việc các giá trị hiển thị theo đường chéo)

No photo description available.

Bước 5. Dán nhãn dữ liệu trực tiếp

Bây giờ chúng tôi đã loại bỏ phần lớn những yếu tố không cần thiết làm gia tăng lượng thông tin cần tiếp nhận trên biểu đồ, chúng ta sẽ phân loại các đường có trong biểu đồ để dữ liệu rõ ràng hơn nữa. Hãy nhớ rằng, chúng ta chỉ đưa ra những thứ thực sự truyền tài thông tin hữu ích và cần thiết cho người đọc báo cáo và hoàn toàn có thể thực hiện công việc đó theo ý đồ chúng ta. Trong trường hợp này, chúng ta có thể sử dụng nguyên tắc gần của Gestalt và đặt nhãn dữ liệu ngay bên cạnh dữ liệu mà chúng mô tả.

Image may contain: text

Bước 6. Tận dụng màu sắc nhất quán

Ngoài nguyên tắc gần gũi của Gestalt trong bước trước, chúng ta cũng nghĩ về việc tận dụng nguyên tắc tương tự Gestalt và làm cho các nhãn dữ liệu có màu giống như dữ liệu mà chúng mô tả. Đây là một gợi ý trực quan khác cho khán giả của chúng tôi rằng, hai phần thông tin này có liên quan với nhau.

No photo description available.

Đây vẫn chưa phải phiên bản tốt nhất có thể. Tuy nhiên, việc xác định và loại bỏ sự lộn xộn đã giúp chúng ta đi một bước dài về mặt giảm tải nhận thức và cải thiện khả năng tiếp cận thông tin của người đọc. Hãy nhìn vào trước và ‐ sau khi hiển thị trong dưới đây.

No photo description available.

Thậm chí có thể tốt hơn nữa 

Image may contain: text

Tóm lại, bất cứ khi nào bạn đưa thông tin ra trước người đọc báo cáo của mình, bạn sẽ tạo ra tải nhận thức và yêu cầu họ sử dụng sức mạnh não bộ của họ để tiếp nhận thông tin đó. Sự lộn xộn thị giác tạo ra sự quá tải nhận thức qua đó cản trở việc truyền thông điệp của chúng ta. Những nguyên tắc Gestalt về nhận thức thị giác có thể giúp bạn hiểu cách thị giác của bạn tiếp nhận thông tin và cho phép bạn xác định và loại bỏ các yếu tố hình ảnh không cần thiết. Tận dụng sự liên kết của các yếu tố và duy trì khoảng trắng để giúp việc diễn giải hình ảnh của bạn trở thành trải nghiệm thoải mái hơn cho khán giả của bạn. Sử dụng tương phản một cách chiến lược. Sự lộn xộn là kẻ thù của bạn: hãy loại nó ra khỏi các biểu đồ của bạn!

Phần 1 của bài viết: https://home.datapot.vn/2020/04/15/hay-chon-chart-dung-phan-1/

Để được trao đổi, hỏi đáp về chuyên môn và cơ hội nghề nghiệp ngành dữ liệu, hãy tham gia Group Data Analytics and Business Intelligence Vietnam.

Theo dõi Fanpage Facebook của Datapot để không bỏ lỡ các bài viết tiếp theo.

Nhấn Going để không bỏ lỡ Event Livestream 5: Ứng dụng Slicers và Filters trong Power BI.

Posted on Leave a comment

Never trust summary statistics alone – always visualize your data

“Never trust summary statistics alone – always visualize your data” Đó là mục tiêu của Alberto Cairo khi tạo ra Datasaurus  dataset. Qua ví dụ này chúng ta thấy được mức độ quan trọng của việc Visualize dữ liệu để thấy được nhiều góc độ của dữ liệu đó. 12 data set khác nhau, thể hiện phân bố hoàn toàn khác nhau và có chung Mean, Standard Deviation, Correlation. Nếu bỏ qua bước Visualize, rất có thể analyst sẽ bỏ lỡ nhiều khía cạnh quan trọng của dữ liệu.

Tất cả các biểu đồ này thể hiện dữ liệu có chung mean, standard deviation, and Pearson’s correlation đến 2 chữ số sau dấu phẩy
Tất cả các biểu đồ này thể hiện dữ liệu có chung mean, standard deviation, and Pearson’s correlation đến 2 chữ số sau dấu phẩy

Cẩn thận với Boxplot

Boxplot thường được dùng làm công cụ thể hiện phân bổ của dữ liệu mẫu theo các phân vị. Tuy nhiên, một số trường hợp Boxplot không thể hiện được đặc trưng riêng của từng Dataset.

3 dataset có phân bổ rất khác biệt nhưng các điểm phân vị giống nhau nên BoxPlot thể hiện giống hệt nhau.
Một giải pháp thay thế là chúng ta có thể sử dụng Violin-Plot để thể hiện phân bổ của dữ liệu

Các bạn có thể tham khảo bài viết chi tiết, Source Code, Dataset tại đây.