Posted on Leave a comment

Tìm hiểu những gì để sử dụng Power BI như một Data Analyst?

Power BI không chỉ có những mẫu báo cáo bắt mắt. Để khai thác hết sức mạnh của tool BI này cũng như sử dụng Power BI một cách bài bản như một Data Analyst, hãy tìm hiểu những nội dung liên quan đến Data Model sau.

Star schema

Star Schema là một cách tiếp cận việc mô hình hóa dữ liệu được áp dụng rộng rãi cho các cơ sở dữ liệu quan hệ. Star Schema yêu cầu người dùng phân loại các bảng dữ liệu thành dimension hoặc fact.

Đây là một nội dung cốt lõi trong Data Modelling mà nếu các bạn không chú ý hoặc triển khai tốt thì sẽ gây ra nhiều rắc rối trong quá trình làm việc sau này.

Nếu bạn chưa bao giờ tìm hiểu về Star schema, tài liệu tham khảo dưới đây từ Power BI sẽ giúp bạn hiểu rõ về khái niệm cơ bản & vai trò của Star schema khi sử dụng Power BI.

https://docs.microsoft.com/vi-vn/power-bi/guidance/star-schema

Nếu bạn muốn tìm hiểu sâu hơn về Star Schema, tham khảo cuốn Star Schema A Complete Reference. https://amzn.to/35imkha

Data Model Size 

Sau khi đã bắt đầu với Star Schema, thì lượng dữ liệu của chúng ta ngày càng tăng lên, đến một mức nhất định, việc này sẽ ảnh hưởng đến quá trình vận hành. Hầu hết chúng ta đều muốn lưu càng nhiều dữ liệu càng tốt, với tâm lý biết đâu sẽ có lúc dùng đến. Tuy nhiên, chúng ta cần thành thật trả lời, những dữ liệu nào là thật sự cần thiết và dữ liệu nào không?

Dưới đây là một tài liệu về các kỹ thuật để giảm lượng dữ liệu nhập vào, từ đó giúp cho Mô hình dữ liệu của bạn gọn gàng và hiệu quả hơn.

https://docs.microsoft.com/vi-vn/power-bi/guidance/import-modeling-data-reduction

Khi thực hiện 1 dự án và sử dụng Tabular Editor, chúng tôi phát hiện ra có đến hơn 2000 cột dữ liệu không sử dụng đến trong Data Model. Hãy thử vào https://tabulareditor.com/ và tìm hiểu chức năng Best Practice Analyzer.

Direct Query

Mọi người thường sử dụng tính năng này vì sự tiện dụng. Tuy nhiên, Direct Query cũng gây ra những trục trặc trong quá trình sử dụng.

Tham khảo tài liệu hướng dẫn về Direct Query Model https://docs.microsoft.com/vi-vn/power-bi/guidance/directquery-model-guidance

Hãy đảm bảo mọi thứ gọn gàng và chỉ import những dữ liệu bạn thật sự cần. Nếu bạn chọn 1 bảng dữ liệu 1 triệu dòng, thì việc gặp lỗi phát sinh hay vận hành chậm không có gì là lạ.

DAX

Mội nội cơ bản bạn có thể tham khảo – Hướng dẫn sử dụng biến với DAX https://docs.microsoft.com/vi-vn/power-bi/guidance/dax-variables

(Hãy đọc thêm những nội dung hướng dẫn khác liên quan đến DAX từ Power BI vì chúng sẽ hữu ích trong công việc của bạn).

Bạn cũng có thể tham khảo sách Definitive Guide to DAX: https://amzn.to/3kgMyFf

Nguồn tham khảo: Guy In a Cube

Với các bạn mới bắt đầu tìm hiểu Power BI & mong muốn ứng dụng Power BI trong công việc, hãy tham khảo khóa học Power BI & Analytical Thinking từ Datapot.

Được thiết kế và giảng dạy bởi các chuyên gia giàu kinh nghiệm làm việc và đào tạo trong ngành dữ liệu, được triển khai tại các doanh nghiệp như Unilever, SHB, MB Life Ageas,.., khóa học sẽ mang đến cho bạn những kiến thức và kỹ năng thực tiễn nhất.

Posted on Leave a comment

Ví dụ về Tư duy phân tích & ứng dụng dữ liệu để trả lời câu hỏi

Đây là ví dụ tôi thường dùng để giúp mọi người bắt đầu với dữ liệu (với 1 cây bút, giấy và máy tính).

Ví dụ này sẽ không biến bạn trở thành chuyên gia về dữ liệu, tuy nhiên sẽ giúp bạn cảm thấy quen thuộc hơn với dữ liệu cũng thấy được những cơ hội từ việc phân tích dữ liệu.

Chúng ta sẽ bắt đầu với một hiện tượng – trễ giờ họp.

Xác định câu hỏi: Có phải các cuộc họp luôn diễn ra muộn hơn so với thời gian dự kiến. Điều này có đúng không?

Tiếp theo, hãy nghĩ đến các dữ liệu có thể giúp bạn trả lời câu hỏi này cũng như một kế hoạch để tìm ra chúng. Viết ra các định nghĩa và quy trình để thu thập dữ liệu. VD, định nghĩa về thời điểm cuộc họp bắt đầu. Đó là lúc có người nói “Chúng ta bắt đầu họp nào!” ? Và bạn có thể để ý, khi có thêm người mới (đặc biệt là lãnh đạo), cuộc họp gần như sẽ bắt đầu lại từ đầu. Vậy bạn nên chọn mốc thời gian nào?

Tiếp theo bạn có thể bắt đầu việc trình bày. Việc trình bày tốt giúp bạn hiểu rõ dữ liệu cũng như trao đổi, truyền đạt với mọi người dễ dàng hơn. Có nhiều công cụ nhưng trong ví dụ này tôi sẽ vẽ tay. Tôi có một biểu đồ như hình dưới với trục x là thời gian trong ngày (các ngày trong tuần) và trục y là số phút muộn họp. 

Chúng ta hãy trở lại với câu hỏi ban đầu và đưa ra một số nhận xét. Theo biểu đồ, trong vòng 2 tuần, 10% cuộc họp diễn ra đúng giờ, và số phút muộn trung bình là 12 phút. 

Bạn không nên dừng lại ở đây. Hãy tiếp tục đặt câu hỏi: Thì sao? Nếu như 2 tuần này là điển hình, thì tôi lãng phí 1 giờ mỗi tuần, điều này tiêu tốn của công ty 1 số tiền x mỗi năm.

Sự phân tích sẽ kết thúc nếu bạn không đặt thêm các câu hỏi. Nếu như 80% các cuộc họp diễn ra trong khoảng vài phút so với giờ hẹn ban đầu thì chúng ta có thể trả lời câu hỏi ban đầu rằng các cuộc họp diễn ra đúng giờ và dừng việc phân tích.

Nhưng trong trường hợp này, ta có thể phân tích thêm.

Cùng tìm hiểu về phương sai (variation). Theo như biểu đồ thì thời gian muộn từ 8 – 20 phút là điển hình. 1 số cuộc họp diễn ra đúng giờ, 1 số khác lại muộn đến 30 phút. Sẽ là lý tưởng nếu bạn có thể kết luận rằng nếu đi muộn 10 phút thì sẽ đúng lúc cuộc họp bắt đầu, tuy nhiên phương sai ở đây là quá lớn để kết luận như vậy.

Từ dữ liệu chúng ta còn có thể biết thêm gì nữa? Trong 6 cuộc họp diễn ra đúng giờ, nếu tìm hiểu kỹ hơn, có thể thấy 6 cuộc họp này đều do Phó giám đốc về tài chính phụ trách. Từ đây bạn có thể làm gì tiếp?

Ở mức độ cá nhân, để tiết kiệm thời gian, chúng ta có thể học tập phó giám đốc để tìm ra những cách giúp cuộc họp diễn ra đúng giờ.

Ở mức độ công ty, chúng ta chưa rõ kết quả này đã là điển hình hay chưa, liệu các lãnh đạo khác có giúp việc họp diễn ra đúng giờ như Phó giám đốc về tài chính hay không. Từ đó có thể đặt ra một số câu hỏi như: Kết quả có đồng nhất giữa người tổ chức họp hay không, có ngày cụ thể nào trong tuần ảnh hưởng đến việc họp muộn hay không. Hay xa hơn là nên họp qua video call hay họp trực tiếp? Hoặc có mỗi quan hệ giữa cấp bậc của người tổ chức họp và số phút muộn hay không?

Với mỗi hoặc 1 vài câu hỏi như thế này, bạn quay lại bước đầu, thực hiện lại các bước, từ đó tìm ra kết luận. Với dữ liệu, bạn có thể hiểu rõ hơn về hiện tượng trễ giờ họp, từ đó đưa ra một số hướng giải quyết.

Việc sử dụng Tư duy phân tích và phân tích dữ liệu không hề xa lạ, mà nếu được thực hiện hiệu quả, có thể giúp cải thiện hoạt động của tổ chức.

Nguồn: Thomas C. Redman – Havard Business Review Press

Posted on Leave a comment

Từ điển biểu diễn dữ liệu

Có rất nhiều cách biểu diễn dữ liệu, chúng ta nên chọn cách nào? Một gợi ý đó chính là dựa trên mối quan hệ của dữ liệu, chúng ta có thể lựa chọn biểu đồ phù hợp. Hãy cùng tìm hiểu 1 số mối quan hệ phổ biến dưới đây nhé.

Devitation (Độ lệch)

Nhấn mạnh sự biến đổi (tăng/giảm) từ một điểm tham chiếu cố định. Điểm tham chiếu thường sẽ là mức 0, trong một số trường hợp có thể là KPI hoặc giá trị trung bình. Cũng có thể thể hiện thái độ (tích cực, tiêu cực, trung lực) trong một số khảo sát.

Correlation (Tương quan)

Thể hiện mối quan hệ giữa 2 hoặc nhiều biến. Tuy nhiên, nếu không note rõ, người đọc thường nhầm lẫn thành mối quan hệ nhân quả (sự thay đổi của biến này tạo ra sự biến đổi của biến khác).

Ranking (Xếp hạng)

Được sử dụng khi vị trí/thứ hạng của một đối tượng trong một danh sách có trật tự quan trọng hơn giá trị tuyệt đối. Có thể highlight các thứ hạng quan trọng.

Distribution (Phân phối)

Thể hiện tần suất xuất hiện của các giá trị trong một dataset. Hình dạng của phân phối cũng giúp ta thấy được sự không đồng nhất của dữ liệu.

Change over time (Sự thay đổi theo thời gian)

Nhấn mạnh vào xu hướng. Đơn vị thời gian có thể là giờ trong ngày cho đến thập kỷ hay thế kỷ, chính vì vậy chọn khoảng thời gian và đơn vị thời gian phù hợp sẽ giúp người xem dễ dàng theo dõi.

Part-to-whole (Thành phần – Tổng thể)

Thể hiện 1 đối tượng có thể chia thành (bao gồm) những phần nào và tỉ lệ giữa các phần. Nếu chỉ quan tâm đến so sánh giá trị, có thể sử dụng các biểu đồ thể hiện độ lớn.

Magnitude (Độ lớn)

So sánh các giá trị, có thể là giá trị tuyệt đối (giá trị chính xác) hoặc tương đối (so sánh xem giá trị nào lớn hơn). Thường sẽ so sánh các giá trị đếm được (doanh thu, số người,…) hơn là giá trị phần trăm.

Bài viết được dịch từ nguồn Tài liệu tham khảo trong khóa học Power BI & Analytical Thinking.

Khóa học cung cấp các nội dung về ứng dụng tư duy phân tích trong lĩnh vực Data Analytics:

▪️ Tư duy phân tích và suy luận logic trong việc giải quyết các vấn đề, các bài toán của doanh nghiệp bằng dữ liệu.

▪️ Các kỹ năng về đặt câu hỏi, tìm kiếm nguyên nhân gốc rễ, phân tách các vấn đề khi gặp một yêu cầu.

▪️ Design thinking: các nguyên tắc cơ bản khi thiết kế dashboard chuyên nghiệp, lựa chọn biểu đồ, màu sắc và bố cục phù hợp với mục tiêu.

▪️ Ứng dụng phân tích với Power BI của Microsoft – công cụ BI hàng đầu được nhiều doanh nghiệp đang sử dụng (Unilever, Techcombank,…)

Posted on Leave a comment

Data Visualization: 5 lưu ý để trực quan hóa dữ liệu hiệu quả

1. Chọn đúng loại biểu đồ

Điều này có vẻ hiển nhiên, tuy nhiên chúng ta thường chọn biểu đồ theo thói quen hoặc cảm tính.

Chúng ta cần nhớ rằng “form follows function” (chức năng đi trước, trình bày đi sau) – mục đích của việc trực quan hóa luôn cần được cân nhắc đầu tiên.

Bạn có thể tự hỏi mục đích của bạn là so sánh các giá trị, thể hiện xu hướng, tìm hiểu về sự phân phối hay mối quan hệ giữa các biến? Từ đó bạn có thể chọn 1 hoặc 1 số biểu đồ phù hợp để thể hiện mục đích này.

Với ví dụ dưới đây ta có dataset về tỉ lệ lỗi của các loại sản phẩm. Chúng ta đang cần tìm ra loại sản phẩm có tỉ lệ lỗi cao (parts per million). Biểu đồ cột như hình bên phải là cách đơn giản và hiệu quả để biểu diễn điều này. Bên cạnh đó, tree maps và packed bubble charts như hình bên trái rối mắt và khiến người đọc gặp khó khăn trong việc so sánh.

Image for post
Chọn biểu đồ dựa trên mục đích biểu diễn & chức năng

2. Không phải tất cả các giá trị (data points) đều quan trọng như nhau

Bạn không nên ném toàn bộ dataset vào một biểu đồ, hãy phân tích trước để biểu diễn/ highlight những thông tin quan trọng sao cho người xem dễ nắm bắt.

Image for post

Biểu đồ này thể hiện chuỗi giá trị theo thời gian. với đường A A’, ta thấy được 1 thời điểm có sự thay đổi về chu kỳ và cường độ, liên quan đến sự sụt giảm mạnh vài chu kỳ sau đó. Bạn thấy biểu đồ nào giúp ta phát hiện điều này tốt hơn?

Biểu đồ phía trên chỉ đơn thuần trực quan hóa toàn bộ dataset, trong khi biểu đồ dưới giúp người xem dễ dàng phát hiện các điểm đặc biệt hơn.

Một ví dụ khác là khi muốn biểu diễn tổng doanh thu của năm theo ID dự án (với 41 dự án khác nhau). Biểu đồ bên trái biểu diễn tất cả 41 dự án nên khá lộn xộn, trong khi biểu đồ bên phải biểu diễn 5 dự án có doanh thu lớn nhất và gộp các dự án còn lại vào nhóm “others”, một cách gọn gàng và hợp lý hơn.

Tuy nhiên cách lọc này có thể khiến tổng không bằng 100% và gây hiểu nhầm. Nên cần đảm bảo khi nhóm các giá trị còn lại là tổng luôn bằng 100% hoặc giải thích rõ tại sao 1 số giá trị không được tính đến.

Image for post
Loại bỏ các giá trị gây nhiễu

3. Biểu đồ nói thật hay nói dối?

Việc trực quan hóa nên giúp biểu diễn thực tế về số liệu, thay vì làm sai lệch hoặc gây nhầm lẫn cho người xem. Việc trình bày biểu đồ rất quan trọng để tạo nên một khung tham chiếu cho người xem.

Trong ví dụ dưới đây, sản lượng của một quy trình tăng từ 56% lên 67% trong vòng 6 tháng. Biểu đồ phía bên trái đang cố tình phóng đại sự tăng trưởng này bằng cách để gốc của trục y ở giá trị 50%. Biểu đồ bên phải biểu diễn chính xác hơn khi trục y bắt đầu ở giá trị 0 và có kèm theo đường mục tiêu để so sánh.

Image for post
Tạo khung tham chiếu, không gây nhầm lẫn cho người xem

4. Sử dụng màu sắc hợp lý

Việc sử dụng màu sắc nên giúp thêm thông tin hoặc highlight những điểm quan trọng trong biểu đồ. Trong các trường hợp khác, màu sắc thường thừa thãi và gây rối mắt.

Image for post

5. Đơn giản và hiệu quả

Các công cụ trực quan hóa hiện nay giúp chúng ta tạo ra những biểu đồ đẹp mắt và phức tạp với chỉ vài cái click chuột. Tuy nhiên, quá nhiều yếu tố về thẩm mỹ có thể làm người xem sao nhãng khỏi thông điệp chính của biểu đồ. Less is more.

Image for post

Bên cạnh việc sử dụng công cụ, thì tư duy phân tích và thiết kế cũng rất quan trọng trong việc xây dựng báo cáo.

Nguồn: http://towardsdatascience.com/

Khóa học Power BI & Analytical Thinking mang đến các nội dung về ứng dụng Tư duy phân tích, thiết kế báo cáo cũng như ứng dụng Power BI. Khóa học đã được Datapot triển khai tại các doanh nghiệp như Unilever, SHB, MB Ageas Life.