Posted on Leave a comment

Hướng dẫn xây dựng Cohort Analysis trên Power BI

Cohort Analysis

Cohort Analysis là gì

Cohort Analysis (Phân tích tổ hợp) là một kỹ thuật phân tích tập trung vào việc phân tích hành vi của một nhóm người dùng / khách hàng có chung một đặc điểm trong một khoảng thời gian nhất định.

Trong phân tích kinh doanh, New Customer được xem là một tiêu chí quan trọng để đánh giá tình hình kinh doanh của doanh nghiệp. Ở một góc nhìn khác, New Customer thể hiện hiệu quả của đội ngũ bán hàng và phần nào đó là hiệu quả trong Marketing. Một chỉ số không kém phần quan trọng là Retention Customer – chỉ số cho thấy khả năng giữ chân khách hàng của một dịch vụ. Retention Rate càng cao càng cho thấy mức độ trung thành của khách hàng đối với dịch vụ của doanh nghiệp. Một chỉ số ở chiều ý nghĩa ngược lại với retention là Churn Rate. Đây là 2 trong số những key metrics rất được quan tâm trong business. Định nghĩa về Retention hay Churn phụ thuộc vào cách mà mỗi business định nghĩa.  

Thông thường, người ta sử dụng Cohort Analysis để thể hiện chỉ số Retention Rate/Churn Rate.  

Trong bài này, Datapot giới thiệu đến người đọc cách xây dựng Cohort Analysis trên Power BI.  

Download file Power BI tại Tại đây

(Tham khảo Các thao tác đơn giản để tạo báo cáo trên Power BI cho người mới bắt đầu tại Các thao tác đơn giản để tạo báo cáo trên Power BI cho người mới bắt đầu – Datapot.vn )

Xây dựng Cohort Analysis trên Power BI

Giả sử chúng ta có một bảng dữ liệu có tên là “SalesTable” bao gồm 3 cột:  

  • Customerkey: Cột chứa key định danh cho mỗi khách hàng mua dịch vụ.  
  • OrderDate: Ngày ngày hàng có đặt hàng dịch vụ  
  • OrderMonth: Tháng mà khách hàng có đặt hàng dịch vụ  

Ngoài ra ta cũng có 1 bảng “Date”, có relationship với bảng “SalesTable”  thông qua cột Date và OrderDate 

Power BI
Bảng SalesTable
Relationship trong Power BI
Mối quan hệ giữa Bảng Date và Bảng SalesTable
  • Tính số lượng khách hàng có order hằng tháng 

No.Customer = DISTINCTCOUNT(‘SalesTable'[Customerkey]) 

Cohort Analysis
Số lượng khách hàng có order hằng tháng
  • Tính số lượng khách hàng mới có order hằng tháng  

Ở trên, chúng ta đang tính toán số lượng khách hàng có phát sinh giao dịch trong tháng. Vậy trong số những khách hàng có phát sinh giao dịch đó, có bao nhiêu là khách hàng mới hoàn toàn, chưa từng mua hàng trước đó.  

Logic tính toán sẽ là, nếu một khách hàng là khách hàng mới trong tháng xem xét thì ngày đầu tiên có giao dịch của khách hàng đó sẽ là ngày thuộc tháng đang xem xét. 

  • Trong bảng SalesTable, tạo ra 1 calculated column có tên là “FirstOrderMonth” là tháng đầu tiên mà 1 khách hàng có order:  

FirstOrderMonth =  

    CALCULATE( 

       MIN(SalesTable[OrderMonth]),  

       FILTER(SalesTable, SalesTable[Customerkey] = EARLIER(SalesTable[Customerkey]))) 

  • Tạo measure “No.NewCustomer” tính số lượng khách hàng mới  

No.NewCustomer =  

    CALCULATE( 

     DISTINCTCOUNT(SalesTable[Customerkey]),  

     FILTER(SalesTable, SalesTable[FirstOrderMonth] = SalesTable[OrderMonth])) 

Power BI
Số lượng khách hàng và Số lượng khách hàng mới
  • Cohort Analysis thể hiện retention rate  

Với ví dụ của chúng ta, nếu định nghĩa đơn giản, retention rate là tỉ lệ khách hàng cũ có mua hàng trong tháng mới trên tổng số khách hàng cũ.  

Mục tiêu là chúng ta muốn tạo 1 matrix như bên dưới, đây được gọi là 1 cohort. Cohort cho biết số lượng khách hàng mới và số lượng khách hàng có tiếp tục order ở các tháng tiếp theo.  

Trong cohort bên dưới, dòng là tháng bắt đầu có order, cột là các tháng sau đó. Để hiểu cách đọc cohort, ta hiểu ý nghĩa của các con số bên trong. Ví dụ 498 là số lượng khách hàng mới trong tháng 6/2018, sau đó, trong tháng 7/2019, chỉ có 3 khách hàng trong tổng số 498 khách hàng mới của tháng 6 là có order. Trong tháng 7/2019, chúng ta có 1506 khách hàng mới,  xem xét tại tháng 12/2019, chỉ có 89 trên 1506 khách hàng mới là có order.  

Cohort Analysis thể hiện retention rate
Cohort Analysis thể hiện retention rate

Sau khi hình dung được ý nghĩa của cohort, chúng ta tiếp tục phân tích xem để tạo được cohort như trên sẽ cần phải chuẩn bị những gì.  

Thứ nhất, chúng ta cần 1 trường thông tin thể hiện được tháng khách hàng bắt đầu có giao dịch. Đây chính là cột “FirstOrderMonth” mà chúng ta đã tạo ra ở phần trên.  

Thứ hai, chúng ta cần có 1 trường để kéo vào làm column cho cohort. Chúng ta tận dùng cột “Month”  trong bảng “Date”.  

Thứ ba, chúng ta cần viết 1 measure để kéo vào phần value trong cohort.  

Dựa trên dữ liệu đang sử dụng, để tạo được cohort như trên, ta làm theo các bước sau: 

  • Bước 1 : Tạo thêm 1 cột là “FirstOrderMonth” bằng cách format lại cột “FirstOrderMonth” trong bảng “SalesTable” 

FirstOrderMonth_1 = FORMAT(SalesTable[FirstOrderMonth], “yyyy mmm”) 

  • Bước 2: Viết measure để tính toán  

No.NewCustomer by Cohort =  

    CALCULATE( 

     DISTINCTCOUNT(SalesTable[Customerkey]),  

       filter(SalesTable, SalesTable[OrderDate] >= MIN(‘Date'[Date]) && SalesTable[OrderDate] <= MAX(‘Date'[Date]))) 

MIN(‘Date'[Date]) và MAX(‘Date'[Date]) tại mỗi cột sẽ trả về giá trị là ngày đầu tiên và ngày cuối cùng của tháng. Tức là nếu trong cột của matrix là tháng tháng 6 thì hàm min và max sẽ trả về ngày 1/6/2019 và ngày 30/6/2019. Tức là với đoạn code này filter(SalesTable, SalesTable[OrderDate] >= MIN(‘Date'[Date]) && SalesTable[OrderDate] <= MAX(‘Date'[Date])), tại mỗi cột trong matrix, chúng ta chỉ filter dữ liệu của bảng “SalesTable” trong tháng đang xem xét.  

  • Bước 3: Tạo matrix 

Tạo matrix và kéo cột “FirstOrderMonth_1” trong bảng “SalesTable” vào Rows option. Cột “month” trong bảng “Date” vào Columns option. Measure No.NewCustomer by Cohort vào trong phần Values options. Ngoài ra có thể đổi lại tên “FirstOrderMonth_1” thành “First Order Month” để khi hiển thị trong matrix nó rõ ràng hơn. 

Matrix trong Cohort Analysis
Tạo Matrix
  • Bước 4: Conditonal Formating cho matrix 

Format Cohort Analysis
Conditonal Formating cho matrix
  • Bước 5: Sort lại cột “FirstOrderMonth_1” theo cột “FirstOrderMonth” – Hoàn thành Cohort Analysis

Có thể thấy trong matrix kết quả, các dòng đang không theo thứ tự đúng do “FirstOrderMonth_1” là dạng text nên bị sort theo thứ tự a-z.  Trong bảng “SalesTable”, ta sort cột “FirstOrderMonth_1” theo cột “FirstOrderMonth”. Click vào cột cần sort, sau đó chọn tùy chọn Sort by column, click tiếp vào cột mà muốn “FirstOrderMonth_1” sort theo nó.  

Cohort Analysis trong Power BI
Sort lại cột “FirstOrderMonth_1” theo cột “FirstOrderMonth” 

Kết quả, ta được một cohort như ý muốn:  

Kết quả Cohort Analysis
Kết quả Cohort

Lưu ý: chúng ta sẽ cần một slicer Date để giới hạn số lượng cột xuất hiện trong Cohort.  

Trên đây là hướng dẫn làm 1 cohort dựa trên dữ liệu mẫu. Người đọc tham khảo để hiểu cách làm, từ đó có thể phát triển các cohort theo mong muốn.  

Ví dụ Cohort Analysis
Ví dụ Cohort
Phân tích Cohort
Ví dụ Cohort

Tham gia group ôn thi DA-100 tại: https://www.facebook.com/groups/da100vn
Chuỗi Video Hướng dẫn thực hành Lab và sử dụng các tài nguyên của Microsoft: https://www.youtube.com/c/Datapotvn/videos
Update tài nguyên từ Microsoft, DA-100 exam questions và exam topics tại Fanpage của Datapot: https://www.facebook.com/DatapotAnalytics/

Khóa học Ôn thi DA-100
Combo khóa học dành cho các bạn Fresher
Posted on 1 Comment

HƯỚNG DẪN ĐĂNG KÝ THI CHỨNG CHỈ DA-100

DAA

Chứng chỉ DAA (Microsoft Data Analytics Certification) là một chứng chỉ cần thiết đối với các Data Analyst và cũng là tấm vé cho các bạn muốn bước chân vào ngành Khoa học Dữ liệu. Để có được chứng chỉ DAA, các bạn sẽ phải tham gia Bài thi DA-100, một data analysis test/ Power BI exam đến từ Microsoft. Nếu bạn có ý định dự thi DA-100 nhưng chưa biết làm sao để đăng ký  thì hãy theo dõi bài viết của Datapot để có thể làm thủ tục dự thi nhanh nhất và tránh những sự cố không đáng có nhé.

Tham khảo các Chủ đề trong bài thi DA-100 tại: KINH NGHIỆM THI DA-100: CÁC TOPICS TRONG BÀI THI DA-100 – Datapot.vn

data analyst certification microsoft

Những điều cần lưu ý

  • Điều kiện để đăng ký thi

Bạn cần đảm bảo rằng bạn đã có một Tài khoản Microsoft đã điền đầy đủ và chính xác thông tin cá nhân nha.

  • Địa điểm thi

Bạn có thể lựa chọn địa điểm thi tại nhà, cơ quan, địa chỉ lưu trú hoặc Trung tâm được ủy quyền bởi Microsoft. Nhưng lưu ý, nếu bạn lựa chọn thi tại cơ quan, hãy ưu tiên sử dụng máy tính cá nhân, tránh sử dụng máy tính tại văn phòng/máy tính nội bộ vì có thể gặp những hạn chế về cơ chế bảo mật, ảnh hưởng đến việc cài đặt các phần mềm giám sát bài thi sau này.

Cách thức đăng ký thi

  1. Truy cập vào link đăng ký chứng chỉ tại

https://docs.microsoft.com/en-us/learn/certifications/exams/da-100
Page đăng ký thi DA-100
Page đăng ký thi DA-100
  1. Chọn quốc gia:

 – Chọn quốc gia “Việt Nam”. Lưu ý lệ phí thi chứng chỉ sẽ khác nhau phụ thuộc vào từng quốc gia

 – Click “Schedule for USD15” để tiến hành điền thông tin và đặt lịch: Hiện tại Microsoft đang giảm lệ phí thi từ 80 – 15 USD trong thời gian Covid đến 31/12/2021). 

Schedule for USD15
Chọn Schedule for USD15
  1. Chọn “I Agree” để đồng ý với các điều khoản

Đồng ý với các điều khoản
  1. Điền các thông tin cá nhân cần thiết để đăng ký chứng chỉ

 Lưu ý: Nhập thông tin cá nhân chính xác như trên giấy tờ tùy thân, thông tin này sẽ được đối chiếu khi tham dự kỳ thi. Các thông tin hợp lệ phải khớp với giấy tờ tùy thân 

Điền thông tin cá nhân để đăng ký chứng chỉ
Điền thông tin cá nhân để đăng ký chứng chỉ
  • Điền các trường thông tin cần thiết
  • Tích chọn “I have read and agree the Terms of Use and Privacy & Cookies statement
  • Chọn “Save & Continue
  • Kiểm tra lại thông tin và chọn “Accept
thông tin cá nhân phải chính xác
Lưu ý thông tin cá nhân phải chính xác như trên giấy tờ tùy thân
  • Chọn “Schedule Exam” Để đăng ký lịch thi
Đăng ký lịch thi
Đăng ký lịch thi
  1. Đăng ký lịch thi

 – Sau khi Chọn “Schedule Exam” ở bước 4, có thể các bạn sẽ gặp 1 thông báo cần cấp quyền cho các App sau để Verified thông tin, chọn “Yes” để tiếp tục

Cấp quyền cho App để verify thông tin
Cấp quyền cho App để verify thông tin
  • Chọn “Schedule
  • Chọn thông tin để đăng ký lịch thi, bao gồm:
    • 1. Chọn ngôn ngữ bài thi
    • 2. Chọn quốc gia
    • 3. Chọn múi giờ
    • 4. Chọn ngày thi
    • 5. Chọn khung giờ thi
  • Sau khi hoàn thành, chọn “Continue” để tiếp tục
Chọn thông tin để đăng ký lịch thi
Chọn thông tin để đăng ký lịch thi
  • Kiểm tra lại thông tin khung thời gian bài thi, chọn “Continue” để xác nhận
Xác nhận lại khung thời gian thi
Xác nhận lại khung thời gian thi
  1. Thanh toán lệ phí thi

 Sau khi đặt lịch thi ở bước 5, bạn sẽ được chuyển sang giao diện để thanh toán lệ phí thi. Tích chọn và chọn “Pay Now” để tiếp tục

Payment DA-100
Giao diện thanh toán lệ phí thi
  • Điền thông tin tài khoản thanh toán
  • Tích Verification
  • Chọn “Pay Now

Lưu ý: Lịch đăng ký thi của bạn sẽ hết hạn sau 30 ngày nếu không được thanh toán lệ phí thành công

Payment
Hoàn tất thanh toán

Tham gia group ôn thi DA-100 tại: https://www.facebook.com/groups/da100vn

Chuỗi Video Hướng dẫn thực hành Lab và sử dụng các tài nguyên của Microsoft: https://www.youtube.com/c/Datapotvn/videos

Update tài nguyên từ Microsoft, DA-100 exam questions và exam topics tại Fanpage của Datapot: https://www.facebook.com/DatapotAnalytics/

Khóa học Ôn thi DA-100
Combo khóa học dành cho các bạn Fresher

Posted on 1 Comment

KINH NGHIỆM THI DA-100: CÁC TOPICS TRONG BÀI THI DA-100

DAA

Bạn đang làm Data Analyst và muốn nâng cao chuyên môn? Bạn muốn chuyển ngành và muốn bước chân và ngành Khoa học Dữ liệu? Chứng chỉ DAA (microsoft data analytics certification) sẽ là tấm vé cho bạn. Bài thi DA-100 là một data analysis test/ Power BI exam đến từ Microsoft. Nếu bạn muốn thi DA-100 nhưng không biết bắt đầu từ đâu, hãy theo dõi bài viết của Datapot để có cái nhìn chuẩn xác và hướng đi nhanh nhất chinh phục kỳ thi này nhé.

Tham khảo Hướng dẫn đăng ký thi DA-100 tại: HƯỚNG DẪN ĐĂNG KÝ THI CHỨNG CHỈ DA-100 – Datapot.vn

data analyst certification microsoft

Cấu trúc bài thi DA-100

Đề thi DA-100 của Microsoft bao gồm 5 chủ đề chính với tỉ trọng điểm số như sau: 

  • Prepare the data (20-25%) 
  • Model the data (25-30%) 
  • Visualize the data (20-25%) 
  • Analyze the data (10-15%) 
  • Deploy and maintain deliverables (10-15%) 

Các bạn có thể download đề cương kỹ năng tại đây: https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4qlRu 

Sau đây, chúng ta sẽ đi sâu hơn về ý nghĩa và các nội dung cần học trong từng Topic cụ thể  

Topic 1: Prepare the data – Chuẩn bị dữ liệu

Prepare the data là topic chiếm từ 20 – 25% tổng điểm của bài thi. Đây là phần việc cơ bản nhưng không kém quan trọng khi data analyst làm việc với dữ liệu, không chỉ trên Power BI mà còn với các công cụ, ngôn ngữ khác. Prepare the data trong Power BI là quá trình bao gồm các phần việc chính sau: Get data from different data sources — > Profile the data — > Clean, transform, and load the data

Ôn thi DA-100
3 nhiệm vụ của Prepare the data trong Power BI

  • Get data from different data sources 

Có rất nhiều loại dữ liệu khác nhau trong một tổ chức, doanh nghiệp và nó cũng được lưu trữ ở nhiều nguồn khác nhau. Đơn giản có thể là Excel, CSV, tổ chức hơn thì là trong các hệ cơ sở quản trị dữ liệu như MS SQL, MySQL…, hay trên các cloud như Google bigquery, Microsoft Azure. Với phần này, chúng ta cần nắm được cách xác định và kết nối đến nguồn dữ liệu, ngoài ra làm sao để thay đổi setting đối với nguồn dữ liệu.  

Ví dụ: Các bảng có cùng định dạng excel đang lưu trong 1 folder chung. Làm sao để import tất cả đồng thời và nối chúng lại thành 1 bảng duy nhất?  

  • Profile the data 

Dữ liệu luôn có thể tồn tại những vấn đề của chính nó, có thể là thiếu dữ liệu ở 1 số cột dữ liệu nào đó, hoặc liệu có thể tồn tại outlier. Bước Profile the data là bước cần thiết để chúng ta nhìn nhận dữ liệu một cách tổng quan và tìm ra những vấn đề của dữ liệu nếu có, từ đó có hướng xử lý tiếp theo. Ở phần này, chúng ta cần biết được khi nào thì sử dụng.  

Ví dụ: Để xác định được tỉ lệ missing thì cần dùng tùy chọn nào trong Power Query Editor? (Data Quality) Hay để xác định được phân bố dữ liệu thì dùng tùy chọn nào? (Column Distribution)

  • Clean, transform, and load the data 

Dữ liệu sau khi được import vào có thể chưa được sạch, tinh gọn và có thể chưa đáp ứng nhu cầu phân tích, báo cáo về sau. Clean và transform gần như là bước không thể thiếu khi làm việc với dữ liệu trên Power BI. Sau khi thao tác làm sạch, biến đổi theo mong muốn, chúng ta cần load dữ liệu vào data model để phục vụ tiếp các phần sau.

Tại phần việc này, chúng ta cần nắm được các thao tác định dạng dữ liệu, fill dữ liệu, đặt header, xóa dòng xóa cột, split, transpose, merge, append data, các phép join … Bên cạnh đó, một chút kiến thức cơ bản về Power Query M code là cần thiết.  

Ví dụ: Bảng dữ liệu về doanh số bán hàng có tên là “Sales.xlsx” sau khi import, tên cột của bảng đang trở thành dòng thứ nhất của bảng dữ liệu. Bên cạnh đó có cột price đang có định dạng text, với giá trị bên trong có format “$ 100”. Dùng những lệnh nào để có thể đặt lại header cho bảng và tách cột giá thành 2 cột là currency có dạng “$”. Cột còn lại tên là price_1 chính là giá trị số (ví dụ số 100) trong chính cột price ban đầu. (User first row as header, Split) 

Topic 2: Model the data – Lập mô hình dữ liệu 

Kiến thức và kĩ năng về Model the data là quan trọng bậc nhất và tất nhiên cũng là khó nhằn nhất trong Power BI exam. Trọng số cho phần này là 25 – 30% tổng điểm của bài thi DA-100. Model the data được chia thành 4 nhóm nội dung chính.  

Bài thi DA-100
4 nhóm nội dung chính của Model the data

  • Design a data model 

Việc đầu tiên sau khi load dữ liệu chính là thiết kế data model. Data model nói một cách đơn giản, chúng ta xây dựng mối quan hệ giữa các bảng dữ liệu. Với phần này, data analyst cần nắm được 1 số kiến thức về các tính chất của bảng, cột, quick measures, hierarchy, role-playing dimensions, cardinality and cross-filter direction trong 1 relationship.

  • Develop a data model 

Sau khi design một data model cơ bản dựa trên những gì chúng ta có sau khi load dữ liệu. Chúng ta có thể phát triển, mở rộng data model thông qua việc tạo thêm các calculated column, calculated table, hierarchies… Phần việc này thường cần thiết, khi data model sẵn có có thể không đáp ứng được nhu cầu báo cáo. Với phần này, chúng ta cần nắm được kiến thức, kĩ năng tạo hierarchy, calculated column, calculated table. Bên cạnh đó 1 số kiến thức về cross-filter direction and security filtering, row-level security roles, object-level security. 

  • Create measures by using DAX 

Power BI cung cấp cho chúng ta các Implicit Measure thông qua kéo thả cột khi visualization. Tuy nhiên nhu cầu tạo ra những chỉ số phức tạp hơn, giúp báo cáo có thêm các góc nhìn mới mẻ hơn, khi đó chúng ta cần sử dụng DAX để tạo ra measures. Cần ôn tập một số nhóm DAX function thường gặp khi xử lý với dữ liệu text, string, aggregate. Bên cạnh đó là nhóm hàm liên quan đến Calculate để thể hiện filter context trong DAX. Nhóm hàm Time Intelligence cũng đáng chú ý.   

  • Optimize model performance 

Khi data model nhẹ, Optimize model performance có thể chưa phải là vấn đề đối với bạn. Tuy nhiên, khi chúng ta có những bảng dữ liệu rất lớn, data model phức tạp, sử dụng nhiều measure phức tạp khiến việc tính toán, xử lý bị chậm, đấy là lúc chúng ta cần nghĩ đến tối ưu model performance. Đơn giản, chúng ta loại đi những cột không cần thiết, filter những dòng dữ liệu không sử dụng cho báo cáo, ví dụ như data quá khứ từ rất xa chẳng hạn. Tốn nhiều công sức hơn 1 chút, chúng ta review lại code DAX xem đã tối ưu chưa. 

Topic 3: Visualize the Data – Trực quan hóa dữ liệu

Sau khi đã có được data model tạm thời như ý (thực tế phải update rất nhiều) thì chúng ta bắt tay làm một số việc mà nhiều người học Power BI sẽ hào hứng nhất, đó chính là visualize. Nói đơn giản, chúng ta tạo các bảng, biểu đồ để trả lời cho những câu hỏi mà chúng ta, hoặc sếp của chúng ta đặt ra. Phần này chiếm đến 20 – 25% tổng điểm của bài thi DA-100. Rất quan trọng. Các nội dung bao gồm: Create Reports, Create Dashboards, Enrich reports for usability.

Kinh nghiêm thi DA-100
3 nội dung chính của Visualize the data

  • Create Reports 

Chúng ta sẽ tạo ra những bảng, biểu đồ phù hợp để trả lời các câu hỏi. Ví dụ: Muốn biết xu thế tăng hay giảm doanh thu qua các tháng, hay sự tăng trưởng doanh thu so với cùng kì năm trước… Với phần này, chúng ta cần nắm được các loại bảng, biểu, cách dùng của nó phù hợp với những tình huống, trả lời cho những câu hỏi nào. Với mỗi loại visual cụ thể, chúng ta cần biết đưa cột (field) nào vào. Một số kiến thức về format, apply filter…  

  • Create Dashboards 

Dashboard là tập hợp của nhiều report. Một số kiến thức cần ôn tập như là set mobile view, manage tiles on a dashboard, configure data alerts, use the Q&A feature, add a dashboard theme, pin a live report page to a dashboard. 

  • Enrich reports for usability 

Chúng ta có thể tạo 1 số thiết lập để giúp báo cáo dễ xem hơn, dễ dàng trình diễn dữ liệu hơn đối với người xem (end user). Một số kiến thức cần ôn tập như bookmark, tooltip, Interaction giữa các visual trong cùng 1 page, sorting, drillthrough and cross filter, export data…

Topic 4: Analyze the Data – Phân tích dữ liệu

Các câu hỏi về Analyze Data chiếm 10 – 15% tổng điểm của bài thi Chứng chỉ DA-100. Analyze the data giúp chúng ta tìm kiếm được những insight, điểm nhấn từ dữ liệu, từ rất nhiều bảng biểu đã tạo trước đó. Đây cũng là phần tạo ra sự khác biệt giữa chúng ta so với những người dùng Power BI khác. Có 2 nội dung chính: Enhance reports to expose insights và Perform advanced analysis.

Chứng chỉ DA-100
2 nội dung chính trong Analyze the data

  • Enhance reports to expose insights 

Các câu hỏi có thể liên quan đến conditional formatting, áp dụng slicer, filters, Top N, Q&A visual, … 

  • Perform advanced analysis 

Các câu hỏi có thể liên quan đến cách xác định outliers, time series analysis, sử dụng groupings và binnings, Key Influencers to explore dimensional variances, decomposition tree visual, Al insights.  

Topic 5: Deploy and Maintain Deliverables – Triển khai và duy trì các sản phẩm đã giao

Các câu hỏi liên quan đến giai đoạn sau khi hoàn thiện dashboard chiếm khoảng 10 – 15% tổng điểm của bài thi. Có thể chia topic này thành 2 phần nội dung chính: Manage datasets và Create and manage workspaces

DA-100 Microsoft
2 nội dung chính của Deploy and Maintain Deliverables

  • Manage datasets 

Chúng ta ôn tập các kiến thức liên quan đến quản lý dataset. Một số kiến thức chính như: Cách thiết lập lịch trình resfresh cho dashboard trên service. Cách cấu hình row-level security trong trường hợp chúng ta muốn phân quyền dữ liệu/báo cáo hiển thị cho từng nhóm user khác nhau. Các thiết lập tùy chọn incremental refresh giúp quá trình refresh nhanh hơn…

  • Create and manage workspaces 

Một số kiến thức cần ôn tập liên quan đến phần tạo và quản lý workspaces trên Power BI service như: cách tạo và cấu hình một workspace, assign workspace roles, cách cấu hình và cập nhật một workspace app, … 

Tham gia group ôn thi DA-100 tại: https://www.facebook.com/groups/da100vn
Chuỗi Video Hướng dẫn thực hành Lab và sử dụng các tài nguyên của Microsoft: https://www.youtube.com/c/Datapotvn/videos
Update tài nguyên từ Microsoft, DA-100 exam questions và exam topics tại Fanpage của Datapot: https://www.facebook.com/DatapotAnalytics/
Chi tiết tham khảo: https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4qlRu
https://ravikirans.com/da-100-power-platform-exam-study-guide/

Khóa học Ôn thi DA-100
Combo khóa học dành cho các bạn Fresher
Posted on Leave a comment

[Power BI Basic] Nhóm các hàng (Group rows) với Power Query Editor

Power BI không chỉ mạnh mẽ với tính năng Visualize dữ liệu cùng các biểu đồ bắt mắt, việc xử lý, biến đổi dữ liệu với Power BI cũng rất tiện lợi.

Với Power Query Editor của Power BI, bạn có thể chỉnh sử dữ liệu cho phù hợp ngay khi thêm vào Power BI. Chỉnh sửa với Power Query Editor sẽ giúp dữ liệu dù từ nhiều nguồn đồng bộ hơn, và tiết kiệm thời gian hơn đối với các file có dung lượng lớn.

Cụ thể, bạn có thể nhóm các giá trị từ nhiều hàng (Group by). Tính năng này có thể ứng dụng để tính tổng số sản phẩm, tổng doanh thu hay đếm tổng số học sinh.

Trong VD dưới đây, bạn sẽ nhóm các hàng trong một bộ dataset về tuyển sinh từ một file Excel, tính số cơ sở giáo dục (Agency) ở mỗi bang (State).

Chọn cột State Abbr (Mã vùng của các bang), sau đó chọn nút Group By ở tab Transform hoặc tab Home.

Screenshot shows how to group rows in a table.

Khi hộp thoại Group By xuất hiện, bạn có thể điều chỉnh cách nhóm các hàng bằng những cách sau:

  1. Dropdown list để chọn các cột bạn muốn nhóm. Thường thì Power Query Editor sẽ chọn sẵn 1 cột, tuy nhiên bạn có thể thay đổi.
  2. Tên cột mới tạo ra
  3. Cách nhóm: có thể là tính tổng, tìm Median hoặc đếm. Giá trị mặc định sẽ là đếm số hàng.
  4. Thêm các cách nhóm khác.
Screenshot shows the Group By dialog box with Add grouping and Add aggregation called out.

Sau đó bạn chọn OK và xem kết quả. Bạn có thể thấy một cột mới với số cơ sở giáo dục ở mỗi bang.
Với Power Query Editor, nếu như bạn thấy cách nhóm này không phù hợp, chỉ cần vào phần Query Setting và xóa thao tác Group by vừa thực hiện.

Count column, Group By operation, Power Query Editor, Power BI Desktop

Tham khảo video về Transform dữ liệu với Power BI tại.

Tìm hiểu về Tư duy phân tích – Xây dựng báo cáo sử dụng Power BI với khóa học Power BI and Analytical Thinking khai giảng 19/10.

Posted on Leave a comment

Hãy chọn Chart đúng (Phần 2)

Tiếp nối bài viết tuần vừa rồi, tuần này mình sẽ chia sẻ về 1 ví dụ thực hành để có được 1 line chart best practice. Chúng ta đều hiểu rằng sự lộn xộn trong thể hiện thông tin có thể khiến cho thông điệp hay insight quan trọng của biểu đồ không được truyền tải đầy đủ. Do đó điều quan trọng là làm thế nào để nhận ra và loại bỏ các yếu tố gây nhiễu ra khỏi biểu đồ của chúng ta, hãy xem một ví dụ thực tế và kiểm tra xem quá trình xác định và loại bỏ lộn xộn cải thiện thị giác của chúng ta như thế nào nhé.

Kịch bản

No photo description available.
Đây chính là biểu đồ đầu tiên khi chúng ta chưa tối ưu, hãy cùng theo dõi quá trình lột xác của em nó nhé!

Hãy tưởng tượng rằng bạn quản lý một nhóm công nghệ thông tin (CNTT). Nhóm của bạn nhận được ticket (yêu cầu) về các vấn đề kỹ thuật từ nhân viên trong công ty. Trong năm vừa qua, bạn đã có một vài người rời đi và bạn quyết định không bổ sung nhân sự thay thế họ vào thời điểm này. Bạn đã nghe những phàn nàn các nhân viên còn lại về việc phải bổ sung nhân lực để giải quyết sự quá tải công việc do các nhân sự đã rời đi để lại. Bạn cũng vừa được hỏi về nhu cầu tuyển dụng của bạn trong năm tới và đang tự hỏi liệu bạn có nên thuê thêm một vài người nữa không. Đầu tiên, bạn muốn hiểu những gì ảnh hưởng đến sự ra đi của cá nhân trong năm qua đã ảnh hưởng đến năng suất chung của nhóm của bạn. Bạn vẽ xu hướng hàng tháng của những tickets gửi đến team và những tickets đã được xử lý trong năm dương lịch vừa qua. Bạn thấy rằng có một số bằng chứng cho thấy năng suất của nhóm bạn đang bị suy giảm do thiếu hụt nhân viên và giờ muốn nhanh chóng có 1 biểu đồ tổng hợp tình hình để làm cơ sở cho yêu cầu tuyển dụng của bạn.

Bước 1. Xóa đường viền biểu đồ

Đường viền biểu đồ thường không cần thiết theo những nguyên tắc nhận thức thị giác của Gestalt (Gestalt Principles of Visual Perception). Thay vào đó, hãy suy nghĩ về việc sử dụng khoảng trắng để phân biệt hình ảnh với các yếu tố khác trên trang khi cần.

No photo description available.

Bước 2. Xóa đường lưới

Nếu bạn nghĩ rằng người xem báo cáo của bạn có thể dùng đường lưới để xác định giá trị tương ứng trên trục hiệu quả hơn, bạn có thể sử dụng nó. Nhưng hãy làm cho chúng mỏng đi và sử dụng một màu sáng như màu xám. Đừng để những đường lưới nổi bật làm ảnh hưởng đến dữ liệu của bạn. Khi bạn có thể, hãy loại bỏ chúng hoàn toàn: điều này cho phép độ tương phản cao hơn và dữ liệu của bạn sẽ nổi bật hơn.

No photo description available.

Bước 3. Loại bỏ những ký hiệu đánh dấu dữ liệu

Hãy nhớ rằng, mỗi yếu tố thêm vào biểu đồ sẽ gia tăng lượng thông tin phải xử lý từ người xem biểu đồ của bạn. Việc sử dụng ký hiệu đánh dấu dữ liệu nên được sử dụng cho mục đích nào đó (chẳng hạn như muốn nhấn mạnh) thay vì mặc định chúng sẽ hiển thị trên đồ thị của bạn.

No photo description available.

Bước 4. Làm sạch nhãn trục

Có một sự thật rằng số 0 sau dấu phẩy trên các trục bản thân chúng không mang lại giá trị thông tin, và làm cho các con số phức tạp hơn so với thực tế! Loại bỏ chúng, giảm gánh nặng không cần thiết của chúng đối với lượng thông tin cần tiếp nhận của người đọc báo cáo. Ngoài ra, chúng ta cũng cần căn chỉnh các giá trị tháng trong năm nằm song song với chiều ngang trên trục x (cần tránh việc các giá trị hiển thị theo đường chéo)

No photo description available.

Bước 5. Dán nhãn dữ liệu trực tiếp

Bây giờ chúng tôi đã loại bỏ phần lớn những yếu tố không cần thiết làm gia tăng lượng thông tin cần tiếp nhận trên biểu đồ, chúng ta sẽ phân loại các đường có trong biểu đồ để dữ liệu rõ ràng hơn nữa. Hãy nhớ rằng, chúng ta chỉ đưa ra những thứ thực sự truyền tài thông tin hữu ích và cần thiết cho người đọc báo cáo và hoàn toàn có thể thực hiện công việc đó theo ý đồ chúng ta. Trong trường hợp này, chúng ta có thể sử dụng nguyên tắc gần của Gestalt và đặt nhãn dữ liệu ngay bên cạnh dữ liệu mà chúng mô tả.

Image may contain: text

Bước 6. Tận dụng màu sắc nhất quán

Ngoài nguyên tắc gần gũi của Gestalt trong bước trước, chúng ta cũng nghĩ về việc tận dụng nguyên tắc tương tự Gestalt và làm cho các nhãn dữ liệu có màu giống như dữ liệu mà chúng mô tả. Đây là một gợi ý trực quan khác cho khán giả của chúng tôi rằng, hai phần thông tin này có liên quan với nhau.

No photo description available.

Đây vẫn chưa phải phiên bản tốt nhất có thể. Tuy nhiên, việc xác định và loại bỏ sự lộn xộn đã giúp chúng ta đi một bước dài về mặt giảm tải nhận thức và cải thiện khả năng tiếp cận thông tin của người đọc. Hãy nhìn vào trước và ‐ sau khi hiển thị trong dưới đây.

No photo description available.

Thậm chí có thể tốt hơn nữa 

Image may contain: text

Tóm lại, bất cứ khi nào bạn đưa thông tin ra trước người đọc báo cáo của mình, bạn sẽ tạo ra tải nhận thức và yêu cầu họ sử dụng sức mạnh não bộ của họ để tiếp nhận thông tin đó. Sự lộn xộn thị giác tạo ra sự quá tải nhận thức qua đó cản trở việc truyền thông điệp của chúng ta. Những nguyên tắc Gestalt về nhận thức thị giác có thể giúp bạn hiểu cách thị giác của bạn tiếp nhận thông tin và cho phép bạn xác định và loại bỏ các yếu tố hình ảnh không cần thiết. Tận dụng sự liên kết của các yếu tố và duy trì khoảng trắng để giúp việc diễn giải hình ảnh của bạn trở thành trải nghiệm thoải mái hơn cho khán giả của bạn. Sử dụng tương phản một cách chiến lược. Sự lộn xộn là kẻ thù của bạn: hãy loại nó ra khỏi các biểu đồ của bạn!

Phần 1 của bài viết: https://home.datapot.vn/2020/04/15/hay-chon-chart-dung-phan-1/

Để được trao đổi, hỏi đáp về chuyên môn và cơ hội nghề nghiệp ngành dữ liệu, hãy tham gia Group Data Analytics and Business Intelligence Vietnam.

Theo dõi Fanpage Facebook của Datapot để không bỏ lỡ các bài viết tiếp theo.

Nhấn Going để không bỏ lỡ Event Livestream 5: Ứng dụng Slicers và Filters trong Power BI.

Posted on Leave a comment

Never trust summary statistics alone – always visualize your data

“Never trust summary statistics alone – always visualize your data” Đó là mục tiêu của Alberto Cairo khi tạo ra Datasaurus  dataset. Qua ví dụ này chúng ta thấy được mức độ quan trọng của việc Visualize dữ liệu để thấy được nhiều góc độ của dữ liệu đó. 12 data set khác nhau, thể hiện phân bố hoàn toàn khác nhau và có chung Mean, Standard Deviation, Correlation. Nếu bỏ qua bước Visualize, rất có thể analyst sẽ bỏ lỡ nhiều khía cạnh quan trọng của dữ liệu.

Tất cả các biểu đồ này thể hiện dữ liệu có chung mean, standard deviation, and Pearson’s correlation đến 2 chữ số sau dấu phẩy
Tất cả các biểu đồ này thể hiện dữ liệu có chung mean, standard deviation, and Pearson’s correlation đến 2 chữ số sau dấu phẩy

Cẩn thận với Boxplot

Boxplot thường được dùng làm công cụ thể hiện phân bổ của dữ liệu mẫu theo các phân vị. Tuy nhiên, một số trường hợp Boxplot không thể hiện được đặc trưng riêng của từng Dataset.

3 dataset có phân bổ rất khác biệt nhưng các điểm phân vị giống nhau nên BoxPlot thể hiện giống hệt nhau.
Một giải pháp thay thế là chúng ta có thể sử dụng Violin-Plot để thể hiện phân bổ của dữ liệu

Các bạn có thể tham khảo bài viết chi tiết, Source Code, Dataset tại đây.