Posted on Leave a comment

Hãy chọn Chart đúng (Phần 2)

Tiếp nối bài viết tuần vừa rồi, tuần này mình sẽ chia sẻ về 1 ví dụ thực hành để có được 1 line chart best practice. Chúng ta đều hiểu rằng sự lộn xộn trong thể hiện thông tin có thể khiến cho thông điệp hay insight quan trọng của biểu đồ không được truyền tải đầy đủ. Do đó điều quan trọng là làm thế nào để nhận ra và loại bỏ các yếu tố gây nhiễu ra khỏi biểu đồ của chúng ta, hãy xem một ví dụ thực tế và kiểm tra xem quá trình xác định và loại bỏ lộn xộn cải thiện thị giác của chúng ta như thế nào nhé.

Kịch bản

No photo description available.
Đây chính là biểu đồ đầu tiên khi chúng ta chưa tối ưu, hãy cùng theo dõi quá trình lột xác của em nó nhé!

Hãy tưởng tượng rằng bạn quản lý một nhóm công nghệ thông tin (CNTT). Nhóm của bạn nhận được ticket (yêu cầu) về các vấn đề kỹ thuật từ nhân viên trong công ty. Trong năm vừa qua, bạn đã có một vài người rời đi và bạn quyết định không bổ sung nhân sự thay thế họ vào thời điểm này. Bạn đã nghe những phàn nàn các nhân viên còn lại về việc phải bổ sung nhân lực để giải quyết sự quá tải công việc do các nhân sự đã rời đi để lại. Bạn cũng vừa được hỏi về nhu cầu tuyển dụng của bạn trong năm tới và đang tự hỏi liệu bạn có nên thuê thêm một vài người nữa không. Đầu tiên, bạn muốn hiểu những gì ảnh hưởng đến sự ra đi của cá nhân trong năm qua đã ảnh hưởng đến năng suất chung của nhóm của bạn. Bạn vẽ xu hướng hàng tháng của những tickets gửi đến team và những tickets đã được xử lý trong năm dương lịch vừa qua. Bạn thấy rằng có một số bằng chứng cho thấy năng suất của nhóm bạn đang bị suy giảm do thiếu hụt nhân viên và giờ muốn nhanh chóng có 1 biểu đồ tổng hợp tình hình để làm cơ sở cho yêu cầu tuyển dụng của bạn.

Bước 1. Xóa đường viền biểu đồ

Đường viền biểu đồ thường không cần thiết theo những nguyên tắc nhận thức thị giác của Gestalt (Gestalt Principles of Visual Perception). Thay vào đó, hãy suy nghĩ về việc sử dụng khoảng trắng để phân biệt hình ảnh với các yếu tố khác trên trang khi cần.

No photo description available.

Bước 2. Xóa đường lưới

Nếu bạn nghĩ rằng người xem báo cáo của bạn có thể dùng đường lưới để xác định giá trị tương ứng trên trục hiệu quả hơn, bạn có thể sử dụng nó. Nhưng hãy làm cho chúng mỏng đi và sử dụng một màu sáng như màu xám. Đừng để những đường lưới nổi bật làm ảnh hưởng đến dữ liệu của bạn. Khi bạn có thể, hãy loại bỏ chúng hoàn toàn: điều này cho phép độ tương phản cao hơn và dữ liệu của bạn sẽ nổi bật hơn.

No photo description available.

Bước 3. Loại bỏ những ký hiệu đánh dấu dữ liệu

Hãy nhớ rằng, mỗi yếu tố thêm vào biểu đồ sẽ gia tăng lượng thông tin phải xử lý từ người xem biểu đồ của bạn. Việc sử dụng ký hiệu đánh dấu dữ liệu nên được sử dụng cho mục đích nào đó (chẳng hạn như muốn nhấn mạnh) thay vì mặc định chúng sẽ hiển thị trên đồ thị của bạn.

No photo description available.

Bước 4. Làm sạch nhãn trục

Có một sự thật rằng số 0 sau dấu phẩy trên các trục bản thân chúng không mang lại giá trị thông tin, và làm cho các con số phức tạp hơn so với thực tế! Loại bỏ chúng, giảm gánh nặng không cần thiết của chúng đối với lượng thông tin cần tiếp nhận của người đọc báo cáo. Ngoài ra, chúng ta cũng cần căn chỉnh các giá trị tháng trong năm nằm song song với chiều ngang trên trục x (cần tránh việc các giá trị hiển thị theo đường chéo)

No photo description available.

Bước 5. Dán nhãn dữ liệu trực tiếp

Bây giờ chúng tôi đã loại bỏ phần lớn những yếu tố không cần thiết làm gia tăng lượng thông tin cần tiếp nhận trên biểu đồ, chúng ta sẽ phân loại các đường có trong biểu đồ để dữ liệu rõ ràng hơn nữa. Hãy nhớ rằng, chúng ta chỉ đưa ra những thứ thực sự truyền tài thông tin hữu ích và cần thiết cho người đọc báo cáo và hoàn toàn có thể thực hiện công việc đó theo ý đồ chúng ta. Trong trường hợp này, chúng ta có thể sử dụng nguyên tắc gần của Gestalt và đặt nhãn dữ liệu ngay bên cạnh dữ liệu mà chúng mô tả.

Image may contain: text

Bước 6. Tận dụng màu sắc nhất quán

Ngoài nguyên tắc gần gũi của Gestalt trong bước trước, chúng ta cũng nghĩ về việc tận dụng nguyên tắc tương tự Gestalt và làm cho các nhãn dữ liệu có màu giống như dữ liệu mà chúng mô tả. Đây là một gợi ý trực quan khác cho khán giả của chúng tôi rằng, hai phần thông tin này có liên quan với nhau.

No photo description available.

Đây vẫn chưa phải phiên bản tốt nhất có thể. Tuy nhiên, việc xác định và loại bỏ sự lộn xộn đã giúp chúng ta đi một bước dài về mặt giảm tải nhận thức và cải thiện khả năng tiếp cận thông tin của người đọc. Hãy nhìn vào trước và ‐ sau khi hiển thị trong dưới đây.

No photo description available.

Thậm chí có thể tốt hơn nữa 

Image may contain: text

Tóm lại, bất cứ khi nào bạn đưa thông tin ra trước người đọc báo cáo của mình, bạn sẽ tạo ra tải nhận thức và yêu cầu họ sử dụng sức mạnh não bộ của họ để tiếp nhận thông tin đó. Sự lộn xộn thị giác tạo ra sự quá tải nhận thức qua đó cản trở việc truyền thông điệp của chúng ta. Những nguyên tắc Gestalt về nhận thức thị giác có thể giúp bạn hiểu cách thị giác của bạn tiếp nhận thông tin và cho phép bạn xác định và loại bỏ các yếu tố hình ảnh không cần thiết. Tận dụng sự liên kết của các yếu tố và duy trì khoảng trắng để giúp việc diễn giải hình ảnh của bạn trở thành trải nghiệm thoải mái hơn cho khán giả của bạn. Sử dụng tương phản một cách chiến lược. Sự lộn xộn là kẻ thù của bạn: hãy loại nó ra khỏi các biểu đồ của bạn!

Phần 1 của bài viết: https://home.datapot.vn/2020/04/15/hay-chon-chart-dung-phan-1/

Để được trao đổi, hỏi đáp về chuyên môn và cơ hội nghề nghiệp ngành dữ liệu, hãy tham gia Group Data Analytics and Business Intelligence Vietnam.

Theo dõi Fanpage Facebook của Datapot để không bỏ lỡ các bài viết tiếp theo.

Nhấn Going để không bỏ lỡ Event Livestream 5: Ứng dụng Slicers và Filters trong Power BI.

Posted on Leave a comment

T – Shape Model và câu chuyện học về ngành dữ liệu

T model of knowledge là gì?

Khi đọc những thông tin tuyển dụng hiện nay, bạn sẽ thấy ứng viên lý tưởng mà các công ty tìm kiếm thường là người có chuyên môn đủ sâu ở 1 mảng, nhưng cũng có kiến thức đủ rộng để bao quát công việc, có thể áp dụng linh hoạt ở nhiều mảng khác nhau.

T-model hay T-shaped skills là mô hình mô tả mức độ chuyên sâu về một kĩ năng cụ thể (Deep Expertise) và kiến thức nền tảng rộng ở nhiều mảng khác nhau (Wide Knowledge Base) của một người.

Các kiến thức và kĩ năng có thể thay đổi phụ thuộc vào đặc thù công việc. Tuy nhiên, có kiến thức nền tảng rộng và ít nhất một chuyên môn sâu là điều bắt buộc. Ở dưới là một skills set gợi ý cho một BI Analyst.

Wide Knowledge BaseChiều rộng

Dựa trên kinh nghiệm làm việc, mình gợi ý những kiến thức nền tảng cần cho một BI Analyst (Chuyên viên Phân tích kinh doanh) như sau: Kiến thức về toán (Xác suất & Thống kê), Lập trình, Truy vấn và làm sạch dữ liệu, Trực quan hóa dữ liệu, Giao tiếp & Thuyết trình, Kiến thức về lĩnh vực (Ví dụ như tài chính, logistic, marketing,…), Làm việc nhóm và Quản lí công việc.

Và điều quan trọng không đơn giản chỉ là học, tích lũy những phần kiến thức đó, mà còn là ứng dụng vào công việc như thế nào. Ví dụ như với kiến thức về trực quan hóa dữ liệu, bạn cần phải áp dụng được để tạo ra các dashboard hay báo cáo.

Deep Expertise – Chiều sâu

Bên cạnh phát triển chiều rộng, bạn cũng cần lựa chọn một mảng công việc để phát triển chuyên môn sâu hơn, tạo ra lợi thế cạnh tranh cho công việc cho mình. Và theo ví dụ dưới đây, thì mảng được lựa chọn là Data Visualization, kỹ năng làm báo cáo. Tuy nhiên, với mục tiêu, khả năng cũng như đặc thù công việc của mỗi người, thì sẽ có những sự lựa chọn khác nhau.

Đây chính là mô hình các bạn có thể tham khảo khi muốn gia nhập vào ngành dữ liệu, tuy nhiên nên học gì trước, học gì sau? Và nên lựa chọn Deep Expertise như thế nào?

Áp dụng T model vào việc học về ngành dữ liệu

Đầu tiên, hãy xác định rõ xuất phát điểm của mình, bạn đang có Base Knowledge hoặc Deep Expertise ở mảng nào, hoặc gần nhất với mảng nào.

Hãy coi Data Analystics như một kĩ năng, có nhiều trình độ khác nhau, nhiều môi trường khác nhau. Cũng giống như nấu ăn, tiêu chuẩn nấu ăn của một bà mẹ nấu ăn trong gia đình khác với một đầu bếp nhà hàng chuyên nghiệp. Mình thấy rất nhiều bạn đang làm từ rủi ro, tài chính, kế hoạch, kế toán… (đã có domain knowledge) đang chuyển hướng dần sang Data Analytics và biến Data Analytics trở thành kĩ năng chính. Giống như khi các công cụ dần trở nên phổ biến và dễ tiếp cận, một bà mẹ với đầy đủ công cụ và lợi thế hiểu rõ sở thích của từng thành viên trong gia đình hoàn toàn có thể làm bữa ăn ngon miệng hơn nhà hàng.

Chính vì vậy, sau khi xác định rõ xuất phát điểm, hãy xác đinh mục tiêu của mình theo 2 trường hợp sau:

A. Muốn có kĩ năng phân tích dữ liệu phục vụ cho công việc hiện tại

Bạn hãy tập trung vào những kĩ năng cải thiện công việc hiện tại. VD: Học SQL để lấy dữ liệu trực tiếp từ CSDL thay vì phải nhờ Dev hay IT, Power Query để tổng hợp dữ liệu tự động, lập trình để tự động hóa công việc. Dùng Power BI để tự động hóa hệ thống báo cáo về bán hàng, marketing,.

B. Bạn muốn chuyển ngành hay bắt đầu công việc như một Data Analyst:

Thay vì bắt đầu vào học ngay, bạn cần tìm hiểu về ngành sau đó xây dựng lộ trình phù hợp để có được những kiến thức nền mong muốn và xác định chuyên môn sâu để theo đuổi sau này.

Không lộ trình học nào là hoàn hảo, mà sẽ tùy vào mục tiêu, khả năng, kinh nghiệm hiện tại của mỗi người. Tuy nhiên, với ngành dữ liệu, cụ thể là vị trí BI hay Data Analyst trong doanh nghiệp, sẽ có những mảng kiến thức có thể nhanh chóng áp dụng vào công việc cho người mới bắt đầu. Đấy là những mảng bạn có thể cân nhắc học trước, cụ thể thì Datapot sẽ chia sẻ trong bài viết sắp tới.

Theo dõi Fanpage Facebook của Datapot để không bỏ lỡ các bài viết tiếp theo.

Để được trao đổi, hỏi đáp về chuyên môn và cơ hội nghề nghiệp ngành dữ liệu, hãy tham gia Group Data Analytics and Business Intelligence Vietnam.

Posted on Leave a comment

Những cập nhật mới nhất về chứng chỉ Data Analyst Associate của Microsoft

Update: 2020-03-01

Chúng ta vốn không lạ gì với các hệ thống chứng chỉ của Microsoft, từ phổ biến nhất là MOS-Chứng chỉ tin học văn phòng đang được công nhận thay cho điểm môn tin học tại một số trường đại học. Cho đến các chứng chỉ MCSE, MCSD và MCSA là các chứng chỉ dành cho các chuyên gia công nghệ. Trong quá trình thay đổi sang hệ thống chứng chỉ theo vị trí công việc (role-based certification paths), Microsoft đã thông báo chính thức về kế hoạch tạm dừng các chứng chỉ MCSE, MCSD và MCSA cùng với các bài test liên quan. Tổng cộng, sẽ có 15 chứng chỉ và 43 bài test tương ứng được thông báo sẽ “nghỉ hưu” (retired) vào 31 tháng 1 năm 2021.

MCSE, MCSD và MCSA sẽ “nghỉ hưu” vào 31 tháng 1 năm 2021.

Với kế hoạch cách mạng hệ thống chứng chỉ, Microsoft sẽ tạm dừng các chứng chỉ Microsoft Certified Solution Expert (MCSE – Chuyên gia), Microsoft Certified Solution Developer (MCSD-Nhà phát triển), and Microsoft Certified Solution Associate (MCSA-Chuyên viên). Dưới đây là danh sách các chứng chỉ sẽ ngừng cung cấp trong thời gian tới:

  • MCSA: BI Reporting
  • MCSA: Dynamics 365 for Operations
  • MCSA: SQL 2016 BI Development
  • MCSA: SQL 2016 Database Admin
  • MCSA: SQL 2016 Database Dev
  • MCSA: SQL Server 2012/2014
  • MCSA: Universal Windows Platform
  • MCSA: Web Applications
  • MCSA: Windows Server 2012
  • MCSA: Windows Server 2016
  • MCSD: App Builder
  • MCSE: Business Applications
  • MCSE: Core Infrastructure
  • MCSE: Data Management & Analytics
  • MCSE: Productivity

Và 43 bài thi để đạt được các chứng chỉ này cũng sẽ dừng lại:

  • 70-333: Deploying Enterprise Voice with Skype for Business 2015
  • 70-334: Core Solutions for Microsoft Skype for Business 2015
  • 70-339: Managing Microsoft SharePoint Server 2016
  • 70-345: Designing and Deploying Microsoft Exchange Server 2016
  • 70-457: Developing Mobile Apps
  • 70-410: Installing and Configuring Windows Server 2012
  • 70-411: Administering Windows Server 2012
  • 70-412: Configuring Advanced Windows Server 2012 Services
  • 70-413: Designing and Implementing a Server Infrastructure
  • 70-414: Implementing an Advanced Server Infrastructure
  • 70-417: Upgrading Your Skills to MCSA Windows Server 2012
  • 70-461: Querying Microsoft SQL Server 2012/2014
  • 70-462: Administering Microsoft SQL Server 2012/2014 Databases
  • 70-463: Implementing a Data Warehouse with Microsoft SQL Server 2012/2014
  • 70-464: Developing Microsoft SQL Server 2012/2014 Databases
  • 70-465: Designing Database Solutions for Microsoft SQL Server
  • 70-466: Implementing Data Models and Reports with Microsoft SQL Server
  • 70-467: Designing Business Intelligence Solutions with Microsoft SQL Server
  • 70-480: Programming in HTML5 with JavaScript and CSS3
  • 70-483: Programming in C#
  • 70-486: Developing ASP.NET MVC Web Applications
  • 70-487: Developing Microsoft Azure and Web Services
  • 70-537: Configuring and Operating a Hybrid Cloud with Microsoft Azure Stack
  • 70-705: Designing and Providing Microsoft Licensing Solutions to Large Organizations
  • 70-740: Installation, Storage, and Compute with Windows Server 2016
  • 70-741: Networking with Windows Server 2016
  • 70-742: Identity with Windows Server 2016
  • 70-743: Upgrading Your skills to MCSA: Windows Server 2016
  • 70-744: Securing Windows Server 2016
  • 70-745: Implementing a Software-Defined Datacenter
  • 70-761: Querying Data with Transact-SQL
  • 70-762: Developing SQL Databases
  • 70-764: Administering a SQL Database Infrastructure
  • 70-765: Provisioning SQL Databases
  • 70-767: Implementing a Data Warehouse using SQL
  • 70-768: Developing SQL Data Models
  • 70-777: Implementing Microsoft Azure Cosmos DB Solutions
  • 70-778: Analyzing and Visualizing Data with Microsoft Power BI
  • 70-779: Analyzing and Visualizing Data with Microsoft Excel
  • MB2-716: Microsoft Dynamics 365 Customization and Configuration
  • MB6-894: Development, Extensions and Deployment for Microsoft Dynamics 365 Finance
  • MB6-897: Microsoft Dynamics 365 for Retail
  • MB6-898: Microsoft Dynamics 365 Human Resources

Nếu bạn đang ôn tập cho một trong các bài thi phía trên và muốn lấy chứng chỉ tương ứng, bạn cần phải hoàn thành bài thi trước ngày 30 tháng 06 năm 2020. Sau thời gian đó, các bài thi này sẽ không còn được cung cấp nữa.

Sự thay đổi hướng tới chứng chỉ theo các vị trí công việc (Role-based Microsoft Certifications)

Có rất nhiều chứng chỉ bị khai tử trong thời gian này, tôi tin rằng đây là lần thay đổi lớn nhất các hệ thống chứng chỉ và bài thi trong một vòng đời. Hãy cùng nhìn vào những gì Microsoft đang hướng tới.

Cùng xem xét kỹ hơn về hệ thống chứng chỉ dành cho mảng dữ liệu.

MCSE: Data Management and Analytics

Sẽ bắt đầu với một trong các bài test:

  • Azure Database Administrator
  • Azure Data Engineer Associate
    • Azure AI Engineer Associate
    • Azure Data Scientist Associate

Chúng ta có thể thấy số bài thi ít hơn với hệ thống chứng chỉ MCSA-MCSE: Data Management and Analytics trước đây. Tuy nhiên, các bài thi sẽ tập trung hơn vào các kĩ năng cần có để làm được một vị trí công việc cụ thể (role-based) nên dễ dàng hơn cho việc lựa chọn và đánh giá, ngoài ra Microsoft luôn cải tiến và bổ sung các bài thi để phủ kín các vị trí liên quan trong từng lĩnh vực.

Những điều cần lưu ý

Với việc thay đổi hàng loạt chứng chỉ như hiện nay cho thấy Microsoft chủ động cập nhật lại hệ thống chứng chỉ cho phù hợp với nhu cầu thị trường. Ngoài ra, việc giảm bớt các chứng chỉ xoay quanh công nghệ (tech-based certifications) mà tập trung vào các chứng chỉ tập trung vào các kĩ năng cần có để hoàn thành một công việc cụ thể (role-based certifications) sẽ giúp cho các ứng viên dễ dàng hơn để lựa chọn chứng chỉ theo đúng career path mình theo đuổi. Đồng thời, nhà tuyển dụng cũng dễ dàng hơn trong việc cân nhắc-đánh giá ứng viên có chứng chỉ theo một role-based cụ thể, role-based certifications không chỉ chứng minh khả năng về mặt công nghệ mà còn chứng minh khả năng kết hợp các kĩ năng liên quan để đạt được yêu cầu công việc.

Một số lưu ý:

  • Những bạn đang theo đuổi 1 trong các chứng chỉ trong danh sách ngừng cung cấp: Nếu muốn tiếp tục lấy chứng chỉ theo dự kiến, các bạn cần hoàn thành các bài thi liên quan trước ngày 31 tháng 1 năm 2020. Hoặc các bạn có thể chuyển hướng sang ôn luyện và thi các chứng chỉ mới cập nhật hơn. Trên Microsoft Training, có một topic của các người tham gia đang yêu cầu lùi deadline ngừng cung cấp các chứng chỉ cũ, bạn có thể follow tại đây.
  • Những bạn đã có các chứng chỉ MCSA-MCSE: Chứng chỉ vẫn được giữ nguyên trong danh sách bạn đã đạt được và sẽ chuyển sang dach sách inactive trong 2 năm tới. Các bạn có thể cân nhắc thi lại chứng chỉ theo định hướng mới để tiếp tục đạt những chứng chỉ cao hơn.
  • Những bạn đang chuẩn bị theo đuổi chứng chỉ liên quan: Chuẩn bị sẵn sàng cho bài test mới để có thể có được chứng chỉ theo chuẩn mới nhất. Về nội dung ôn tập Microsoft đã bắt đầu công bố outline và tiếp tục cập nhật đến các training partner.

Một số câu hỏi thường gặp:

Q: Em mới ra trường-chưa có kinh nghiệm về Data Analystic, chứng chỉ nào phù hợp cho Fresher hoặc Junior Data Analyst?

A: Trước đây, bạn có thể chọn kì thi MCSA: BI Reporting. Nếu bây giờ bạn mới bắt đầu, bạn có thể bắt đầu ôn tập ngay cho Microsoft Certified: Data Analyst Associate. Quá trình hoàn thành chứng chỉ này sẽ đảm bảo bạn có được đầy đủ kiến thức và kĩ năng để làm được công việc của Data Analyst Asscicate trong doanh nghiệp.

Q: Em đã có chứng chỉ MCSA: BI Reporting, có nên thi lại để lấy Microsoft Certified: Data Analyst Associate hay không?

A: Bạn có thể cân nhắc tùy thuộc vào mục đích của bạn. Chứng chỉ MCSA: BI Reporting vẫn đang được Microsoft công nhận. Nếu bạn đã đang làm việc như một Data Analyst, việc thi lại là không cần thiết.
Nếu bạn quyết định theo đuổi các chứng chỉ cao hơn – MCSE: Data Management and Analytics. Bạn cần thi Microsoft Certified: Data Analyst Associate.

Q: Em đang ôn thi MCSA: BI Reporting, có nên chuyển sang thi Microsoft Certified: Data Analyst Associate.

Có, hãy dành thêm một chút thời gian để lấy được chứng chỉ mới nhất, cũng là thời gian để rèn luyện những kĩ năng phù hợp cho công việc.

Q: MCSA: BI Reporting và Microsoft Certified: Data Analyst Associate có nhiều khác biệt không?

A: Microsoft đã cung cấp outline ôn tập chi tiết Microsoft Certified: Data Analyst Associate cho các training partner. Dựa trên outline chúng ta có thể rút ra các nhận xét sau:

Giản lược về cấu trúc: MCSA: BI Reporting gồm 2 bài thi 70-778 (Power BI) và 70-779 (Excel Power Pivot), Microsoft Certified: Data Analyst Associate chỉ có một bài thi duy nhất DA-100 (Power BI). Điều này hoàn toàn hợp lý, bởi vì việc sử dụng được Power BI và pass được 70-778 thì gần như chắc chắn ứng viên có thể pass được 70-779. Việc đưa bài thi excel vào là thừa thãi không cần thiết.

Nâng cấp về nội dung: So với 70-778, DA-100 bổ sung them các topic về Analyze the data (10-15%) và Deploy and maintain deliverables (10-15%). Việc giảm cấu phần các vấn đề technical và tăng cấu phần các hoạt động liên quan trực tiếp đến hiệu quả công việc Analyze, Deploy & Maintain Deliverables cho thấy Microsoft đã update các yêu cầu chứng chỉ để gần hơn với nhu cầu công việc thực tế.

Có thể nói, DA-100: Analyzing Data with Microsoft Power BI là một sự lựa chọn hợp lý và tối ưu hơn nhiều so với combo 70-778 và 70-779.

Q: Có nên bắt đầu ôn thi Microsoft Certified: Data Analyst Associate từ bây giờ.

A: Bài thi duy nhất để đạt được Microsoft Certified: Data Analyst Associate là DA-100: Analyzing Data with Microsoft Power BI. DA-100 sẽ được release vào 02/04/2020. Các tài liệu ôn luyện cho chứng chỉ này đã được Microsoft cung cấp đến các đối tác. Quá trình ôn luyện từ hoàn toàn chưa biết gì đến khi thi được sẽ kéo dài khoảng 3 tháng. Bạn nên bắt đầu ôn luyện từ bây giờ để có thể tự tin thi chứng chỉ vào thời điểm sớm nhất.

Tham khảo khóa học phù hợp với lộ trình luyện thi chứng chỉ DAA.

Thông tin tham khảo: https://www.microsoft.com/en-us/learning/community-blog-post.aspx?BlogId=8&Id=375282

Để được trao đổi, hỏi đáp về chuyên môn và cơ hội nghề nghiệp ngành dữ liệu, hãy tham gia Group Data Analytics and Business Intelligence Vietnam.

Theo dõi Fanpage Facebook của Datapot để không bỏ lỡ các bài viết tiếp theo.

Posted on Leave a comment

Hãy chọn Chart đúng (Phần 1)

Tại sao cần chọn Chart đúng?

Trong hoạt động kinh doanh ngày càng phức tạp và đa dạng hiện nay, các doanh nghiệp thường đòi hỏi ở nhân viên của mình khả năng đưa ra quyết định đúng dựa trên dữ liệu. Tuy nhiên để đưa ra được quyết định dựa trên dữ liệu, trước tiên chúng ta phải lấy được thông tin có giá trị từ đống data “thập cẩm” mà hệ thống thu thập được.

Và để những số liệu và tính toán khô khan kể ra câu chuyện của nó là cả một nghệ thuật – nghệ thuật trực quan hóa dữ liệu. Trong 1 biển dữ liệu được thu thập, để lấy được những thông tin, sự thật có giá trị, công việc của bạn không chỉ là tách thông tin nhiễu khỏi dữ liệu mà còn thể hiện phải nó đúng cách.

Hướng dẫn cơ bản về chọn Chart

Trong bài này mình sẽ chia sẻ với các bạn làm sao để có thể chọn đúng cách trực quan hoá dữ liệu.

Có bốn cách cơ bản mà bạn có thể sử dụng để trình bày dữ liệu của mình:
• So sánh
• Mối quan hệ
• Phân phối
• Tỉ trọng thành phần

Trừ khi bạn là nhà thống kê hoặc nhà phân tích dữ liệu, rất có thể bạn chỉ sử dụng hai loại phân tích dữ liệu được sử dụng phổ biến nhất: So sánh hoặc tỉ trọng thành phần. Để xác định biểu đồ nào phù hợp nhất, trước tiên bạn phải trả lời một vài câu hỏi sau:

• Bạn muốn hiển thị bao nhiêu biến trong một biểu đồ? Một, hai, ba, nhiều?
• Có bao nhiêu mục (điểm dữ liệu) bạn sẽ hiển thị cho mỗi biến? Chỉ một vài hay nhiều?
• Bạn sẽ hiển thị các giá trị trong một khoảng thời gian, hoặc giữa các nhóm?

Biểu đồ cột (Bar chart) phù hợp nhất để so sánh, trong khi biểu đồ đường (Line chart) thể hiện xu hướng hiệu quả nhất. Biểu đồ phân tán (Scatter plot) thể hiện tốt nhất các mối quan hệ và phân phối, trong khi biểu đồ tròn (Pie chart) chỉ nên được sử dụng để thể hiện các tỉ trọng thành phần đơn giản và không bao giờ dùng để so sánh hoặc thể hiện phân phối.
Sơ đồ hướng dẫn lựa chọn biểu đồ trong hình ở đầu bài theo mình sẽ là công cụ giúp mọi người chọn được biểu đồ thích hợp hiệu quả và nhanh chóng. Tuy nhiên để thể hiện tối ưu 1 loại biểu đồ khi đã chọn được loại biểu đồ phù hợp, chúng ta vẫn cần nắm được 1 số tips khác. Trong bài này mình sẽ chia sẻ 1 số tips để thể hiện biểu đồ đường hiệu quả

Biểu đồ đường

Biểu đồ đường là một trong những loại biểu đồ được sử dụng thường xuyên nhất. Chúng phù hợp nhất cho việc trực quan hóa dữ liệu theo xu hướng trong một khoảng thời gian, khi số lượng điểm dữ liệu rất cao (lớn hơn 20).
Với biểu đồ đường, sự nhấn mạnh là sự tiếp tục hoặc dòng chảy của các giá trị (xu hướng), nhưng vẫn có một số hỗ trợ cho so sánh giá trị đơn, sử dụng các dấu dữ liệu (chỉ có ít hơn 20 điểm dữ liệu.)
Biểu đồ đường cũng là một thay thế tốt cho biểu đồ cột khi kích cỡ thể hiện của biểu đồ nhỏ .

Biểu đồ dòng thời gian

Biểu đồ dòng thời gian là một biến thể của biểu đồ đường. Rõ ràng, bất kỳ biểu đồ đường nào hiển thị giá trị trong một khoảng thời gian đều được coi là biểu đồ dòng thời gian. Sự khác biệt duy nhất ở đây là về chức năng – hầu hết các biểu đồ dòng thời gian sẽ cho phép bạn phóng to và thu nhỏ, nén hay kéo dài trục thời gian để xem thêm chi tiết hoặc xu hướng chung.
Các ví dụ phổ biến nhất của biểu đồ dòng thời gian có thể là:
• Giá thị trường chứng khoán thay đổi theo thời gian
• Khách truy cập trang web mỗi ngày trong 30 ngày qua
• Số lượng bán hàng theo ngày trong quý trước

Dos và Don’t khi sử dụng biểu đồ đường

• Sử dụng các đường để trình bày dữ liệu liên tục trong một thang đo khoảng, trong đó các khoảng có kích thước bằng nhau.
• Đối với biểu đồ đường, trục có thể không bắt đầu từ 0 nếu thông điệp dự định của biểu đồ là tốc độ thay đổi hoặc xu hướng chung, không phải là giá trị chính xác hoặc giá trị so sánh. Tốt nhất là bắt đầu trục với số 0 vì một số người có thể giải thích biểu đồ không chính xác.
• Trong biểu đồ đường, thời gian phải luôn luôn chạy từ trái sang phải.
• Đừng bỏ qua các giá trị để đảm bảo tính chính xác và nhất quán của việc trình bày thông tin xu hướng, ví dụ: một số ngày nhất định có giá trị bằng không.
• Tối giản trong trình bày biểu đồ (loại bỏ hiệu ứng, đường guideline…) để nhấn mạnh xu hướng, tốc độ thay đổi và để giảm sự phân tâm.
• Sử dụng tỷ lệ khung hình phù hợp để hiển thị thông tin quan trọng và tránh các hiệu ứng dốc đáng kể. Để có nhận thức tốt nhất, hãy nhắm đến độ dốc 45 độ. (https://eagereyes.org/basics/banking-45-degrees)

Kết luận

Tóm lại, khi làm việc với dữ liệu, mỗi chúng ta hãy nhớ đến flow sau:
Data -> Knowledge -> Action -> Wisdom


Để ra được action đúng và sau đó đúc rút thành kinh nghiệm, tri thức đúng đắn thì chúng ta phải chọn cách thể hiện dữ liệu chính xác. Trong các bài chia sẻ tiếp theo mình sẽ chia sẻ tiếp best practices của các loại biểu đồ khác.

Để được trao đổi, hỏi đáp về chuyên môn và cơ hội nghề nghiệp ngành dữ liệu, hãy tham gia Group Data Analytics and Business Intelligence Vietnam.

Theo dõi Livestream Chia sẻ câu chuyện ngành dữ liệu và lắng nghe chia sẻ từ chuyên gia trong ngành.

Theo dõi Fanpage Facebook của Datapot để không bỏ lỡ các bài viết tiếp theo.

Posted on Leave a comment

Bạn muốn làm dữ liệu? Hãy hiểu đúng về ngành!

Công việc hấp dẫn nhất thế kỷ 21?

Những từ khóa như Công việc Sexy nhất thế kỷ 21, mức lương nghìn đô,… đang thu hút rất nhiều bạn trẻ muốn tham gia vào ngành dữ liệu. Rất nhiều bạn đặt câu hỏi về việc học gì, làm gì để xin được việc trong ngành dữ liệu, và các bạn sẽ ngập tràn trong những câu trả lời về Python, R, về Machine Learning hay AI,…

Nhưng liệu có thật là sau khi học tất cả những thứ đó, bạn có thể bước chân vào ngành? Và đây liệu có phải công việc hấp dẫn nhất như những lời hứa hẹn phía trên?

Ngành dữ liệu – tài chính ngân hàng – marketing?

Nếu để ý kỹ, bạn sẽ thấy sự HOT của ngành dữ liệu hiện nay cũng giống như ngành Tài chính ngân hàng trước kia, hay ngành Marketing trong vài năm gần đây. Đó là thời điểm người người nhà nhà lựa chọn ngành chỉ vì cái tên Hot, vì mức lương hấp dẫn, để rồi lại hoang mang khi không tìm việc.

Và dù rất nhiều người lựa chọn ngành, nhưng khi được hỏi vậy cụ thể tài chính ngân hàng hay Marketing là gì thì lại không thể trả lời được.

Vậy khi lựa chọn ngành dữ liệu, bạn có chắc là mình đang không đi vào “vết xe đổ” này? Mình nghĩ câu hỏi đầu tiên cần cân nhắc, không phải là học gì để vào được ngành, mà phải là “Ngành dữ liệu là gì?”. Bởi vì chỉ khi hiểu về ngành, bạn mới có thể tìm được hướng đi phù hợp cho bản thân.

Muốn làm dữ liệu? Hãy hiểu đúng về ngành!

Series bài viết này định hướng cho các bạn mới vào hoặc dự định gia nhập “Data Industry”, và sẽ tập trung vào việc đưa đến các bạn một góc nhìn tổng quan về ứng dụng dữ liệu trong doanh nghiệp (cần phân biệt rõ với ứng dụng dữ liệu trong môi trường học thuật và nghiên cứu).

Mình sử dụng một số từ tiếng Anh “bồi” vì những từ này phổ biến nhưng dịch sang tiếng Việt sẽ không còn sát nghĩa nữa.

Mục tiêu sử dụng dữ liệu trong doanh nghiệp là gì?

Đã có quá nhiều bài viết nói về các vị trí trong ngành dữ liệu, tuy nhiên, để hiểu rõ bản chất, chúng ta cùng hướng đến mục tiêu của việc sử dụng dữ liệu trong doanh nghiệp. Xét về quan điểm đầu tư, mục tiêu chính của việc ứng dụng dữ liệu trong doanh nghiệp là tối đa lợi nhuận cho doanh nghiệp (Data Monetization). Ứng dụng dễ thấy nhất của dữ liệu trong doanh nghiệp đó là Data-Driven Decision Support.

Chúng ta sẽ đi qua từng bước để thấy rõ hơn quá trình này:

  1. Data capture: Thu thập dữ liệu. 
    1. Mục tiêu: Có được nhiều dữ liệu có giá trị nhất có thể.
    2. Dữ liệu có thể là dữ liệu có trên các hệ thống nội bộ của doanh nghiệp (CRM, ERP, HR…) hoặc claw từ các nguồn dữ liệu bên ngoài: Mạng xã hội, website.
  2. Data quality and Integration: Kiểm soát chất lượng dữ liệu và tích hợp giữa các nguồn dữ liệu.
    1. Mục tiêu: Đảm bảo dữ liệu chính xác, đồng nhất giữa các hệ thống.
    2. Ví dụ: Dữ liệu một tập đoàn có nhiều công ty con, mỗi công ty con có một hệ thống CRM riêng, một khách hàng sẽ có nhiều ID khác nhau trên từng hệ thống. Khi muốn phân tích hành vi khách hàng, bắt buộc phải chuẩn hóa thông tin về khách hàng – mỗi khách hàng có một Unique ID duy nhất và lịch sử mua hàng tương ứng trên tất cả các hệ thống.
  3. Data enrichment:
    1. Mục tiêu: Tạo ra thêm thông tin từ những thông tin đã có.
    2. Ví dụ: Tính toán các chỉ số về khách hàng như tỷ lệ quay lại, tỷ lệ rời bỏ, chi phí tốn để acquire một khách hàng, p&l trên từng khách hàng,  ngành hàng, khu vực…
    3. Chú ý: Machine learning hay AI nằm trong khâu Data Enrichment, chỉ là 1 phần trong quá trình sử dụng dữ liệu trong doanh nghiệp, cũng như không phải tất cả các doanh nghiệp đều cần sử dụng mảng này. Nên nếu lựa chọn học về Machine Learning hay AI bạn cần xác định bạn đang đi vào một nhánh rất hẹp của ngành dữ liệu.
  4. Analytics:
    1. Mục tiêu: Tìm kiếm insight để đưa ra quyết định.
    2. Ví dụ: Thông qua tính toán được CLV (customer lifetime value). Xác định được tập khách hàng tiềm năng để tập trung quảng cáo. 

Ngành dữ liệu và việc nấu ăn

Để các bạn dễ hình dung, chúng ta sẽ so sánh với một quy trình các bạn quen thuộc hơn, đó là dịch vụ ăn uống:

Data Business Food Business
Quy trình Data capture Thu hái, đi chợ mua đồ.
Data quality and Integration Kiểm tra chất lượng, sơ chế.
Data enrichment Tẩm ướp
Analytics Chế biến, phục vụ
Decision making Thưởng thức
Đối tượng, công cụ Dữ liệu thô: table, column, KPI. Nguyên liệu: Thịt cá, rau củ
Nguồn dữ liệu Chợ, siêu thị, vườn nhà
Database Tủ lưu trữ thực phẩm
Làm báo cáo, thực hiện phân tích Thực hiện việc nấu nướng
Báo cáo, Biểu đồ, Đồ thị, Dashboard Thức ăn được phục vụ theo nhiều các khác nhau.
Ứng dụng ETL Dao thớt, nồi niêu, bếp
Ứng dụng reporting Dĩa, đũa, muỗng, bàn ghế
End User – Decision Maker Thực khách

Cũng như trong nhà bếp, ngành dữ liệu cũng sẽ có những đặc thù, vị trí và mức độ chuyên môn hóa khác nhau, quan trọng là End User – người trả lương cho bạn kia ông ấy muốn gì. Chúng ta gọi đó là Business Requiments.

Doanh nghiệp cần gì?

Business Requiments trong Data sẽ có thể cân nhắc những yếu tố chính sau:

  1. Mức độ chính xác: Cần chính xác tuyệt đối như doanh thu, chi phí ghi nhận hay gần đúng dự phóng. Dữ liệu tổng hợp theo ngày hay tuần, tháng.
  2. Cách thức cung cấp: Mỗi ngày gửi một email, có trang web để vào tra cứu, có app trên điện thoại để notification ngay khi có những cập nhật.
  3. Cách thức trình bày: Bảng tính excel thuần số, Power Point, Biểu đồ có thể tương tác được, Báo cáo trên word…
  4. Mức độ sẵn có: Có dữ liệu ngay hay đợi 1-2 ngày để còn tổng hợp. Dữ liệu cập nhật tự động hàng ngày, tổng hợp sau mỗi tháng hay phải cập nhật theo thời gian thực.
  5. Chi phí: Chi phí nhân sự, Hạ tầng, Bản quyền phần mềm, Nhân sự các phòng ban hỗ trợ.

Từ Business Requiments và hiện trạng doanh nghiệp sẽ xác định được mảng dữ liệu sẽ cần những con người với khả năng sử dụng công cụ, kiến thức, kỹ năng khác nhau.

Kết luận

Từ bài viết này, các bạn cần nắm rõ được:

  1. Vai trò của dữ liệu trong doanh nghiệp là gì
  2. Quy trình sử dụng dữ liệu trong doanh nghiệp
  3. Doanh nghiệp cần gì – Business Requirement về dữ liệu

Sau khi đã có cái nhìn tổng quan về ngành, với các bài viết tiếp theo chúng ta sẽ cùng tìm hiểu:

  1. Thực trạng và xu hướng nhu cầu nhân lực có kỹ năng về dữ liệu trong các doanh nghiệp hiện nay.
  2. Các thức tự xây dựng lộ trình và đạt được những kỹ năng cần thiết trong ngành dữ liệu phù hợp với cá nhân bạn.
  3. Một số câu chuyện trong ngành. (Trong chăn mới biết chăn có rận)

Để được trao đổi, hỏi đáp về chuyên môn và cơ hội nghề nghiệp ngành dữ liệu, hãy tham gia Group Data Analytics and Business Intelligence Vietnam.

Theo dõi Livestream Chia sẻ câu chuyện ngành dữ liệu và lắng nghe chia sẻ từ chuyên gia trong ngành.

Theo dõi Fanpage Facebook của Datapot để không bỏ lỡ các bài viết tiếp theo.

Posted on Leave a comment

Tại sao ngày càng có nhiều công việc yêu cầu SQL?

SQL — Structured Query Language đang ngày càng trở nên thông dụng và phổ biến trong các doanh nghiệp. Dễ hiểu mà nói, SQL chỉ đơn giản là sử dụng một số câu lệnh để lấy dữ liệu chứa trong nhiều bảng khác nhau đã tạo.

Nhìn lại quá khứ, Excel cũng đã một thời là một thứ gì đó nghe hoành tráng. Nhiều công ty thời đó còn tuyển dụng các vị trí Excel Specialist nhưng rồi Excel đã dần hòa nhập và trờ thành 1 skill must have không riêng gì ai. Thử tưởng tượng bạn loại bỏ hết Excel ra khỏi các công việc hàng ngày và ngồi tính tay thì bạn sẽ đau đầu thế nào.

Tại sao nói SQL là Excel của tương lai?

Excel có gì, SQL có đó nhưng lại là một phiên bản nâng cấp hơn như kiểu thời bạn dùng điện thoại bàn rồi nâng đời sang smart phone cầm tay đó. SQL vẫn giữ nguyên đc các tính toán, các hàm công thức nhưng hơn nữa bạn có thể tự truy cập các dữ liệu có kích thước lớn hơn chỉ với vài câu lệnh mà không phải đợi hàng giờ ngồi load mấy file Excel nặng nề. Bạn sẽ chẳng cần phải ngồi mốc mỏ đợi 1 ai đó load cho bạn 1 file dữ liệu mà chỉ cần phân quyền cho bạn lấy cái bạn được lấy là xong.

Với các doanh nghiệp, SQL đang dần trở thành 1 skill được yêu cầu trong JD (VD vị trí Customer Support của Facebook cũng yêu cầu kỹ năng sử dụng SQL). Không chỉ riêng của team Data mà các vị trí Marketing, Operation hay kể cả các bạn BA, QA cũng đang hàng ngày ngồi query ầm ầm. Rõ ràng việc chủ động học thêm một thứ mới không chỉ đem lại lợi thế cạnh tranh thời điểm đầu mà còn khiến bạn không bị tụt hậu với sau này.

Nói chung là, SQL không phải thứ gì ghê gớm hay quá Technical, SQL chỉ đơn giản là giúp công việc của bạn trôi nhanh hơn, êm ả hơn và tự chủ hơn mà thôi. Còn chần chừ gì nữa mà không học SQL?

Với kinh nghiệm nhiều năm làm việc và đào tạo trong ngành dự liệu, đội ngũ Datapot nghiên cứu và thiết kế khóa học SQL for Data Analytics Online, mang đến trải nghiệm học SQL dễ dàng và hiệu quả hơn:

  • Học trực tuyến qua Meet – Tương tác trực tiếp với giảng viên .
  • Nội dung học sát thực tiễn, định hướng ứng dụng : Thay vì chỉ dạy các câu lệnh, giảng viên sẽ đưa ra các ví dụ từ chính kinh nghiệm làm việc của mình, giúp học viên hiểu rõ được mục đích của truy vấn. Với Redash, học viên có thể visualize và tạo ra báo cáo ngay sau khóa học .
  • Thực hàn trên Redash – Không cần cài đặt: Loại bỏ quá trình cài đặt phức tạp, học viên có thể tập trung hơn vào nội dung bài học và tư duy thay vì đi sửa lỗi cài đặt.

Tìm hiểu & đăng ký học tại: https://bit.ly/Datapot_SQL_Online

Posted on Leave a comment

Bao nhiêu là đủ để làm việc trong ngành dữ liệu?

Với các bạn bắt đầu vào ngành, khi đặt câu hỏi nên học gì đầu tiên, thì thường sẽ được khuyên học Power BI, SQL, Python hay R,… Và khi đã sử dụng được các chức năng cơ bản của các công cụ, ngôn ngữ lập trình đó, ta thường nghĩ vậy là đủ để đi xin việc rồi.

Tuy nhiên, đây là lúc chúng ta đang ở điểm “I know everything” trong biểu đồ trong ảnh, có sự tự tin nhưng kiến thức trong lĩnh vực mới chỉ ở điểm khởi đầu, rơi vào một hiệu ứng tâm lý phổ biến có tên Dunning Kruger Effect.

👩‍💼 Và đến khi bắt tay vào công việc, sẽ là lúc bị bất ngờ & hoang mang bởi khoảng cách từ biết cách sử dụng đến áp dụng vào giải bài toán của doanh nghiệp là rất xa. Ví dụ như bạn có thể biết các chức năng của Power BI, nhưng yêu cầu của sếp là Phân tích hiệu quả kinh doanh theo nhóm sản phẩm, hoặc theo dõi doanh thu thực tế so với KPI. Bạn lại không biết bắt đầu như thế nào, dùng dữ liệu nào, biểu đồ nào để tạo báo cáo và trả lời câu hỏi của sếp.

❓ Vậy bao nhiêu là đủ để có thể làm việc? Theo đội ngũ giảng viên tại Datapot, những chuyên gia với nhiều năm kinh nghiệm trong ngành, để bắt đầu vào ngành, bạn cần có đủ:

  • Tư duy phân tích (ứng dụng dữ liệu trong doanh nghiệp & ứng dụng dữ liệu để giải quyết vấn đề)
  • Kỹ năng sử dụng các công cụ
  • Kinh nghiệm thực hành với các dự án thực tế từ doanh nghiệp

Đây cũng chính là những điều đội ngũ Datapot muốn trang bị cho các bạn trong các khóa học tại #Datapot. Trong thời điểm mùa dịch, các Video và buổi Livestream về Power BI sẽ là những thông tin bổ trợ, để các bạn bước đầu làm quen với các công cụ.

🚩 Hãy theo dõi Fanpage Datapot để cập nhật lịch khai giảng các khóa học sắp tới & tham khảo các thông tin bổ trợ về ngành dữ liệu bạn nhé!