Posted on Leave a comment

Ví dụ về Tư duy phân tích & ứng dụng dữ liệu để trả lời câu hỏi

Đây là ví dụ tôi thường dùng để giúp mọi người bắt đầu với dữ liệu (với 1 cây bút, giấy và máy tính).

Ví dụ này sẽ không biến bạn trở thành chuyên gia về dữ liệu, tuy nhiên sẽ giúp bạn cảm thấy quen thuộc hơn với dữ liệu cũng thấy được những cơ hội từ việc phân tích dữ liệu.

Chúng ta sẽ bắt đầu với một hiện tượng – trễ giờ họp.

Xác định câu hỏi: Có phải các cuộc họp luôn diễn ra muộn hơn so với thời gian dự kiến. Điều này có đúng không?

Tiếp theo, hãy nghĩ đến các dữ liệu có thể giúp bạn trả lời câu hỏi này cũng như một kế hoạch để tìm ra chúng. Viết ra các định nghĩa và quy trình để thu thập dữ liệu. VD, định nghĩa về thời điểm cuộc họp bắt đầu. Đó là lúc có người nói “Chúng ta bắt đầu họp nào!” ? Và bạn có thể để ý, khi có thêm người mới (đặc biệt là lãnh đạo), cuộc họp gần như sẽ bắt đầu lại từ đầu. Vậy bạn nên chọn mốc thời gian nào?

Tiếp theo bạn có thể bắt đầu việc trình bày. Việc trình bày tốt giúp bạn hiểu rõ dữ liệu cũng như trao đổi, truyền đạt với mọi người dễ dàng hơn. Có nhiều công cụ nhưng trong ví dụ này tôi sẽ vẽ tay. Tôi có một biểu đồ như hình dưới với trục x là thời gian trong ngày (các ngày trong tuần) và trục y là số phút muộn họp. 

Chúng ta hãy trở lại với câu hỏi ban đầu và đưa ra một số nhận xét. Theo biểu đồ, trong vòng 2 tuần, 10% cuộc họp diễn ra đúng giờ, và số phút muộn trung bình là 12 phút. 

Bạn không nên dừng lại ở đây. Hãy tiếp tục đặt câu hỏi: Thì sao? Nếu như 2 tuần này là điển hình, thì tôi lãng phí 1 giờ mỗi tuần, điều này tiêu tốn của công ty 1 số tiền x mỗi năm.

Sự phân tích sẽ kết thúc nếu bạn không đặt thêm các câu hỏi. Nếu như 80% các cuộc họp diễn ra trong khoảng vài phút so với giờ hẹn ban đầu thì chúng ta có thể trả lời câu hỏi ban đầu rằng các cuộc họp diễn ra đúng giờ và dừng việc phân tích.

Nhưng trong trường hợp này, ta có thể phân tích thêm.

Cùng tìm hiểu về phương sai (variation). Theo như biểu đồ thì thời gian muộn từ 8 – 20 phút là điển hình. 1 số cuộc họp diễn ra đúng giờ, 1 số khác lại muộn đến 30 phút. Sẽ là lý tưởng nếu bạn có thể kết luận rằng nếu đi muộn 10 phút thì sẽ đúng lúc cuộc họp bắt đầu, tuy nhiên phương sai ở đây là quá lớn để kết luận như vậy.

Từ dữ liệu chúng ta còn có thể biết thêm gì nữa? Trong 6 cuộc họp diễn ra đúng giờ, nếu tìm hiểu kỹ hơn, có thể thấy 6 cuộc họp này đều do Phó giám đốc về tài chính phụ trách. Từ đây bạn có thể làm gì tiếp?

Ở mức độ cá nhân, để tiết kiệm thời gian, chúng ta có thể học tập phó giám đốc để tìm ra những cách giúp cuộc họp diễn ra đúng giờ.

Ở mức độ công ty, chúng ta chưa rõ kết quả này đã là điển hình hay chưa, liệu các lãnh đạo khác có giúp việc họp diễn ra đúng giờ như Phó giám đốc về tài chính hay không. Từ đó có thể đặt ra một số câu hỏi như: Kết quả có đồng nhất giữa người tổ chức họp hay không, có ngày cụ thể nào trong tuần ảnh hưởng đến việc họp muộn hay không. Hay xa hơn là nên họp qua video call hay họp trực tiếp? Hoặc có mỗi quan hệ giữa cấp bậc của người tổ chức họp và số phút muộn hay không?

Với mỗi hoặc 1 vài câu hỏi như thế này, bạn quay lại bước đầu, thực hiện lại các bước, từ đó tìm ra kết luận. Với dữ liệu, bạn có thể hiểu rõ hơn về hiện tượng trễ giờ họp, từ đó đưa ra một số hướng giải quyết.

Việc sử dụng Tư duy phân tích và phân tích dữ liệu không hề xa lạ, mà nếu được thực hiện hiệu quả, có thể giúp cải thiện hoạt động của tổ chức.

Nguồn: Thomas C. Redman – Havard Business Review Press

Posted on Leave a comment

Bắt đầu học Python như thế nào để ứng dụng trong phân tích dữ liệu?

Là ngôn ngữ lập trình phổ biến nhất trên thế giới, Python thường được giới thiệu đầu tiên cho các bạn muốn theo ngành dữ liệu. Với một rừng tư liệu miễn phí, đầu tư thời gian và nỗ lực học Python có thật sự là lựa chọn lý tưởng?

Bạn có nên học Python hay không? Nên học những gì? Lộ trình như thế nào để phục vụ cho việc theo đuổi ngành dữ liệu? Để trả lời những câu hỏi trên, hãy tham khảo bài viết này nhé!

Ứng dụng của Python trong lĩnh vực Data Science như thế nào?

Ví dụ flow làm việc với Python của một Data Scientist

  1. Sử dụng Python và SQL để truy vấn dữ liệu từ cơ sở dữ liệu của doanh nghiệp.
  2. Sử dụng thư viện pandas của Python để làm sạch dữ liệu, sắp xếp vào các bảng để sẵn sàng cho việc phân tích.
  3. Với các thư viện pandas và matplotlib, chúng ta bắt đầu phân tích, khám phá và visualize.
  4. Sử dụng thư viện scikit-learn để xây dựng các model dự đoán từ dữ liệu sẵn có.
  5. Sắp xếp kết quả phân tích và dự đoán thành với format phù hợp để chia sẻ với các thành viên trong công ty.

Vậy có phải cứ muốn theo đuổi ngành dữ liệu là nên học Python đầu tiên?

Nếu các bạn định hướng trở thành Data Scientist, bạn có thể lựa chọn giữa Python và R. Nhình chung thì Python đang là ngôn ngữ phổ biến hơn (R thường phổ biến trong học thuật và nghiên cứu).

Tuy nhiên, với các bạn định hướng trở thành Data Analyst, BI Analyst, thì như các bạn có thể tìm hiểu trên các tin tuyển dụng, Python sẽ là 1 điểm cộng, chứ không hẳn là công cụ bắt buộc. Nên tùy vào nhu cầu công việc, các bạn có thể lựa chọn học Python hay không.

Học Python như thế nào?

Bước 1: Học các nội dung căn bản về lập trình với Python

Nếu bạn chưa biết code, hoặc chưa sử dụng python bao giờ, bạn sẽ cần bắt đầu từ những khái niệm căn bản nhất như biến, vòng lặp, các câu lệnh cơ bản, logic trong ngôn ngữ lập trình và cách kết hợp chúng như thế nào để thực hiện được 1 tác vụ, giải một bài toán nào đó.

Bước 2: Học về Ứng dụng Python trong phân tích dữ liệu

Các ứng dụng có thể chia làm 4 nhóm chính

  1. Data collecting: Thu thập dữ liệu từ các nguồn khác nhau như file Excel, Database, crawl website,…
  2. Data manipulation: Phần lớn các dữ liệu trong thực tế đều cần xử lý, biến đổi trước khi đưa vào phân tích, nên đây sẽ là kỹ năng bạn cần thành thạo.
  3. Data visualization: Đây sẽ là thử thách cả về lập trình lẫn trình bày, thiết kế (tuy nhiên bạn cũng có thể sử dụng các tool khác chuyên về visualization để hỗ trợ).
  4. Machine Learning: Cần có các kiến thức về thống kê cũng như kinh nghiệm trong lĩnh vực cụ thể để ứng dụng.  

Các thư viện bạn có thể tìm hiểu: NumPy, pandas, Matplotlib, scikit-learn,…

Bước 3: Thực hành với các dự án thực tế

Bạn có thể thấy rằng từ tìm hiểu về tất cả các nội dung trên cho đến có thể thực hành thành thạo và ứng dụng trong công việc không phải là một con đường dễ dàng. Chính vì vậy, các bạn cần xác định rõ mục tiêu, nhu cầu của bản thân và lựa chọn lộ trình học phù hợp để có thể sử dụng Python hiệu quả nhất và không lãng phí thời gian của bản thân.

Với nhiều năm kinh nghiệm làm việc và đào tạo trong ngành dữ liệu, đội ngũ Datapot thiết kế khóa học Python for Data Analytics, tập trung vào ứng dụng Python cơ bản và thiết thực trong phân tích dữ liệu. 

Nguồn tham khảo: Dataquest

Posted on Leave a comment

Business Analyst – Làm sao để đương đầu với những yêu cầu mơ hồ?

Đối với một BA, việc phải giải quyết những vấn đề mơ hồ, không đủ thông tin hoặc tham gia vào các dự án không rõ yêu cầu, không rõ định hướng là một chuyện hết sức quen thuộc. Bản thân stakeholder khi đó có thể chưa thực sự biết mình muốn gì, vấn đề họ gặp phải là gì hay sản phẩm họ cần hình hài sao? Vậy BA cần phải làm gì trong những tình huống này?

Thay vì lao vào nghĩ đủ giải pháp để giải quyết vấn đề stakeholder đưa ra, công việc của BA là đặt câu hỏi và làm rõ yêu cầu, làm rõ vấn đề cần giải quyết để đưa ra được giải pháp tối ưu nhất. Lúc này, kỹ năng khơi gợi yêu cầu thực sự sẽ phát huy sức mạnh nếu BA có thể linh hoạt sử dụng cho từng tình huống. Vậy Khơi gợi yêu cầu liệu có phải chỉ là ngồi phỏng vấn stakeholder hay không?Trên thực tế, Khơi gợi yêu cầu là quá trình thu thập thông tin từ stakeholder để làm rõ nhu cầu của họ từ đó làm tiền đề cho việc đề xuất giải pháp tối ưu. Để thực hiện quá trình này, BA có thể linh hoạt kết hợp nhiều kỹ thuật khác nhau tùy vào từng điều kiện cụ thể của dự án để đạt được mục đích của mình. Các kỹ thuật thường được sử dụng trong quá trình khơi gợi yêu cầu bao gồm:

  • Phỏng vấn
  • Survey
  • Quan sát
  • Phân tích tài liệu
  • Prototyping
  • Brainstorming
  • Workshop

Hầu hết BA đều sẽ quen thuộc với kỹ thuật Phỏng vấn stakeholder để lấy thông tin, tuy nhiên các bạn cần lưu ý việc hỏi “đúng người”, hỏi “đúng trọng tâm” để nhận được “thông tin đầy đủ và đúng” phục vụ cho dự án, tránh làm mất thời gian của cả hai bên.

Sau khi đã làm rõ nhu cầu của stakeholder, không ít bạn vẫn thường gặp rối không biết bắt đầu từ đâu làm gì trước, làm gì sau, không biết như vậy đã đủ yêu cầu chưa, như thế nào thì dự án mình tham gia được đánh giá là hiệu quả?

Hãy dừng nhận việc và lao vào làm như thiêu thân rồi nhận lại những cái lắc đầu của stakeholder do sản phẩm không đạt yêu cầu? Vậy mục tiêu của dự án là gì, bạn cần làm rõ ngay khi bắt đầu vào dự án. Việc xác định rõ mục tiêu của dự án sẽ giống kim chỉ nam giúp bạn vạch ra được các công việc cần làm, xác định được con đường cần đi chứ không phải đi “mò”. Việc xác định rõ mục tiêu từ đầu cũng giúp bạn có thể xác định được các yêu cầu lưu trữ dữ liệu cần thiết phục vụ đo đạc hiệu quả và phân tích hành vi người dùng.

Hiểu được những vấn đề các bạn BA thường gặp phải trong quá trình làm việc, Datapot đã cùng cùng với chị Nhân Cao – một Trading Products Manager với gần 10 năm kinh nghiệm trong lĩnh vực phát triển sản phẩm/ phần mềm, thiết kế khóa học Essential Skills for Data Driven Business Analyst với mong muốn hỗ trợ các bạn cải thiện hiệu suất và hiệu quả công việc, cũng như nâng cao năng lực cạnh tranh của bản thân trong doanh nghiệp.

Posted on Leave a comment

Các loại hình phân tích dữ liệu

Phân tích dữ liệu (Data Analysis) là một quá trình bao gồm: xác định, làm sạch, biến đổi & mô hình hóa, trực quan hóa dữ liệu để khám phá ra những thông tin ý nghĩa và hữu ích. Những thông tin này được thể hiện qua những báo cáo phân tích, từ đó hỗ trợ cho quá trình ra quyết định.

Hoạt động phân tích dữ liệu có thể phân loại như sau

  • Descriptive (Mô tả)
  • Diagnostic
  • Predictive (Dự đoán)
  • Prescriptive
  • Cognitive

Descriptive analytics

Descriptive analytics (Phân tích mô tả) giúp trả lời các câu hỏi về điều gì đã xảy ra dựa trên các dữ liệu quá khứ. Các kỹ thuật phân tích mô tả sẽ tổng hợp lượng dữ liệu lớn và từ đó đưa ra kết quả.

Với việc phát triển các chỉ tiêu đo lường hiệu quả (KPI), việc theo theo dõi thành công hay thất bại của các mục tiêu sẽ trở nên dễ dàng hơn. Chỉ tiêu như ROI (return on investment) được sử dụng trong rất nhiều lĩnh vực. Và ở mỗi lĩnh vực, lại có những chỉ tiêu chuyên môn riêng được phát triển để đo lường hiệu quả.

Một ví dụ của phân tích mô tả là chính là các báo cáo theo dõi kết quả hoạt động bán hàng hoặc tình hình tài chính của doanh nghiệp.

Diagnostic analytics

Phân tích chuẩn đoán giúp trả lời câu hỏi tại sao tình trạng này lại diễn ra. Phân tích chuẩn đoán bao gồm các phân tích mô tả cơ bản, sử dụng những kết quả của phân tích mô tả để từ đó tìm ra nguyên nhân của các sự kiện. Từ đó, những chỉ số đo lường hiệu quả được phân tích kỹ hơn. Quá trình này thường bao gồm 3 bước:

  1. Tìm ra những điểm bất thường trong dữ liệu. Những điểm này thường là một biến đổi không lường trước được ở một chỉ số hoặc một thị trường nào đó.
  2. Thu thập các dữ liệu liên quan đến những điểm bất thường này.
  3. Sử dụng các kỹ thuật thống kê để tìm ra mối quan hệ và xu hướng giúp giải thích những điểm bất thường này.

Predictive analytics

Phân tích dự đoán giúp trả lời các câu hỏi về điều gì sẽ xảy ra trong tương lai. Phân tích dự đoán sử dụng các dữ liệu quá khứ để xác định các xu hướng cũng như khả năng xảy ra của xu hướng đó. Những công cụ phân tích dự đoán cung cấp những thông tin giá trị về tình hình tương lai. Các kỹ thuật phân tích dự đoán đa dạng bao gồm cả các kỹ thuật thống kê lẫn học máy (machine learning) như neural networks, decision trees và hồi quy (regression).

Prescriptive analytics

Phân tích đề xuất giúp trả lời các câu hỏi về hành động nào nên được thực hiện để đặt được một mục tiêu nhất định. Bằng cách sử dụng các kết quả từ phân tích đề xuất, các tổ chức có thể ra quyết định dựa trên dữ liệu. Phương pháp này giúp các tổ chức đưa ra các quyết định trong các hoàn cảnh không chắc chắn. Phân tích đề xuất dựa trên học máy (machine learning) để tìm ra các pattern trong các dataset lớn. Bằng cách phân tích các quyết định & sự kiện trong quá khứ, các tổ chức có thể ước lượng xác suất xảy ra của các kết quả.

Cognitive analytics

Cognitive analytics diễn giải từ các dữ liệu và các pattern đã có, đưa ra các kết luận dựa trên kiến thức hiện tại, sau đó lại thêm những kết quả này vào vốn kiến thức hiện tại để tiếp tục đưa ra các diễn giải về tương lai, tạo ra một vòng lặp tự học hỏi. Cognitive analytics giúp bạn tìm hiểu điều gì sẽ xảy ra nếu tình hình thay đổi và quyết định bạn nên giải quyết các tình huống đó như thế nào.
Các diễn giải không phải là những truy vấn có cấu trúc trên những dữ liệu quy chuẩn, thay vào đó, là những dự đoán không có cấu trúc được thu thập từ nhiều nguồn với độ tin cậy thay đổi. Cognitive analytics hiệu quả phụ thuộc vào các thuật toán học máy, và sẽ sử dụng các concept về xử lý ngôn ngữ tự nhiên để phân tích các nguồn dữ liệu chưa được dùng tới, ví dụ như nhật ký cuộc gọi bán hàng hay review sản phẩm.

Các nội dung trên được Microsoft cung cấp cho các ứng viên tham gia thi chứng chỉ Data Analyst Associate. Đây là chứng chỉ role-based của Microsoft, nhằm đánh giá các kỹ năng của Data Analyst, ứng dụng công cụ BI là Power BI.

Theo dõi các bài viết tiếp theo, trao đổi kinh nghiệm & tài liệu luyện chi chứng chỉ của Microsoft cho Data Analyst tại group Microsoft Certified: Data Analyst Associate Việt Nam (DA-100).

Posted on Leave a comment

Tìm hiểu về Career Path của một Bussiness Analyst

Hầu hết các vị trí trong ngành IT có mô tả công việc và career path rất rõ ràng, cụ thể. Thế nhưng career path của vị trí Business Analyst lại luôn thay đổi, thậm chí khác nhau trong từng bản mô tả công việc (Job Description).

David Foote, chủ tịch của Foote Partners LLC, một công ty về IT ở New Canaan, Connecticut, chia sẻ về career path của một Business Analyst. Ông nói, có những người có career path phức tạp đi tới đi lui giữa IT với kinh doanh: bắt đầu với tư cách là một BA, chuyển sang làm quản lý dự án, rồi trở thành IT Manager, Innovation Manager… rồi sang làm quản lý quy trình & giám đốc quy trình, để cuối cùng trở về làm quản lý một mảng kinh doanh IT.

Business Analyst làm gì?

Business Analyst thế kỷ 21 có rất nhiều phẩm chất. Với tư cách là người hòa giải, người điều hành, người kết nối và nhà đại sứ –  Business Analyst phải biết phối hợp những yêu cầu kinh doanh với nguồn lực IT.

Các BA thành công thường là những người có khả năng diễn đạt rõ ràng, hướng dẫn một cách trơn tru, phân tích chính xác và là người giỏi làm việc nhóm. Thêm vào đó, một BA lý tưởng có sự am hiểu các chức năng kinh doanh khác nhau, như vận hành, tài chính, kỹ thuật, công nghệ,…. Jay Michael, một BA tại Colfax, đồng tình rằng vai trò của BA ở nhiều công ty rất mờ nhạt. Anh ấy nói: “tôi thường mô tả những gì BA làm bằng cách nói với mọi người rằng tôi là cầu nối giữa các đối tượng kinh doanh bao gồm từ người dùng cuối đến việc thực hiện chức năng của các giải pháp kỹ thuật. Nhưng khi tôi nói điều đó vơi họ, họ thường nhìn tôi kiểu: ‘OK, vậy bạn thực sự làm nghề gì?’”

Công việc của BA

Khi bạn tìm hiểu career path của BA, bạn sẽ cần học rất nhiều những kỹ năng . Từ việc trở thành một người giao tiếp và phân tích dữ liệu tốt đến sở hữu các kỹ năng quản lý dự án và kỹ năng phân tích kỹ thuật, các BA thường xuyên sử dụng nhiều kỹ năng khác nhau. Họ là cầu nối lấp đầy khoảng trống giữa các bộ phận. Những phẩm chất tạo nên vai trò của một BA hiện đại là:

  • BA làm việc với doanh nghiệp để xác định các cơ hội cải tiến trong hoạt động và quy trình kinh doanh
  • BA có liên quan đến việc thiết kế hoặc sửa đổi hệ thống kinh doanh hoặc hệ thống IT
  • BA tương tác với các bên liên quan kinh doanh và các chuyên gia để hiểu vấn đề và nhu cầu của họ
  • BA tập hợp, soạn thảo tài liệu và phân tích nhu cầu và yêu cầu kinh doanh
  • BA giải quyết các vấn đề kinh doanh và, khi cần thiết, thiết kế các giải pháp kỹ thuật
  • BA ghi lại chức năng và đôi khi, thiết kế kỹ thuật của hệ thống
  • BA tương tác với người thiết kế và phát triển hệ thống để đảm bảo hệ thống được triển khai đúng cách
  • BA có thể giúp kiểm tra hệ thống và tạo tài liệu hệ thống và hướng dẫn sử dụng

Bắt đầu sự nghiệp của bạn như là một BA

Các BA mới bắt đầu cần phải có hoặc background về kinh doanh hoặc kiến ​​thức về IT. Cùng với đó, khi bắt đầu trở thành BA, trách nhiệm công việc của bạn bao gồm thu thập, phân tích, giao tiếp và ghi lại các yêu cầu, kiểm tra người dùng, v.v. Khi mới vào nghề, các công việc có thể bao gồm chuyên gia về một ngành/lĩnh vực, developer và/hoặc đảm bảo chất lượng (QA). Trong một vài năm, bạn có thể chọn trở thành Subject Matter Expert (SME). Đây là thời gian để đi sâu vào các lĩnh vực mà bạn quan tâm nhất và phát triển những lĩnh vực có thể giúp bạn thăng tiến lên các vị trí quản lý cao hơn.

Thăng tiến

Khi bạn có nhiều năm kinh nghiệm trong ngành, bạn sẽ đạt được bước ngoặt quan trọng, lúc đó bạn có thể chọn bước tiếp theo trong sự nghiệp BA của mình. Sau ba đến năm năm, bạn có thể được chỉ định để chuyển sang các vai trò như IT business analyst, senior/lead business analyst or product manager. Bạn càng có nhiều kinh nghiệm làm BA, bạn càng có nhiều khả năng được giao các dự án lớn hơn và/hoặc phức tạp hơn. Sau 8 đến 10 năm ở các vị trí BA khác nhau, bạn có thể thăng tiến lên giám đốc công nghệ hoặc làm tư vấn. Bạn có thể đi theo con đường sự nghiệp BA theo như bạn muốn, thăng tiến theo kỹ năng quản lý, chuyên môn và kỳ vọng của bản thân.

Trải nghiệm công việc của một Business Analyst cùng Datapot

Datapot cùng với chị Nhân Cao – một Trading Products Manager với gần 10 năm kinh nghiệm trong lĩnh vực phát triển sản phẩm/ phần mềm và cải thiện quy trình, thiết kế một khóa học dành riêng cho các bạn muốn tìm hiểu, trải nghiệm và trở thành một Business Analyst.

Khóa học Data for Business Analyst bao gồm các nội dung:

  • Tổng quan về công việc của một Business Analyst, định hướng phát triển nghề nghiệp.
  • Các kỹ năng nghiệp vụ của Business Analyst: Thiết lập mục tiêu dự án, A/B Testing,…
  • Tạo lợi thế cạnh tranh với việc Ứng dụng Dữ liệu vào công việc của BA: Thiết kế cơ sở dữ liệu định hướng kinh doanh, Ứng dụng dữ liệu vào A/B Testing
  • Thực hành với bài tập lớn và bài tập nhóm.

Khóa học sẽ là trải nghiệm toàn diện cho các bạn đang thắc mắc mình có phù hợp với nghề BA, và cũng là nền tảng vững chắc nếu bạn muốn theo đuổi công việc này.

https://home.datapot.vn/product/data-for-ba/
Posted on Leave a comment

Bắt đầu trong ngành dữ liệu với chứng chỉ nào? So sánh 3 chứng chỉ dành cho Data Analyst, BI Analyst

Triển vọng của lĩnh vực BI tại Việt Nam

Trong kỷ nguyên của dữ liệu, khi vai trò của dữ liệu với thành công của doanh nghiệp ngày càng lớn, lĩnh vực Business Intelligence ngày càng phát triển. Với một chiến lược và một team BI tốt, doanh nghiệp có thể thực hiện các phân tích cần thiết hỗ trợ cho các quyết định kinh doanh dựa trên dữ liệu.

Báo cáo trong Glassdoor và PayScale cho thấy, nếu bạn mới vào nghề (có 1- 2 năm kinh nghiệm), bạn có thể tính vào mức lương trung bình 66.000 đô la. Khi bạn đã đạt được một vài năm kinh nghiệm và bạn đã mài giũa kỹ năng thuyết phục của mình, mức lương trung bình hàng năm của bạn có thể đạt 79.000 đô la.

Tại Việt Nam, dù chưa có số liệu thống kê chính thức, nhưng nếu xem qua các tin tuyển dụng, bạn có thể thấy mức lương của BI Analyst dưới 2 năm kinh nghiệm ở Việt Nam dao động trong khoảng 10 – 25 triệu/ tháng.

Lĩnh vực có nhu cầu cao về BI Analyst hiện nay là Ngân hàng, bán lẻ, tài chính, thương mại điện tử,.. vì có lượng khách hàng phổ thông lớn, lượng dữ liệu nhiều.

Thi chứng chỉ tạo lợi thế cạnh tranh cho bạn trong ngành dữ liệu như thế nào?

Kiến thức, kỹ năng là những thứ khó có thể đo lường, xác định rõ ràng, với cả ứng viên và nhà tuyển dụng. Chính vì vậy, với mọi ngành nghề, lĩnh vực, sẽ đều có những chứng chỉ, bài thi như một thang đo để đánh giá năng lực. Ví dụ như CFA với ngành tài chính, MOS cho tin học văn phòng hay IELTS/ TOEFL cho tiếng Anh.

Với ngành dữ liệu – cụ thể là lĩnh vực Data Analytics, Business Intelligence, việc học và thi chứng chỉ chưa thực sự phổ biến tại Việt Nam. Tuy nhiên việc thi chứng chỉ mang lại 3 lợi ích rõ ràng như sau:

1. Có mục tiêu học tập và lộ trình ôn luyện rõ ràng. Không bị lan man.

2. Được xác nhận trên một mức level cụ thể của một kĩ năng (không chỉ với người khác mà với chính bản thân bạn, vì khi biết rõ level của bạn thân bạn sẽ biết mình cần phát huy gì, cần cải thiện gì).

3. Là 1 cách để đảm bảo, chứng minh khả năng của bản thân với nhà tuyển dụng, nhất là với các bạn sinh viên, fresher, người chuyển ngành muốn theo đuổi mảng dữ liệu nghiêm túc nhưng chưa có kinh nghiệm làm việc.

So sánh 3 chứng chỉ dành cho BI Analyst, Data Analyst

Với 3 công cụ BI phổ biến nhất hiện nay là Power BI, Tableau và Qlik, chúng ta có 3 chứng chỉ tương ứng như sau:

Bắt đầu với chứng chỉ nào?

Với các bạn đã đi làm, các bạn có thể lựa chọn chứng chỉ dựa theo công cụ công ty bạn đang làm  (hoặc muốn làm ) sử dụng. Tuy nhiên, với những bạn mới ra trường hay chưa xác định được công ty, thi chứng chỉ Data Analyst Associate là lựa chọn hợp lý hơn vì 3 lý do sau:

1, Được cấp bởi Microsoft  & Sự phổ biến của Power BI

Với sự phổ biến của các công cụ Microsoft Office tại Việt Nam như Excel, PowerPoint,… Power BI cũng là công cụ được ưu tiên lựa chọn bởi các doanh nghiệp Việt Nam, vì có cùng hệ sinh thái cũng như có những điểm vượt trội nhất định. Chính vì vậy, với DAA thì bạn sẽ có nhiều cơ hội về công việc hơn cũng như tạo một sự tin tưởng cho nhà tuyển dụng.

2. Chứng chỉ Role-Based thay vì Tech-based

Khác với 2 chứng chỉ của Qlik và Tableau tập trung vào khả năng sử dụng công cụ (cụ thể bạn có thể xem ở website của 2 chứng chỉ này), DAA tập trung vào các kỹ năng cần thiết để trở thành một Data Analyst (và việc sử dụng Power BI để thực hành các kỹ năng này). Dưới đây là list các kỹ năng bạn sẽ cần học và ôn luyện cho chứng chỉ DAA:

  • Prepare the data
  • Model the data
  • Visualize the data
  • Analyze the data
  • Deploy and maintain deliverable

3. Tiết kiệm chi phí và thời gian học.

Tìm hiểu thêm về DAA tại: https://docs.microsoft.com/en-us/learn/certifications/data-analyst-associate#certification-exam-disclaimers

Tìm hiểu về khóa học Luyện thi chứng chỉ DAA tại Việt Nam tại:

Posted on Leave a comment

Các loại câu lệnh SQL

Mọi người đa phần đều đã thao tác với các câu lệnh SQL tuy nhiên ít ai để ý đến việc phân loại các câu lệnh này. Trong bài viết này Datapot sẽ phân loại và giới thiệu mục đích sử dụng của các loại câu lệnh phổ biến trong SQL. Save bài viết này để khi gặp môt yêu cầu nào đó mà không biết dùng loại câu lệnh nào, bạn có thể tra cứu lại nhé!

Image may contain: text
No photo description available.
No photo description available.
Image may contain: text
Image may contain: text
Image may contain: text
Image may contain: text

Ngoài ra, để được hướng dẫn chi tiết hơn về cách ứng dụng SQL trong Phân tích dữ liệu & trong môi trường doanh nghiệp, tham khảo khóa học SQL Redash for Data Analytics Online (Khai giảng 3/6) tại Datapot nhé!

Posted on Leave a comment

Lời chào tạm biệt Big Data?

Trước đây, khi học Thạc sĩ về Data Science, các topic về Big Data luôn khiến tôi hào hứng. Tôi muốn tìm hiểu về 3Vs, muốn phân tích các dòng dữ liệu, mô hình hóa, trực quan hóa, biến đổi,… Đến bây giờ, khi ai đó nhắc đến Big Data, tôi nghĩ ngay đến một đống Buzzwords và những kỳ vọng mơ hồ.  

“Buzzword” is “a word or expression from a particular subject area that has become fashionable by being used a lot, especially on television and in the newspapers”.

“Buzzword” là “những từ, cụm từ có tính chuyên ngành nhưng được sử dụng rộng rãi theo cách thời thượng, xu hướng, đặc biệt là bởi giới truyền thông”.

Cambridge Dictionary

Có phải Big Data đã mất đi sức hấp dẫn? Hay do tôi trở nên ngày càng hoài nghi?

Khoảng cách giữa Buzzword và Thực tế

Tôi trở nên khá dị ứng với các “buzzword”. Chúng thường được thổi phồng quá mức so với ý nghĩa thực tế. Một ví dụ là bạn sẽ thấy một câu quen thuộc như thế này: Big Data mang đến những đột phá trong kỷ nguyên digital. Nghe rất hứa hẹn tuy nhiên trong thực tế chúng ta vẫn đang vẫn đang mắc kẹt với những sheet Excel.

Big Data khiến mọi người háo hứng bởi ý tưởng về kho báu, hay nguồn tài nguyên khổng lồ mà chúng ta có thể tận dụng. Ấn tượng của tôi ban đầu cũng như vậy, rằng trong lượng dữ liệu khổng lồ đó, chắc chắn phải có gì đó giá trị. Điều này là có thể, tuy nhiên với mức chi phí là bao nhiêu?

Không thể sử dụng Big Data nếu không có cơ sở hạ tầng phù hợp

Làm việc với lượng dữ liệu khổng lồ yêu cầu những công nghệ nhất định, cách lưu trữ và các công cụ phù hợp để chuyển đổi dữ liệu. “Nút cổ chai” xảy ra thường xuyên hơn bạn nghĩ, khi công nghệ phát triển và dễ tiếp cận với các nền tảng điện toán đám mây, việc sử dụng và duy trì các các nền tảng này cũng tốn một chi phí rất lớn. Đây cũng là một trong những bài học thế kỷ về dữ liệu:

Khi dữ liệu trở nên quý như vàng đối với một số người, thì nó lại làm lãng phí nơi lưu trữ với một số người khác.

Các công ty lưu trữ dữ liệu và trả chi phí lưu trữ, sau đó mới biết được dữ liệu có hữu dụng hay không. Vậy tại sao không quyết định dữ lữu nào sẽ hữu dụng trước sau đó mới lưu trữ?

Big Data không phải lúc nào cũng là “Interesting Data”

“Garbage in, garbage out” (Đầu vào kém thì đầu ra cũng kém) là một trong những câu nói quan trọng nhất trong lĩnh vực Khoa học dữ liệu.  Và rất nhiều dữ liệu được coi là “Big Data” nằm trong nhóm này, nghĩa là đó là những dữ liệu không đáng tin cậy,  chưa được xử lý và cần tốn rất nhiều công sức mới có thể sử dụng được. Đôi khi, lượng thông tin rất nhỏ rút ra được từ lượng dữ liệu cực lớn đó không đáng với thời gian, công sức và tiền bạc bỏ ra.

Theo báo cáo của Forrester, ít nhất 60% lượng dữ liệu của các tập đoàn không được sử dụng đến.

Tại sao không sử dụng chi phí lưu trữ những dữ liệu này để đầu tư vào cơ sở hạ tầng cho những dữ liệu thật sự hữu dụng?

Thời mà chúng ta tìm càng nhiều dữ liệu càng tốt cho AI đã qua. Mọi người phải nhận ra rằng, không phải tất cả các đặc điểm đều hữu ích (thậm chí còn gây hại) và chất lượng của dữ liệu quan trọng hơn là số lượng. Chúng ta cần những dữ liệu đo lường những thông tin có giá trị, một cách nhất quán và đáng tin cậy.  Bằng cách kiểm soát chất lượng của dữ liệu, chúng ta cũng đảm bảo một thời kỳ mà AI trở nên an toàn hơn.

Kỷ nguyên của việc triển khai và cơ sở hạ tầng tốt hơn.

Một khi đã có dữ liệu, chúng ta cần cơ sở hạ tầng để có thể sử dụng an toàn, chia sẻ, phân tích và tạo ra sự khác biệt giữa những dữ liệu vô dụng và những thông tin có giá trị. Chúng ta cũng cần phải xác định rằng AI là dành cho cả thế giới cùng sử dụng và hiểu được bằng cách đảm bảo cả chất lượng và độ tin cậy. Cần có nhiều người hiểu được rằn dữ liệu (như rất nhiều thứ khác) không nhất thiết phải lớn, tuy nhiên cần phải đáng tin cậy.

Tạm biệt Big Data, chào đón Reliable Data!

Nguồn: https://towardsdatascience.com/bye-bye-big-data-fbea187c7739

Posted on Leave a comment

Hãy chọn Chart đúng (Phần 2)

Tiếp nối bài viết tuần vừa rồi, tuần này mình sẽ chia sẻ về 1 ví dụ thực hành để có được 1 line chart best practice. Chúng ta đều hiểu rằng sự lộn xộn trong thể hiện thông tin có thể khiến cho thông điệp hay insight quan trọng của biểu đồ không được truyền tải đầy đủ. Do đó điều quan trọng là làm thế nào để nhận ra và loại bỏ các yếu tố gây nhiễu ra khỏi biểu đồ của chúng ta, hãy xem một ví dụ thực tế và kiểm tra xem quá trình xác định và loại bỏ lộn xộn cải thiện thị giác của chúng ta như thế nào nhé.

Kịch bản

No photo description available.
Đây chính là biểu đồ đầu tiên khi chúng ta chưa tối ưu, hãy cùng theo dõi quá trình lột xác của em nó nhé!

Hãy tưởng tượng rằng bạn quản lý một nhóm công nghệ thông tin (CNTT). Nhóm của bạn nhận được ticket (yêu cầu) về các vấn đề kỹ thuật từ nhân viên trong công ty. Trong năm vừa qua, bạn đã có một vài người rời đi và bạn quyết định không bổ sung nhân sự thay thế họ vào thời điểm này. Bạn đã nghe những phàn nàn các nhân viên còn lại về việc phải bổ sung nhân lực để giải quyết sự quá tải công việc do các nhân sự đã rời đi để lại. Bạn cũng vừa được hỏi về nhu cầu tuyển dụng của bạn trong năm tới và đang tự hỏi liệu bạn có nên thuê thêm một vài người nữa không. Đầu tiên, bạn muốn hiểu những gì ảnh hưởng đến sự ra đi của cá nhân trong năm qua đã ảnh hưởng đến năng suất chung của nhóm của bạn. Bạn vẽ xu hướng hàng tháng của những tickets gửi đến team và những tickets đã được xử lý trong năm dương lịch vừa qua. Bạn thấy rằng có một số bằng chứng cho thấy năng suất của nhóm bạn đang bị suy giảm do thiếu hụt nhân viên và giờ muốn nhanh chóng có 1 biểu đồ tổng hợp tình hình để làm cơ sở cho yêu cầu tuyển dụng của bạn.

Bước 1. Xóa đường viền biểu đồ

Đường viền biểu đồ thường không cần thiết theo những nguyên tắc nhận thức thị giác của Gestalt (Gestalt Principles of Visual Perception). Thay vào đó, hãy suy nghĩ về việc sử dụng khoảng trắng để phân biệt hình ảnh với các yếu tố khác trên trang khi cần.

No photo description available.

Bước 2. Xóa đường lưới

Nếu bạn nghĩ rằng người xem báo cáo của bạn có thể dùng đường lưới để xác định giá trị tương ứng trên trục hiệu quả hơn, bạn có thể sử dụng nó. Nhưng hãy làm cho chúng mỏng đi và sử dụng một màu sáng như màu xám. Đừng để những đường lưới nổi bật làm ảnh hưởng đến dữ liệu của bạn. Khi bạn có thể, hãy loại bỏ chúng hoàn toàn: điều này cho phép độ tương phản cao hơn và dữ liệu của bạn sẽ nổi bật hơn.

No photo description available.

Bước 3. Loại bỏ những ký hiệu đánh dấu dữ liệu

Hãy nhớ rằng, mỗi yếu tố thêm vào biểu đồ sẽ gia tăng lượng thông tin phải xử lý từ người xem biểu đồ của bạn. Việc sử dụng ký hiệu đánh dấu dữ liệu nên được sử dụng cho mục đích nào đó (chẳng hạn như muốn nhấn mạnh) thay vì mặc định chúng sẽ hiển thị trên đồ thị của bạn.

No photo description available.

Bước 4. Làm sạch nhãn trục

Có một sự thật rằng số 0 sau dấu phẩy trên các trục bản thân chúng không mang lại giá trị thông tin, và làm cho các con số phức tạp hơn so với thực tế! Loại bỏ chúng, giảm gánh nặng không cần thiết của chúng đối với lượng thông tin cần tiếp nhận của người đọc báo cáo. Ngoài ra, chúng ta cũng cần căn chỉnh các giá trị tháng trong năm nằm song song với chiều ngang trên trục x (cần tránh việc các giá trị hiển thị theo đường chéo)

No photo description available.

Bước 5. Dán nhãn dữ liệu trực tiếp

Bây giờ chúng tôi đã loại bỏ phần lớn những yếu tố không cần thiết làm gia tăng lượng thông tin cần tiếp nhận trên biểu đồ, chúng ta sẽ phân loại các đường có trong biểu đồ để dữ liệu rõ ràng hơn nữa. Hãy nhớ rằng, chúng ta chỉ đưa ra những thứ thực sự truyền tài thông tin hữu ích và cần thiết cho người đọc báo cáo và hoàn toàn có thể thực hiện công việc đó theo ý đồ chúng ta. Trong trường hợp này, chúng ta có thể sử dụng nguyên tắc gần của Gestalt và đặt nhãn dữ liệu ngay bên cạnh dữ liệu mà chúng mô tả.

Image may contain: text

Bước 6. Tận dụng màu sắc nhất quán

Ngoài nguyên tắc gần gũi của Gestalt trong bước trước, chúng ta cũng nghĩ về việc tận dụng nguyên tắc tương tự Gestalt và làm cho các nhãn dữ liệu có màu giống như dữ liệu mà chúng mô tả. Đây là một gợi ý trực quan khác cho khán giả của chúng tôi rằng, hai phần thông tin này có liên quan với nhau.

No photo description available.

Đây vẫn chưa phải phiên bản tốt nhất có thể. Tuy nhiên, việc xác định và loại bỏ sự lộn xộn đã giúp chúng ta đi một bước dài về mặt giảm tải nhận thức và cải thiện khả năng tiếp cận thông tin của người đọc. Hãy nhìn vào trước và ‐ sau khi hiển thị trong dưới đây.

No photo description available.

Thậm chí có thể tốt hơn nữa 

Image may contain: text

Tóm lại, bất cứ khi nào bạn đưa thông tin ra trước người đọc báo cáo của mình, bạn sẽ tạo ra tải nhận thức và yêu cầu họ sử dụng sức mạnh não bộ của họ để tiếp nhận thông tin đó. Sự lộn xộn thị giác tạo ra sự quá tải nhận thức qua đó cản trở việc truyền thông điệp của chúng ta. Những nguyên tắc Gestalt về nhận thức thị giác có thể giúp bạn hiểu cách thị giác của bạn tiếp nhận thông tin và cho phép bạn xác định và loại bỏ các yếu tố hình ảnh không cần thiết. Tận dụng sự liên kết của các yếu tố và duy trì khoảng trắng để giúp việc diễn giải hình ảnh của bạn trở thành trải nghiệm thoải mái hơn cho khán giả của bạn. Sử dụng tương phản một cách chiến lược. Sự lộn xộn là kẻ thù của bạn: hãy loại nó ra khỏi các biểu đồ của bạn!

Phần 1 của bài viết: https://home.datapot.vn/2020/04/15/hay-chon-chart-dung-phan-1/

Để được trao đổi, hỏi đáp về chuyên môn và cơ hội nghề nghiệp ngành dữ liệu, hãy tham gia Group Data Analytics and Business Intelligence Vietnam.

Theo dõi Fanpage Facebook của Datapot để không bỏ lỡ các bài viết tiếp theo.

Nhấn Going để không bỏ lỡ Event Livestream 5: Ứng dụng Slicers và Filters trong Power BI.

Posted on Leave a comment

T – Shape Model và câu chuyện học về ngành dữ liệu

T model of knowledge là gì?

Khi đọc những thông tin tuyển dụng hiện nay, bạn sẽ thấy ứng viên lý tưởng mà các công ty tìm kiếm thường là người có chuyên môn đủ sâu ở 1 mảng, nhưng cũng có kiến thức đủ rộng để bao quát công việc, có thể áp dụng linh hoạt ở nhiều mảng khác nhau.

T-model hay T-shaped skills là mô hình mô tả mức độ chuyên sâu về một kĩ năng cụ thể (Deep Expertise) và kiến thức nền tảng rộng ở nhiều mảng khác nhau (Wide Knowledge Base) của một người.

Các kiến thức và kĩ năng có thể thay đổi phụ thuộc vào đặc thù công việc. Tuy nhiên, có kiến thức nền tảng rộng và ít nhất một chuyên môn sâu là điều bắt buộc. Ở dưới là một skills set gợi ý cho một BI Analyst.

Wide Knowledge BaseChiều rộng

Dựa trên kinh nghiệm làm việc, mình gợi ý những kiến thức nền tảng cần cho một BI Analyst (Chuyên viên Phân tích kinh doanh) như sau: Kiến thức về toán (Xác suất & Thống kê), Lập trình, Truy vấn và làm sạch dữ liệu, Trực quan hóa dữ liệu, Giao tiếp & Thuyết trình, Kiến thức về lĩnh vực (Ví dụ như tài chính, logistic, marketing,…), Làm việc nhóm và Quản lí công việc.

Và điều quan trọng không đơn giản chỉ là học, tích lũy những phần kiến thức đó, mà còn là ứng dụng vào công việc như thế nào. Ví dụ như với kiến thức về trực quan hóa dữ liệu, bạn cần phải áp dụng được để tạo ra các dashboard hay báo cáo.

Deep Expertise – Chiều sâu

Bên cạnh phát triển chiều rộng, bạn cũng cần lựa chọn một mảng công việc để phát triển chuyên môn sâu hơn, tạo ra lợi thế cạnh tranh cho công việc cho mình. Và theo ví dụ dưới đây, thì mảng được lựa chọn là Data Visualization, kỹ năng làm báo cáo. Tuy nhiên, với mục tiêu, khả năng cũng như đặc thù công việc của mỗi người, thì sẽ có những sự lựa chọn khác nhau.

Đây chính là mô hình các bạn có thể tham khảo khi muốn gia nhập vào ngành dữ liệu, tuy nhiên nên học gì trước, học gì sau? Và nên lựa chọn Deep Expertise như thế nào?

Áp dụng T model vào việc học về ngành dữ liệu

Đầu tiên, hãy xác định rõ xuất phát điểm của mình, bạn đang có Base Knowledge hoặc Deep Expertise ở mảng nào, hoặc gần nhất với mảng nào.

Hãy coi Data Analystics như một kĩ năng, có nhiều trình độ khác nhau, nhiều môi trường khác nhau. Cũng giống như nấu ăn, tiêu chuẩn nấu ăn của một bà mẹ nấu ăn trong gia đình khác với một đầu bếp nhà hàng chuyên nghiệp. Mình thấy rất nhiều bạn đang làm từ rủi ro, tài chính, kế hoạch, kế toán… (đã có domain knowledge) đang chuyển hướng dần sang Data Analytics và biến Data Analytics trở thành kĩ năng chính. Giống như khi các công cụ dần trở nên phổ biến và dễ tiếp cận, một bà mẹ với đầy đủ công cụ và lợi thế hiểu rõ sở thích của từng thành viên trong gia đình hoàn toàn có thể làm bữa ăn ngon miệng hơn nhà hàng.

Chính vì vậy, sau khi xác định rõ xuất phát điểm, hãy xác đinh mục tiêu của mình theo 2 trường hợp sau:

A. Muốn có kĩ năng phân tích dữ liệu phục vụ cho công việc hiện tại

Bạn hãy tập trung vào những kĩ năng cải thiện công việc hiện tại. VD: Học SQL để lấy dữ liệu trực tiếp từ CSDL thay vì phải nhờ Dev hay IT, Power Query để tổng hợp dữ liệu tự động, lập trình để tự động hóa công việc. Dùng Power BI để tự động hóa hệ thống báo cáo về bán hàng, marketing,.

B. Bạn muốn chuyển ngành hay bắt đầu công việc như một Data Analyst:

Thay vì bắt đầu vào học ngay, bạn cần tìm hiểu về ngành sau đó xây dựng lộ trình phù hợp để có được những kiến thức nền mong muốn và xác định chuyên môn sâu để theo đuổi sau này.

Không lộ trình học nào là hoàn hảo, mà sẽ tùy vào mục tiêu, khả năng, kinh nghiệm hiện tại của mỗi người. Tuy nhiên, với ngành dữ liệu, cụ thể là vị trí BI hay Data Analyst trong doanh nghiệp, sẽ có những mảng kiến thức có thể nhanh chóng áp dụng vào công việc cho người mới bắt đầu. Đấy là những mảng bạn có thể cân nhắc học trước, cụ thể thì Datapot sẽ chia sẻ trong bài viết sắp tới.

Theo dõi Fanpage Facebook của Datapot để không bỏ lỡ các bài viết tiếp theo.

Để được trao đổi, hỏi đáp về chuyên môn và cơ hội nghề nghiệp ngành dữ liệu, hãy tham gia Group Data Analytics and Business Intelligence Vietnam.