Posted on Leave a comment

10 Nội dung về SQL bạn nên biết khi tham gia phỏng vấn trong ngành dữ liệu (Phần 2)

SQL ngày càng quan trọng trong doanh nghiệp với rất nhiều ứng dụng. Tuy nhiên, với các buổi phỏng vấn trong ngành dữ liệu, sẽ có một số nội dung quan trọng mà hầu hết các công ty đều kiểm tra. Dưới đây là 10 nội dung xuất hiện nhiều nhất vì có tính ứng dụng cao trong thực tế công việc.

Đây cũng là những nội dung bạn nên ôn tập để chuẩn bị cho buổi phỏng vấn sắp tới. (Xem phần 1 tại đây)

6. Subqueries

Subquery, hay inner query, là truy vấn nằm trong 1 truy vấn khác với mệnh đề WHERE. Subquery có thể ứng dụng theo nhiều cách khác nhau để giải quyết những vấn đề phức tạp.

Câu hỏi ví dụ: Suppose that a website contains two tables, the Customers table and the Orders table. Write a SQL query to find all customers who never order anything.

7. String Formatting

Các hàm về chuỗi ký tự rất quan trọng khi làm việc với dữ liệu chưa được làm sạch. Chính vì vậy, nhiều công ty sẽ có bài test liên quan đến dữ liệu chuỗi ký tự để đảm bảo bạn có thể xử lý dữ liệu hiệu quả.

Các nội dung cơ bản về chuỗi ký tự:

LEFT, RIGHT

TRIM

POSITION

SUBSTR

CONCAT

UPPER, LOWER

COALESCE

Follow Fanpage Datapot từ để cập nhật những nội dung liên quan như ảnh dưới đây nhé.

8. Date-time Manipulation

Một nội dung phổ biến trong các bài test tuyển dụng chính là các câu hỏi liên quan đến dữ liệu date-time. Bạn có thể được yêu cầu nhóm các dữ liệu theo tháng hoặc chuyển định dạng từ DD-MM-YYYY sang chỉ hiển thị tháng.

2 hàm bạn cần chú ý là:

EXTRACT

DATEDIFF

Câu hỏi ví dụ: Given a Weather table, write a SQL query to find all dates’ Ids with higher temperature compared to its previous (yesterday’s) dates.

9. Window functions 

Window functions cho phép bạn tính các giá trị gộp (sum, max, count,…) của tất cả các hàng, thay vì  một hàng (như khi sử dụng Group by). Window functions rất hữu ích trong việc xếp hạng, tính lũy kế,…

Câu hỏi ví dụ: Write a query to get the empno with the highest salary. Make sure your solution can handle ties!

10. UNION

Cuối cùng chính là UNION. Tuy không quá phổ biến như các nội dung trên, tuy nhiên bạn cũng có khả năng gặp câu hỏi về UNION và chuẩn bị không bao giờ là thừa. Nếu bạn muốn gộp 2 bảng có 1 số cột giống nhau, đây là lúc sử dụng UNION (Google thêm để tìm hiểu chi tiết về UNION nhé).

Nguồn tham khảo: Towardsdatascience.com

Bên cạnh chỉ học thuộc các câu lệnh, việc hiểu rõ logic đằng sau mỗi câu lệnh, và cách áp dụng chúng trong những trường hợp cụ thể là rất quan trọng. Đây chính là sự khác biệt giữa một người biết SQL và một người có thể sử dụng SQL trong công việc.

Với đội ngũ giảng viên được đào tạo bài bản, nhiều năm kinh nghiệm phân tích và xử lý dữ liệu ở cả môi trường doanh nghiệp trong và ngoài nước, Datapot hướng tới mục tiêu cung cấp những khóa học đơn giản, hiệu quả và gắn liền với thực tiễn nhất có thể.

Tham khảo khóa học SQL for Data Analytics khai giảng 23/11.

Posted on Leave a comment

Bắt đầu học Python như thế nào để ứng dụng trong phân tích dữ liệu?

Là ngôn ngữ lập trình phổ biến nhất trên thế giới, Python thường được giới thiệu đầu tiên cho các bạn muốn theo ngành dữ liệu. Với một rừng tư liệu miễn phí, đầu tư thời gian và nỗ lực học Python có thật sự là lựa chọn lý tưởng?

Bạn có nên học Python hay không? Nên học những gì? Lộ trình như thế nào để phục vụ cho việc theo đuổi ngành dữ liệu? Để trả lời những câu hỏi trên, hãy tham khảo bài viết này nhé!

Ứng dụng của Python trong lĩnh vực Data Science như thế nào?

Ví dụ flow làm việc với Python của một Data Scientist

  1. Sử dụng Python và SQL để truy vấn dữ liệu từ cơ sở dữ liệu của doanh nghiệp.
  2. Sử dụng thư viện pandas của Python để làm sạch dữ liệu, sắp xếp vào các bảng để sẵn sàng cho việc phân tích.
  3. Với các thư viện pandas và matplotlib, chúng ta bắt đầu phân tích, khám phá và visualize.
  4. Sử dụng thư viện scikit-learn để xây dựng các model dự đoán từ dữ liệu sẵn có.
  5. Sắp xếp kết quả phân tích và dự đoán thành với format phù hợp để chia sẻ với các thành viên trong công ty.

Vậy có phải cứ muốn theo đuổi ngành dữ liệu là nên học Python đầu tiên?

Nếu các bạn định hướng trở thành Data Scientist, bạn có thể lựa chọn giữa Python và R. Nhình chung thì Python đang là ngôn ngữ phổ biến hơn (R thường phổ biến trong học thuật và nghiên cứu).

Tuy nhiên, với các bạn định hướng trở thành Data Analyst, BI Analyst, thì như các bạn có thể tìm hiểu trên các tin tuyển dụng, Python sẽ là 1 điểm cộng, chứ không hẳn là công cụ bắt buộc. Nên tùy vào nhu cầu công việc, các bạn có thể lựa chọn học Python hay không.

Học Python như thế nào?

Bước 1: Học các nội dung căn bản về lập trình với Python

Nếu bạn chưa biết code, hoặc chưa sử dụng python bao giờ, bạn sẽ cần bắt đầu từ những khái niệm căn bản nhất như biến, vòng lặp, các câu lệnh cơ bản, logic trong ngôn ngữ lập trình và cách kết hợp chúng như thế nào để thực hiện được 1 tác vụ, giải một bài toán nào đó.

Bước 2: Học về Ứng dụng Python trong phân tích dữ liệu

Các ứng dụng có thể chia làm 4 nhóm chính

  1. Data collecting: Thu thập dữ liệu từ các nguồn khác nhau như file Excel, Database, crawl website,…
  2. Data manipulation: Phần lớn các dữ liệu trong thực tế đều cần xử lý, biến đổi trước khi đưa vào phân tích, nên đây sẽ là kỹ năng bạn cần thành thạo.
  3. Data visualization: Đây sẽ là thử thách cả về lập trình lẫn trình bày, thiết kế (tuy nhiên bạn cũng có thể sử dụng các tool khác chuyên về visualization để hỗ trợ).
  4. Machine Learning: Cần có các kiến thức về thống kê cũng như kinh nghiệm trong lĩnh vực cụ thể để ứng dụng.  

Các thư viện bạn có thể tìm hiểu: NumPy, pandas, Matplotlib, scikit-learn,…

Bước 3: Thực hành với các dự án thực tế

Bạn có thể thấy rằng từ tìm hiểu về tất cả các nội dung trên cho đến có thể thực hành thành thạo và ứng dụng trong công việc không phải là một con đường dễ dàng. Chính vì vậy, các bạn cần xác định rõ mục tiêu, nhu cầu của bản thân và lựa chọn lộ trình học phù hợp để có thể sử dụng Python hiệu quả nhất và không lãng phí thời gian của bản thân.

Với nhiều năm kinh nghiệm làm việc và đào tạo trong ngành dữ liệu, đội ngũ Datapot thiết kế khóa học Python for Data Analytics, tập trung vào ứng dụng Python cơ bản và thiết thực trong phân tích dữ liệu. 

Nguồn tham khảo: Dataquest

Posted on Leave a comment

[Power BI Basic] Nhóm các hàng (Group rows) với Power Query Editor

Power BI không chỉ mạnh mẽ với tính năng Visualize dữ liệu cùng các biểu đồ bắt mắt, việc xử lý, biến đổi dữ liệu với Power BI cũng rất tiện lợi.

Với Power Query Editor của Power BI, bạn có thể chỉnh sử dữ liệu cho phù hợp ngay khi thêm vào Power BI. Chỉnh sửa với Power Query Editor sẽ giúp dữ liệu dù từ nhiều nguồn đồng bộ hơn, và tiết kiệm thời gian hơn đối với các file có dung lượng lớn.

Cụ thể, bạn có thể nhóm các giá trị từ nhiều hàng (Group by). Tính năng này có thể ứng dụng để tính tổng số sản phẩm, tổng doanh thu hay đếm tổng số học sinh.

Trong VD dưới đây, bạn sẽ nhóm các hàng trong một bộ dataset về tuyển sinh từ một file Excel, tính số cơ sở giáo dục (Agency) ở mỗi bang (State).

Chọn cột State Abbr (Mã vùng của các bang), sau đó chọn nút Group By ở tab Transform hoặc tab Home.

Screenshot shows how to group rows in a table.

Khi hộp thoại Group By xuất hiện, bạn có thể điều chỉnh cách nhóm các hàng bằng những cách sau:

  1. Dropdown list để chọn các cột bạn muốn nhóm. Thường thì Power Query Editor sẽ chọn sẵn 1 cột, tuy nhiên bạn có thể thay đổi.
  2. Tên cột mới tạo ra
  3. Cách nhóm: có thể là tính tổng, tìm Median hoặc đếm. Giá trị mặc định sẽ là đếm số hàng.
  4. Thêm các cách nhóm khác.
Screenshot shows the Group By dialog box with Add grouping and Add aggregation called out.

Sau đó bạn chọn OK và xem kết quả. Bạn có thể thấy một cột mới với số cơ sở giáo dục ở mỗi bang.
Với Power Query Editor, nếu như bạn thấy cách nhóm này không phù hợp, chỉ cần vào phần Query Setting và xóa thao tác Group by vừa thực hiện.

Count column, Group By operation, Power Query Editor, Power BI Desktop

Tham khảo video về Transform dữ liệu với Power BI tại.

Tìm hiểu về Tư duy phân tích – Xây dựng báo cáo sử dụng Power BI với khóa học Power BI and Analytical Thinking khai giảng 19/10.