- Tham gia
- 19/9/2024
- Bài viết
- 74
Chào anh em, dạo này lướt các diễn đàn tìm việc hay mấy group học làm Phân tích dữ liệu (Data Analyst), chắc chắn anh em sẽ thấy người ta nhắc đi nhắc lại một câu thần chú: "Muốn học Python làm Data thì phải master Pandas, Numpy, Matplotlib".
Nhiều anh em dân Kinh tế, Kế toán mới tập tành đá chéo sân nghe xong chắc xỉu ngang, tưởng đâu đây là mật mã của người ngoài hành tinh. Rốt cuộc 3 cái tên nghe rất kêu này là cái quái gì? Hôm nay chúng ta sẽ cùng "giải ngố" bằng ngôn ngữ bình dân nhất, đảm bảo đọc xong 5 phút là anh em hiểu rõ bản chất công nghệ luôn.
Trong thế giới lập trình, dao, thớt, chảo đó được gọi là Library (Thư viện). Các chuyên gia trên thế giới đã viết sẵn những công cụ siêu xịn sò này và cho tải về miễn phí. Anh em chỉ cần "Import" (lấy đồ nghề ra) là xài thôi, không cần tự rèn dao lại từ đầu. Và Pandas, Numpy, Matplotlib chính là 3 món đồ nghề xịn nhất trong cái bếp đó.
Hãy tưởng tượng anh em có một file Excel chứa 5 triệu dòng lịch sử mua hàng. Mở file đó bằng Excel bình thường chắc chắn máy sẽ treo, màn hình trắng bóc (Not Responding). Nhưng nếu anh em ném file đó vào Pandas, nó tải lên trong vòng 2 giây.
Xem lộ trình Data Science tại: Data Science 2026
#GiaiNgoPython #Pandas
Nhiều anh em dân Kinh tế, Kế toán mới tập tành đá chéo sân nghe xong chắc xỉu ngang, tưởng đâu đây là mật mã của người ngoài hành tinh. Rốt cuộc 3 cái tên nghe rất kêu này là cái quái gì? Hôm nay chúng ta sẽ cùng "giải ngố" bằng ngôn ngữ bình dân nhất, đảm bảo đọc xong 5 phút là anh em hiểu rõ bản chất công nghệ luôn.
1. Python Là Cái Bếp, Còn Thư Viện Là Đồ Nghề
Trước khi đi vào chi tiết, anh em phải hiểu cách hoạt động của Python. Ngôn ngữ lập trình Python nó giống như một cái nhà bếp trống trơn. Nếu anh em muốn nấu ăn (phân tích dữ liệu), anh em không thể dùng tay không. Anh em phải mang dao, thớt, chảo vào.Trong thế giới lập trình, dao, thớt, chảo đó được gọi là Library (Thư viện). Các chuyên gia trên thế giới đã viết sẵn những công cụ siêu xịn sò này và cho tải về miễn phí. Anh em chỉ cần "Import" (lấy đồ nghề ra) là xài thôi, không cần tự rèn dao lại từ đầu. Và Pandas, Numpy, Matplotlib chính là 3 món đồ nghề xịn nhất trong cái bếp đó.
2. Numpy - Chiếc Máy Tính Bỏ Túi Siêu Tốc Độ
Tên đầy đủ của nó là Numerical Python. Anh em cứ tưởng tượng Numpy là một chiếc máy tính Casio phiên bản nâng cấp gắn động cơ phản lực.- Nhiệm vụ: Máy tính bình thường thì anh em tính toán từng phép cộng trừ nhân chia. Nhưng trong ngành dữ liệu, người ta làm việc với những ma trận số khổng lồ (ví dụ 1000 cột x 1000 hàng). Nếu dùng vòng lặp bình thường để tính toán, máy tính sẽ chạy mất cả ngày.
- Sức mạnh: Numpy xử lý các mảng dữ liệu (Array) với tốc độ bàn thờ. Nó giúp anh em nhân chia hai cột dữ liệu chứa hàng triệu con số chỉ trong chớp mắt. Nó cung cấp sẵn hàng tá các hàm toán học phức tạp như căn bậc hai, lượng giác, đại số tuyến tính. Dân làm thuật toán AI cực kỳ ghiền món này.
3. Pandas - Phiên Bản "Siêu Xay-da" Của Excel
Nếu Numpy là máy tính, thì Pandas chính là linh hồn của dân Data Analyst.Hãy tưởng tượng anh em có một file Excel chứa 5 triệu dòng lịch sử mua hàng. Mở file đó bằng Excel bình thường chắc chắn máy sẽ treo, màn hình trắng bóc (Not Responding). Nhưng nếu anh em ném file đó vào Pandas, nó tải lên trong vòng 2 giây.
- Nhiệm vụ: Pandas dùng để "nhào nặn" các bảng dữ liệu (trong Pandas gọi là DataFrame - giống hệt cấu trúc hàng và cột của Excel).
- Sức mạnh: Mọi thứ anh em hay làm trên Excel, Pandas đều làm được nhưng với sức mạnh tự động hóa khủng khiếp.
- Anh em muốn dùng VLOOKUP để ghép 2 bảng? Pandas có hàm merge.
- Anh em muốn Pivot Table để tính tổng doanh thu theo tỉnh? Pandas có hàm groupby.
- Dữ liệu bị rỗng ô, lỗi font chữ? Pandas quét một lượt và xóa sạch hoặc điền tự động chỉ bằng 1 dòng code.
4. Matplotlib (Và Seaborn) - Họa Sĩ Vẽ Biểu Đồ
Dữ liệu xử lý xong bằng Pandas thì nó vẫn chỉ là những bảng số khô khan nhìn mỏi cả mắt. Sếp thì không có thời gian đọc số, sếp thích xem hình. Thế là Matplotlib xuất hiện.- Nhiệm vụ: Matplotlib là một ông họa sĩ. Nhiệm vụ của nó là biến những con số trong Pandas thành các biểu đồ trực quan (Biểu đồ cột, biểu đồ tròn, biểu đồ đường).
- Sức mạnh: Nó có thể vẽ ra bất kỳ dạng biểu đồ nào anh em muốn. Tuy nhiên, Matplotlib vẽ hơi... xấu và góc cạnh (kiểu kỹ sư). Thế là người ta chế ra thêm một "người em" của nó tên là Seaborn. Seaborn dùng chung nền tảng của Matplotlib nhưng tự động phối màu cực đẹp, nét vẽ mượt mà, giúp anh em tạo ra các biểu đồ nhiệt (Heatmap) hay biểu đồ phân tán (Scatter plot) lung linh để đi thuyết trình.
Chốt Lại Thành Quy Trình Nấu Ăn
Tổng kết lại cho anh em dễ nhớ quy trình làm Data bằng Python:- Mở cái bếp Python lên.
- Lấy Pandas ra để gộp, cắt, thái, và làm sạch 10 file Excel lộn xộn thành 1 bảng dữ liệu ngon lành.
- Dùng Numpy để tính toán các phép toán siêu phức tạp trên bảng dữ liệu đó trong 1 giây.
- Cuối cùng, đưa kết quả cho Matplotlib/Seaborn để nó vẽ lên một cái biểu đồ siêu đẹp, mang lên báo cáo sếp lấy thưởng.
Xem lộ trình Data Science tại: Data Science 2026
#GiaiNgoPython #Pandas