Pandas! Một thư viện xử lý dữ liệu tuyệt vời cho các data scientist

Ho Minh

Thành viên
Tham gia
16/11/2018
Bài viết
5
Hôm nay tôi sẽ giới thiệu với các bạn về pandas, một thư viện xử lý dữ liệu rất mạnh trên Python, đặc biệt trong ngành khoa học dữ liệu. Điều đặc biệt ở pandas là nó là một tập hợp của rất nhiều các thư viện con ẩn trong nó, vì vậy pandas cung cấp rất nhiều tính năng hữu ích cho người sử dụng.

Pandas lưu trữ dữ liệu theo một cách khá giống với Excel, đó là sử dụng các bảng hay còn được gọi là DataFrame. Bắt đầu sử dụng pandas với câu lệnh:

ae13419b61c662bdadc10ef480b31559.jpg

Những chức năng cơ bản
Đọc dữ liệu từ file csv:

662ecba68d0107b5f83a2b75ce24a390.jpg

Pandas cung cấp các option trong việc đọc file csv như:

5b8e259db68bfdaf44a3768454b327ee.jpg

với

  • sep: dấu phân cách giữa các điểm dữ liệu trên 1 dòng
  • encoding: định dạng của file dữ liệu
  • nrows: số lượng hàng sẽ đọc
  • skiprows: những hàng sẽ bỏ qua khi đọc dữ liệu
Ngoài ra còn một số hàm để đọc dữ liệu như: read_excel(), read_clipboard(), read_sql()

Ghi dữ liệu

b63018e18f16c3741bcb7e7830e5fbd7.jpg

Rất đơn giản phải không. Ngoài ra còn một số hàm để ghi dữ liệu như: to_excel(), to_json(), to_pickle().

Xem các số liệu về dữ liệu

Xem số chiều của dữ liệu:

da10d9b831401a99612c76979f3f94ae.jpg

Xem các thống kê về dữ liệu:

3f22911ffeb868d51a14be06689b7185.jpg

Xem thêm: tại ereka.vn/post/pandas-mot-thu-vien-xu-ly-du-lieu-tuyet-voi-cho-cac-data-scientist-52982777238553895
 
Hiệu chỉnh:
×
Quay lại
Top