Exploratory Data Analysis (EDA) là gì? Cách thực hiện quy trình EDA

Exploratory Data Analysis (EDA) là gì? Cách thực hiện quy trình EDA
Bảo Linh

20/11/2023

597

0

Chia sẻ lên Facebook
Exploratory Data Analysis (EDA) là gì? Cách thực hiện quy trình EDA

Exploratory Data Analysis (EDA) được biết đến là phương pháp tiếp cận linh hoạt thuộc lĩnh vực khoa học dữ liệu, EDA ảnh hưởng rất nhiều đến các doanh nghiệp muốn phát triển mạnh mẽ trong thời đại số, cho phép các nhà phân tích dữ liệu khám phá ra những điều mà mọi người không tin là có thể. Tham khảo bài viết dưới đây của Topchuyengia để hiểu rõ hơn về EDA là gì, cũng như vai trò đặc biệt của phương pháp này đối với hoạt động kinh doanh của doanh nghiệp.

 

Nếu như bạn là người mới trong lĩnh vực phân tích dữ liệu và không hiểu gì về quy trình EDA, đừng lo lắng, các chuyên gia và khóa học Data Analyst tại Askany có thể giúp bạn giải quyết vấn đề này một cách toàn diện và tối ưu nhất. Với kinh nghiệm và các thành tựu gặt hái trong suốt quá trình làm nghề, bạn sẽ được học hỏi rất nhiều điều từ họ.

 

Exploratory Data Analysis là gì?

Exploratory Data Analysis là gì?
Exploratory Data Analysis là gì?

Exploratory Data Analysis là gì? EDA được hiểu đơn giản là phân tích khám phá dữ liệu, đây là quá trình sử dụng các kỹ thuật thống kê và trực quan hoá để mô tả dữ liệu, điều này đảm bảo tập trung phân tích các khía cạnh quan trọng của dữ liệu. Data Analyst là làm gì? Là việc phân tích khám phá dữ liệu.

 

EDA được đánh giá là quá trình quan trọng cần thực hiện trước khi đi sâu hơn vào công nghệ học máy và mô hình thống kê. Quá trình này bao gồm việc kiểm tra tập dữ liệu ở nhiều góc độ, thực hiện mô tả và tóm tắt dữ liệu mà không đưa ra bất kỳ giả định nào khác về nội dung. Đọc thêm về lộ trình học Data Analysis để biết khi nào cần áp dụng EDA.

 

>>>Xem thêm: Đăng ký ngay khóa học BA uy tín, chất lượng hiện nay.

 

Tại sao EDA quan trọng trong phân tích dữ liệu?

EDA có vai trò quan trọng trong việc xem xét dữ liệu trước khi đưa ra một giả định nào đó. Nó giúp xác định các lỗi sai, cũng như hiểu rõ hơn về dữ liệu mẫu, phát hiện những dữ liệu ngoại lai hoặc không liên quan, từ đó tìm ra mối quan hệ giữa các biến.

 

Thêm vào đó, các nhà phân tích dữ liệu sử dụng EDA để chắc chắn kết quả mà họ tạo ra là hợp lệ và có thể áp dụng vào mọi mục tiêu kinh doanh. EDA cũng có thể giúp nhà phân tích trả lời các câu hỏi về độ lệch chuẩn, phân loại các biến đáng tin cậy. Sau khi hoàn tất quá trình EDA, các tính năng của nó còn có thể được sử dụng để phân tích hoặc thiết lập mô hình dữ liệu phức tạp hơn, bao gồm cả học máy.

Xem thêm các bài viết khác:

4 loại EDA cơ bản

4 loại EDA cơ bản
4 loại EDA cơ bản

Đơn biến phi đồ hoạ

Đơn biến phi đồ hoạ là hình thức đơn giản nhất trong phân tích dữ liệu, chúng ta chỉ cần sử dụng một biến để thực hiện nghiên cứu thông tin. Mục đích chính của EDA đơn biến phi đồ hoạ là giúp nhà phân tích dữ liệu hiểu các đặc trưng cơ bản của dữ liệu mẫu và phân phối, từ đó quan sát và đưa ra các nhận xét về quần thể mà dữ liệu đó đại diện. Phát hiện các dữ liệu ngoại lai cũng là một phần của quá trình phân tích.

Đa biến phi đồ hoạ

EDA đa biến phi đồ hoạ phát sinh từ nhiều hơn một biến, được sử dụng với mục tiêu cho thấy mối quan hệ giữa hai hoặc nhiều biến của dữ liệu thông qua hình thức thống kê hoặc bảng chéo.

Đồ hoạ đơn biến

Các loại EDA phi đồ hoạ mang tính khách quan và định lượng, chúng không thể cung cấp một bức tranh hoàn chỉnh về dữ liệu, cho nên phương pháp đồ hoạ đơn biến được sử dụng nhiều hơn. Dưới đây là các loại đồ hoạ đơn biến phổ biến:

  • Biểu đồ thân và lá hiển thị tất cả các giá trị dữ liệu và hình dạng của phân phối.
  • Biểu đồ tần số biểu thị tần suất (số lượng) hoặc tỷ lệ (số lượng/ tổng số lượng) các trường hợp cho một phạm vi giá trị. Biểu đồ tần số là đồ thị cơ bản nhất được sử dụng để tìm hiểu về các dữ liệu trung bình, đa chủng, phân tán, ngoại lai,....
  • Biểu đồ hộp mô tả các thông tin về trung bình, đối xứng và ngoại lai, biểu thị độ đo về vị trí và phân tán mặc dù chúng có thể dẫn đến sự sai lệch về đa chủng.

Đồ hoạ đa biến

Đồ hoạ đa biến được sử dụng để biểu thị mối quan hệ giữa hai hoặc nhiều tập dữ liệu. Đồ hoạ được sử dụng nhiều nhất là biểu đồ thanh được nhóm lại với mỗi nhóm đại diện cho một cấp độ trong các biến và mỗi thanh và mỗi thanh trong nhóm đại diện cho cấp độ của biến khác. Các biểu đồ đồ hoạ đa biến phổ biến bao gồm:

  • Biểu đồ phân tán được sử dụng để vẽ các điểm dữ liệu trên trục ngang và trục dọc và trục ngang để cho thấy mức độ ảnh hưởng của một biến đối với biến khác.
  • Biểu đồ đa biến thể hiện mối quan hệ giữa các yếu tố phản hồi.
  • Biểu đồ thời gian là biểu đồ đường chứa dữ liệu được mô tả theo thời gian.
  • Biểu đồ bong bóng là phương diện trực quan hoá dữ liệu hiển thị nhiều vòng tròn (bong bóng) trong đồ thị hai chiều.
  • Biểu đồ nhiệt biểu diễn đồ hoạ của dữ liệu mà trong đó các giá trị được mô tả bằng màu sắc.

Quy trình phân tích khám phá dữ liệu EDA

Quy trình phân tích khám phá dữ liệu EDA
Quy trình phân tích khám phá dữ liệu EDA

Bước 1: Thu thập dữ liệu

Hiện nay, dữ liệu được tạo ra với một số lượng lớn ở nhiều dạng khác nhau có trong mọi lĩnh vực như chăm sóc sức khỏe, kinh doanh sản xuất, giáo dục,... Việc thu thập dữ liệu từ nhiều nguồn có ý nghĩa rất lớn đối với doanh nghiệp để đưa ra quyết định kinh doanh sau này. Cho nên, không thu thập dữ liệu đầy đủ và phù hợp, các hoạt động tiếp theo không thể thực hiện.

Bước 2: Xác định các biến dữ liệu quan trọng

Trong giai đoạn đầu của quá trình phân tích khám phá dữ liệu, việc xác định các biến số sẽ giúp bạn biết được yếu tố nào ảnh hưởng đến kết quả. Đây được xem là bước quan trọng trong bất kỳ hoạt động phân tích nào.

Bước 3: Làm sạch dữ liệu

Tiếp theo, chúng ta cần làm sạch dữ liệu, cụ thể loại bỏ các dữ liệu có giá trị rỗng, ngoại lai, thông tin không liên quan, biến đổi dạng dữ liệu,....

Bước 4: Xác định các biến tương quan

Để biết được một biến có liên quan như thế nào với biến khác, chúng ta cần tìm được sự tương quan giữa các biến với phương pháp ma trận tương quan (correlation matrix).

Bước 5: Chọn phương pháp thống kê mô tả

Việc sử dụng phương pháp thống kê trong quá trình phân tích khám phá dữ liệu sẽ phụ thuộc vào dạng dữ liệu, kích thước dữ liệu, mục đích phân tích và loại biến. 

Bước 6: Trực quan hoá và phân tích

Cuối cùng, khi kết thúc quá trình EDA, các nhà phân tích áp dụng khả năng phân tích để kiểm tra và đưa ra kết quả phù hợp với từng lĩnh vực khác nhau.

Tổng hợp các EDA Tools

Python

Python
Python

Python là ngôn ngữ lập trình được sử dụng thực hiện các tác vụ trong EDA, chẳng hạn như tìm giá trị còn thiếu trong thu thập dữ liệu, xử lý giá trị ngoại lai, mô tả dữ liệu, thu thập insight,.... Python được đánh giá phù hợp với các nhà phân tích dữ liệu mới, bởi nó khá đơn giản và dễ sử dụng. Ngoài ra, những packages trong Python như D-Tale, Panda Profiling, AutoViz,... giúp tự động hóa toàn bộ quá trình EDA và giảm thiểu thời gian phân tích thủ công.

Ngôn ngữ lập trình R

Ngôn ngữ lập trình R
Ngôn ngữ lập trình R

R cũng là một ngôn ngữ lập trình nguồn mở được  nhiều nhà phân tích dữ liệu sử dụng trong các kỹ thuật thống kê và phân tích. Một số thư viện bạn có thể tham khảo cho quá trình EDA là ggplot, Lattice, SmartEDA, Data Explorer,....

Exploratory Data Analysis là bước quan trọng trước khi tiến đến quá trình xử lý, chuyển đổi và phân tích dữ liệu. Hy vọng với những thông tin do Topchuyengia chia sẻ sẽ giúp bạn thêm hiểu rõ hơn các thông tin về EDA. Để thực hiện tốt quy trình EDA, bạn cần sở hữu các kiến thức về phân tích dữ liệu vững chắc cùng với đó là tư duy nhạy bén, phát hiện các vấn đề nhanh chóng. Tuy nhiên, nếu là một newbie trong lĩnh vực này, chắc chắn bạn sẽ khó tránh các thách thức và trở ngại. Hãy trực tiếp tìm đến các chuyên gia Data Analyst nhiều năm kinh nghiệm tại Askany để được hỗ trợ tư vấn 1:1 và giải thích các vấn đề liên quan đến EDA.

Bình luận

Kinh nghiệm thực tế

Tư vấn 1:1

Uy tín

Đây là 3 tiêu chí mà TOPCHUYENGIA luôn muốn hướng tới để đem lại những thông tin hữu ích cho cộng đồng