Exploratory Data Analysis là gì? Quy trình thực hiện EDA cơ bản

Exploratory Data Analysis là gì? Quy trình thực hiện EDA cơ bản

04/06/2024

1235

0

Chia sẻ lên Facebook
Exploratory Data Analysis là gì? Quy trình thực hiện EDA cơ bản

Exploratory Data Analysis (EDA) được xem là bước khám phá ban đầu vô cùng quan trọng trong các dự án phân tích dữ liệu, nó giúp các chuyên gia DA tập trung hơn vào tìm hiểu các đặc điểm chính của tập dữ liệu, khám phá các mẫu và xác định mối quan hệ giữa các biến. Để có thêm nhiều kiến thức quan trọng về EDA, cũng như các bước thực hiện EDA hiệu quả, hãy cùng Topchuyengia theo dõi bài viết sau đây.

Exploratory Data Analysis là gì?

Exploratory Data Analysis là gì?
Exploratory Data Analysis là gì?

Exploratory Data Analysis (EDA) hay còn gọi là phân tích dữ liệu thăm dò, là một quá trình sử dụng các kỹ thuật thống kê và trực quan hoá nhằm xem xét, kiểm tra và tìm hiểu điều gì đang xảy ra trong các dữ liệu. Qua đó, giúp các Data Analyst có thể tập trung vào phân tích các khía cạnh quan trọng của dữ liệu một cách tốt hơn mà không cần đưa ra bất kỳ giả định nào.

Xem thêm:

Tại sao EDA quan trọng trong phân tích dữ liệu?

Mục đích chính của quá trình EDA là giúp xem xét các Dataset (tập dữ liệu) trước khi đưa ra một giả định nào đó. Vậy nên, các nhà phân tích dữ liệu hoàn toàn có thể phát hiện ra lỗi, hiểu rõ dữ liệu mẫu, xác định ngoại lai hoặc các sự kiện bất thường để tìm ra sự liên quan giữa các biến.

 

Mặc khác, khi sử dụng phân tích thăm dò, việc tạo ra kết quả sẽ được đảm bảo hơn về tính hợp lệ, cũng như có thể áp dụng cho mọi mục tiêu kinh doanh mong muốn. Đặc biệt, với EDA, các nhà phân tích cũng sẽ trả lời chính xác các câu hỏi về độ lệch chuẩn và phân loại các biến đáng tin cậy. 

 

Một ưu điểm nổi bật khác khi làm EDA mà bạn cũng nên biết chính là sau khi hoàn tất quá trình này, các tính năng của nó vẫn có thể được sử dụng tiếp cho việc phân tích hoặc thiết lập mô hình hoá dữ liệu phức tạp hơn, bao gồm machine learning (học máy).

Xem thêm các bài viết khác:

Các loại EDA phổ biến

4 loại EDA cơ bản
Các loại EDA phổ biến

Đơn biến phi đồ hoạ (Univariate non-graphical)

Đơn biến phi đồ hoạ là hình thức đơn giản nhất trong phân tích dữ liệu, chúng ta chỉ cần sử dụng một biến để thực hiện nghiên cứu thông tin. EDA đơn biến phi đồ hoạ có chức năng giúp các nhà phân tích dữ liệu hiểu rõ hơn về các đặc trưng cơ bản của dữ liệu mẫu và thực hiện phân tích mô tả, từ đó quan sát và đưa ra các nhận xét cụ thể về quần thể mà dữ liệu đó đang đại diện.

Đồ họa đơn biến (Univariate graphical)

Trong khi EDA đơn biến phi đồ hoạ mang tính khách quan và định lượng, chúng không thể cung cấp một bức tranh hoàn chỉnh về dữ liệu, thì đồ hoạ đơn biến sẽ là giải pháp hoàn hảo để thay thế. Một số loại đồ hoạ đơn biến mà bạn có thể tham khảo là:

  • Biểu đồ thân và lá (Stem and leaf Plot): Hiển thị tất cả các giá trị dữ liệu và hình dạng của phân phối.
  • Biểu đồ tần số (Bar Plot): Biểu thị tần suất (số lượng) hoặc tỷ lệ (số lượng/ tổng số lượng) các trường hợp cho một phạm vi giá trị. Đây là đồ thị cơ bản nhất được sử dụng để tìm hiểu về các dữ liệu trung bình, đa chủng, phân tán, ngoại lai,....
  • Biểu đồ hộp (Box Plot): Mô tả các thông tin về trung bình, đối xứng và ngoại lai, biểu thị độ đo về vị trí và phân tán mặc dù chúng có thể dẫn đến sự sai lệch về đa chủng.

Đa biến phi đồ họa (Multivariate non-graphical)

EDA đa biến phi đồ hoạ phát sinh từ nhiều hơn một biến, được sử dụng với mục tiêu cho thấy mối quan hệ giữa hai hoặc nhiều biến của dữ liệu thông qua hình thức thống kê hoặc bảng chéo.

Đồ họa đa biến (Multivariate graphical)

Đồ hoạ đa biến được sử dụng để biểu thị mối quan hệ giữa hai hoặc nhiều tập dữ liệu. Đồ hoạ được sử dụng nhiều nhất là biểu đồ thanh được nhóm lại với mỗi nhóm đại diện cho một cấp độ trong các biến và mỗi thanh và mỗi thanh trong nhóm đại diện cho cấp độ của biến khác. Các biểu đồ đồ hoạ đa biến phổ biến bao gồm:

Biểu đồ phân tán (Scatter Plot): được sử dụng để vẽ các điểm dữ liệu trên trục ngang và trục dọc và trục ngang để cho thấy mức độ ảnh hưởng của một biến đối với biến khác.

  • Biểu đồ đa biến (Multivariate Chart): Thể hiện mối quan hệ giữa các yếu tố phản hồi.
  • Biểu đồ thời gian (Run Chart): Đây là biểu đồ đường chứa dữ liệu được mô tả theo thời gian.
  • Biểu đồ bong bóng (Bubble Chart): Là phương diện trực quan hoá dữ liệu hiển thị nhiều vòng tròn (bong bóng) trong đồ thị hai chiều.
  • Biểu đồ nhiệt (Heat Map): Biểu diễn đồ hoạ của dữ liệu mà trong đó các giá trị được mô tả bằng màu sắc.

Quy trình các bước thực hiện EDA cơ bản

Quy trình phân tích khám phá dữ liệu EDA
Quy trình phân tích khám phá dữ liệu EDA

Bước 1: Thu thập dữ liệu

Hiện nay, dữ liệu được tạo ra với một số lượng lớn ở nhiều dạng khác nhau có trong mọi lĩnh vực như chăm sóc sức khỏe, kinh doanh sản xuất, giáo dục,... Việc thu thập dữ liệu từ nhiều nguồn có ý nghĩa rất lớn đối với doanh nghiệp để đưa ra quyết định kinh doanh sau này. Cho nên, nếu không thu thập dữ liệu đầy đủ và phù hợp, các hoạt động chuẩn bị cho phân tích tiếp theo không thể thực hiện được.

Bước 2: Xác định các biến cần thiết

Trong giai đoạn đầu của quá trình phân tích thăm dò dữ liệu, việc xác định cấu trúc các biến số cần thiết sẽ giúp bạn biết được yếu tố nào đang ảnh hưởng đến kết quả. Đây được xem là bước quan trọng trong bất kỳ hoạt động phân tích nào.

Bước 3: Làm sạch dữ liệu

Tiếp theo, chúng ta cần làm sạch dữ liệu, cụ thể loại bỏ các dữ liệu có giá trị rỗng, ngoại lai, thông tin không liên quan, biến đổi dạng dữ liệu,....

Bước 4: Xác định các biến tương quan

Để biết được một biến có liên quan như thế nào với biến khác, chúng ta cần tìm được sự tương quan giữa các biến với phương pháp ma trận tương quan (correlation matrix).

Bước 5: Chọn phương pháp thống kê mô tả

Việc sử dụng phương pháp thống kê trong quá trình phân tích dữ liệu thăm dò sẽ phụ thuộc vào dạng dữ liệu, kích thước dữ liệu, mục đích phân tích và loại biến. 

Bước 6: Trực quan hoá dữ liệu

Cuối cùng, khi kết thúc quá trình EDA, các nhà phân tích áp dụng khả năng phân tích để kiểm tra và đưa ra kết quả phù hợp với từng lĩnh vực khác nhau.

Các công cụ hỗ trợ thực hiện EDA

Python

Python
Python

Python là ngôn ngữ lập trình được sử dụng thực hiện các tác vụ trong EDA, chẳng hạn như tìm giá trị còn thiếu trong thu thập dữ liệu, xử lý giá trị ngoại lai, mô tả dữ liệu, thu thập insight,.... Python được đánh giá phù hợp với các nhà phân tích dữ liệu mới, bởi nó khá đơn giản và dễ sử dụng. Ngoài ra, những packages trong Python như D-Tale, Panda Profiling, AutoViz,... giúp tự động hóa toàn bộ quá trình EDA và giảm thiểu thời gian phân tích thủ công.

Ngôn ngữ lập trình R

Ngôn ngữ lập trình R
Ngôn ngữ lập trình R

R là một ngôn ngữ lập trình nguồn mở được phát triển bởi R Foundation for Statistical Computing. Ngôn ngữ R thường được các nhà phân tích dữ liệu sử dụng rộng rãi trong các kỹ thuật thống kê và phân tích. Một số thư viện bạn có thể tham khảo cho quá trình EDA là ggplot, Lattice, SmartEDA, Data Explorer,....

Exploratory Data Analysis là bước quan trọng trước khi tiến đến quá trình xử lý, chuyển đổi và phân tích dữ liệu. Hy vọng với những thông tin do Topchuyengia chia sẻ sẽ giúp bạn thêm hiểu rõ hơn các thông tin về EDA. Để thực hiện tốt quy trình EDA, bạn cần sở hữu các kiến thức về phân tích dữ liệu vững chắc cùng với đó là tư duy nhạy bén, phát hiện các vấn đề nhanh chóng. Tuy nhiên, nếu là một newbie trong lĩnh vực này, chắc chắn bạn sẽ khó tránh các thách thức và trở ngại. Hãy trực tiếp tham gia khoá học Data Analyst của Askany để được hỗ trợ tư vấn 1:1 và giải thích các vấn đề liên quan đến EDA từ các chuyên gia nhiều năm kinh nghiệm.

Tôi là Tô Lãm với hơn 4 năm kinh nghiệm trong lĩnh vực IT, Business Analyst, Data Analyst, Tracking,... cho rất nhiều doanh nghiệp SME. Tôi tốt nghiệp trường Công nghệ Thông tin cùng với kỹ năng và kiến thức trau dồi của mình, tôi mong muốn được chia sẻ các thông tin hữu ích dến với người đọc thông qua các bài viết trên Topchuyengia, mọi người hãy follow mình nhé.

Kinh nghiệm thực tế

Tư vấn 1:1

Uy tín

Đây là 3 tiêu chí mà TOPCHUYENGIA luôn muốn hướng tới để đem lại những thông tin hữu ích cho cộng đồng