Biểu đồ phân tán Scatter diagram là gì? Hướng dẫn vẽ chi tiết

bieu-do-phan-tan

Biểu đồ phân tán/Scatter diagram là một công cụ trực quan mạnh mẽ được sử dụng trong phân tích dữ liệu để khám phá mối quan hệ giữa hai biến số. Bằng cách biểu thị dữ liệu dưới dạng các điểm trên mặt phẳng tọa độ, biểu đồ phân tán cho phép chúng ta dễ dàng nhận biết các xu hướng, mẫu hình và sự tương quan tiềm ẩn giữa các biến. 

Trong bài viết này, hãy cùng DACO tìm hiểu sâu hơn về biểu đồ Scatter, ứng dụng thực tiễn và cách tạo biểu đồ một cách hiệu quả.

Biểu đồ phân tán là gì?

Biểu đồ phân tán (tiếng Anh: Scatter Diagram), còn được gọi là Scatter Plot, Scatter graph, biểu đồ Scatter hay biểu đồ tán xạ, là một dạng đồ thị trực quan hóa dữ liệu. Nó biểu diễn mối quan hệ giữa hai biến số bằng cách sử dụng tọa độ toán học, với trục tung (Oy) thể hiện giá trị của biến phụ thuộc và trục hoành (Ox) biểu thị giá trị của biến độc lập.

bieu-do-phan-tan-la-gi
Biểu đồ phân tán là gì?

Nói cách khác, biểu đồ Scatter giúp ta hình dung sự tương quan giữa hai yếu tố, xem xét liệu chúng có liên quan với nhau hay không, và nếu có thì mối quan hệ đó là mạnh hay yếu, theo hướng tích cực hay tiêu cực.

Là một phần của bộ công cụ 7 QC Tools (7 công cụ quản lý chất lượng) cùng với Check Sheet, Flow Chart, Pareto Diagram, Histogram…, biểu đồ phân tán có lịch sử lâu đời, bắt nguồn từ thế kỷ 19 với những nghiên cứu về di truyền của nhà khoa học Francis Galton. Đến đầu thế kỷ 20, biểu đồ này ngày càng phổ biến nhờ sự phát triển của các phương pháp thống kê.

Ý nghĩa của biểu đồ phân tán

Scatter Diagram đóng vai trò quan trọng trong việc khám phá mối quan hệ giữa hai biến số, thường được sử dụng để xác định mối tương quan nguyên nhân – kết quả. Nói một cách đơn giản, nó giúp chúng ta hiểu được sự thay đổi của biến này ảnh hưởng như thế nào đến biến kia.

y-nghia-cua-bieu-do-scatter-la-gi
Ý nghĩa của biểu đồ Scatter là gì?

Để đánh giá mức độ tương quan giữa hai biến, người ta thường sử dụng hệ số tương quan R với giá trị nằm trong khoảng từ -1 đến 1.

  • R nằm trong khoảng 0 đến 1: Cho thấy mối quan hệ thuận chiều, tức là khi một biến tăng thì biến kia cũng tăng.
  • R nằm trong khoảng -1 đến 0: Thể hiện mối quan hệ nghịch chiều, tức là khi một biến tăng thì biến kia giảm.
  • R=0: Cho thấy hai biến số không có sự tương quan
  • Giá trị tuyệt đối của R bằng 1 (|R| = 1): Tương quan giữa hai biến là rất mạnh, gần như tuyến tính.

Nhờ khả năng trực quan hóa mối quan hệ giữa các biến số, biểu đồ Scatter trở thành công cụ đắc lực trong phân tích dữ liệu, hỗ trợ đưa ra quyết định và dự đoán dựa trên những thông tin thu thập được.

Ưu và nhược điểm của Scatter diagram

Mặc dù là một công cụ hữu ích trong phân tích dữ liệu, Scatter diagram cũng có những ưu và nhược điểm riêng:

uu-va-nhuoc-diem-cua-scatter-diagram

Ưu điểm

– Dễ dàng tạo biểu đồ: Việc vẽ biểu đồ khá đơn giản, bạn chỉ cần xác định hai biến số và biểu diễn chúng trên hệ trục tọa độ.

– Trực quan hóa mối quan hệ: Scatter Diagram giúp dễ dàng nhận biết mối tương quan giữa các biến số, bao gồm cả xu hướng, mẫu hình và các điểm dữ liệu ngoại lai.

– Hiển thị toàn bộ dữ liệu: Biểu đồ này cho phép hiển thị tất cả các điểm dữ liệu, từ nhỏ đến lớn, kể cả những giá trị ngoại lai, giúp bạn có cái nhìn tổng quan về tập dữ liệu.

– Ứng dụng rộng rãi: Biểu đồ Scatter được sử dụng trong nhiều lĩnh vực khác nhau, từ kinh doanh, y tế đến khoa học xã hội, với nhiều loại dữ liệu khác nhau.

Nhược điểm

– Tính chủ quan: Việc phân tích biểu đồ phân tán đôi khi mang tính chủ quan, phụ thuộc vào cách nhìn nhận của mỗi người.

– Khó xác định chính xác hệ số tương quan: Mặc dù có thể ước lượng mối tương quan thông qua biểu đồ, việc xác định chính xác hệ số tương quan đòi hỏi phải sử dụng các phương pháp thống kê.

– Giới hạn về số lượng biến: Biểu đồ chỉ biểu diễn được mối quan hệ giữa hai biến số. Nếu muốn phân tích nhiều biến cùng lúc, bạn cần sử dụng các loại biểu đồ khác.

– Yêu cầu biến liên tục: Các biến số được sử dụng trong Scatter thường là biến liên tục, điều này có thể gây khó khăn trong việc thu thập và xử lý dữ liệu.

Khi nào nên sử dụng biểu đồ Scatter?

Biểu đồ phân tán (Scatter diagram) là công cụ hữu ích trong nhiều trường hợp cụ thể, đặc biệt khi bạn cần:

  • Phân tích dữ liệu số đã được ghép nối: Khi bạn có tập hợp dữ liệu bao gồm các cặp giá trị tương ứng với nhau, biểu đồ sẽ giúp trực quan hóa mối quan hệ giữa chúng.
  • Phân tích mối quan hệ giữa hai biến: Sử dụng biểu đồ Scatter khi bạn muốn xác định xem liệu có sự liên kết nào giữa hai biến số hay không, ví dụ như xem xét ảnh hưởng của quảng cáo trực tuyến đến doanh số bán hàng.
  • Xác định nguyên nhân gốc rễ: Scatter Diagram hỗ trợ xác định nguyên nhân tiềm ẩn của các vấn đề. Ví dụ, trong sản xuất, bạn có thể dùng biểu đồ để xem xét mối quan hệ giữa nhiệt độ vận hành máy móc và tỷ lệ sản phẩm lỗi.
  • Đánh giá mối liên hệ giữa các hiệu ứng: Biểu đồ giúp kiểm tra xem liệu hai hiệu ứng có liên quan với nhau hay không, hay chúng xuất phát từ cùng một nguyên nhân.
  • Kiểm tra tương quan trước khi xây dựng biểu đồ kiểm soát: Trong quản lý chất lượng, biểu đồ Scatter được sử dụng để kiểm tra sự tương quan giữa các biến trước khi xây dựng biểu đồ kiểm soát, từ đó đảm bảo tính hiệu quả của biểu đồ kiểm soát.

Cách vẽ biểu đồ phân tán

Để tạo một biểu đồ phân tán hiệu quả, bạn có thể làm theo các bước sau đây:

cach-ve-bieu-do-phan-tan

Bước 1: Thu thập dữ liệu

Trước tiên, hãy xác định hai biến số mà bạn muốn phân tích và thu thập dữ liệu cho chúng. Lưu ý rằng số lượng cặp dữ liệu nên lớn hơn 30 để đảm bảo tính đại diện và độ tin cậy cho kết quả phân tích. Ví dụ, nếu bạn muốn xem xét mối quan hệ giữa thời gian học tập và điểm số, hãy thu thập dữ liệu về số giờ học và điểm thi của một nhóm học sinh.

Bước 2: Vẽ hệ trục tọa độ

Tiếp theo, vẽ một hệ trục tọa độ với trục hoành (x) đại diện cho biến độc lập và trục tung (y) đại diện cho biến phụ thuộc.  

Bước 3: Biểu diễn dữ liệu

Mỗi cặp dữ liệu thu thập được sẽ tương ứng với một điểm trên biểu đồ. Hãy đánh dấu các điểm này trên hệ trục tọa độ. Nếu có nhiều điểm trùng nhau, bạn có thể sử dụng các ký hiệu khác nhau để phân biệt.

Bước 4: Phân tích mối quan hệ

Quan sát sự phân bố của các điểm trên biểu đồ để nhận biết mối quan hệ giữa hai biến. Bạn có thể đánh giá sơ bộ hệ số tương quan dựa vào hình dạng của biểu đồ:

  • Tương quan thuận: Các điểm có xu hướng tạo thành một đường thẳng hướng lên từ trái sang phải.
  • Tương quan nghịch: Các điểm có xu hướng tạo thành một đường thẳng hướng xuống từ trái sang phải.
  • Không tương quan: Các điểm phân bố rải rác, không theo một xu hướng rõ ràng.

Để phân tích mối quan hệ một cách chính xác hơn, bạn có thể tính toán hệ số tương quan bằng các công cụ thống kê.

Phân tích các quan hệ tương quan trong biểu đồ Scatter

Sau khi vẽ Scatter Diagram, bước tiếp theo là phân tích mối quan hệ giữa hai biến số. Dựa vào sự phân bố của các điểm trên biểu đồ, ta có thể xác định ba loại tương quan chính:

quan-he-tuong-quan-trong-bieu-do-scatter

Tương quan dương

Trong trường hợp này, các điểm trên biểu đồ có xu hướng tạo thành một đường thẳng hướng lên từ trái sang phải. Điều này cho thấy khi giá trị của biến độc lập (trục x) tăng, giá trị của biến phụ thuộc (trục y) cũng tăng theo. Mức độ tương quan dương được chia thành ba loại:

  • Hoàn hảo: Các điểm nằm chính xác trên một đường thẳng, thể hiện mối quan hệ tuyến tính chặt chẽ giữa hai biến.
  • Cao: Các điểm nằm gần nhau và tạo thành một xu hướng tăng rõ rệt, tuy nhiên không hoàn toàn thẳng hàng.
  • Thấp: Các điểm phân bố rải rác hơn, cho thấy mối quan hệ thuận chiều nhưng không mạnh.

Tương quan âm

Ngược lại với tương quan dương, tương quan âm thể hiện mối quan hệ nghịch chiều giữa hai biến. Các điểm trên biểu đồ có xu hướng tạo thành một đường thẳng hướng xuống từ trái sang phải, tức là khi biến độc lập tăng, biến phụ thuộc giảm. Tương tự, tương quan âm cũng có ba mức độ: hoàn hảo, cao và thấp.

Không tương quan

Khi các điểm trên biểu đồ phân bố ngẫu nhiên, không theo một xu hướng nhất định, ta có thể kết luận rằng hai biến số không có mối quan hệ tuyến tính với nhau. Điều này có nghĩa là sự thay đổi của biến này không ảnh hưởng đến biến kia.

Các loại biểu đồ Scatter trong Excel

Ngoài dạng biểu đồ phân tán cơ bản với các điểm dữ liệu được biểu diễn bằng chấm tròn, Excel còn cung cấp một số biến thể khác, giúp bạn linh hoạt hơn trong việc trực quan hóa dữ liệu và phân tích mối quan hệ giữa các biến số.

Dưới đây là một số dạng biểu đồ Scatter trong Excel phổ biến:

  • Scatter with Smooth Lines and Markers: Dạng biểu đồ này không chỉ hiển thị các điểm dữ liệu bằng chấm tròn mà còn nối chúng bằng một đường cong mượt mà. Điều này giúp bạn dễ dàng nhận biết xu hướng chung của dữ liệu và sự thay đổi của biến phụ thuộc theo biến độc lập.
  • Scatter with Smooth Lines: Tương tự như dạng trên, nhưng dạng này chỉ hiển thị đường cong nối các điểm dữ liệu mà không có các chấm tròn. Cách này giúp làm nổi bật xu hướng chung, đặc biệt hữu ích khi bạn có nhiều điểm dữ liệu và muốn tránh biểu đồ bị rối mắt.
  • Scatter with Straight Lines and Markers: Dạng biểu đồ này nối các điểm dữ liệu bằng các đoạn thẳng, tạo thành một đường gấp khúc. Cách này giúp bạn thấy rõ sự thay đổi của biến phụ thuộc tại từng giá trị của biến độc lập.
  • Scatter with Straight Lines: Tương tự dạng trên, nhưng chỉ hiển thị đường gấp khúc mà không có các chấm tròn biểu thị điểm dữ liệu.

Cách vẽ biểu đồ phân tán trong Excel

Để minh họa rõ hơn cách tạo biểu đồ Scatter trong Excel, chúng ta cùng xem xét một ví dụ cụ thể. Giả sử bạn có dữ liệu về ngân sách marketing (Mktng Exp) và doanh thu (Revenue) của 10 công ty. Mục tiêu là phân tích xem liệu có mối tương quan nào giữa hai yếu tố này hay không.

ve-bieu-do-phan-tan-trong-excel-1

Các bước tạo biểu đồ Scatter

Bước 1: Nhập dữ liệu: Đầu tiên, hãy nhập dữ liệu vào bảng tính Excel. Trong ví dụ này, cột “Mktng Exp” (biến độc lập) sẽ nằm ở trục hoành và cột “Revenue” (biến phụ thuộc) sẽ nằm ở trục tung.

Bước 2: Chọn dữ liệu: Bôi đen vùng dữ liệu bạn muốn vẽ biểu đồ. Trong trường hợp này, bạn cần chọn cả hai cột “Mktng Exp” và “Revenue”, bao gồm cả tiêu đề cột.

ve-bieu-do-phan-tan-trong-excel-2

Bước 3: Chèn biểu đồ:

Đầu tiên, trên thanh công cụ, chọn tab “Insert”.

ve-bieu-do-phan-tan-trong-excel-3

Trong nhóm “Charts”, nhấp vào biểu tượng “Insert Scatter (X, Y) or Bubble Chart”.

ve-bieu-do-phan-tan-trong-excel-4

Chọn kiểu biểu đồ phân tán “Scatter” cơ bản, biểu diễn dữ liệu bằng các chấm tròn.

ve-bieu-do-phan-tan-trong-excel-5

Sau khi hoàn thành các bước nêu trên, một biểu đồ phân tán tương tự như hình bên dưới sẽ được chèn vào trang tính Excel của bạn.

ve-bieu-do-phan-tan-trong-excel-6

Thêm đường xu hướng trong biểu đồ phân tán

Để biểu đồ trực quan hơn, bạn có thể thêm đường xu hướng (trendline) để dễ dàng nhận biết mối quan hệ giữa hai biến.

  1. Chọn biểu đồ: Nhấp chuột vào biểu đồ bạn vừa tạo.
  2. Thêm đường xu hướng:
    • Chọn tab “Chart Design”.

ve-bieu-do-phan-tan-trong-excel-7

  • Nhấp vào “Add Chart Element” > “Trendline” > “Linear”.

ve-bieu-do-phan-tan-trong-excel-8

Kết quả là, một đường xu hướng sẽ được thêm vào biểu đồ phân tán.

ve-bieu-do-phan-tan-trong-excel-8

Phân tích kết quả

Quan sát biểu đồ và đường xu hướng để nhận biết mối quan hệ giữa hai biến:

  • Đường xu hướng hướng lên: Cho thấy mối quan hệ thuận chiều, tức là khi ngân sách marketing tăng, doanh thu cũng tăng.
  • Đường xu hướng hướng xuống: Cho thấy mối quan hệ nghịch chiều.
  • Không có xu hướng rõ ràng: Hai biến có thể không có mối quan hệ tuyến tính.

Lưu ý: Đường xu hướng chỉ thể hiện xu hướng chung, không cho biết chính xác mức độ tương quan. 

Để tính toán hệ số tương quan, bạn có thể sử dụng hàm =CORREL() trong Excel.

Bằng cách làm theo các bước trên, bạn có thể dễ dàng tạo biểu đồ Scatter trong Excel và sử dụng nó để phân tích mối quan hệ giữa các biến số một cách hiệu quả.

Những lưu ý quan trọng khi phân tích biểu đồ phân tán

Khi giải thích biểu đồ phân tán, cần xem xét kỹ lưỡng một số yếu tố để tránh đưa ra kết luận sai lệch. Dưới đây là những điểm cần lưu ý:

  1. Tránh nhầm lẫn tương quan với nhân quả: Mặc dù Scatter Diagram có thể cho thấy mối quan hệ giữa hai biến, nhưng điều đó không có nghĩa là biến này gây ra biến kia. Có thể tồn tại một biến thứ ba tác động đến cả hai, tạo ra sự tương quan giả tạo
  2. Đánh giá mức độ tương quan: Hình dạng của biểu đồ cung cấp thông tin về mức độ tương quan. Các điểm dữ liệu càng tập trung gần một đường thẳng, mối quan hệ càng chặt chẽ. Tuy nhiên, cần sử dụng các phương pháp thống kê để xác định chính xác hệ số tương quan và ý nghĩa thống kê của nó.
  3. Cân nhắc yếu tố ngẫu nhiên: Nếu mối quan hệ giữa hai biến không rõ ràng, hãy sử dụng các phương pháp thống kê để kiểm tra xem liệu mối quan hệ đó có thực sự tồn tại hay chỉ là ngẫu nhiên.
  4. Phân tầng dữ liệu: Nếu biểu đồ không cho thấy mối quan hệ rõ ràng, hãy thử phân tầng dữ liệu theo một biến thứ ba.
  5. Phạm vi dữ liệu: Đảm bảo rằng phạm vi dữ liệu của biến độc lập đủ rộng để thể hiện mối quan hệ. Nếu phạm vi quá hẹp, mối quan hệ có thể bị che khuất.

Lời kết

Hy vọng rằng qua bài viết này, bạn đã hiểu rõ hơn về biểu đồ phân tán, cách thức hoạt động và ứng dụng của nó trong việc phân tích dữ liệu. Scatter Diagram là một công cụ hữu ích giúp chúng ta khám phá mối quan hệ giữa các biến số và đưa ra những quyết định sáng suốt hơn.

Để đón đọc thêm các bài viết thú vị và bổ ích về các chủ đề liên quan đến quản lý chất lượng, quản lý sản xuất và nhiều lĩnh vực khác, hãy truy cập Seeact.vn thường xuyên nhé!

>>>Đọc thêm:

Facebook
Twitter
0359.206.636
Google map
0359206636

Xin chào

Vui lòng nhập thông tin để chúng tôi liên hệ lại với bạn theo lịch hẹn.

Hotline:0359 206 636 (24/7)

Quên mật khẩu

[ultimatemember_password]

Đăng Ký

[ultimatemember form_id="6510"]

Đăng Nhập

[ultimatemember form_id="6511"]
ĐĂNG KÝ THÔNG TIN

Hơn 2,000+ doanh nghiệp đã sử dụng và hài lòng. Cùng khám phá tiềm năng tăng trưởng của doanh nghiệp bạn ngay hôm nay!