Ý nghĩa của phương trình hồi quy tuyến tính

Các hệ số hồi quy trong mô hình hồi quy tuyến tính bội còn có tên gọi khác là hệ số hồi quy riêng phần. Chúng ta gọi nó là hệ số hồi quy riêng phần bởi nó cho biết mức thay đổi của Y khi một đơn vị của Xi thay đổi [Xi có thể là X1, X2, X3 …] trong điều kiện các biến độc lập khác không thay đổi, nghĩa là chúng ta loại trừ sự ảnh hưởng của các biến độc lập khác lên Y. “Riêng phần” – phần tác động lên Y của riêng biến Xi.

Hệ số hồi quy vừa phản ánh mức độ tác động đồng thời cũng thể hiện chiều tác động của biến độc lập lên biến phụ thuộc. Nếu hệ số hồi quy mang dấu dương [không có dấu hoặc dấu +], biến độc lập có sự tác động thuận chiều lên biến phụ thuộc; nếu hệ số hồi quy mang dấu âm [dấu -], biến độc lập có sự tác động ngược chiều lên biến phụ thuộc. Khi biến độc lập tác động thuận chiều lên biến phụ thuộc, biến độc lập tăng sẽ kéo theo sự tăng lên của biến phụ thuộc; khi biến độc lập tác động nghịch chiều lên biến phụ thuộc, biến độc lập tăng sẽ kéo theo sự giảm xuống của biến phụ thuộc.

1. Hệ số hồi quy chuẩn hóa và chưa chuẩn hóa

Trong hồi quy, thường chúng ta sẽ có hai hệ số hồi quy: chưa chuẩn hóa [trong SPSS gọi là B] và đã chuẩn hóa [trong SPSS gọi là Beta]. Mỗi hệ số hồi quy này có vai trò khác nhau trong việc diễn giải hàm ý quản trị của mô hình hồi quy.

1.1 Hệ số hồi quy chưa chuẩn hóa

Hệ số hồi quy [trọng số hồi quy] chưa chuẩn hóa phản ánh sự thay đổi của biến phụ thuộc khi một đơn vị biến độc lập Xi thay đổi và các biến độc lập còn lại được giữ nguyên. Chúng ta không nhận xét thứ tự tác động của các biến độc lập lên biến phụ thuộc dựa vào hệ số hồi quy chưa chuẩn hóa bởi các biến độc lập không đồng nhất về đơn vị hoặc nếu đồng nhất về đơn vị thì độ lệch chuẩn các biến tham gia vào hồi quy cũng khác nhau. Sự khác biệt về độ lệch chuẩn hoặc đơn vị đo khiến việc đưa các biến độc lập vào cùng một phép so sánh là hoàn toàn không chính xác, do lúc này các biến không cùng nằm trong một hệ quy chiếu.

Trong SPSS, hệ số hồi quy chưa chuẩn hóa được ký hiệu là B. Phương trình hồi quy chưa chuẩn hóa có dạng:

Y = B0 + B1X1 + B2X2 + … + BnXn + ε

Trong đó:

  • Y: biến phụ thuộc
  • X1, X2, Xn: biến độc lập
  • B0: hằng số hồi quy
  • B1, B2, Bn: hệ số hồi quy chưa chuẩn hóa
  • ε: phần dư

Ví dụ: Giả sử, biến Y là Tốc độ chạy của xe [km/h], biến X1 là Khối lượng của xe [kg], biến X2 là Đường kính bánh xe [cm] … Các biến độc lập Khối lượng của xe, Đường kính bánh xe sẽ tác động đến Tốc độ chạy của xe [X1, X2…. tác động đến Y]. Khi đó chúng ta sẽ diễn giải hàm ý quản trị như sau:

  • Trong điều kiện các biến khác không thay đổi, khi khối lượng của xe [biến X1] thay đổi 1kg thì tốc độ chạy của xe [Y] thay đổi B1 km/h.
  • Trong điều kiện các biến khác không thay đổi, khi đường kính bánh xe [biến X2] thay đổi 1cm thì tốc độ chạy của xe [Y] thay đổi B2 km/h.

Cụm “thay đổi” trong câu nhận xét sẽ tùy trường hợp hệ số hồi quy dương hay âm mà chuyển thành “tăng” và “giảm”.

Ở ví dụ trên đây, thực tế chúng ta thấy rằng, khối lượng xe tăng làm xe chạy chậm hơn, nghĩa là hệ số hồi quy B1 âm [tương quan nghịch, X giảm Y tăng, X tăng Y giảm]. Chính vì vậy, câu nhận xét sẽ sửa lại: “Trong điều kiện các biến khác không thay đổi, khi khối lượng của xe [biến X1] tăng 1kg thì tốc độ chạy của xe [Y] giảm B1 km/h”.

Ngược lại, trên thực tế, đường kính bánh xe tăng sẽ làm xe chạy nhanh hơn, nghĩa là hệ số hồi quy B2 dương [tương quan thuận, X tăng Y tăng, X giảm, Y giảm]. Chính vì vậy, câu nhận xét sẽ sửa lại: “Trong điều kiện các biến khác không thay đổi, khi đường kính bánh xe [biến X2] tăng 1cm thì tốc độ chạy của xe [Y] tăng B2 km/h”.

1.2 Hệ số hồi quy chuẩn hóa

Trong nghiên cứu, chúng ta thường xem xét tầm quan trọng của các biến độc lập. Nếu dùng hệ số hồi quy chưa chuẩn hóa, chúng ta không thể so sánh được vì đơn vị đo và sai số chuẩn của các biến là khác nhau. Vì vậy, chúng ta sẽ cần dùng đến hệ số đã chuẩn hóa để đưa tất cả các biến cần so sánh về cùng một hệ quy chiếu.

Phương trình hồi quy chuẩn hóa có dạng:

Y = Beta1X1 + Beta2X2 + … + BetanXn + ε

Trong đó:

  • Y: biến phụ thuộc
  • X1, X2, Xn: biến độc lập
  • Beta1, Beta2, Betan: hệ số hồi quy chưa chuẩn hóa
  • ε: phần dư

Chúng ta sẽ căn cứ vào trị tuyệt đối của hệ số hồi quy chuẩn hóa để so sánh tầm quan trọng của các biến độc lập [mức tác động của các biến độc lập]. Trị tuyệt đối hệ số Beta lớn hơn thì tầm quan trọng của biến độc lập đó lớn hơn, biến đó tác động mạnh hơn lên biến phụ thuộc. Cũng lưu ý rằng, tổng các hệ số hồi quy chuẩn hóa cộng lại không bắt buộc bằng 1.

Hệ số hồi quy chuẩn hóa được tính từ hệ số hồi quy chưa chuẩn hóa theo biến thiên của biến độc lập và biến phụ thuộc trong mẫu. Công thức liên hệ giữa hai hệ số hồi quy như sau:

Trong đó:

  • Y: biến phụ thuộc
  • X: biến độc lập
  • BetaX: hệ số hồi quy chuẩn hóa của biến X
  • BX: hệ số hồi quy chưa chuẩn hóa của X
  • SX, SY: độ lệch chuẩn của biến X và biến Y

Để dễ hiểu hơn, chúng ta sẽ cùng xem xét ví dụ bên dưới. Ở đây có 3 biến tham gia vào hồi quy: biến độc lập là F_DN, F_LD và biến phụ thuộc là F_HL.

Chúng ta đối chiếu với công thức chuyển đổi và lấy các thông số cần thiết để tính Beta của biến F_TL.

Đối chiếu kết quả Beta của biến F_TL vừa tính được với chỉ số Beta trong bảng Coefficients, hai giá trị này hoàn toàn trùng khớp với nhau.

2. Giả thuyết ý nghĩa hệ số hồi quy

Chúng ta sẽ đánh giá hệ số hồi quy của mỗi biến độc lập có ý nghĩa trong mô hình hay không dựa vào kiểm định t [student] với giả thuyết H0: Hệ số hồi quy của biến độc lập Xi bằng 0. Mô hình hồi quy có bao nhiêu biến độc lập, chúng ta sẽ đi kiểm tra bấy nhiêu giả thuyết H0. Kết quả kiểm định:

  • Sig < 0.05: Bác bỏ giả thuyết H0, nghĩa là hệ số hồi quy của biến Xi khác 0 một cách có ý nghĩa thống kê, biến X1 có tác động lên biến phụ thuộc.
  • Sig > 0.05: Chấp nhận giả thuyết H0, nghĩa là hệ số hồi quy của biến Xi bằng 0 một cách có ý nghĩa thống kê, biến Xi không tác động lên biến phụ thuộc.

Trong SPSS, các số liệu của kiểm định t được lấy từ bảng hệ số hồi quy Coefficients. Cũng lưu ý rằng, nếu một biến độc lập không có ý nghĩa thống kê trong kết quả hồi quy, chúng ta sẽ kết luận biến độc lập đó không có sự tác động lên biến phụ thuộc mà không cần thực hiện loại biến và phân tích lại hồi quy.

Nếu bạn gặp khó khăn khi kết quả hồi quy không có ý nghĩa, giá trị R2 quá thấp, các biến độc lập bị loại nhiều, vi phạm đa cộng tuyến, vi phạm các giả định hồi quy. Bạn có thể tham khảo dịch vụ xử lý SPSS của Xử Lý Định Lượng để team có thể hỗ trợ bạn xử lý nhanh và hiệu quả nhất.

1. Giới thiệu

Trong bài này chúng ta quan tâm đến liên hệ giữa hai biến số định lượng  và tập trung chủ yếu đến phương pháp tương quan và hồi quy tuyến tính để xác định mối liên hệ tuyến tính [linear] giữa hai biến liên tục. Tương quan [correlation] đo lường sự chặt chẽ của mối liên hệ trong khi hồi quy tuyến tính [linear regression] cho biết phương trình đường thẳng mô tả sự liên hệ tốt nhất và cho phép tiên đoán biến số này từ biến số khác.

Bảng 9.1 Thể tích huyết tương và trọng lượng cơ thể của 8 người đàn ông khỏe mạnh

Ði tượng

trng lượng cơ th [kg]

Th tích huyết tương [lít]

1

58,0

2,75

2

70,0

2,86

3

74,0

3,37

4

63,5

2,76

5

62,0

2,62

6

70,5

3,49

7

71,0

3,05

8

66,0

3,12

Hình 9.1 Phân tán đồ của thể tích huyết tương và trọng lượng cơ thể cùng với đường hồi quy tuyến tính

[a] Không tương quan

[b] mối liên hệ không tuyến tính

[c] Tương quan dương không hoàn toàn

[d] Tương quan dương hoàn toàn

[e] Tương quan âm không hoàn toàn

[f] Tương quan âm hoàn toàn

Hình 9.2 phân tán đồ minh họa các giá trị khác nhau của hê số tương quan. Trong đây cũng có các đường hồi quy.


2. Tương quan

Bảng 9.1 trình bày trọng lượng cơ thể và thể tích huyết tương của 8 người đàn ông khỏe mạnh. Để đánh giá sự liên quan giữa hai biến số định lượng trọng lượng cơ thể và thể tích huyết tương chúng ta có thể sử dụng phân tán đồ hay hệ số tương quan r:

Phân tán đồ

Phân tán đồ là đồ thị  thể hiện các giá trị của các quan sát  bằng kí hiệu trên hệ toạ độ gồm hai trục: trục hoành thể hiện cho biến số độc lập và trục tung thể hiện biến số phụ thuộc.  Hình 9.1 trình bày phân tán đồ của thể tích huyết tương lớn có liên quan đến trọng lượng cơ thể cao.

Hình dạng của phân tán đồ thể hiện mối liên hệ giữa hai biến số. Nếu phân tán đồ có dạng một đám mây nằm ngang thì không có sự liên hệ giữa hai biến số [hình 9.2 a]. Nếu phân tán đồ có hình dạng ellipse đi từ dưới bên trái lên phía trên bên phải thì hai biến số có liên hệ thuận [hình 9.2 c và d]. Nếu phân tán đồ có hình dạng ellipse đi từ phía trên bên trái xuống phía dưới bên phải thì hai biến số có liên hệ nghịch [hình 9.2 e và f]. Trục ngắn của ellipse càng ngắn thì mối liên hệ càng mạnh và nếu ellipse bị biến thành một đường thẳng thì mối tương quan được xem như là hoàn toàn [hình 9.2 d và f]. Nếu hình dạng của phân tán đồ không phải là dạng ellipse hay đường thẳng thì hai biến số cũng có mối liên hệ nhưng sự tương quan này được gọi là không tuyến tính [hình 9.2 b].

Áp dụng lí luận trên chúng ta có thể xác định giữa thể tích huyết tương và trọng lượng cơ thể có tương quan tuyến tính, thuận và không hoàn toàn.

Hệ số tương quan

Nếu hai biến số định lượng có quan hệ tuyến tính thì chúng ta có thể đo lường mức độ tương quan một cách chính xác hơn bằng cách tính hệ số tương quan [correllation coefficient], r. Công thức tính r thể hiện bản chất của hệ số tương quan như sau:

Để tính hệ số tương quan dễ dàng hơn Chúng ta  có thể sử dụng công thức tính hệ số tương quan như sau:

Trong đó x là biến số độc lập [trọng lượng], y là biến số phụ thuộc [thể tích huyết tương], `x và `y là các số trung bình tương ứng. Phân tán đồ minh họa những hệ số tương quan khác nhau đươc trình bày trong hình 9.2.

Sử dụng công thức này để tính toán r, trước tiên chúng ta hãy tính trung bình và độ lệch chuẩn của biến số x và y:

Trọng lượng cơ thể:    `x=66.875       s=5.4166         n=8     

Thể tích huyết tương `x=3.0025       s=0.31121       n=8     

Tích của hai biến số     `x=201.91       s=34.849         n=8

Sau đó hãy tính toán hệ số tương quan.

Lí giải ý nghĩa của hệ số tương quan:

- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]

- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không liên hệ.

- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt đối của r bằng 1 [r=1 hay r=-1], quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy [Hình 9.2 d và 9.2f]. Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy [hình 9.2 c và 9.2e].

- Bình phương của hệ số tương quan [r2] thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập [nếu mối liên hệ này là nhân quả]

- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là [1] không có mối liên hệ gì giữa hai biến số hoặc [hình 9.2a] [2] mối liên hệ giữa hai biến số không phải là tuyến tính [hình 9.2b]

- Theo quy ước, quan hệ với  r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh. Ðiều quan trọng là sự tương quan giữa hai biến số cho thấy sự liên hệ nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'.

3. Hồi quy tuyến tính

Hồi quy tuyến tính cho phương trình đường thẳng mô tả nếu biến x tăng thì biến y tăng như thế nào. Không giống như tương quan, việc lựa chọn biến nào để làm biến y là quan trọng bởi vì hai phương pháp không cùng cho một kết quả, y thường được gọi là biến số phụ thuộc [dependent variable] và x là biến số độc lập hay giải thích [independent or explanatory variable]. Trong thí dụ này, rõ ràng chúng ta cần quan tâm sự phụ thuộc thể tích huyết tương và trọng lượng cơ thể.

Phương trình hồi quy là

y = a + bx

a:  là điểm chặn [intercept] hay hằng số [constant]

b: là độ dốc [slope] của đường thẳng hay hệ số [coefficient] của phương trình [Hình 9.3].

Giá trị đối với a và b được tính sao cho cực tiểu hóa bình phương khoảng cách theo chiều đứng từ các điểm số liệu tới đường thẳng. Nó được gọi là phù hợp bình phương tối thiểu [least squares fit] [Hình 9.4]. Ðộ dốc b đôi khi được gọi là hệ số hồi quy [regression coefficient]. Nó có cùng dấu với hệ số tương quan. Khi không có sự tương quan, b bằng zero, tương ứng với một đường thẳng hồi quy nằm ngang đi qua điểm y.

và           a = `y - b`

Hình 9.3 Giao điểm và độ dốc của phương trình hồi quy y = a + bx. Giao điểm a là điểm mà đường thẳng cắt trục y và cho giá trị y ở x = 0. Ðộ dốc b là mức tăng của y tương ứng với sự gia tăng một đơn vị của x.

Trong thí dụ này

b = 8,96/205,38 = 0,0435

Và:

a = 3,0025 - 0,04354 ´ 66,875 = 0,0907

Do đó sự phụ thuộc của thể tích huyết tương vào trọng lượng cơ thể được mô tả bằng

Th tích huyết tương = 0,0907 + 0,0435 × trng lượng

và được vẽ trên Hình 9.1.

Ðường hồi quy được vẽ bằng cách tính tọa độ của hai điểm của đường thẳng. Thí dụ chúng ta có thể  tính toạ độ của đường thẳng tại giá trị x = 60 và x = 70

x = 60, y = 0,0907 + 0,0435 ´ 60 = 2,7032

x = 70, y = 0,0907 + 0,0435 ´ 70 = 3,1386

Như vậy đường thẳng hồi quy phải đi qua điểm [60, 2.7] và [70, 3.1].  Hiển nhiên đường thẳng phải đi qua điểm [`x,`y] = [66.9 , 3.0]

4. Kiểm định và ước lượng trong tương quan và hồi quy

Khái niệm về phương sai phần dư

Hình 9.4 Ðường thẳng hồi quy tuyến tính, y = a + bx, được làm phù hợp bằng bình phương tối thiểu, a và b được tính để cực tiểu hóa tổng bình phương của các độ lệch thẳng đứng [vẽ bằng các đường thẳng đứng] của các điểm đối với đường thẳng, mỗi độ lệch bằng hiệu số giữa số y quan sát và tiểm tương ứng trên đường thẳng a + bx

Do các giá trị của các  quan sát không nằm trên một đường thẳng nên chúng có một khoảng cách áo với phương trình hồi quy. Con số thể hiện mức độ phân tán của số liệu quanh đường thẳng hồi quy được gọi là sai số chuẩn của hồi quy [standard error of regression].

Sai số chuẩn của hồi quy được tính theo công thức sau:

Sai số chuẩn của hồi quy còn được triển khai thêm như sau

s là độ lệch chuẩn của các điểm số liệu so với đường thẳng, có [n-2] độ tự do.

 

hoặc    

Điều này có nghĩa là nếu ta áp dụng phương trình hồi quy để tiên đoán thể tích huyết tương thì chúng ta không thể tiên đoán một cách chính xác: chúng ta sẽ mắc một sai số trung bình là 0.218.

Bình phương của sai số hồi quy được gọi là phương sai phần dư:

Kiểm định ý nghĩa hệ số tương quan

Khi chúng ta đã có hệ số tương quan, có hai phương pháp kiểm định hệ số tương quan này. Một phương pháp để kiểm định giả thuyết Ho: hệ số tương quan r = 0  và một phương pháp kiểm định giả thuyết Ho: hệ số tương quan r = r [với r ¹ 0]

 - Kiểm định t được dùng để xem r có khác zero một cách có ý nghĩa hay không. Nói cách khác đi, kiểm định này để xem sự tương quan quan sát được có phải là thực sự này chỉ do tình cờ. Việc kiểm định này dựa trên cơ sở của công thức ước lượng sai số chuẩn của r: s.e.[r] = [1-r2]/[n-2]

           

Thí dụ để kiểm định giả thuyết hệ số tương quan giữa thể tích huyết tương và trọng lượng cơ thể bằng không, chúng ta tiến hành các tính toán sau:

Ðiều này có ý nghĩa ở mức 5% xác nhận ý nghĩa của sự liên hệ giữa thể tích huyết tương và trọng lượng cơ thể

Mức ý nghĩa phụ thuộc của cả vào độ lớn của mối tương quan và số các quan sát. Lưu ý rằng tương quan yếu có thể có ý nghĩa thống kê nếu nó dựa trên một số lớn quan sát, trong khi sự tương quan mạnh có thể không đạt được mức ý nghĩa nếu chỉ có một ít quan sát.

- Kiểm định z để  kiểm định giả thuyết Ho: hệ số tương quan r = r [với r ¹ 0]

Trước tiên chúng ta tìm hiểu về phép biến đổi z của Fisher. Fisher đã chứng minh z[r] [đọc là hàm số z của hệ số tương quan r]:

           

sẽ có phân phối bình thường với trung bình là z[r] và độ lệch chuẩn là Ö1/[n-3]

Như vậy để kiểm định hệ số tương quan r = r [với r ¹ 0], chúng ta phải tính:

           

             [chúng ta lưu ý nếu r = 0 thì hàm số z của r sẽ trở thành không xác định]

            và  

Thí dụ giả sử  tác giả X tìm được hệ số tương quan giữa thể tích huyết tương và trọng lượng cơ thể là 0.4, hãy kiểm định xem hệ số tương quan chúng ta đã tìm ra có thực sự lớn hơn hệ số tương quan được báo cáo do tác giả X hay không:

Chúng ta tính được:

           

             

            và  

Tra bảng phân phối chuẩn một đuôi chúng ta tính được giá trị p > 0.05 vì vậy chúng ta không có bằng chứng thống kê để cho rằng hệ số tương quan của chúng ta tìm ra thực sự lớn hơn 0.4.

Sai số chuẩn của các ước lượng dùng phương trình hồi quy

Đường thẳng hồi quy cũng tương tự như các giá trị thống kê  các đều có khả năng bị sai số và phương trình  hồi quy được tính từ một mẫu  chỉ là ước lượng cho phương trình hồi quy thực sự của toàn bộ dân số.

Giá trị a và b là các ước lượng mẫu của giá trị giao điểm và độ dốc của đường thẳng hồi quy mô tả mối liên hệ tuyến tính giữa x và y trong toàn bộ dân số. Do đó chúng bị các biến thiên lấy mẫu và độ chính xác của chúng có thể đo lường bằng sai số chuẩn. Từ sai số chuẩn chúng ta có thể dễ dàng tính được khoảng tin cậy của các ước lượng này hay kiểm định chúng có khác với một giá trị cụ thể nào hay không

Sai số chuẩn của a

Sai số chuẩn của a được tính theo công thức sau

khoảng tin cậy của a :

a ± tc × s.e.[a]

Và để kiểm định a có khác so với a

Áp dụng vào thí dụ ở trên ta có

Khoảng tin cậy 95% của điểm chặn a bằng:

Khoảng tin cậy 95% :  a ± tc × s.e.[a]  = 0.0857 ± 2.45 × 1.3197 = -3.148 – 3.319

Một nghiên cứu trước đây đã báo cáo phương trình hồi quy của thể tích huyết tương theo cân nặng với giá trị điểm chặn a là 2.1.  Có thể kiểm định giá trị điểm chặn trong nghiên cứu của chúng ta có khác với giá trị 2.1 đã báo cáo hay không bằng phép kiểm t:

tra bảng ta có p >0.05 [p = 0.177] chúng ta không thể bác bỏ giả thuyết Ho và như vậy chúng ta có thể kết luận không có sự khác biệt có ý nghĩa thống kê về giá trị điểm chặn của nghiên cứu của chúng ta và nghiên cứu đã báo cáo.

Sai số chuẩn của b

Sai số chuẩn của b được tính theo công thức sau

khoảng tin cậy của b :

b ± tc × s.e.[b]

Và để kiểm định b có khác so với b

Thí dụ:

Áp dụng vào trường hợp phương trình hồi quy của thể tích huyết tương theo cân nặng ta được: 

Giả sử chúng ta muốn  kiểm định xem b có khác biệt có ý nghĩa với zero hay không.  Kiểm định này cho kết quả

Lưu ý kết quả này giống như kết quả của kiểm định hệ số tương quan có kác không hay không. Với  giá trị 2,85 chúng ta có thể kết luận thể tích huyết tương tăng có ý nghĩa [P0.05 [p = 0.41] chúng ta không thể bác bỏ giả thuyết Ho và như vậy chúng ta có thể kết luận không có sự khác biệt về hệ số góc của phương trình hồi quy của chúng ta với tài liệu nêu trên.

Khoảng tin cậy 95% của hệ số góc b bằng:

Khoảng tin cậy 95% :  b ± tc × s.e.[b] = 0.0436 ± 2.45 × 0.0153 = 0.006 – 0.081

Tiên đoán

Trong một số tình huống, có thể sử dụng phương trình hồi quy để tiên đoán giá trị y cho một giá trị đặc biệt của x được gọi là x'. Giá trị tiên đoán là:

            y' = a + bx'

Và sai số chuẩn của nó là

 

Sai số chuẩn này tối thiểu khi x' gần với trung bình x. Nói chung phải thận trọng khi sử dụng đường hồi quy để tính các giá trị ngoài phạm vi của x trong số liệu gốc, bởi vì quan hệ tuyến tính không nhất thiết sẽ đúng ở ngoài phạm vi mà nó được làm phù hợp.

Khoảng tin cậy của tiên đoán:

y' ± tc × s.e.[y'] với  tc tra từ  bảng t [student] với  n-2 độ  tự  do

Trong thí dụ này, sự đo lường thể tích huyết tương tốn nhiều thời gian và do đó trong một số trường hợp, có thể tiên đoán từ trọng lượng cơ thể. Thí dụ thể tích plasma huyết tương của một người đàn ông nặng 66 kg là

0,0832 + 0,0436 × 66 = 2,96 lít

Và sai số chuẩn bằng

Khoảng tin cậy 95% của giá trị tiên đoán y' là

y ± tc´s.e.[y']

với tc được tra từ bảng t [hai đuôi] với n-2 độ tự do

5. Giả thiết

Có hai giả thiết nền tảng trong phương pháp hồi quy tuyến tính. Giả thiết thứ nhất là đối với bất cứ giá trị x nào, y có phân phối bình thường. Giả thiết thứ hai là độ phân tán của các điểm quanh đường thẳng là như nhau trong suốt đoạn thẳng. Ðộ phân tán được đo lường bằng độ lệch chuẩn s của các điểm số liệu so với đường thẳng như đã định nghĩa ở trên. Sự thay đổi thang đo có thể thích hợp nếu các giả thuyết trên không thỏa hay quan hệ dường như phi tuyến tính [xem Chương 19]. Các quan hệ phi tuyến được thảo luận ở chương 10

Video liên quan

Chủ Đề