Đoàn Vĩnh Nhân – Toán Tin 03 – K68
Trong đời sống kinh tế hiện đại, việc xác định giá trị của một tài sản bất động sản không chỉ là mối quan tâm của những nhà đầu tư chuyên nghiệp mà còn là bài toán thực tế đối với bất kỳ ai đang có ý định mua nhà. Làm thế nào để biết một căn nhà đang được rao bán với mức giá hợp lý? Làm sao để định lượng được sức ảnh hưởng của diện tích, vị trí hay số phòng ngủ lên giá trị cuối cùng?
Để trả lời những câu hỏi này, các nhà khoa học dữ liệu và các chuyên gia Toán ứng dụng thường tìm đến một trong những công cụ nền tảng và mạnh mẽ nhất của thống kê: Hồi quy tuyến tính (Linear Regression). Bài viết này sẽ dẫn dắt bạn đi từ quan sát trực giác đời thường đến việc xây dựng một mô hình toán học cụ thể, giúp biến những dữ liệu lịch sử khô khan thành những dự báo có cơ sở khoa học.
1. Bài toán thực tế: Diện tích và Giá nhà
Hãy tưởng tượng bạn đang thu thập dữ liệu về các căn nhà đã giao dịch thành công trong một khu vực cụ thể. Với mỗi căn nhà, bạn ghi lại hai thông tin cơ bản: diện tích (tính bằng mét vuông) và giá bán (tính bằng tỷ đồng).
Khi biểu diễn các cặp giá trị này lên một hệ trục tọa độ — với trục ngang (Ox) là diện tích và trục dọc (Oy) là giá nhà — bạn sẽ thu được một tập hợp các điểm dữ liệu, thường được gọi là biểu đồ phân tán (scatter plot).

Nhìn vào biểu đồ này, một quy luật tự nhiên sẽ hiện ra trước mắt: các điểm dữ liệu không nằm hỗn loạn mà tạo thành một “đám mây” có xu hướng đi lên. Điều này phản ánh một trực giác cơ bản trong bất động sản: Nhà càng rộng, giá càng cao. Tuy nhiên, quan sát bằng mắt thường chỉ cho chúng ta cái nhìn định tính. Để có thể đưa ra một con số dự báo cụ thể cho một căn nhà có diện tích bất kỳ, chúng ta cần một công thức toán học chung. Đó là lúc hồi quy tuyến tính xuất hiện để “công thức hóa” xu hướng này.
2. Hồi quy tuyến tính: Đi tìm đường thẳng tối ưu
Về cốt lõi, hồi quy tuyến tính là phương pháp tìm ra một đường thẳng “đi xuyên qua” đám mây dữ liệu sao cho nó phản ánh sát nhất xu hướng chung của tất cả các điểm. Đường thẳng này được gọi là đường hồi quy.
y = β₀ + β₁x + ε
Để hình dung rõ hơn về sự dịch chuyển của đường thẳng này qua các điểm dữ liệu, bạn có thể tham khảo video minh họa trực quan tại: https://www.youtube.com/shorts/RaS2kMUDRPU

Giả sử mối quan hệ giữa diện tích (x) và giá nhà (y) tuân theo một quy luật tuyến tính, chúng ta có phương trình tổng quát:
y = β₀ + β₁x + ε
- y: Là giá nhà thực tế mà chúng ta muốn giải thích.
- x: Là diện tích nhà, hay còn gọi là biến độc lập.
- β₀: Được gọi là hệ số chặn (intercept). Về mặt toán học, đây là giá trị của y khi x = 0, có thể hiểu là mức giá nền tảng cố định không phụ thuộc vào diện tích.
- β₁: Được gọi là hệ số góc (slope). Đây là đại lượng cho biết nếu diện tích tăng thêm 1 đơn vị thì giá nhà sẽ tăng thêm trung bình bao nhiêu tỷ đồng.
- ε: Là sai số ngẫu nhiên (error term), đại diện cho tất cả những biến số nằm ngoài diện tích mà mô hình chưa xét tới, chẳng hạn như nội thất, vị trí, tình trạng xuống cấp hoặc yếu tố thị trường.
Mục tiêu của chúng ta là đi tìm các ước lượng cụ thể từ dữ liệu, ký hiệu là β̂₀ và β̂₁, để có được phương trình dự đoán:
ŷ = β̂₀ + β̂₁x
- ŷ: Là giá trị giá nhà dự đoán (predicted value) ứng với một mức diện tích cụ thể đưa vào.
- β̂₀ và β̂₁: Là các hệ số đã được ước lượng, tức được tính toán từ tập dữ liệu thực tế.
- x: Là mức diện tích cụ thể mà ta muốn dùng để dự báo.
3. Làm sao để biết đường thẳng nào là “tốt nhất”?
Có vô số đường thẳng có thể vẽ xuyên qua đám mây dữ liệu. Vậy làm sao để thuật toán biết được đâu là đường thẳng đại diện tối ưu? Để trả lời, chúng ta cần định nghĩa khái niệm Phần dư (Residual).
Với mỗi điểm dữ liệu thực tế (xᵢ, yᵢ), mô hình sẽ đưa ra một giá trị dự đoán ŷᵢ. Khoảng cách chênh lệch giữa thực tế và dự báo chính là phần dư:
eᵢ = yᵢ − ŷᵢ
- eᵢ: Phần dư tại điểm dữ liệu thứ i.
- yᵢ: Giá nhà thực tế của căn nhà thứ i.
- ŷᵢ: Giá nhà do đường thẳng dự đoán cho căn nhà thứ i.

4. Kết quả dự đoán và Con số thực tế
Nếu đường thẳng dự báo nằm càng gần các điểm thực tế, các giá trị eᵢ sẽ càng nhỏ. Tiêu chí đánh giá ở đây là cần làm cho tổng các phần dư trên toàn bộ tập dữ liệu là nhỏ nhất. Tuy nhiên, phần dư có thể âm hoặc dương, nếu cộng lại chúng sẽ tự triệt tiêu. Do đó, các nhà toán học sử dụng hàm Trung bình bình phương sai số (Mean Squared Error – MSE):
MSE = (1/n) Σᵢ₌₁ⁿ (yᵢ − ŷᵢ)²
- MSE: Trung bình bình phương sai số. Việc bình phương giúp loại bỏ dấu âm và phạt nặng các sai số lớn.
- n: Tổng số lượng mẫu dữ liệu, tức số căn nhà trong tập dữ liệu.
- Σ: Ký hiệu tính tổng của tất cả các bình phương sai số từ căn nhà đầu tiên đến căn nhà thứ n.
- (yᵢ − ŷᵢ)²: Bình phương của phần dư tại điểm dữ liệu thứ i.
Phương pháp Bình phương tối thiểu (Ordinary Least Squares – OLS) chính là quá trình toán học đi tìm bộ tham số β̂₀ và β̂₁ sao cho giá trị MSE này đạt mức cực tiểu.
Để chứng minh tính ứng dụng, chúng ta hãy xem xét một ví dụ minh họa với các số liệu cụ thể. Sau khi áp dụng phương pháp bình phương tối thiểu trên một tập dữ liệu mẫu, chúng ta thu được các hệ số ước lượng:
- β̂₀ ≈ 0.4009
- β̂₁ ≈ 0.0606
Phương trình dự báo giá nhà trong ví dụ này trở thành:
ŷ = 0.4009 + 0.0606x
- ŷ: Giá nhà dự đoán, tính theo tỷ VNĐ.
- 0.4009: Mức giá nền tảng ban đầu, tính theo tỷ VNĐ.
- 0.0606: Mức tăng giá trị trung bình, tính theo tỷ VNĐ, cho mỗi mét vuông diện tích tăng thêm.
- x: Diện tích căn nhà cần dự báo, tính theo mét vuông.
Sức mạnh của mô hình nằm ở việc biến dữ liệu thô thành công thức định lượng rõ ràng.
Dưới đây là bảng dự báo giá, ví dụ minh họa, cho các mức diện tích mới:
| Diện tích x (m²) | Giá nhà dự báo ŷ (Tỷ VNĐ) | Cách tính chi tiết |
|---|---|---|
| 10 | 1.0070 | ŷ = 0.4009 + 0.0606 × 10 ≈ 1.0070 |
| 20 | 1.6137 | ŷ = 0.4009 + 0.0606 × 20 ≈ 1.6137 |
| 40 | 2.8255 | ŷ = 0.4009 + 0.0606 × 40 ≈ 2.8255 |
| 60 | 4.0373 | ŷ = 0.4009 + 0.0606 × 60 ≈ 4.0373 |
5. Nhìn xa hơn: Khi giá nhà không chỉ do diện tích quyết định
Mô hình trên là hồi quy tuyến tính đơn biến. Tuy nhiên, chúng ta phải nhìn nhận giới hạn của nó: giá nhà thực tế còn phụ thuộc vào vô vàn yếu tố khác như số phòng ngủ, số tầng, vị trí, tiện ích…
Khi chúng ta đưa thêm một biến số vào, chẳng hạn như số phòng ngủ (x₂), không gian bài toán sẽ chuyển từ mặt phẳng 2 chiều sang không gian 3 chiều. Như được minh họa trong video (https://www.youtube.com/shorts/RaS2kMUDRPU), khi có nhiều biến số, đường thẳng dự đoán sẽ mở rộng thành một mặt phẳng dự đoán.

Để xử lý bài toán Hồi quy tuyến tính đa biến với hàng ngàn biến số, toán học sử dụng đại số tuyến tính để biểu diễn dưới dạng vector – ma trận:
ŷ = xᵀw + ε
- ŷ: Giá trị dự đoán cuối cùng.
- xᵀ: Là vector hàng chứa các đặc trưng đầu vào, chẳng hạn như diện tích x₁, số phòng ngủ x₂, khoảng cách đến trung tâm x₃.
- w: Là vector cột chứa các trọng số tương ứng mà mô hình học được từ dữ liệu để đánh giá mức độ quan trọng của từng đặc trưng.
- ε: Phần sai số không thể tránh khỏi trong thực tế.
Cấu trúc ma trận này giúp thuật toán xử lý tính toán cực kỳ tối ưu, tạo tiền đề cho các mô hình học máy hiện đại.
6. Kết luận: Sức mạnh của Mô hình hóa dữ liệu
Hồi quy tuyến tính đã hoàn thành xuất sắc vai trò của nó: chuyển hóa xu hướng dữ liệu lịch sử thành một công thức toán học minh bạch. Nó giúp chúng ta định lượng chính xác sự ảnh hưởng của diện tích lên giá nhà và cung cấp một góc nhìn trực quan, logic.
Tuy nhiên, cần lưu ý rằng đây là mô hình minh họa nền tảng. Trong thế giới thực, dữ liệu luôn chứa nhiều “nhiễu” và chịu tác động của tâm lý thị trường, quy hoạch hay kinh tế vĩ mô. Không thể khẳng định mô hình tuyến tính đơn giản này là đủ dùng và dự đoán chính xác tuyệt đối giá nhà thực tế nếu thiếu đi khối lượng dữ liệu khổng lồ và các thuật toán phức tạp hơn.
Dù vậy, toán học ứng dụng vẫn mang lại một giá trị cốt lõi: nó thay thế sự phỏng đoán cảm tính bằng tư duy dữ liệu. Nắm vững hồi quy tuyến tính chính là bước chân đầu tiên và vững chắc nhất để bạn tiếp tục khám phá thế giới rộng lớn của Trí tuệ nhân tạo và Khoa học dữ liệu.
English