5.1 波士顿房价预测问题简介

在本章中，我们将会使用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型，并对模型的性能和预测能力进行测试。通过该数据训练后的好的模型可以被用来对房屋做特定预测，尤其是对房屋的价值。对于房地产商来说，这样的预测模型十分有价值。

该数据集来自UCI机器学习知识库（数据集已下线），于1978年开始统计，包括506个样本，每个样本包括12个特征变量和该地区的平均房价。房价（单价）显然和多个特征变量相关，不是单变量线性回归（一元线性回归）问题，选择多个特征变量来建立线性方程，这就是多变量线性回归（多元线性回归）问题。

如图5-1为波士顿方剂数据集的前几项预览图，第一行是各列特征数据的含义，分别为：

CRIM: 城镇人均犯罪率 AGE: 1940年之前建成的自用房屋比例

ZN：住宅用地超过 25000 sq.ft. 的比例 DIS：到波士顿5个中心区域的加权距离

INDUS: 城镇非零售商用土地的比例 RAD: 辐射性公路的靠近指数

CHAS: 边界是河流为1，否则0 TAX: 每10000美元的全值财产税率

NOX: 一氧化氮浓度 PTRATIO: 城镇师生比例

RM: 住宅平均房间数 LSTAT: 人口中地位低下者的比例

MEDV: 自住房的平均房价，单位：千美元

Last updated 5 years ago