端到端机器学习项目

时间：2023-11-29 本站点击：0

让我们继续创建数据集，以及再数据可视化更深入去洞见数据相关性

1.创建测试集

上篇讲了，我们如何使用纯随机的方法把我们的数据集分成了训练集和测试集。先从编写简单的split_train_test()函数开始，分析出其中存在的问题，最后完善其问题，使得能够不会因为数据集的变动而影响模型的训练。

假如一家公司需要通过1000人去调研几个问题，那么这家公司不会去纯随机的方式找人，而是想要尽量通过这1000人去代表全体。比如美国的人口组成为51.3%的女性和48.7%的男性，则最好这1000人也是513名女性和487名男性。这便是分层抽样：先将人口分成均匀的子集，每个子集一层，然后每层抽取正确的实力数量。

在预测加州的房价中，收入中位数是一个很重要的属性，如图1.1 收入中位数直方图，我们能够很容易的看出收入中位数大概分布在1.5-6.0万美元之间，因此我们可以根据这个范围将收入中位数分成五层。

注意：我们每一层的实例应该足够多，这样才能保证数据不会被错估。应当把层分的少，每一层的实力足够大。这就是为什么我们要先看收入中位数的大致分布，再考虑如何分层。

图1.1 收入中位数直方图

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：/AI/1183.html

端到端机器学习项目

1.创建测试集

最新文章