1.Azure平台介绍
Azure Machine Learning(简称’AML’)是微软在Azure上推出的基于Web使用的一项机器学习服务,这款服务的目的是在“将机器学习与云计算的简单性相结合”,简化使用机器学习的过程,便于开发人员、业务分析师和数据科学家进行广泛、便捷的应用。AML中提供了三种训练模式,分别为Notebooks、Automated ML、Designer,今天我们说一下怎么使用Designer。
2.使用前准备
国际版功能比较全面,建议使用国际版。链接: https://portal.azure.com
注册登录账号以后首先创建资源
点击Machine Learning
创建。填好相应的资源组信息和工作区信息,Region
建议选择 “East Asia”,网速会快一些,然后点击按钮。
看到信息已经生成,点击创建。
接下来需要等待服务器完成,大概一两分钟,具体取决于网络环境。完成后,页面会刷新。
点击Launch studio
进入工作区
到这里,我们就找到了文章要介绍的主角 Designer 了。
3.配置Designer的pipeline
点击Start now
,跳转页面后创建New pipeline
pipeline
创建成功
4.使用Azure Designer进行模型训练
4.1导入本地数据集
点击Datasets
, 选择从本地导入
填写基础信息,因为我要导入csv格式的数据集,所以Dataset type
使用’Tabular’
点击upload
上传数据集。
显示数据集的细节信息
提示成功后再次点击Datasets
按钮,就可以看到新创建的数据集啦
4.2加载、分割数据集
点击Experiments
,创建pipeline
使用已上传的数据集
加载完成
分割数据集。在Data Transformation
中找到Split Data
连接Split Data
和train
数据集
点击分割模块,并设置Fraction of rows in the first output dataset
为0.8,将80%的数据用于训练模型,剩余的20%数据验证模型的精度。
4.3进行模型训练
展开Model Training
下的Train Model
,拖拽到设计器中,最后在设计器连接Train Model
和Split Data
借助Azure机器学习算法评估模型的数据。在左窗口展开Machine Learning Algorithms
即机器学习模块, 在子模块Classification
中选择算法,拖拽到设计器中,并连接Train Model
。
我们需要指定数据集中的一列数据作为输出或者预测列(即选择预测项),这一列将基于其他列的数据做预测,来完成算法的配置。此时看到Train Model
还有红色三角形,表示还没配置完成。点击该模块,右侧选择Label column
,这里我选择用户的收入作为预测列。