机器学习实战
12 November 2014
如何选择合适的算法?
背景知识:输入特征,输出目标变量。
-
想预测目标变量的值吗? 是:监督学习算法 否:非监督学习算法
-
若监督,目标变量是离散型还是连续数值? 离散:分类算法 连续:回归算法
-
若非监督,是否只需要将数据划分为离散的组? 是:聚类算法 还需要进一步估计数据与每个组的相似程度:密度估计算法
注:发现最好算法的关键环节在于反复试错的迭代过程。
开发步骤
-
数据收集:比如爬虫、API等来源
-
数据预处理:比如是否要求数据为特定的格式
-
数据去噪:是否有异常值或空值
-
训练算法:非监督算法没有这个步骤,因为它不存在目标变量值
-
测试算法:用于判断算法是否靠谱
-
使用算法