12 November 2014

如何选择合适的算法?

背景知识:输入特征,输出目标变量。

  1. 想预测目标变量的值吗? 是:监督学习算法 否:非监督学习算法

  2. 若监督,目标变量是离散型还是连续数值? 离散:分类算法 连续:回归算法

  3. 若非监督,是否只需要将数据划分为离散的组? 是:聚类算法 还需要进一步估计数据与每个组的相似程度:密度估计算法

注:发现最好算法的关键环节在于反复试错的迭代过程。

开发步骤

  1. 数据收集:比如爬虫、API等来源

  2. 数据预处理:比如是否要求数据为特定的格式

  3. 数据去噪:是否有异常值或空值

  4. 训练算法:非监督算法没有这个步骤,因为它不存在目标变量值

  5. 测试算法:用于判断算法是否靠谱

  6. 使用算法