数据挖掘其实可以分为两步:第一步是数据整理和数据预处理,第二步是使用各种方法或者算法对数据进行建模和分析。人们一般都会认为第二步最重要,因为第二步可以得到想要的结论或规律。但是从我们的实际工作经验来看,第一步也是非常重要的,甚至比第二步更重要。
一般书上会提到,数据的预处理包括特征或属性数据的选择或构建,数据变换(如标准化,离散化等),异常值处理,缺失值处理等几个方面内容,但是并没有标准的方法或者算法来告诉你当前的项目应该用哪一种方法,一切都与具体的业务有关,可能很多时候并没有现成的方法,需要根据项目的目标自己想办法。
本周课程将由专业老师深入浅出根据实际的项目来谈谈数据挖掘项目中的数据预处理。
本期课程将讲述R语言数据获取、数据概览、探索性分析、数据变换、数据集成等内容,完成数据获取、清洗、规范化、规律发现等工作,为下一步构建算法模型、对数据进行深度分析做好准备。
时间:2017年11月12日(周日)
上午10:00—12:00
地点:博易智软(北京)技术有限公司会议室
(西直门北大街甲43号金运大厦B座12层)