大数据分析 – 方法论
大数据分析 – 方法论
在方法论方面,大数据分析与实验设计的传统统计方法有很大不同。分析从数据开始。通常,我们以一种解释响应的方式对数据建模。这种方法的目标是预测响应行为或了解输入变量与响应的关系。通常在统计实验设计中,开发实验并检索数据作为结果。这允许以统计模型可以使用的方式生成数据,其中某些假设成立,例如独立性、正态性和随机性。
在大数据分析中,我们会看到数据。我们无法设计一个满足我们最喜欢的统计模型的实验。在大规模的分析应用中,仅仅为了清理数据就需要大量的工作(通常是 80% 的工作量),因此它可以被机器学习模型使用。
在真正的大规模应用程序中,我们没有可遵循的独特方法。通常,一旦定义了业务问题,就需要一个研究阶段来设计要使用的方法论。然而,一般准则是相关的,并且适用于几乎所有问题。
大数据分析中最重要的任务之一是统计建模,这意味着有监督和无监督的分类或回归问题。一旦数据经过清理和预处理,可用于建模,就应谨慎评估具有合理损失指标的不同模型,然后一旦实施模型,应报告进一步的评估和结果。预测建模中的一个常见陷阱是只实施模型而从不测量其性能。