大数据分析 - 方法论

在方法论方面,大数据分析与传统的实验设计统计方法有很大不同。 分析始于数据。 通常,我们以解释响应的方式对数据进行建模。 这种方法的目标是预测响应行为或了解输入变量如何与响应相关。 通常在统计实验设计中,会开发一个实验并检索数据作为结果。 这允许以统计模型可以使用的方式生成数据,其中某些假设成立,例如独立性、正态性和随机化。

在大数据分析中,我们会看到数据。 我们无法设计一个满足我们最喜欢的统计模型的实验。 在分析的大规模应用中,仅仅为了清理数据就需要大量的工作(通常是 80% 的工作量),因此它可以被机器学习模型使用。

我们没有在真正的大规模应用程序中遵循的独特方法。 通常,一旦定义了业务问题,就需要一个研究阶段来设计要使用的方法。 然而,一般指南是相关的,需要提及并适用于几乎所有问题。

大数据分析中最重要的任务之一是统计建模,即有监督和无监督的分类或回归问题。 一旦数据被清理和预处理,可用于建模,应注意评估具有合理损失指标的不同模型,然后一旦模型实施,应报告进一步的评估和结果。 预测建模中的一个常见缺陷是只实现模型而不测量其性能。