Python贝叶斯分析(第2版)
上QQ阅读APP看书,第一时间看更新

1.1.1 与数据打交道

数据是统计学十分基本的组成部分。数据有多种来源,比如实验、计算机模拟、调查以及实地观测等。假如我们是负责数据生成或收集的人,首先考虑的是要解决什么问题以及打算采用什么方法,然后再着手准备数据。事实上,统计学有一个叫作实验设计的分支,专门研究如何获取数据。在这个数据泛滥的年代,我们有时候会忘了获取数据并非总是很方便的。比如,一个大型强子对撞机(Large Hadron Collider,LHC)一天能产生上百TB的数据,但建造这个装置却要花费数年的人力和智力。

通常,可以认为生成数据的过程是随机的,这可能是事物本身、技术性因素又或者是认知的不确定性导致的。也就是说,系统本身具有不确定性,一些技术性问题会增加噪声或限制我们无法以任意精度观测数据。此外还有一些概念层面的理解局限导致我们难以揭示系统的细节。以上这些原因,使得我们需要在模型的背景之下来解释数据,包括心理模型和形式模型。数据不会说话,但能通过建模来表达。

本书假设我们已经收集到了数据,并且这些数据都是干净、整洁的(通常这在现实世界中很少见),这个假设能让我们把注意力放到本书的主题上来。我想强调的是,尽管本书并没有涵盖数据清洗这部分内容,但想要成功地与数据打交道,这些是你应该学习和实践的重要技能。

在数据分析中,掌握一门编程语言(比如Python)是非常实用的。考虑到我们生活在一个复杂的世界中,数据也是杂乱无章的,操作数据通常是必要的,而编程有助于我们完成这类任务。就算你的数据非常干净、整洁,编程仍然非常有用,因为现代贝叶斯统计主要是通过Python或R等编程语言完成的。

如果你想学习如何用Python清洗和操作数据,我推荐Jake VanderPlas写的Python Data Science Handbook一书。