2024年04月12日 | 学院动态

专访「数据科学」首倡者吴建福:数据科学家需要执着、勇气与灵活

1

吴建福,美国国家工程院院士,佐治亚理工学院工业与系统工程系的可口可乐讲席教授;曾获得统计学会主席委员会(COPSS)总统奖、Shewhart奖章、R.A.Fisher讲座和Deming讲座奖等多项大奖,发表185余篇被广泛引用的论文,著有两本书籍。

 

1985年,吴建福在一次讲座中明确了“数据科学”的概念,成为该术语公认的首倡者。此前,人们常用“统计”定义其所从事的工作。他认为这是不准确的。

“我们收集数据、分析数据,根据分析做出决策。因此我认为我们是‘数据科学家’,我们的专业是包含了统计学知识在内的,众多方法与技术的集合。”其后,近四十年时光飞逝,随着“大数据”一词被更多人了解,“数据科学”的适用性也在技术迭代中不断延伸。

我们好奇,怎样的思考路径,

促使吴建福早早觉察“数据科学”的必要性?

“数据科学”的范畴相比首倡之时,

经历了哪些转变?

新时代的“数据科学家”,

又当如何适应变化,锻炼思维?

 

专访「数据科学」首倡者吴建福

△ 点击观看视频 △

 

1985年,作为数据科学家

 

吴建福讲起自己的故事,常从高中最后一年说起。

当时他被台大录取,可以自由选择专业。打心底里热爱历史的他,也非常擅长数学。最终,吴建福选择了数学,对历史的兴趣和天分,则内化为他研究与教学的另一把“利剑”,赋予他“历史视角”,让他能更快发现重要的研究机会。

 

2
高中时的吴建福

 

“比如我在Bootstrap(自助法)上的研究,就是基于我对Bootstrap诞生之前相关研究历史的充分了解”,吴建福回忆,“在读到Bradley Efron关于Bootstrap的突破性论文时,我瞬间意识到它比Jacknife(刀切法)等重抽样方法更好,因此能迅速做出反应,做出了不错的研究成果”。

用历史视角看问题,是吴建福的思维特点,也是他的教学特色。“我总会向学生们介绍,某个研究方向曾有哪些突破,以及它们何以成为突破。”实际上,也是对历史的认知,让吴建福意识到其所在的专业领域,可能缺乏一个准确的称谓。这是他在上世纪80年代首倡“数据科学”(Data Science)术语的起因。

 

3
Statistics源自德语“Statistik”(统计学/国势学),经德国政治学家Gottfried Achenwall广为流传。上图左为Achenwall所著《近代欧洲各国国势学纲要》。

 

Statistics(统计学)的词源是德语词Statistik,后者是德国城邦为计税和统计人口等目的而广为使用的。“所以你看,统计学最初的指向更偏描述型统计,而非分析型统计”,吴建福说,“我发现在英文、汉字、韩文、日文中都存在类似问题,所以我很早就认为用’统计学’概括我们的专业是不准确的”。

1985年,在一次公开讲座中,吴建福首倡“数据科学”,明确相关领域的从业者是“数据科学家”。在此之后,数据科学所包含的领域随技术进步经历了演变。吴建福说,“大数据的火爆让数据科学得到蓬勃发展,也让大家对它有了不同的理解,但大数据只是数据科学的一部分。”

吴建福认为,不论技术环境如何变化,数据科学的本质始终是一个集合,“我们在GTSI教授的很多课程,包括回归、时间序列分析、逻辑回归、二进制数据、实验设计、统计计算等等,全部都是用于数据科学的。”项目本身融合了佐治亚理工学院工业与系统工程学院、商学院、计算机科学与工程学院的课程体系,也充分说明了数据科学的综合性。

结合当下,我们请吴建福教授为“数据科学”编辑一条字典释义。他沉思片刻后说,“数据科学是一切有关数据的构想、方法和技术的总称,包含数据的收集、理解与分析。”

 

4

 

 

给学生的建议,灵活、执着与勇气

 

“优秀的数据科学思维能力,不能仅通过课程培养”,吴建福说。

“工作经历,可以更好地锻炼你的思维,而且别忘了,我们是在深圳,中国的科技创新之都。这里有很多优秀的中小微企业。”吴建福建议同学们,如果没有对某个行业特别热爱或执着,就不要让行业限制自己的去向,先找一份能够发挥所长的工作。

而结合丰富的研究与教学经历,吴建福也建议年轻人们拥有执着与勇气。“你要知道自己要做的到底是什么?如果你真的想在数据科学领域发展,就去追寻它吧。”

 

5

 

“同学们在GTSI学到了这么多东西,要把它们用起来”,吴建福说。他看好学院的跨学科培养方式,认为数据科学和计算机科学的交叉融合,可以为同学们创造更多机会。“现在机器学习很火爆,各行各业都在用,而机器学习和数据科学其实是两位一体的”,吴建福认为同学们可以将二者结合,根据自身技术能力跨专业选择课程,获取竞争优势。

“许多知识是相连的”,他说,“即便是一双鞋子的设计和制作,也要用到维度控制的知识,这是我在实验设计课程里教授的内容”。通常,在学科与学科的交集里,你会发现更多机会。