台湾政府绝对要看:美国国宝数据科学家公开他在白宫的工作


70人参与 |分类: 游戏竞技|时间: 2020-06-24

台湾政府绝对要看:美国国宝数据科学家公开他在白宫的工作

白宫在 最近任命 了 DJ Patil 为数据政策的副科技官及首席数据科学家,他也是第一个当上国家等级的数据科学家。

DJ Patil 甚至是「数据科学家」这个名称的创造者。提到他之前的经历,他最近的一项职务是 RelateIQ 的产品副总,更曾是 LinkedIn 的数据产品总经理与首席科学家。

在 3/16 的电话访问中,我有机会和 DJ Patil 谈到许多话题如:开放资料(Open data)、他从私人机构到政府部门的职涯转换过程、以及欧巴马政府对大数据的注重与透明化的行政纪录等等。

专访内容

AF:就你目前作为美国首席数据科学家的位置来说,是作为一种政府和数据科学族群间的外交活动(比如说:宣传政府开放资料)?还是更像从数据科学族群中引进技术到政府部门中(比如:帮助政府部门更有效率地使用数据)呢?

DJP:我算是学术下的产品,从前待过政府部门以及产业界。如今机会出现了,而且必须开始埋头苦干的时刻,我们自问:这个角色的任务会是什幺?

这当中包含了三大领域。

有趣的是,其实政府内有相当多的「数据科学家」,但我们称他们为统计学家,像是做人口普查的那些人。你想像看看这些人为了得到精确的数据,每十年就必须做一次调查,多幺惊人啊!

但数据科学家能带来什幺有别于统计学家的影响呢?

我们其实不用忽略这些统计学家以及其调查的数据。人口普查资料就像造房的砖头,而数据科学家就可以开始思考要「如何转变这样的砖头成为能够造福大众的东西 」。

拥有数据产品的意义是什幺?就代表着你不用真的看这些数据,而是藉着这些数据的使用来达到最终目标。

AF:有别于身在私人企业的处境,在政府部门当中你预期会遇到怎幺样的挑战与限制?

DJP:几乎可以说是完全不一样方向的道路。因为在政府部门当中,有太多的机会能让数据科学有所贡献,有所建树。

所以实际上,是这个问题的反面—我们该如何让产业界以我们手上的数据为基础来创造更多东西?我们有气象数据、人口普查数据?产业界以我们手上的数据来、医疗数据。我们该怎幺开始利用这些数据?

AF:你已经建立了网站 data.gov,以及超过十万组的可用数据。但哪些数据是政府应该在之后要公布的?以及哪些数据是未被充分利用的,以及人们不知道的或资料量不够的?

DJP:这正是其中之一我们目前很努力要做到的!

第一步就是要开放资料 ,而公开资料的问题就是要求我们不是在揭露任何人的隐密资讯,而这正是关键所在,因为这项任务的叙述就是要 「负责任的」释出资料的力量 。我们必须以一个聪明、并设想周到的方式来做到。

另外,什幺资料应该被打开,也取决于整个数据科学产业生态的技术面。当你筛选资料的时候,想必不会想要最原始的资料,而是希望是乾净、重点的资料,如果不是以这样的思考来取得,那这些数据也就白费了。

一个完美的例子就是你取用所有的卫星影像,并且将确切的波形都放进红外线光谱,如此并不实用。你希望的应该是红外线光谱转化为影像,并且是你能够组合起来的影像,如此一来你就能够将这些影像覆盖在天气图上来製造出如 Google Earth 那样的写实影像。

AF: 在开放数据的前提下,必须要政府部门的数据产出。但我们看到了许多国会上减少调查数据部门的预算,甚至删除人口调查局的资金等状况。这些计画重要吗?而你对于他们资金上的问题感到忧虑吗?

DJP:当数据是开放的,就提供了透明性,让我们有机会看进政府内部,看它是如何运作。而这也给了我们一种检查与平衡的形式,来确保我们有适当的操作。这是美国公共数据,他们对之有权利。

藉着产生这些数据,我们保持着竞争力。我最喜欢的例子就是国家气象服务—去看世界上任何一个研究报告,基本上所有人都是以 美国国家气象模型 做分析。以我为例子,作为一个硕士生的话,我会在没有人使用时佔领数学系的许多电脑来做运算,可以理解到天气其实并不像我们想像的混乱,接着就能够转换为预测天气的好处。

而现在谁会因此而受益?我们是联邦资金所资助的,必须写一大堆的报告。 而真正受益的是整个国家,这些进步回到了国家气象服务的原点。开放资料基本上就是让我们所依赖的系统更进步。

AF:你提到了数据是以何种方式、在什幺时机下开放的,他更提供了透明性,我也认为相当正确。数据科学正是依赖透明度的。但是行政单位对于透明度的承诺反倒成了激进的调查以及机密资料的洩漏。

在你接下这份工作之前你对于行政单位透明度的忍受度是?而你之后会拥护这样的揭露吗?

DJP:这件事让我感兴趣的是追蹤纪录 。

总统是第一个思考需要发展能够让民众 追蹤政府在 IT 产业上花费 的工具的;此外还有建立 www.data.gov,以及将资讯集中的概念。

有了上述两项,最后再藉着执行命令、骇客鬆等等来加强开放数据的承诺与前两项的作用。

除了这些,我们接着还有精準医疗计划(Precision Medicine Initiative),也就是作为下一个健康保险转型的基础 —— 数据科学与生物信息学。

AF:你提到了在政府部门里建立数据科学的文化。在政府内部作用的下个世代的数据科学有什幺事需要知道的?有什幺特定的统计上的知识或软体工具的能力是在招募人力上所需的?

DJP:首先,最重要的当然是你必须要有热忱,一种不断追寻问题答案、并且在智力上能够找出自己能接受的答案的那种热忱。

第二个部分当然就是必须要能够极度聪明的处理数据。而我的意思是: 你面临的东西将会意义不明,非常多时候你会无法深入问题的核心,而唯一的方法就是要聪明一点—以一种不同的角度来找寻答案。

至于软体工具方面,Excel 在 R 语言编写上会发挥很大的功用。我就不再赘述各种工具了,我要强调的是:你所使用的工具能有效的让你创造出你的叙事体吗?这个工具真的让你在问困难的问题吗?

延伸阅读

跟企业抢人才,白宫要成立最强的政府科技团队

台英开放资料高峰论坛:英国创业家鼓励开放革命应该从民间反攻政府

Open Data 迷思大破除!开放资料不是贩售资料、开放隐私资料,或只做 App

(图片、