美国政府大数据经验|掌握3机会聚焦6政策 迈向发展新阶段


大数据

大数据持续爆炸之下,许多国家纷纷急起直追,欲争相赶上这个不容轻忽的趋势。当政府仍在起跑点踌躇的同时,美国政府早在2012年就砸下2亿美元,启动了多项大数据国家级计划来应战,成为大数据发展的领头羊。

然而,奥巴马总统并没有因此而松懈,今年1月,在一场公开演讲之中,他提出对美国既有大数据发展的担忧,并要求总统顾问John Podesta带领总统直属的科学与技术顾问委员会(PCAST),进行一个为期九十天的全面审查,来检讨美国过去这2年内的大数据政策成果。

PCAST在5月1日公开了审查结果,并提出一份大数据政策研究报告。报告中指出了大数据的3大机会点,以及3大疑虑,并以此向奥巴马政府提出了6项政策建议。同时,PCAST也做了一项大数据隐私调查,调查结果发现高达8成的受访民众非常在意政府如何使用和收集数据,且对于相关数据收集的机构并不信任。

大数据发展,从政府的数据开放做起

美国政府的大数据发展要溯及奥巴马更早推动的政府数据开放,早在2009年1月,奥巴马上任後即签署了「透明与开放政府」的备忘录,宣示了三大施政准则,包括了政府透明、公民参与,与协同合作,目的是希望打造一个开放、透明的政府,而其中最重要的成果就是建立了「美国联邦政府的数据平台(Data.gov)」,将联邦政府机关的数据开放,与全美人民共享。

跨出关键的第一步,启动大数据研究发展计划

政府数据开放後,这些数据量以惊人的速度成长。Data.gov在2012年累积来自172个政府机构的数据集,数量已经从2009年的47个,暴增至40万个以上。奥巴马很快意识到,面对如此巨量的数据,传统的分析工具与技术早已不敷使用,必须要藉由政府力量来推动相关政策,才能加速大数据技术的发展。于是2012年3月,他跨出了美国大数据发展的关键一步,宣布了美国「大数据研究发展计划」,目标是要让美国政府能拥有更高的知识洞察与分析能力,来因应大数据时代的考验。

总预算多达2亿美元,六个联邦政府机构携手推动

这个大数据发展计划的第一波计划主要目的为强化分析大数据的技术与工具。6个美国联邦政府部门共同编列了多达2亿美元的预算,来改善大数据所需的技术与工具,包括美国国家科学基金会(NSF)、美国国家卫生研究院(NIH)、美国国防部(DOD)、美国国防部高级研究计划局(DAPRA)、美国能源部(DOE)与美国地质探勘局(USGS)。这些机构推动的计划主要分为开发工具技术和推广学术领域两个部分。

在开发工具技术方面,以美国国防部每年投入的2.5亿美元为最大宗,其中有6,000万美元用于大数据创新研究,来开发足以计算大量数据的软件及工具,美国国防部希望能分析数据後,转换成决策的依据。其下的高级研究计划局也推动了一项四年计划XDATA,每年预计投入2,500万美元,来开发更先进的数学演算法,以处理分散式数据仓储中的不完整数据,同时设计更有效率的人机互动工具,以满足不同分析任务的需求。XDATA计划也力推开源软件,来提供使用者在不同应用环境下更弹性地处理大量数据。美国能源部则成立了大数据研究单位,邀请来自六个国家实验室与七所大学的专家,共同开发新工具,用数据视觉化管理能源部内的超级电脑。

学术领域方面,主要是赞助各级学术单位进行大数据相关研究,像是美国国家科学基金会邀请了跨学科的研究人员,共同探讨大数据如何改变教学领域,成立培训小组,提供技术训练,协助用图像与视觉化处理复杂的海量数据,并鼓励科学研究院设立研究学程,培育下一代的数据科学家与工程师。

其余机构推出的大数据研究计划包括了美国国家卫生研究院将多达200TB的千人基因组序数据上传到亚马逊网络服务(AWS)上,打造了世界上最大的基因变异数据库,提供研究人员使用。而美国地质探勘局则表扬了John Wesley Powell中心,这个中心提供了多种科学家协作分析大数据的工具,来促进地理科学的发展,以及气候变迁、地震复发机率及下一代生态指标等议题的深入研究。

另外,美国国家科学基金会与美国国家卫生研究院共同发起了「促进大数据科学与工程的核心技术」专案,来分析医疗领域的大量数据集,对巨量的医疗数据进行分析、管理与视觉化,从中提取可用的资讯,主要研究领域涵盖了医疗与疾病相关的分子、化学、行为、临床等。

然而,仅依靠政府的力量是不够的,美国政府也邀请产业、学术单位与非营利组织一起跟上脚步,即时抓住大数据演变带来的机会。私人企业开始赞助大数据的相关竞赛,提供研究基金;教育单位设立相关创新课程;其余团体,像是数据无国界组织(Data Without Borders),也提供数据收集、分析与视觉化的技术,帮助非营利组织。

大数据计划扩展与延烧,从数据到知识

美国进入「大数据研究和发展计划」的第二年,政府积极地呼吁各联邦机构、私人企业、学术单位、州政府、非营利组织与基金会等,共同发展跨区域的大数据创新专案与合作关系。其中,美国国家卫生研究院在2013年4月,宣布将在FY14推动新的「大数据到知识计划(BD2K)」总预算超过4,000万美元。

「大数据到知识计划」藉由政策、资源和标准化的推动,广泛使用与共享巨量且复杂的生物医学数据。技术方面,开发并传播新的分析方法与软件。教育训练方面,不仅加强数据科学家、电脑工程师及生物信息学家的专业培训,也设立了一个卓越中心,用来开发一般化的方法,解决生物医学分析、计算生物学和医学信息等问题。除了BD2K之外,NIH也同时推动了三项配套计划,包括人类连接与大脑专案、癌症基因图谱专案和PhysioNet专案。

将大数据知识加以应用,从数据到知识到行动

为响应奥巴马政府对全国的呼吁,白宫科技技术政策办公室(OSTP)、NSF,及来自美国网通研发计划的其他机构,共同合作,推动「大数据到知识到行动计划」,这个创新计划订立了几个目标,包括推动大数据和分析技术与支援,教育和扩大大数据的所需人力,开发、验证与评估大数据关键成果的应用程式,提高经济成长、创造就业、教育、健康、能源、可持续发展、公共安全、先进的制造、科学工程和全球发展,最後将大数据获得的新知识见解,发挥作用,并培育区域创新。

这一连串由政府推动的计划,促进了源源不绝的创新应用,使大数据已经能够对国家经济、公共建设带来深远的影响。然而,随着新兴科技与技术快速发展,越来越多生活当中的数据,举凡消费、谈话、社交与一举一动,都将被收集、储存、分析与使用。也因为这样,衍生了人民对隐私权保护的相关疑虑。究竟哪些数据被政府或者私人单位所收集,这些数据又被应用在什麽地方,这都是人民所关切的,也是奥巴马政府将面临的一项挑战。

九十天的全面审查

为此,奥巴马要求PCAST团队展开九十天的全面审查,藉由诠释大数据的新样貌、大数据的变化,思考未来如何在鼓励并推动这些创新技术发展的同时,降低对隐私权及美国人民价值的潜在风险,进而做出大数据的下一步政策建议。

找出大数据的新样貌

今年月5月1日,美国政府在白宫官网上发布了长达85页的研究报告,报告中说明了现今的大数据已经有所改变,不再只是大量而已,它甚至是多面向且变动速度之快的数据,传统的数据收集与分析模式已经不够。随着网际网络应用、穿戴技术、先进的感应监测技术的不断演进,现在的数据来源除了公众网络、社交媒体、来自州政府的纪录与数据、来自商业交易的数据、地理空间的数据等,还包括了新的数据收集来源,像是感应器、相机、地理间观测技术,这些意味着人们的生活已经处处皆是数据的收集管道,而这样的数据量也将是前所未有的庞大,需要更高更复杂的分析技术与能力。

相较于以前的数据,现今的数据种类与来源又更加的复杂,导致数据型态的多样化程度远高于过去。数据种类分为原生数据与模拟数据,原生数据来自电脑或系统的输入,像是电子信箱、浏览器、GPS地理数据等。而模拟数据则是从物理世界所发散出来的。未来将有越来越多的模拟数据能够被转换为数字格式,包括透过电话、相机或录音机等传递的语音及数据,甚至记录身体活动的数据,例如透过穿戴技术所监控的心跳频率等。不仅如此,现在的数据分析技术提供即时的数据撷取与分析功能,这将是速度上的考验,像是网络上使用者的线上活动记录、GPS提供的地理追踪资讯,手机的定位功能等,这些都是高速的数据收集与分析的例子。

由此可见,现今的大数据已经和以往不同了,更大量、更多元、也更快速。以前所收集的数据是部分的、有关连的,数据结构也是被定义好的,数据分析会有延迟时间。例如进行线上交易时,只会纪录几个关键的栏位。但现在,大量的数据包括非结构化和不完整的数据,浏览网站时的路径、点击流、地理空间位置等也都会被记录下来,而且分析的速度是即时的,数据在被撷取时就进行分析。在这些新样貌之下,将产生许多潜在的机会点与挑战。

国家政府如何看准机会点,即时掌握住这些资源,并运用大数据,改变人民的生活,将是各国政府都要面临的巨大课题。

大数据时代下的3大机会点

这份报告提出了3项大数据能影响到国家与人民生活的机会点。包括大数据可以增进工作效率,运用不断进步的物联网技术,促进产业与讯息化经济的结合,加速经济发展。像是在喷气发动机和送货车上加装感应器,可以监控数百个数据点,并在需要维护时自动发送警报。这使维护成本降低,提高安全性与工作效率。

另外,大数据还可以找出可能浪费资源的地方,避免不必要医疗理赔,进而能有效运用纳税人的钱。例如,医疗保险与医疗补助中心运用可预测的分析软件,辨别出高风险的投保人,来降低诈欺、浪费与滥用的风险,此系统已遏止或预防超过1亿1千5百万美元的医疗浪费,该计划在第一年内每花1美元即节省3美元的浪费。

甚至,大数据甚至能够及时发现新生儿的感染状况,拯救新生命。在新生儿重症加护病房中运用数百万个数据点的数据分析与监控,辨识出新生儿接触到潜在致命感染源的可能并及时预警,也能找出辨别的因素,如温度增加与心跳速率等。

除了以上3大机会点之外,美国国防部高级研究计划局在阿富汗战争之中,将数据科学家组成的Nexus7团队部署于军事单位,运用数据分析工具协助指挥官突破挑战。例如结合卫星数据,找到并摧毁简易爆炸装置。其他领域也都有非常多的应用,包括医学研究、增加农业生产力、提升能源效率、全球发展、教育、环境监测、预测气候变化等,这些也都是未来大数据的机会点。

除了机会,这份报告也提出大数据带来的疑虑,并提出了给奥巴马政府推动下一阶段大数据政策的建议。

大数据带来的3大疑虑

第一项疑虑是,政府与公民之间的权力平衡将可能被改变。政府对大数据的使用可以带来巨大的好处,提供更好的服务,但这些使用可能触及言论自由或自由结社的风险。随着更多的数据收集、分析和储存在公共和私人两个不同的系统之上,我们应设立适当的法律,以维护政府与公民之间保持平衡。

其次,人民更多的私密个资将可能被揭露。功能强大的大数据技术涉及多个数据库的合并,这种做法,有时被称为「数据的融合」,也可能导致所谓「马赛克效果」。有些匿名的身分将可能因为数据融合之後而被识别出来。因此,当大数据更广泛应用时,我们必须确保具效力的消费者隐私权保护。

最後一项疑虑是,大数据工具可能造成差别待遇。越来越多商业和个人生活上的应用可以透过大数据演算法和自动化的流程来决定,这将可能产生偏见。例如,银行藉由大数据工具筛选出偿还能力未达门槛的人,导致对个人的歧视,损害某些族群的权益。我们必须特别注意某些大数据的使用情境,例如买房、就业和信贷。

给奥巴马的6项大数据政策规画建议

针对大数据与隐私问题,PCAST报告中提出了6项政策建议,其中4项政策建议与法律修改有关,包括了政府应修改《消费者隐私保护法案》,让消费者能够清楚、明确地知道个人资讯如何被使用。且这项法案应扩大适用于非美国人民(不分国籍),因为隐私权具有全球价值,这将反应美国联邦政府如何处理对非美国人民的身分识别资讯。

另外,还建议奥巴马政府应制定出国家数据外泄法,避免数据外泄造成严重的影响。可依据2011年美国政府所提出的网络安全立法建议(Cybersecurity legislative proposal),提供单一的国家安全数据破坏标准。再来是电子通信隐私保护法的修改,政府应确保线上的数位数据有一致的保护标准。例如在固定的一段时间过後删除电子信箱中的未读信件。

其他两项政策建议,则是为了确保所收集的学生数据只被用于教育目的,在促进更好的学习成果同时,保护学生免于数据被不当使用或共用。以及运用技术专业,确保受保护团体不会因大数据分析结我而遭受差别待遇。政府应设立科学专家,辨别出大数据的做法与结果是否造成歧视性的影响。

从数据开放到大数据发展,再从多项发展计划到全面的审查报告,不论美国政府在这一连串的推动成果如何,我们都可以透过美国政府的眼睛,看到大数据确实以极快的速度在转变,传统的分析技术早已无法负荷,需要开发出更为先进的技术,政府因应的政策也需要不断的扩大与创新。不仅如此,若要能起跑的更快,政府单位需要借助各产业、私人企业、学术单位、非营利组织与人民团体的力量,促进各个组织单位的合作关系,将能激发出更多的创新应用。

再看美国政府过去这两年内的大数据发展与今年的研究报告,可以发现奥巴马一直积极地正视这个议题,美国也将大数据运用在更多的领域,更多的层面,甚至到生活中的每个角落。从美国的研究专家分析中,知道人民所重视的隐私权问题与大数据带来的疑虑,必须藉由相关法案的增修来加以平衡。PCAST团队所提出报告与政策建议不仅能够对奥巴马在未来政策上作为参考,对政府而言也将是一个现成的参考。

美国白宫大数据研究报告重点

大数据3大机会点

● 大数据正在提升工作效率,促进经济发展。

● 大数据正在避免不必要的浪费,有效运用纳税人的钱。

● 大数据正在拯救新生命。

大数据3大疑虑

● 政府与公民之间的权力平衡可能被改变。

● 更多私密个资可能被揭发。

● 强大分析工具可能造成差别待遇。

大数据6项政策建议

● 修改消费者隐私保护法案,让消费者能够清楚知道个人资讯如何被使用。

● 制定国家数据外泄法,避免数据外泄造成严重的影响。

● 将隐私保护法扩大适用于非美国人民。

● 确保所收集的学生数据只被用于教育目的,保护学生数据免于被不当使用或共用。

● 运用技术专业,确保受保护团体不会因大数据分析造成歧视结果。

● 修改电子通信隐私保护法,确保线上的数位数据有一致的保护标准。


数据来源:美国白宫,iThome整理,2014年7月

美国总统奥巴马上任後即签署了「透明与开放政府」的备忘录,宣示打造一个开放、透明的政府,启动了美国政府开放数据趋势,也带动了日後的大数据发展。(照片提供/美国白宫)


大数据

美国总统顾问John Podesta,今年1月受总统委派,带领PCAST团队为大数据进行全面审查,并在5月1日提出了一份研究报告。(照片提供/美国白宫)