今天,奥巴马政府宣布 “大数据的研究和发展计划。”通过提高我们从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。
这个计划里,六个联邦政府的部门和机构宣布新的2亿美元的投资,提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平。了解更多正在进行的联邦政府的计划,解决所大数据所带来的机遇和挑战,可通过大数据表来了解大数据革命。
我们还计划与工业界、大学研究界、非营利性机构与管理者一起利用大数据所创造的机会。显然,不能单单依靠政府,需要我们总统所呼吁的“众人拾柴火焰高”这样的努力。
一些相关的公司已经赞助大数据相关的比赛,并给大学提供这方面的研究资助。大学里也开始开设一门全新的研究型课程,培养下一代的“数据科学家”。一些无国界的组织帮助非营利性机构对公益性服务的数据进行采取、分析和可视化处理。白宫科技政策办公室将会非常有兴趣支持建立一个跟大数据相关论坛,包括最新的公私组织之间的合作。
美国政府的大数据计划
——2012年3月29日
摘要:为应对大数据革命带来的机遇,联邦政府制定计划,推进相关研究机构进一步进行科学发现和创新研究。
国防部 (DOD)
国防部高级研究计划局(DARPA)
多尺度异常检测(ADAMS)项目
解决大规模数据集的异常检测和特征化。项目中对异常数据的检测指对现实世界环境中各种可操作的信息数据及线索的收集。最初的ADAMS应用程序进行内部威胁检测,在日常网络活动环境中,检测单独的异常行动。
网络内部威胁(CINDER)计划
旨在开发新的方法来检测军事计算机网络与网络间谍活动。作为一种揭露隐藏操作的手段,CINDER将适用于将对不同类型对手的活动统一成“规范”的内部网络活动,并旨在提高对网络威胁检测的准确性、和速度。
Insight计划主要解决目前情报,监视和侦察系统的不足,进行自动化和人机集成推理,使得能够提前对时间敏感的更大潜在威胁进行分析。该计划旨在开发出资源管理系统,通过分析图像和非图像的传感器信息和其他来源的信息,进行网络威胁的自动识别和非常规的战争行为。
Machine Reading 项目
旨在实现人工智能的应用和发展学习系统的过程中对自然文本进行知识插入,而不是依靠昂贵和费时的知识表示目前的进程,并需要专家和相关知识工程师所给出的语义表示信息。
Mind's Eye 项目 旨在为机器建立视觉的智能。传统的机器视觉研究的对象选取广泛的物体来描述一个场景的属性名词,而Mind's Eye旨在增加在这些场景的动作认识和推理需要的知觉认知基础。总之,这些技术可以建立一个更完整的视觉智能效果。
Mission-oriented ResilientClouds 项目
通过技术进行检测,诊断并对攻击作出响应,有效地建立了“社区卫生服务系统”的云,以解决云计算固有的安全挑战。该方案还旨在开发新技术,使云应用和基础设施受到攻击时能够继续运行。只要整体能够有效的运行和保存,可以允许个别主机和任务损失。
加密数据的编程计算(PROCEED)研究
旨在开发实用的方法,相关现代化计算编程语言,使数据加密时仍然能使用云计算环境,以克服信息安全的重大挑战。使用户能够不需首次解密的情况下能够操纵加密的数据,它将使得对手拦截信息更加困难。
在视频和图像的检索和分析工具(VIRAT)计划
旨在开发一个系统能够利用军事图像分析员收集的数据进行大规模的军事图像分析。VIRAT如果成功,将使分析师能够在相关活动发生时建立警报。VIRAT还计划开发工具,能够以更加准确率和召回率的去从大量视频库里进行视频内容的检索。
XDATA项目计划
开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。最核心的挑战是,可伸缩的算法在分布式数据存储应用、如何使人机交互工具能够有效的迅速定制不同的任务,以方便对不同数据进行视觉化处理。对开源软件工具包的灵活使用,使得能够处理大量国防应用中的数据。
国土安全部(DHS)
卓越研究中心和可视化数据分析(CVADA)
罗格斯大学和普渡大学(以及另外三个伙伴大学)的研究人员之间进行协作,通过对大量的异构数据进行研究,使得急救员可以发现人为或自然灾害、恐怖事件,需要执法的边境安全问题,网络威胁的爆炸物。
能源部 (DOE)
科学办公室
高级科学计算研究办公室(ASCR)
提供数据管理,可视化和数据分析的社区,包括数字化保存和社区访问。套件程序里包括广泛使用数据管理的技术,如开普勒科学的工作流程系统;存储资源管理标准;各种数据存储管理技术,如BeSTman,大容量数据移动器和适应式的IO系统(ADIOS); FastBit数据索引技术(雅虎使用)和两个主要的科学可视化工具,ParaView和 VisIt。
高性能存储系统(HPSS)
是对磁盘和磁带系统上PB级数据进行管理的数据管理软件。 由美国能源部和IBM开发的HPSS在世界各地的大学和实验室的使用,用在数字图书馆,国防应用和包括纳米技术,基因组学,化学,磁共振成像,核物理,计算流体力学,气候在内的一系列学科,以及诺斯罗普·格鲁门公司,美国国家航空航天局(NASA)和美国国会图书馆。
千万亿次的数据分析处理从庞大的科学数据集提取信息,发现其主要特征,并理解其间的关系。研究领域包括机器学习,数据流的实时分析,非线性随机的数据缩减技术和可扩展的统计分析技术,广泛适应于从能源部到电网,包括宇宙学和天气数据,传感器数据等。
下一代网络方案支持工具使得合作研究在能够进行重大发现,包括2001年的Globus中间件项目大量数据的移动和使用, 2003年的GridFTP的数据传输协议, 2007年的地球系统网格(ESG)的工具。今天的GridFTP的服务器开放科学网格,ESG,和生物社区的科学数据每月超过1 PB的移动。 Globus中间件也被得克萨斯大学,软件公司,石油公司利用并一起合作,培养学生能够使用先进的石油工程方法和集成的工作流程。
基础能源科学办公室(BES)
BES的科学用户设施支持旨在协助用户数据管理和分析大数据,可每天从一个单一的实验数据大容量化(1012字节)努力。例如,加速数据采集,处理和分析(ADARA)项目解决了数据的散裂中子源(SNS)的数据系统提供实时分析,实验控制的工作流程需要,以及已经建立X射线影像资料库,以最大限度地提高数据的可用性和更有效地利用同步加速器光源。
在2011年10月,由生物工程学会和ASCR的基础能源科学的数据和通信研讨会将确定实验数据的需求,这可能会影响的科学发现。
生物和环境研究计划(BER)
大气辐射测量(ARM)气候研究设施是一个多平台的科学用户设施,提供重要的大气现象的精确观测研究,大气过程的认识的进步需要国际社会的基础设施和气候模型。 ARM的数据是可以进行应用的,并以其作为文章发表在一个超过100年历史的杂志。正在处理收集和展示的高时间分辨率和光谱信息,从数百文书相关的挑战,以满足用户的需求。
系统生物学知识库(Kbase)
是一个社区驱动的软件框架,对微生物,植物和环境条件下的生物群落功能的数据驱动的预测。 kbase是一个开放式的设计与开发,以提高算法的开发和部署效率,并增加从异构数据源的实验数据的获取和集成。 kbase是不是一个典型的数据库,而是一种手段,以解释缺少的信息成为实验设计预测工具。
聚变能源科学办公室(FES)
通过与FES和办公室高级计算(ASCR)
合作高级科学计算研究(SciDAC) 发现在在聚变能的科学计算和实验研究大数据存在的挑战。 ASCR-FES开发的数据管理技术,包括高性能的输入/输出系统,先进的科学的工作流程和出处框架,可视化技术解决独特的融合需求,已经吸引了欧洲一体化建模的努力和国际热核实验堆,一个国际核核聚变研究和工程项目的关注。
高能物理办公室(HEP)
高能物理计算计划
经过了全球数百名科学家的努力,支持大量的分析研究,复杂的实验数据集,以及大量的模拟数据。协作企业进行大数据管理,包括生产和分布式分析PanDA(产品分布式分析)工作量管理系统和XRootD,一种高性能,快速,可扩展访问多种数据存储库的容错软件。
核物理办公室(NP)
美国核数据计划(USNDP)
是一个多方面努力,涉及7个国家实验室和两所大学的项目,提供跨越多个领域,核物理,编译和交叉检查,对所有原子核的重要性质的相关实验结果,维护和广泛使用的专用数据库。
科学和技术信息办公室(OSTI)
OSTI,唯一的DataCite美国联邦机构成员(全球领先的财团科学和技术信息的组织)中发挥了关键作用,在塑造实践的政策和技术实现数据的引用,这使得可以跟踪数据的影响,使有效的重用和数据核查和学术结构的表彰和奖励数据生产商可设立。
退伍军人管理部(VA)
医疗保健信息研究所(CHIR)
开发自然语言处理(NPL)工具,能够对在VA以文本形式存储的大量数据进行信息解锁。
VA 正在努力通过保护作战人员使用文字处理算法捕获公共卫生事件(ProWatch),正在开发一个的生产透明,重复性好,可重复使用的各种安全相关的事件监控软件探测,以研究为基础的监控程序,能够跟踪,测量与军事部署相关的健康条件。
AViVA 是VA的下一代就业人力资源系统,将业务应用程序和基于浏览器的用户界面分开的数据库。分析工具已经被建立在此基础上研究,最终决定在对病人进行支持。
医学成果观察项目 设计用来比较各种安全监测分析方法的有效性,可行性和性能。
企业数据仓库(CDW)
是VA的项目,组织和管理从各种渠道传递的个人和群体的疾病和治疗的完整视图的数据。
健康资料库
是卫生保健提供者的数据格式规范的数据,尤其是VA和国防部之间,让CDW集成的数据。
基因组信息系统综合科学(GenISIS)计划
通过个性化医疗,提高退伍军人的医疗保健。GenISIS通过接触获得电子健康记录和遗传数据,可以跨VA进行的临床试验,基因试验和成果研究的临床研究。
万元老将计划
招募退伍军人自愿的血液样本的基因分型和基因测序。这些基因样本支持GenISIS,将归于“型”在个别老将的了解遗传疾病状态的健康记录。
VA的信息和计算基础设施 提供的分析大型数据集,现在在VA,促进合作研究,在VA的网络上的任何地方,分析工作区和工具。
卫生和人类服务部(HHS)
疾病控制和预防中心(CDC)
生物传感2.0是第一个考虑到区域和国家协调的情况下,通过互操作的网络系统对公众健康意识的可行性分析的系统,其建立在现有的国家和地方的能力之上。生物传感2.0移除许多单片物理结构相关的成本,同时还对最终用户透明的分布式系统方面,以及作出适当的分析和报告的数据访问。
疾病预防控制中心的特别细菌学参考实验室(SBRL)
使用细菌和疫情ID网络生物学技术从有效,迅速爆发中检测未知的细菌病原体。谱系基因组学,比较整个基因组DNA序列的系统发育分析,将带来基于序列识别的概念,以全新的水平,在不久的将来对公众健康产生深远的影响。发展一个新的物种鉴定SBRL基因组管道将允许多个分析一个新的或迅速崛起的病原体在几小时内进行,而不是数天或数周。
医疗保险和医疗补助服务中心(CMS)
正在开发的基于Hadoop的一个数据仓库 将支持对医疗保险和医疗补助要求的分析和报告。一个主要目标是建立一个支持,可持续的,可扩展的设计,可容纳在数据仓库中进行积累,并补充现有的技术。
正在评估使用XML数据库技术支持保险交流事务密集型环境,并且支持对应资格及报名流程。 XML数据库可能可以容纳大表规模的数据,事务的性能进行了优化。
医疗保险和医疗补助服务中心CMS具有当前设置与橡树岭国家实验室,涉及的数据可视化工具,平台技术,用户界面选项和高性能计算技术的评估试点项目 - 旨在使用行政索赔数据(医疗保险)来创建有用的信息产品引导和支持各种CMS高优先方案改进决策。
食品与药物管理局(FDA)
虚拟实验室环境(VLE)将结合现有的资源和能力,使虚拟实验室数据网络,先进的分析和统计工具和功能,在人群中分析,预测和促进公众健康的文档管理支持技术,使临场感能力在世界范围内的合作,使任何地点在一小时内就同一个虚拟实验室的功能。
国家档案和记录管理(NARA)
为十亿电子记录(CI-BER)的网络基础设施是一个联合机构主办的测试平台,这个多机构主办的网络基础设施,对国家档案馆87万多样化的数字记录的文件和信息的收集,可称为计算研究所的文艺复兴。这个试验台将评估技术和方法,超大规模数据收集,以支持可持续的访问。
国家航空和航天局(NASA)
美国宇航局的先进的信息系统技术(AIST)奖
旨在降低美国宇航局信息系统的风险和成本,以支持未来的地球观测任务,并转化成美国航空航天局气候中心的地理信息。一些AIST的方案寻求成熟的大数据的能力,以减少地球科学部空基和陆基信息系统的风险,成本,规模和开发时间,提高科学数据的获取和实用。
美国国家航空航天局的地球科学数据和信息系统(ESDIS)项目
持续超过15年,曾处理,归档和分发地球科学卫星数据和数据从空中和现场活动。注意用户满意度,努力确保科学家和公众对数据的访问,以便从太空对地球的研究,推动地球系统科学,以满足气候和环境变化的挑战。
全球地球观测系统(GEOSS)
通过国际之间努力合作进行地球观测数据共享和整合。美国宇航局已经与美国环境保护署(EPA),美国国家海洋和大气管理局(NOAA),其他机构和国家的力量强强联手,整合卫星、地面监测和建模系统,评估环境条件和预测包括人为和自然的森林火灾,人口增长和其他方面的结果。研究人员将在短期内,整合了各种复杂的空气质量信息,更好地了解和解决空气质量对环境和人体健康的影响。
由美国宇航局和Cray公司
订立的太空行动协议 让“大数据”系统的发展和低延迟的应用为中心的一个或多个项目上进行合作。特别是,该项目测试的混合计算机系统的实用程序,使用一个高度集成的非SQL数据库作为数据传输的一种手段,以加速执行建模和分析软件。
美国宇航局的行星数据系统(PDS)
是美国宇航局行星的任务,这已经成为了世界各地的科学家的基本资源档案数据产品。所有的PDS生产的产品通过同行评审,进行归档,并很容易通过一个由行星学科举办的在线目录系统进行访问。
太空望远镜科学研究所(MAST)
美国宇航局的分布式空间科学数据服务的一个组成部分,提供多任务存档的支持,各种天文数据档案,和相关的科学数据,包括光学、紫外线、近红外光谱等光学相关的科学数据。MAST支持多种工具,对各种光谱图像数据进行访问。
地球系统电网联邦公共档案
是一个公共的数据存档,预计将支持由国际小组的研究将在2014年完成基础对气候变化的第五次评估报告(如同第四次评估报告的存档一样)。美国宇航局联合会通过与美国能源部合作,促进观测数据和模型的输出。
国家人文基金会(NEH)
数据挖掘的挑战旨分析大数据的变化对人文社会科学的影响,在这种新的计算为基础的研究方法都需要搜索,分析和理解大量的材料,如数字化的书籍和报纸数据库,从网络搜索,传感器和手机记录交易数据。在NEH的领导下,这个挑战是由美国和8个国际组织在四个国家中进行。
国家卫生研究院(NIH)
美国国家癌症研究所(NCI)
癌症成像存档(TCIA)是一个图像数据共享服务,促进在医疗成像领域科学的开放。TCIA的目的,提高了效率和成像癌症的检测和诊断的重复性,利用影像,提供治疗反应的客观评估,并最终进行影像资源的开发,从而提高成像的使用,并对今天的癌症研究和临床实践提供决策支持。
癌症基因组图谱(TCGA) 项目进行全面和协调努力,通过包括大规模基因组测序基因组分析技术的应用,以加速癌症的分子基础的认识。 TCGA项目将随着大规模基因组技术的快速发展,到2014年将积累的几个PB的原始数据。
国家心肺和血液研究所(NHLBI)
心血管病研究所的网格(CVRG)和集成数据的分析,匿名共享(iDASH)由NHLBI提供的安全数据存储,整合,资源分析信息源,在尽量减少对用户的负担下,协作支持信息资源共享。 CVRG提供心血管研究社区资源共享的数据和分析工具。 iDASH产生隐私保护技术,发展和培养一个综合的数据共享和分析环境。
国家生物医学成像和生物工程研究所(NIBIB)
NIBIB研究所主导的互操作性和策划的纳米材料登记的发展和计划
旨在建立纳米材料的注册表,其主要功能是提供表征生物纳米材料、相互作用的环境,以及相关出版物的链接,建模工具,计算结果和对生产指导的一致策划信息。注册表有利于对表征纳米材料,以及生物相互作用的信息建设一致的标准。
基于互联网的网络控制病人的医学图像分成合同解决了通过图像共享模型,测试医院、影像中心和医生行为怎样进行跨企业的文件共享、图像传输和图像报告的可能性。
作为一个复杂的生理信号的研究资源,PhysioNet 提供免费网页访问记录生理信号(PhysioBank)和相关的开源软件(PhysioToolkit)大集合。每个月,全世界约45000游客使用PhysioNet,留下约4 TB的数据检索。
影像学信息工具和资源信息中心(NITRC)是NIH的蓝图项目
促使影像信息工具的传播,共享,和演化,通过提供访问、信息和社区互动的论坛数据,提供影像学数据。。超过450名的软件工具和数据集上NITRC注册;该网站自2007年推出已经有超过30.1万的点击率。
扩展影像学档案工具箱(XNAT)的是一个开放源码的影像信息平台
由华盛顿大学神经信息学研究组开发,并广泛应用于世界各地的研究机构。 XNAT促进共同管理,生产力及品质保证任务的影像和相关数据。
计算解剖学和多维建模
资源有几部分组成。洛杉矶神经影像实验室(LONI)设有数据库包含从从MR、PET、遗传学、行为学、人口统计其其他数据形式的图像数据。阿尔茨海默氏病影像学倡议(ADNI)是一个收集来自美国各地的收购站点的项目数据的很好的例子,它使得数据匿名,隔离,待质量控制(经常做立即)和使得它的下载提供世界各地的用户在各种不同的格式。
电脑辅助的功能性神经外科数据库
通过方法和技巧,以协助安置和用于治疗帕金森氏症和其他运动障碍的脑深部电刺激器(DBSs)。范德比尔特大学(VU)与俄亥俄州立大学和维克森林大学合作,通过多个站点的数据,开发了中央数据库。由于不同医院的临床工作流程和立体框架可以有改变,手术规划软件已经更新并测试成功。
经过十年,国立卫生研究院生物信息科学与技术倡议(BISTI)的联盟已经加入美国国立卫生研究院研究所和中心,以促进在生物信息学和计算生物学(BICB)的研究,促进了程序发布,并资助了超过十亿美元的研究。此外,NIH促进的合作活动,包括采用现代的数据和软件共享,使研究成果在研究界得到很好的传播。
国家卫生研究所 蓝图
神经科学信息框架(NIF)
是一个基于Web的动态库存神经科学的资源:数据,材料和任何连接到互联网上可以访问的工具。由国家卫生研究院(NIH)倡议了神经科学研究的蓝图,即NIF主导的进步神经科学研究,通过开源资料、网络环境,使得能够在世界范围内发现和访问公共研究数据和工具。
美国国立卫生研究院的人力Connectome项目
计划在人类大脑功能的基础,并分享有关人类大脑的结构和功能连接的数据映射神经通路。该项目将使我们理解是什么使我们人类能创造出重大进展,并会为未来在许多神经和精神疾病的异常脑回路研究建立一个新阶段。
国家卫生研究所 共同基金
国家生物医学计算中心(NCBC) 的计划在生物信息学和计算生物学上成为国家基础设施的一部分。这八个中心创建创新的软件程序和其他工具,使生物医学界能够整合,分析,建模,模拟和共享对人类健康和疾病的数据。
病人报告结果测量信息系统(PROMIS)
是一个高度可靠,有效,灵活,准确,反应迅速,措施病人报告健康状况的评估工具系统。核心资源是评估中心,它提供的工具和数据库,以帮助研究人员收集,存储,分析病人的健康状况有关的数据。
全国全科医学科学研究所
传染病代理研究模型(MIDAS)
是一个努力开发计算和分析快速逐渐增长传染病信息的方法,并提供在地方上、州上、国家层面上进行政策模拟的建模结果。而需要在全球范围内收集和整合细粒度的信息,因为公共卫生政策在本地实施,需要进行数据访问、管理、分析和存档。
结构基因组计划 通过发现,分析和传播的蛋白质的三维结构,RNA和其他生物大分子结构,展现自然界的多样性,以促进在生物学,农业和医药的基本认识和应用。全球性的努力,包括美国国立卫生研究院资助的蛋白质结构倡议,传染病结构基因组学中心,在斯德哥尔摩的结构基因组学协会和在日本的理化学研究所系统结构生物学中心。通过努力,由结构生物学知识库在TargetDB主办的中心数据库,协调他们的顺序目标选择。
全球蛋白质数据银行(wwPDB)
是一个收集,归档和高品质的大分子结构数据的库,在这个基础上能及时进行科学的自由分配,代表在生物学方面的研究和教学实验测定大分子结构信息,和进行生物、生物化工,医药教学的卓越数据源。美国部分的项目 (RCSBPDB)由能源部的五个研究院, NIH/ BER和NSF联合英国和日本的参与者共同出资。单一数据库现在包含为80,000大分子结构的实验结构和相关的注释。该网站收到来自140个不同国家每月211000个的独立访问者。网站每月大约有1 TB的数据转移。
生物医学信息研究网(BIRN)
属国内首创,通过数据共享和协作推进生物医学研究,提供了一个用户驱动软件为基础的框架,研究团队之间能够在不同地理和不同类型计算机系统上快速、安全的共享数据,给不同的研究团队服务。
美国国家医学图书馆
集成生物学及内部的信息(i2b2)
旨在创造能够整合和交换医疗保健和生物医学研究数据的方法和工具。通过i2b2开发的软件工具整合、挖掘和表示的数据,能够通过共享开源和开源管理下,在全球50多个组织进行使用。
行为与社会科学办公室(OBSSR)
国家老化计算机化数据存档(NACDA)
通过在老龄上的研究,帮助研究人员从有开发潜力广泛数据集上获得利润。NACD保存和提供美国老龄最大的电子图书数据。
人口研究的数据共享(DSDR)
提供的数据归档,保存,传播和其他数据的基础设施服务。 DSDR朝着一个统一的法律,技术和实质性框架工作,在其中分享人口科学的研究数据。
NIH–NSF联合项目
在计算神经科学的合作研究(CRCNS)
是一个NIH-NSF联合支持的项目,帮助合作研究项目之间的计算科学家和神经科学家促进对神经系统的结构和功能,神经系统紊乱机制和神经系统所使用的计算战略机制的认识。近年来,德国联邦教育和研究部还加入了在德国的方案,并支持研究。
美国国家科学基金会(NSF)
推进大数据科学与工程的核心技术(BIGDATA)
是一个NSF和NIH之间新的联合招标项目,旨在促进管理、分析、可视化和从大量多样分散异构的数据集中提取有用信息的核心技术。具体来说,将会支持对数据的管理、数据分析、与电子科学的合作,帮助在科学、工程、医学技术和工具的开发和评估方面取得突破性的研究和创新,使美国在基础技术上未来保持几十年的竞争力。
用于21世纪科学与工程学的网络基础设施框架(CIF21)
开发,整合,协调,充分利用了一套先进的网络基础设施方案,通过整个国家科学基金会的努力,创造有意义的网络基础设施,以及一体化水平的数据和工具,以支持科学和教育。
NSF通过联合计划
建立一个新的CIF21对综合研究生教育和研究培训实习生的跟踪计划(IGERT)。目的是新一代的研究人员能够解决基本的大数据有关的核心技术和技术的挑战,能够在跨学科进行网络基础设施的教育和支持。
引文数据
能够提供透明和可持续使用和引用的数据集,由一封联邦政府工作人员发起的信中开始进行资助,反映了联邦政府在基金资助研究数据的管理和可持续发展。
数据和软件保护的开放科学(DASPOS)第一次尝试建立一个来自大型强子对接机和费米实验室的理学家与,数字保管、异构存储系统、大规模计算机系统方面专家之间的正式合作。其目的是制定和执行紧集的定义,参赛者大型活动所依据的大规模,长期的计划,以及各学科之间的共性指标。EarthCube支持引导社区网络基础设施的发展,将数据集成到一个框架,加快地质科学知识的传递。 NSF的刚刚宣布CIF21框架内第一轮EarthCube奖项,通过探索性研究(EAGER的)机制的早期概念资助,第一步是在地学行为研究上打下基础。
计算先行者
已经资助在加州大学伯克利分校的一个研究小组,深入整合算法,机器和人,以解决大数据的研究挑战。在分析,新系统的基础设施基本创新的结合有利于从云和集群计算和采购人群的可扩展性的资源,人类活动和情报将没有今天的自动化的数据分析技术,提供可以解决问题的方案。
随机网络模型的重点研究组的研究人员正在开发一种统一的理论框架为原则的统计方法,可伸缩的网络模型算法,以区别随机性的网络知识。生物学和数据的合作者们通过学习大量报纸数据中单词和短语之间的关系,提供自动化和可扩展性的媒体分析工具。
国家科学基金会发布一封给同事的信,宣布成立一个思想实验室,将征求跨学科参与,产生变革的想法,使用大型数据集,以提高教学和学习环境的成效。
信息集成和信息处理 解决可伸缩的问题和挑战,涉及到传统科学研究数据的移动,到非常大的异构数据,比如新数据类型模型的整合和表示,以及相关的数据路径、信息生命周期管理和新平台的数据。
计算和数据处理的科学和工程(CDS&E)和数学和统计科学(CDS&E-MSS) 由美国国家科学基金会的数学部门(DMS)和基础设施办事处(OCI)设立,成为一个独特的学科包括数学和统计基础和计算算法。目前这个项目的建议正在审查中,将在2012年7月颁布新的奖项。
一些研究训练组(RTG)和通过转型的关键点的指导(MCTP)涉及到大数据 在加州大学戴维斯分校的RTG的项目涉及对从天文学、计算机科学、神经科学等领域多种形式的图像、函数、图表和树型的对象数据进行分析。大学生将通过图像和可视化技术的培训,处理复杂的数据、软件包、和计算机模拟来评估模型的有效性。与大气、图像重建、网络安全和癌症相关的学生网站也在发展当中。
激光引力波干涉观测站(LIGO) 通过以前不能观察形式的辐射,在宇宙中打开一个可以进行引力波探测的窗口。只有通过利用世界各地大型计算设施、和77家机构超过870名研究人员,和Einstein@Home项目,才能对这些大量涌现的数据进行处理。
开放科学网格(OSG) 使得全世界超过8000名的科学家合作进行发现,包括寻找希格斯玻色子。在瑞士的欧洲核子研究中心(CERN)的大型强子对撞机,超过100计算设施,每年通过高速网络散布超过15 PB的实时数据。美国计算机领域的科学家和电脑设施提供数据传输分析服务、工作规范和执行、安全和管理、在物理、生物、纳米技术、天体物理学等学科进行数据共享。
理论和计算天体物理学网络(TCAN) 计划,旨在最大限度地发现潜在的大规模的天文数据集,通过推进解释这些数据所需要的基本理论和计算方法,团结协作网络跨越体制和地域的研究划分,培训未来理论和计算的科学家。
美国国家安全局(NSA)
警惕网络竞争网络防御规模的情境意识的培养和测试将探索数据可视化的网上竞赛,从开始与识别此类事件设计与最佳执行方法上,进行庞大计算机网络防御上的数据可视化开发。
情报共同体(IC)通过与整个美国政府、学术界和工业界各种各样的合作伙伴确定了一套协调、宣传和活动方案。将网络安全与大数据相结合,使其学术界了解其观点。
NSA/ CSS的商业解决方案中心(NCSC)通过供应商的能力演示,展示了新的商业技术的发展,满足NSA/ CSS的战略需求和国家安全社区。
美国地质调查局(USGS)
USGS约翰韦斯利鲍威尔分析及合成中心 刚刚宣布了传输大数据集和为科学发现有关的地球科学理论有关的八项新的研究项目。中心的科学家合作利用全面、长期的数据来进行最先进的合成。