目录
18 关系: Apache Hadoop,Apache HBase,Apache Spark,大數據,傑夫·迪恩,Bigtable,CouchDB,Erlang,舞蹈链,雲端運算,Giraph,Google,MapR,Microsoft Azure,Pig,Snappy,Storm (事件处理器),桑迪亚国家实验室。
Apache Hadoop
Apache Hadoop是一款支持數據密集型分佈式應用程序并以Apache 2.0許可協議發佈的開源軟體框架。它支持在商品硬件構建的大型集群上運行的應用程序。Hadoop是根據谷歌公司發表的MapReduce和Google檔案系統的論文自行實作而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。 Hadoop框架透明地為應用提供可靠性和數據移動。它實現了名為MapReduce的編程範式:應用程序被分割成許多小部分,而每個部分都能在集群中的任意節點上執行或重新執行。此外,Hadoop還提供了分佈式文件系統,用以存儲所有計算節點的數據,這為整個集群帶來了非常高的帶寬。MapReduce和分佈式文件系統的設計,使得整個框架能夠自動處理節點故障。它使應用程序與成千上萬的獨立計算的電腦和PB級的數據连接起来。現在普遍認為整個Apache Hadoop“平台”包括Hadoop內核、MapReduce、Hadoop分佈式文件系統(HDFS)以及一些相關項目,有Apache Hive和Apache HBase等等。.
Apache HBase
HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。 HBase在列上实现了BigTable论文提到的压缩算法、内存操作和布隆过滤器。HBase的表能够作为MapReduce任务的输入和输出,可以通过来存取数据,也可以通过REST、Avro或者Thrift的API来访问。 虽然最近性能有了显著的提升,HBase 还不能直接取代SQL数据库。如今,它已经应用于多个数据驱动型网站,包括 Facebook的消息平台 Retrieved: 17 December 2010。 在 Eric Brewer的CAP理论中,HBase属于CP类型的系统。.
Apache Spark
Apache Spark是一個開源叢集運算框架,最初是由加州大學柏克萊分校AMPLab所開發。相對於Hadoop的MapReduce會在執行完工作後將中介資料存放到磁碟中,Spark使用了記憶體內運算技術,能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark在記憶體內執行程式的運算速度能做到比Hadoop MapReduce的運算速度快上100倍,即便是執行程式於硬碟時,Spark也能快上10倍速度。Spark允許用戶將資料加載至叢集記憶體,並多次對其進行查詢,非常適合用於機器學習演算法。 使用Spark需要搭配叢集管理員和分散式儲存系統。Spark支援獨立模式(本地Spark叢集)、Hadoop YARN或Apache Mesos的叢集管理。 在分散式儲存方面,Spark可以和HDFS、 Cassandra 、OpenStack Swift和Amazon S3等介面搭載。 Spark也支援偽分散式(pseudo-distributed)本地模式,不過通常只用於開發或測試時以本機檔案系統取代分散式儲存系統。在這樣的情況下,Spark僅在一台機器上使用每個CPU核心執行程序。 在2014年有超過465位貢獻家投入Spark開發,讓其成為Apache軟體基金會以及巨量資料眾多開源專案中最為活躍的專案。.
大數據
--(Big data)--,指的是傳統數據處理應用軟件不足以處理它們的大或複雜的數據集的術語。大數據也可以定義為來自各種來源的大量非結構化或結構化數據。從學術角度而言,大數據的出現促成了廣泛主題的新穎研究。這也導致了各種大數據統計方法的發展。大數據並沒有抽樣;它只是觀察和追踪發生的事情。因此,大數據通常包含的數據大小超出了傳統軟件在可接受的時間內處理的能力。由於近期的技術進步,發布新數據的便捷性以及全球大多數政府對高透明度的要求,大數據分析在現代研究中越來越突出。.
傑夫·迪恩
傑佛瑞·艾德蓋爾·迪恩(Jeffrey Adgate Dean,),暱稱傑夫·迪恩(Jeff Dean),生於美國,計算機科學家與軟體工程師。現為Google公司員工,曾參與開發BigTable、MapReduce等產品。.
Bigtable
BigTable是一種壓縮的、高效能的、高可擴展性的,基于Google檔案系統(Google File System,GFS)的数据存储系统,用於儲存大规模結構化数据,適用於雲端計算。 BigTable發展於2004年"First an overview.
CouchDB
Apache CouchDB是一个开源数据库,专注于易用性和成为"完全拥抱web的数据库"。它是一个使用JSON作为存储格式,JavaScript作为查询语言,MapReduce和HTTP作为API的NoSQL数据库。其中一个显著的功能就是多主复制。CouchDB的第一个版本发布在2005年,在2008年成为了Apache的项目。 不同于关系型数据库,CouchDB没有将数据和关系存储在表格里。替代的,每个数据库是一个独立的文档集合。每一个文档维护其自己独立的数据和自包涵的schema。一个应用程序可能会访问多个数据库,比如其中一个位于用户的手机上,另一个位于在远程的服务器上。文档的元数据包含版本信息,让其能够合并可能因为数据库链接丢失导致的任何差异。 CouchDB实现了一个多版本并发控制(MVCC)形式,用来避免在数据库写操作的时候对文件进行加锁。冲突留给应用程序去解决。解决一个冲突的通用操作的是首先合并数据到其中一个文档,然后删除旧的数据。 其他功能包括文档级别的ACID语义和最终一致性,MapReduce,复制(Replication)。它还支持通过一个做Futon的内置web应用程序来进行数据库管理。.
Erlang
Erlang()是一種通用的----,它由喬·阿姆斯特朗(Joe Armstrong)在瑞典電信設備製造商愛立信所轄的電腦科學研究室開發,目的是創造一種可以應付大規模開發活動的--和執行環境。Erlang於1987年釋出正式版本,最早是愛立信擁有的私有軟體,經過十年的發展,於1998年發表開放源碼版本。 Erlang是運作於虛擬機的--,但是現在也包含有烏普薩拉大學高性能Erlang計劃(HiPE)開發的原生程式碼編譯器,自R11B-4版本開始,Erlang也支持--。在編程範型上,Erlang屬於多重典範程式語言,涵蓋函數式、--及--。循序執行的Erlang是一个及早求值, 單次賦值和--的函數式程式語言。.
舞蹈链
在 计算机科学 中, Dancing Links,舞蹈链, 也叫 DLX, 是由 Donald Knuth 提出的数据结构,目的是快速实现他的 X算法.
雲端運算
雲端運算(cloud computing),是一種基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。 雲端運算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。用户不再需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。 在「軟體即服務(SaaS)」的服務模式當中,使用者能夠存取服務軟體及資料。服務提供者則維護基礎設施及平臺以維持服務正常運作。SaaS常被稱爲「隨選軟體」,並且通常是基於使用時數來收費,有時也會有採用訂閱制的服務。 推廣者認爲,SaaS使得企業能夠藉由外包硬體、軟體維護及支援服務給服務提供者來降低IT營運費用。另外,由於應用程式是集中供應的,更新可以即時的發佈,無需使用者手動更新或是安裝新的軟體。SaaS的缺陷在於使用者的資料是存放在服務提供者的伺服器之上,使得服務提供者有能力對這些資料進行未經授權的存取。 使用者透過瀏覽器、桌面應用程式或是行動應用程式來存取雲端的服務。推廣者認爲雲端運算使得企業能夠更迅速的部署應用程式,並降低管理的複雜度及維護成本,及允許IT資源的迅速重新分配以因應企業需求的快速改變。 雲端運算依賴資源的共享以達成規模經濟,類似基礎設施(如電力網)。服務提供者整合大量的資源供多個用戶使用,用戶可以輕易的請求(租借)更多資源,並隨時調整使用量,將不需要的資源釋放回整個架構,因此用戶不需要因爲短暫尖峰的需求就購買大量的資源,僅需提升租借量,需求降低時便退租。服務提供者得以將目前無人租用的資源重新租給其他用戶,甚至依照整體的需求量調整租金。.
Giraph
Giraph是一个迭代的系统。 Apache Giraph是一个Apache项目,用于对大数据执行图形处理。 Giraph计算的输入是由点和两点之间直连的边所组成的图,例如,点可以表示人,边可以表示朋友请求。每个顶点保存一个值,每个边也保存一个值。输入不仅取决于图的拓扑逻辑,也包括定点和边的初始值。 有一个例子是,假设有这样一个计算,需要查找从一个预先设置的初始人物到社交图谱中的任何一个人的距离。在这个计算中,边的值是一个浮点数表示相邻的人之间的距离,顶点V也是一个浮点数,表示从预设的顶点s到v的最短距离的上限值。预设的源顶点的初始值是0,其它顶点的初始值是无穷大。 计算过程由一序列的迭代进行,在BSP中叫做supersteps。最初,每个顶点都active。在每个superstep中,每个active的顶点触发用户提供的计算方法。这些方法实现了将要输入的图中执行的图算法。直观说,在设计Giraph算法的时候要像顶点一样思考。计算方法如下: - 接受上一个superstep发送给顶点的消息; - 用消息、定点和伸出的边的值,可能导致值被修改,发送消息给其它顶点; 计算方法并没有直接获取其它顶点的值以及他们的伸出的边。顶点之间通过传递消息来通信。 在我们的单源最短路径的例子中,一个计算方法是: (1)从所有收到的消息中计算最小的值; (2)确定各个节点的当前值大小; (3)最小的值被接受作为顶点的值; (4)值和边的值沿着每一个外出的边发送。.
Google有限公司(Google LLC;中文:谷--歌),是美国Alphabet Inc.的子公司,业务范围涵盖互联网广告、互联网搜索、云计算等领域,开发并提供大量基于互联网的产品与服务,其主要利润来自于AdWords等广告服务。Google由在斯坦福大学攻读理工博士的拉里·佩奇和谢尔盖·布林共同创建,因此两人也被称为“Google Guys”。1998年9月4日,Google以私营公司的形式创立,目的是设计并管理互联网搜索引擎“Google搜索”。2004年8月19日,Google公司在纳斯达克上市,后来被称为“三驾马车”的公司两位共同创始人与出任首席执行官的埃里克·施密特在此时承诺:共同在Google工作至少二十年,即至2024年止。Google的宗旨是“--”(To organize the world's information and make it universally accessible and useful);而非正式的口号则为“不作恶”(Don't be evil),由工程师阿米特·帕特尔(Amit Patel)所创,并得到了保罗·布赫海特的支持。Google公司的总部称为“-”,位于美国加州圣克拉拉县的山景城。2011年4月,佩奇接替施密特擔任首席执行官。在2015年8月,Google宣布進行资产重组。重组後,Google划归新成立的Alphabet底下。同时,此舉把Google旗下的核心搜索和廣告業務與Google無人車等新兴业务分離開來。 据估计,Google在全世界的数据中心内运营着上百万台的服务器,每天处理数以亿计的搜索请求和约二十四PB用户生成的数据。 Google自创立起开始的快速成长同时也带动了一系列的产品研发、并购事项与合作关系,而不仅仅是公司核心的网络搜索业务。Google公司提供丰富的线上软件服务,如雲端硬碟、Gmail电子邮件,包括Orkut、Google Buzz以及Google+在内的社交网络服务。Google的产品同时也以应用软件的形式进入用户桌面,例如Google Chrome网页浏览器、Picasa图片整理与编辑软件、Google Talk即时通讯工具等。另外,Google还进行了移动设备的Android操作系统以及Google Chrome OS操作系统的开发。 --分析网站Alexa数据显示,Google的主域名google.com是全世界访问量最高的站点,Google搜索在其他国家或地区域名下的多个站点(google.co.in、google.de、google.com.hk等等),及旗下的YouTube、Blogger、Orkut等的访问量都在前一百名之内。其中,社交网络服务Orkut于2014年9月关闭。.
MapR
MapR是一所美国企业管理软件公司、全球三大Hadoop开源大数据软件的提供商之一,总部位于美国加州圣何塞市,主要参与大数据的安全优化与开发、销售Apache Hadoop的衍生软件。MapR和Apache Hadoop一起参加过HBase、Apache Hive、Apache ZooKeeper等项目的研发。MAPR曾被亚马逊云服务选择为亚马逊弹性云EC2的升级版本。MapR称,目前为止该公司的付费认证客户总数已达500家。 MapR的大部分高管都来自Google、Lightspeed Venture Partners、Informatica、EMC和Veoh。 2011年8月,MapR开展了第二轮融资。.
Microsoft Azure
Microsoft Azure 是微軟的公用雲端服務 (Public Cloud Service) 平台,是微軟線上服務 (Microsoft Online Services) 的一部份,自 2008 年開始發展,2010年2月份正式推出,目前全球有38座資料中心以及44個CDN跳躍點 (POP),並且於2015年時被 Gartner 列為雲端運算的領先者。 目前 Microsoft Azure 已包含 30 餘種服務,數百項功能,並且為微軟帶來了12億美元的獲利 (2015年度) 。.
Pig
Pig是一个基于Apache Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口,使用者可以透過Python或者JavaScript編寫Java,之後再重新轉寫。.
Snappy
Snappy(以前称Zippy)是Google基于LZ77的思路用C++语言编写的快速数据压缩与解压程序库,并在2011年开源。它的目标并非最大压缩率或与其他压缩程序库的兼容性,而是非常高的速度和合理的压缩率。使用一个运行在64位模式下的酷睿i7处理器的单个核心,压缩速度250 MB/s,解压速度500 MB/s。压缩率比gzip低20-100%。 Snappy广泛应用在Google的项目,例如BigTable、MapReduce和Google内部RPC系统的压缩数据。它可在开源项目中使用,例如Cassandra、Hadoop、LevelDB、MongoDB、和Lucene。解压缩时会检测压缩流中是否存在错误。Snappy不使用内联汇编并且可移植。.
Storm (事件处理器)
Storm是一个分布式计算框架,主要由Clojure编程语言编写。最初是由Nathan Marz及其团队创建于BackType,该项目在被Twitter取得后开源。它使用用户创建的“管(spouts)”和“螺栓(bolts)”来定义信息源和操作来允许批量、分布式处理流式数据。最初的版本发布于2011年9月17日。 Storm应用被设计成为一个拓扑结构,其接口创建一个转换“流”。它提供与MapReduce作业类似的功能,当遇到异常时该拓扑结构理论上将不确定地运行,直到它被手动终止 2013年,Apache软件基金会将Storm纳入它的孵化计划。.
桑迪亚国家实验室
桑迪亚国家实验室(Sandia National Laboratories,SNL),现由桑迪亚国家技术和工程解决方案(National Technology and Engineering Solutions of Sandia,霍尼韦尔所有的一个子公司)管理和运营,是美国国家核安全局(National Nuclear Security Administration)下属的三个研究发展实验室之一。 实验室的主要目标是核武器非核部分的发展测试。主实验室位于新墨西哥州的阿布奎基的,另一个位于加州的利佛摩,在劳伦斯利佛摩国家实验室的旁边。 桑迪亚国家实验室致力于维持核武系统的可靠性和准确性,在军备控制和防止核武器扩散方面,以及美国核武计划产生的的处理方式进行各项研究。实验室也对能源和环境领域,以及对国家关键基础设施的保障进行研究。桑迪亚国家实验室的研究涉及广泛;除了上述几项主要的研究之外,实验室还在计算生物学、数学、材料科学、替代能源、心理学、微机电系统和认知科学在内的各个学科有所涉足。桑迪亚国家实验室曾经拥有世界上运算速度最快的超级计算机——;世界上最大的X射线发生器——Z脉冲功率设施(Z机)也位于桑迪亚国家实验室。Z机被用于极端温度与压强之下的材料测试;收集的数据可用于辅助核武器研发的计算机模拟。.