傳統的數據存儲工具有哪些?
1.Hadoop分布式存儲與計算
Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,MapReduce則為海量的數據提供了計算,因此,需要重點掌握,除此之外,還需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高級管理等相關技術與操作!
2.Hive
Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉換為MapReduce任務進行運行。相對于用Java代碼編寫MapReduce來說,Hive的優勢明顯:快速開發,人員成本低,可擴展性(自由擴展集群規模),延展性(支持自定義函數)。十分適合數據倉庫的統計分析。對于Hive需掌握其安裝、應用及高級操作等。
3.ZooKeeper
ZooKeeper 是一個開源的分布式協調服務,是Hadoop和HBase的重要組件,是一個為分布式應用提供一致性服務的軟件,提供的功能包括:配置維護、域名服務、分布式同步、組件服務等,在大數據開發中要掌握ZooKeeper的常用命令及功能的實現方法。
4.HBase
HBase是一個分布式的、面向列的開源數據庫,它不同于一般的關系數據庫,更適合于非結構化數據存儲的數據庫,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,大數據開發需掌握HBase基礎知識、應用、架構以及高級用法等。
5.Redis
Redis是一個Key-Value存儲系統,其出現很大程度補償了Memcached這類Key/Value存儲的不足,在部分場合可以對關系數據庫起到很好的補充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客戶端,使用很方便,大數據開發需掌握Redis的安裝、配置及相關使用方法。
6.Kafka
Kafka是一種高吞吐量的分布式發布訂閱消息系統,其在大數據開發應用上的目的是通過Hadoop的并行加載機制來統一線上和離線的消息處理,也是為了通過集群來提供實時的消息。大數據開發需掌握Kafka架構原理及各組件的作用和使用方法及相關功能的實現。
7.Neo4j
Neo4j是一個高性能的,NoSQL圖形數據庫,具有處理百萬和T級節點和邊的大尺度處理網絡分析能力。它是一個嵌入式的、基于磁盤的、具備完全的事務特性的Java持久化引擎,但是它將結構化數據存儲在網絡(從數學角度叫做圖)上而不是表中。Neo4j因其嵌入式、高性能、輕量級等優勢,越來越受到關注。
8.Cassandra
Cassandra是一個混合型的非關系的數據庫,類似于Google的BigTable,其主要功能比Dynamo(分布式的Key-Value存儲系統)更豐富。這種NoSQL數據庫最初由Facebook開發,現已被1500多家企業組織使用,包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netflix、Reddit等。是一種流行的分布式結構化數據存儲方案。
9.SSM
SSM框架是由Spring、Spring MVC、MyBatis三個開源框架整合而成,常作為數據源較簡單的Web項目的框架。大數據開發需分別掌握Spring、Spring MVC、MyBatis三種框架的同時,再使用SSM進行整合操作。