Scala語言可以在Windows、Linux、Mac OS等系統(tǒng)上編譯運行。由于Scala是運JVM平臺上的,所以安裝Scala之前必須配置好JDK環(huán)境(JDK版本要求不低于1.5)。 查看全文>>
大數據技術文章2020-12-22 |黑馬程序員 |win10下載安裝Scala,Scala環(huán)境變量配置
在Spark中,RDD是采用惰性求值,即每次調用行動算子操作,都會從頭開始計算。然而,每次調用行動算子操作,都會觸發(fā)一次從頭開始的計算,這對于迭代計算來說,代價是很大的,因為迭代計算經常需要多次重復的使用同一組數據集,所以,為了避免重復計算的開銷,可以讓Spark對數據集進行持久化。 查看全文>>
大數據技術文章2020-12-22 |傳智教育 |RDD數據持久化操作,持久化機制,RDD,Spark
完成虛擬機的安裝和網絡配置,雖然可以正常使用,但是工作中還需要遠程操縱服務器進行各項操作,所以就需要對虛擬機實行配置遠程登錄和SSH免密登錄,進行相關操作。接下來,就分別對這兩種服務配置進行說明和詳細講解。 查看全文>>
大數據技術文章2020-12-22 |傳智教育 |Hadoop虛擬機,SSH服務,遠程登錄虛擬機
HBase是由Java語言開發(fā)的,它對外提供了Java API的接口。接下來,通過Java API來操作HBase分布式數據庫,包括增、刪、改以及查等對數據表的操作,具體操作步驟如下: 查看全文>>
大數據技術文章2020-12-22 |傳智教育 |HBase的Java API操作步驟,常見的Java API
RDD處理過程中的“轉換”操作主要用于根據已有RDD創(chuàng)建新的RDD,每一次通過Transformation算子計算后都會返回一個新RDD,供給下一個轉換算子使用。面,我們通過結合具體的示例對這些轉換算子API進行詳細講解。 查看全文>>
大數據技術文章2020-12-21 |傳智教育 |RDD,轉換算子,RDD數據處理
Scala于2001年由瑞士洛桑聯(lián)邦理工學院(EPFL)編程方法實驗室研發(fā),它由Martin Odersky(馬丁·奧德斯基)創(chuàng)建。目前,許多公司依靠Java進行的關鍵性業(yè)務應用已轉向或正在轉向Scala,以提高應用程序的可擴展性和整體的可靠性,從而提高開發(fā)效率。Scala是Scalable Language的簡稱,它是一門多范式的編程語言,其設計初衷是實現(xiàn)種可擴展的語言,并集成面向對象編程和函數式編程的各種特性?;谶@個目標與設計,Scala具有以下顯著的特性。 查看全文>>
大數據技術文章2020-12-21 |傳智教育 |Scala語言是什么,Scala特點
使用Scala語言開發(fā)單詞計數Spark程序,現(xiàn)有文本文件words.txt(讀者需要在本地創(chuàng)建文件并上傳至指定目錄)在HDFS中的/spark/test路徑下如果使用Spark Shell來讀取HDFS中的/spark/test/ words.txt文件,具體步驟如下: 查看全文>>
大數據技術文章2020-12-21 |傳智教育 |Shell讀取文件,運行Spark