<kbd id="9plqc"><label id="9plqc"></label></kbd>

        <th id="9plqc"></th>
        1. <center id="9plqc"><video id="9plqc"></video></center>
          <sub id="9plqc"><form id="9plqc"><pre id="9plqc"></pre></form></sub>
          <nav id="9plqc"><form id="9plqc"><legend id="9plqc"></legend></form></nav>
          什么是 Spark? 您所在的位置:網(wǎng)站首頁(yè) 屬鼠的和屬虎的婚姻般配嗎男人 什么是 Spark?

          什么是 Spark?

          2024-01-03 13:45| 來(lái)源: 網(wǎng)絡(luò)整理| 查看: 265

          Hadoop MapReduce 是一種用于處理大數(shù)據(jù)集的編程模型,它采用并行的分布式算法。開發(fā)人員可以編寫高度并行化的運(yùn)算符,而不用擔(dān)心工作分配和容錯(cuò)能力。不過(guò),MapReduce 所面對(duì)的一項(xiàng)挑戰(zhàn)是它要通過(guò)連續(xù)多步驟流程來(lái)運(yùn)行某項(xiàng)作業(yè)。在每個(gè)步驟中,MapReduce 要讀取來(lái)自集群的數(shù)據(jù),執(zhí)行作,并將結(jié)果寫到 HDFS。因?yàn)槊總€(gè)步驟都需要磁盤讀取和寫入,磁盤 I/O 的延遲會(huì)導(dǎo)致 MapReduce 作業(yè)變慢。

          開發(fā) Spark 的初衷就是為了突破 MapReduce 的這些限制,它可以執(zhí)行內(nèi)存中處理,減少作業(yè)中的步驟數(shù)量,并且跨多項(xiàng)并行作對(duì)數(shù)據(jù)進(jìn)行重用。借助于 Spark,將數(shù)據(jù)讀取到內(nèi)存、執(zhí)行作和寫回結(jié)果僅需要一個(gè)步驟,大大地加快了執(zhí)行的速度。Spark 還能使用內(nèi)存中緩存顯著加快在相同數(shù)據(jù)集上重復(fù)調(diào)用某函數(shù)的機(jī)器學(xué)習(xí)算法的速度,進(jìn)而重新使用數(shù)據(jù)。數(shù)據(jù)重用通過(guò)在彈性分布式數(shù)據(jù)集 (RDD) 上創(chuàng)建數(shù)據(jù)抽象—DataFrames 得以實(shí)現(xiàn),而彈性分布式數(shù)據(jù)集是一個(gè)緩存在內(nèi)存中并在多項(xiàng) Spark 作中重新使用的對(duì)象集合。它大幅縮短了延遲,使 Spark 比 MapReduce 快數(shù)倍,在進(jìn)行機(jī)器學(xué)習(xí)和交互式分析時(shí)尤其明顯。



          【本文地址】

          公司簡(jiǎn)介

          聯(lián)系我們

          今日新聞

          推薦新聞

          專題文章
            CopyRight 2018-2019 實(shí)驗(yàn)室設(shè)備網(wǎng) 版權(quán)所有
            黄色免费网站在线看,韩国精品在线观看,韩国美女一区二区,99国产热 文登市| 恩平市| 铜鼓县| 东阿县| 台南市| 兴化市| 依安县| 邯郸县| 孝感市| 永济市| 沅陵县| 甘肃省| 邹城市| 宣城市| 安多县| 特克斯县| 镇远县| 乌兰县| 大名县| 皮山县| 武穴市| 金坛市| 五指山市| 绿春县| 巴中市| 原阳县| 东宁县| 伊通| 荣昌县| 霍邱县| 龙胜| 屏南县| 文化| 荆门市| 特克斯县| 安图县| 南充市| 同心县| 镇宁| 忻州市| 南京市| http://444 http://444 http://444 http://444 http://444 http://444