為什么說人工智能公司要自建超算?

    人工智能
    2019
    03/24
    21:10
    AI商業周刊
    分享
    評論

    3月19日,英特爾宣布將與高性能廠商Cray在美國能源部下屬的阿貢國家實驗室建造第一臺每秒可進行百億億次浮點運算(exaflop)的超級計算機,專門為傳統高性能計算和人工智能(AI)設計。

    而就在一周前的3月12日,英偉達宣布69億美元收購以色列公司Mellanox,后者是一家以高性能計算和網絡技術而聞名的芯片制造商,英偉達通過此次收購意在搶占數據中心。

    不僅英特爾、英偉達這些科技巨頭在布局超算,人工智能創企也紛紛打造超算。商湯超算平臺的計算集群已搭載超過14000塊GPU,峰值計算達16億億次/秒,而國家“太湖之光”的峰值計算僅為12.5億億次/秒。

    去年曠視宣布完成C輪融資時,創始人印奇也對媒體表示:曠視已經在中國好幾個地方建了非常大的超算平臺,未來的算力還需要更多。算力就像當年的存儲一樣,無論擴展得多快,都會被消耗掉,需要不斷去投入。

    其實,這些人工智能公司完全可以采用云服務的模式,比如租賃阿里云、騰訊云、AWS、中科曙光等共有云平臺的高性能計算服務。那么它們為何紛紛選擇自建超算呢?

    算法迭代快

    計算力和算法是一組最佳CP,如果計算力和算法均是自己研發的,就會產生1+1大于2的“化學反應”。因為原創算法和算力兩者采用統一的接口時,更易于互相匹配和協調。且數據的收集、標注、模型建立、模型訓練到輸出SDK的每一個環節,都可以做到標準化和自動化,整個鏈條就會跑得更快,算法迭代速度更快。而公有云的超算很難滿足每個企業算法的匹配。

    尤其在面臨新需求下的情況,比如需要1000個GPU卡聯合訓練,阿里云、騰訊云等這些云平臺均沒有此類服務,那么新需求就沒法進行下去。從長遠來看,自建超算更利于探索新業務。

    前不久,央視315爆出AI客服一年打40多億個騷擾電話,以及犯罪分子通過免費公共WIFI竊取用戶消費信息的現象引起熱議,其背后正是我國數據安全保護薄弱的影射。如果通過公有云平臺做模型訓練,理論上云平臺都可以看到使用方數據。一旦數據被泄露,對使用方公司將是不可逆的打擊。

    眼下,5G商用逐步臨近,5G 時代生產方式將發生革命性的變化,很多終端數據處理都可在云端跑。這也是英特爾、英偉達等巨頭企業近期極力打造超算平臺的原因之一,因為超算是5G時代巨頭爭霸不可忽視的一面。

    冰凍三尺非一日之寒,構建超算不單是將幾千或者幾萬個GPU堆疊起來,還需要一套強大的“管理系統”――就像微軟Windows操作系統。例如阿里耗費多年打造出“盤古分布式系統”,才成為阿里云的Windows。所以,對于人工智能公司,提前積累超算的經驗十分必要。

    從資本角度來看,在5G大爆發的行業環境下,超算的價值愈加凸顯,自建超算有更大的想象空間。在滿足自身計算需求情況下,還可以租賃出去把服務賣給中小企業,或許還能盈利,也是一種商業模式。

    價格便宜10倍

    以阿里云平臺為例,筆者粗略算了一筆賬:

    如果在阿里云平臺選擇一塊卡,包括8個Intel Platinum 8163處理器和1個NVIDIA V100,服務價格為每7620元/月,即9.144萬元/年。

    一個以上配置的卡成本多少呢?筆者查閱發現,Intel Platinum 8163處理器的價格為1.5萬元/個,NVIDIA V100的價格為7.88萬元/個。所以1.5W*8+7.88*1=19.88萬元,再加上服務器(包括主板等硬件)0.5萬元左右,成本共計20.38萬元。

    對比發現,選擇阿里云包月服務所需要的錢大約兩年就可以買一張卡,但一張卡的壽命遠大于兩年,一般至少5-10年。顯然,自己組裝卡是更省錢的。

    一位MISSION.ORG的作者Jeff Chen也對比過自建GPU計算機和租賃AWS云服務,竟然便宜10倍!

    他組裝一臺GPU計算機,花了3千美元,其配置包括一個1080Ti GPU(你也可以用新的2080Ti來學習機器,只要再多花500美元),一個12核CPU,64GB RAM和1TB M.2 SSD。再加三個GPU,總共四個GPU。

    我們非常保守地假設,因為GPU迭代非常快,一塊用于深度學習的GPU在三年內價值變成0。如下表所示,如果用它超過1年,把電費算在內也會便宜10倍,如果把亞馬遜一次購買多年的折扣算在內,1年大概會便宜6倍,3年便宜4倍。4個GPU便宜21倍。

    自建計算機和從AWS租賃的費用比較。1個GPU版本便宜4-10倍,4個GPU版本便宜9-21倍,具體取決于利用率。AWS定價包括全年和3年租賃的折扣(35%,60%)。假設功耗為0.20美元/kWh,1臺GPU機器消耗1千瓦/小時,4臺GPU機器消耗2千瓦/小時。折舊保守估計為3年內的線性損耗。每個GPU 700美元。

    如果你想把2080ti用于你的深度學習計算機,會多出500美元,而且對于1 GPU的機器來說,仍然是4-9倍的便宜。

    造成這種巨大成本差異的原因是亞馬遜Web服務EC2(或谷歌云或Microsoft Azure)的GPU價格為3美元/小時或約2100美元/月。即使當你關閉你的機器時,你仍然需要以每月每GB 0.10美元的價格為機器支付存儲費用。

    對于一臺3千美元的GPU機器學習計算機(1千瓦/小時),如果你經常使用,將在2個月內收支平衡。更不用說你的電腦還歸你所有,而且在兩個月內它沒有貶值多少。同樣,4 GPU版本(2千瓦/小時)的更為有利,因為你將在不到1個月內實現收支平衡。(假設電力成本為0.20美元/kWh)

    而且GPU性能與AWS相當。與使用下一代Volta技術的Nvidia v100 GPU相比,你的700美元Nvidia 1080 ti的運行速度為其90%。這是因為存在IO,所以即使V100理論上速度可能快1.5?C2倍,IO在實踐中也會減慢速度。由于您使用的是M.2SSD,IO在您自己的計算機上運行得很快。

    結語

    從1塊卡到幾萬卡還需要運維費用,以及人才成本,但從長遠看,自建超算更有發展潛力,也是AI公司做大的必經之路。

    當然,選擇共有云平臺還是自建超算也要根據自身公司體量,畢竟打造超算前期投入較大。

    人工智能的核心業務壁壘和競爭力就是算法中的業務邏輯,還有就是數據。如果核心業務已經穩健,數據和算法需要信息安全保護,則需要從公有云平臺遷移至自建超算。

    如果只是小范圍驗證業務模式,為了降低成本,可以借助公有云平臺快速部署和按需租用的優勢,如果資金和時間都充裕,可以直接自建超算。

    【來源:AI商業周刊】

    THE END
    廣告、內容合作請點擊這里 尋求合作
    ai
    免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

    相關熱點

    視覺模型表示自己除了在圖像任務里很好用,非圖像任務也是一把好手。
    人工智能
    2019年機器人技術的5大趨勢將會是:家庭機器人、送貨機器人、協作機器人、邊緣計算機器人,還有統一的業內標準也將出現。
    人工智能
    3月20日消息,創新工場宣布,前騰訊AI Lab主任張潼博士已加盟創新工場,兼任科研合伙人。
    業界
    近日,以色列魏茨曼科學研究學院計算機科學系教授希蒙·厄爾曼發文表示,相信神經科學能為人工智能發展提供進一步的助力。那么,人工智能和神經科學究竟有什么關系?神經科學到底如何進一步助力人工智能發展...
    人工智能
    近日,以色列魏茨曼科學研究學院計算機科學系教授希蒙·厄爾曼發文表示,相信神經科學能為人工智能發展提供進一步的助力。那么,人工智能和神經科學究竟有什么關系?神經科學到底如何進一步助力人工智能發...
    人工智能

    相關推薦

    1
    3
    主站蜘蛛池模板: 在线一区二区三区| 丰满人妻一区二区三区视频53| 精品欧洲AV无码一区二区男男 | 一区二区传媒有限公司| 精品国产鲁一鲁一区二区| 国内自拍视频一区二区三区| 国产成人综合一区精品| 国产亚洲福利一区二区免费看| 日韩视频免费一区二区三区| 免费人人潮人人爽一区二区| 国产精品一区二区三区99| 国精品无码一区二区三区在线| 少妇精品无码一区二区三区| 一区二区和激情视频| 亚洲av成人一区二区三区在线观看| 激情内射日本一区二区三区| 在线中文字幕一区| 精品理论片一区二区三区| 色妞AV永久一区二区国产AV| 男插女高潮一区二区| 无码精品前田一区二区| 亚洲综合一区二区精品导航| 日韩一区二区三区免费体验| 国精产品一区一区三区免费视频 | 国产乱码一区二区三区| 国产亚洲福利一区二区免费看| 亚洲熟女一区二区三区| 在线播放偷拍一区精品| 国产精品主播一区二区| 精品福利一区二区三区免费视频 | 亚洲AV无码一区二区乱子伦| 玩弄放荡人妻一区二区三区| 国产亚洲情侣一区二区无码AV| 亚洲制服丝袜一区二区三区| 一区二区三区视频网站| 国产一区二区三区乱码网站| 久久精品国产一区二区三区| 久久蜜桃精品一区二区三区| 久久99国产精一区二区三区| 国产一区二区三区在线免费 | 精品人妻无码一区二区三区蜜桃一|