- 計算機相關(guān)專業(yè)
- 機器學(xué)習(xí)算法/工程化經(jīng)驗
- 英文讀寫能力良好
職位描述
1. 主導(dǎo)新一代機器學(xué)習(xí)大規(guī)模計算/超算平臺,不斷滿足AI算法開發(fā)、模型開發(fā)、應(yīng)用開發(fā)人員所需的極致算力的要求。搭建、優(yōu)化和運維基于分布式通用計算(CPU)、異構(gòu)計算(GPU、DSA、FPGA)等計算資源的AI云基礎(chǔ)設(shè)施,設(shè)計、開發(fā)和維護AI機器學(xué)習(xí)平臺及相關(guān)工具,建設(shè)智算集群庫存管理、算力調(diào)度、性能分析、故障自動化處理、租戶運維功能等核心產(chǎn)品能力,提升產(chǎn)品競爭力
2. 聯(lián)合算法團隊,搭建及優(yōu)化分布式機器學(xué)習(xí)訓(xùn)練及推理系統(tǒng),能夠根據(jù)數(shù)據(jù)特點從算法和工程角度進行優(yōu)化和調(diào)優(yōu);基于云原生技術(shù)體系構(gòu)建高可用的AI機器學(xué)習(xí)平臺,保障智算云的穩(wěn)定性、高效率和機制成本,讓平臺不斷適應(yīng)業(yè)務(wù)發(fā)展的需求和趨勢。
職位要求
1. 熟悉機器學(xué)習(xí)系統(tǒng),有分布式機器學(xué)習(xí)系統(tǒng)優(yōu)化、異構(gòu)計算優(yōu)化經(jīng)驗,理解計算機視覺、自然語言處理、知識圖譜、聯(lián)邦學(xué)習(xí)等算法理論和實際項目落地經(jīng)驗者優(yōu)先;
2. 頭部互聯(lián)網(wǎng)公司相關(guān)AI機器學(xué)平臺的產(chǎn)品定義和架構(gòu)設(shè)計經(jīng)驗,有BAT或國內(nèi)外大型云計算公司工作經(jīng)歷,參與過mindspore、PAI等大型AI平臺開發(fā)項目優(yōu)先;
3. 對IAAS、PAAS、分布式計算/存儲、K8S、大數(shù)據(jù)、容器、GPU資源虛擬化等技術(shù)有深入理解,對大規(guī)模GPU集群在實際應(yīng)用中的性能、資源利用率、網(wǎng)絡(luò)等方面的工程問題有實踐經(jīng)驗
4. 作風(fēng)踏實嚴(yán)謹(jǐn)、責(zé)任心強,具備良好的團隊協(xié)作能力和推動力,善于解決負責(zé)問題。