您現在的位置是:首頁 > 攝影首頁攝影

「金猿技術展」數新網路解決大資料統一排程問題

由 資料猿DataYuan 發表于 攝影2023-02-01
簡介系統主體架構圖整個排程系統包括:介面服務API,分散式工作流協調器Coordinator,分散式任務執行器Worker,高可用快取Cache,分散式訊息佇列MQ,資料庫RDBMS和分散式協調服務Zookeeper

如何取消開機自檢

「金猿技術展」數新網路解決大資料統一排程問題

本系統技術上採用了一種松耦合的分散式工作流協調系統和方法,使用者可以透過呼叫介面服務API,對工作流進行定義、上線和運維等操作;整個排程系統透過整合分散式定時引擎Quartz,來定時排程工作流並新增到工作流派發分散式訊息佇列MQ,接收工作流並處理其任務依賴關係,將協調後待執行的業務型任務新增到任務派發分散式訊息佇列MQ;分散式任務執行器Worker從任務派發分散式訊息佇列MQ中接收各業務型任務並執行,將任務執行結果透過任務回撥分散式訊息佇列MQ回撥至分散式工作流協調器Coordinator;最後Coordinator將任務執行結果持久化儲存到資料庫,用於反饋給使用者。本系統專注於邏輯協調處理,保證工作流協調處理與任務執行充分解耦,提升系統的吞吐量、擴充套件性以及伸縮性。

技術說明

本系統針對現有技術的不足,採用一種松耦合的分散式工作流協調方法,讓Coordinator專注於邏輯協調處理,保證工作流協調處理與任務執行充分解耦,提升系統的吞吐量、擴充套件性以及伸縮性。

「金猿技術展」數新網路解決大資料統一排程問題

系統主體架構圖

整個排程系統包括:介面服務API,分散式工作流協調器Coordinator,分散式任務執行器Worker,高可用快取Cache,分散式訊息佇列MQ,資料庫RDBMS和分散式協調服務Zookeeper。

「金猿技術展」數新網路解決大資料統一排程問題

處理流程圖

介面服務API透過Zookeeper來監控分散式工作流協調器Coordinator和分散式任務執行器Worker的服務情況。

分散式訊息佇列MQ包括工作流派發分散式訊息佇列MQ(workflow-MQ)、任務派發分散式訊息佇列MQ(task-dispatch-WorkerGroup-MQ)和任務回撥分散式訊息佇列MQ(task-callback-MQ)。

分散式工作流協調器Coordinator執行以下功能:整合分散式定時引擎Quartz,定時排程工作流併發送到workflow-MQ;從workflow-MQ接收工作流進行處理;處理工作流到任務佇列的DAG拓撲和優先順序排序;將工作流例項及其任務例項的建立、狀態更新的資料持久化儲存到資料庫;將工作流及其任務佇列的上下文快取到高可用快取redis中;業務型別任務透過task-dispatch-WorkerGroup-MQ派發到分散式任務執行器Worker,邏輯型任務直接在協調器Coordinator上執行;任務例項執行結果透過task-callback-MQ獲取;評估自身主機記憶體、計算資源和執行緒池的使用率從而合理接收工作流。

分散式任務執行器Worker負責各業務型任務的接收、執行、回撥;評估自身主機記憶體、計算資源和執行緒池的使用率從而合理接收任務。

「金猿技術展」數新網路解決大資料統一排程問題

協調處理過程示意圖

使用本系統的帶來的優勢效果:

1、API在工作流定時上線Quartz時配置優先順序,保證工作流的優先順序順序;Coordinator在工作流由DAG轉節點任務佇列時,進行拓撲排序結合優先順序排序,保證工作流中任務佇列的優先順序順序;提高了排程的精確性。

2、增加高可用快取redis,來快取工作流例項及其任務佇列上下文,獨立的上下文快取使得工作流例項的內部任務回撥和派發處理可以跨Coordinator進行,更大程度的實現Coordinator的分散式能力,提高系統的業務處理能力。

3、增加MQ,用於工作流和任務派發、回撥的訊息佇列,提高系統的吞吐量;並且MQ的分散式消費保證了工作流和任務不被重複消費。

4、將傳統的Coordinator與Worker透過MQ松耦合;保證Coordinator和Worker各自的職責單一且明確,業務更輕量;MQ對於系統變更或適配更多型別Worker友好。

★專利申請號/公開號

:202111061941。2

開發團隊

·帶隊負責人姓名:原攀峰

原攀峰,

北京航空航天大學計算機碩士,十餘年大資料、隱私計算行業研發經驗,國內外發明專利15篇。前阿里巴巴集團大資料平臺高階技術專家,阿里御膳房、阿里雲數加平臺&DataWorks初創團隊核心技術骨幹,阿里雲隱私計算平臺(DataTrust)總架構師和研發負責人,從零到一完成DataTrust產品工程研發及商業化落地。

團隊其他重要成員姓名:陳廷權、李會朋、李斌松。

·隸屬機構:

數新網路

數新網路,全稱浙江數新網路有限公司,2020年7月成立,總部位於杭州。公司創始人陳廷梁(花名:王賁)是原阿里雲大資料平臺研發總監,御膳房、DataWorks平臺創始人,數加平臺總負責人。數新作為一家擁抱開源,專注於雲資料平臺的大資料服務商,致力於結合全球雲數倉先進理念,打造適合中國落地路徑的雲數倉體系。透過公司自主研發的DataCyber產品序列,包括雲資料平臺CyberMeta,雲資料科學平臺CyberScience,資料運維平臺CyberOPS,資料分析平臺CyberExcel,可提供資料匯聚到資料服務、高效建模、智慧運維、智慧分析的一站式服務,讓資料從採集到展現、從分析到驅動應用得到高質量結合,整體提升企業競爭力。

公司已於2022年8月完成數千萬元Pre-A輪融資,獲得資本市場的高度認可。目前公司團隊人數已逾百人。公司成立以來,營業收入的年平均增長率達到20%,由於對費用的控制力度較大,淨利潤的年平均增長率達到30%,公司輕資產,輕負債,資產負債率低於30%,產品毛利率高達70%,2022年度獲得數千萬的融資,資金量充足。

相關評價

數新網路為我司的資料平臺進行全面升級,提供了實時計算平臺、資料資產管理平臺,在資料及時性得到大幅度提升,極大程度提供了各部門的工作效率。

——某大型國有能源公司

隨著能源大資料共享平臺的深度建設,企業使用者和社會使用者的資料需求也逐漸增多,數字化轉型升級迫在眉睫,數新網路提供的雲資料平臺,從資料接入、資料整合、資料加工到資料共享,提供了一站式服務能力,助力資料融合,加速資料共享。

——某大型國有電力公司