微軟開源了一個原為內部使用的大資料專案Data Accelerator,能進行大規模資料處理,簡化在Apache Spark上串流傳輸的工作,支援SQL以及即時查詢,不需要撰寫程式碼就能設定處理規則與設定警報。從2017年開發以來,已經大規模應用在各種微軟產品工作管線上,現在於GitHub上開源。微軟在2017年開始發展Data Accelerator專案,為的是要處理多來源串流資料,將這些資料重新組合後,路由到不同的輸出資料池(Output Sink),以方便進行後續的分析。微軟提到,在這過程中,正規化是一個負擔沈重的工作,要在異構事件環境,捕捉和調整事件解析器,需要花費不少時間與資源。
綜合應用事件與結構,Data Accelerator可以在事件流經工作管線的時候,辨識並進行修改,分割、合併甚至是丟棄事件不需要的部分。Data Accelerator提供了配置使用者介面,以及好用的查詢和規則設計工具,讓使用者無需撰寫任何程式碼,就能設置警示或是處理資料的規則。另外,Data Accelerator還支援串流資料的複雜處理任務,不論是依變動的時間視窗處理資料,還是隨時間累加資料,用戶都能以簡單的方法操作這些進階功能。微軟提到,Data Accelerator支援dev-test循環的快速驗證周期,讓事件查詢的實作,在部署之前就能迭代修正到可用,這可以節省大量測試工作管線處理的時間,Data Accelerator還支援SQL查詢,使用者不需要使用Scala,光用SQL就能進行複雜的查詢工作。