開源機器學習庫SynapseML界面
本周三,微軟宣布開源一個簡單,多語言的,大規(guī)模并行的機器學習庫 SynapseML,以幫助開發(fā)人員簡化機器學習開發(fā)與部署。

即使對于最有經(jīng)驗的開發(fā)人員來說,構建機器學習管道也會很困難對于初學者來說,組合來自不同生態(tài)系統(tǒng)的工具需要大量代碼,而且許多框架在設計時并沒有考慮到服務器集群數(shù)據(jù)科學團隊在使用更多機器學習模型方面也面臨越來越大的壓力
微軟表示,借助 SynapseML,開發(fā)人員可以構建可擴展的智能系統(tǒng)來解決跨領域的挑戰(zhàn),包括文本分析,翻譯和語音處理。
SynapseML 使開發(fā)人員能夠將超過 45 種不同的最先進機器學習服務直接嵌入到他們的系統(tǒng)和數(shù)據(jù)庫中。
其最新版本增加了對分布式表單識別,對話轉錄和翻譯的支持,這些即用型算法可以解析各種文檔,實時轉錄多個對話者的聲音和翻譯 100 多種不同的語言。
開源機器學習庫 SynapseML 界面
一,五年沉淀,SynapseML 直擊 AI 落地痛點
SynapseML 的構建基于微軟強大的 Spark生態(tài)系統(tǒng),包括工業(yè)大數(shù)據(jù)處理領域的網(wǎng)紅計算引擎 Apache Spark,SparkML 等。
SynapseML 為 Spark 生態(tài)系統(tǒng)添加了許多深度學習和數(shù)據(jù)科學工具,包括 Spark 機器學習構建流程以及其他深度學習工具的無縫集成這些工具可為各種數(shù)據(jù)源提供強大且高度可擴展的預測和分析模型
SynapseML 庫可用于 Azure Synapse Analytics 工具上,該工具能夠按照算法運行需求或根據(jù)開發(fā)人員提前配置的資源,為 AI 模型收集,處理數(shù)據(jù)。
在過去的五年中,我們一直致力于改進和穩(wěn)定用于生產(chǎn)工作負載的 SynapseML 庫使用 Azure Synapse Analytics 的開發(fā)人員將很高興得知 SynapseML 現(xiàn)在在這項服務上普遍可用,并提供企業(yè)服務微軟軟件工程師 Mark Hamilton 在一篇博客文章中寫道
AI 技術的使用和分析能力逐漸增強,但大約 87% 的數(shù)據(jù)科學項目仍未產(chǎn)業(yè)化落地根據(jù)美國 AI 算法交易服務平臺 Algorithmia 最近的調(diào)查,22% 的公司需要一到三個月的時間來部署模型以實現(xiàn)業(yè)務價值,而 18% 的公司需要三個月以上的時間
SynapseML 將現(xiàn)有的機器學習框架和微軟開發(fā)的算法打包,統(tǒng)一放到一個 API 中,以此來解決數(shù)據(jù)項目無法落地的挑戰(zhàn),該 API 可用在 Python,R,Scala 和 Java 中SynapseML 使開發(fā)人員能夠幫助需要多個框架的使用案例實現(xiàn)組合,例如創(chuàng)建搜索引擎,同時在可調(diào)整大小的計算機集群上訓練和評估模型
二,無監(jiān)督學習功能,可填補研究空白
引擎庫 SynapseML 架構
SynapseML 還集成了開放神經(jīng)網(wǎng)絡交換 ,這是一個由微軟和 Meta共同開發(fā)的框架,可以在運行時使用來自不同機器學習生態(tài)系統(tǒng)的模型通過集成,開發(fā)人員只需幾行代碼即可執(zhí)行各種經(jīng)典機器學習模型
該 API 具有無監(jiān)督學習 AI的功能,包括用于理解數(shù)據(jù)集不平衡的功能,例如種族或性別等敏感數(shù)據(jù)集特征是否被過度解讀或無法識別,而無需標記訓練數(shù)據(jù)和模型的可解釋性,也就是說明為什么模型會做出某些預測以及如何改進訓練數(shù)據(jù)集。
SynapseML 引入可以用于個性化推薦的 Vowpal Wabbit 框架,以及強化學習的新算法模型 contextual bandit,幫助開發(fā)人員訓練 AI 模型。
在不需要標記數(shù)據(jù)集的情況下,無監(jiān)督學習可以幫助填補某些領域知識的空白例如,F(xiàn)acebook 最近發(fā)布的無監(jiān)督模型 SEER,可以在 10 億張圖像上進行訓練,并能在一系列計算機視覺基準測試中取得較優(yōu)秀的結果
可是,無監(jiān)督學習并不能消除系統(tǒng)預測中存在偏差或缺陷的可能性一些專家認為,消除這些偏差可能需要對無監(jiān)督模型進行專門培訓,并使用額外的,較小的數(shù)據(jù)集來消除偏差
我們的目標是讓開發(fā)人員免于擔心分布式實現(xiàn)細節(jié)的麻煩,并能夠將它們部署到各種數(shù)據(jù)庫,集群和編程語言中,而無需更改開發(fā)人員的代碼Hamilton 補充道
結語:開源引擎庫,促進算法落地
伴伴隨著科技發(fā)展突飛猛進,AI 所引發(fā)的技術革命也在飛速發(fā)展,包括機器學習等領域的 AI 研究在性能,效率上不斷升級的同時,其算法落地仍面臨困境,無法大規(guī)模投入使用。
微軟此次開源 SynapseML 庫,不斷改進機器學習算法,將現(xiàn)有的機器學習框架和微軟開發(fā)的算法統(tǒng)一,提高 AI 的數(shù)據(jù)處理和分析能力,進一步促進 AI 技術發(fā)展。
。聲明:本網(wǎng)轉發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網(wǎng)觀點,僅供讀者參考。