為了讓機器學習演算效率提高、因應更大量的運算需求,Google自行開發了專用的伺服器晶片「TPU」(Tensor Processing Unit),自2015年起在內部使用。去年五月,Google曾在I/O開發者大會提及TPU,今天首度公開更多細節及效能評估報告,發表在一篇論文中。
過去幾年來,處理機器學習演算較為經濟實惠的標準配備主要是像AMD和Nvidia等品牌的GPU。不過,Google從2006年就開始研究如何在數據中心使用GPU、FPGA與客製化特殊規格的ASIC(其實就是TPU)。
據Google表示,當時這種特殊硬體並沒有太大用處,就算是負荷較大的運算,只要利用數據中心原先多餘的硬體就夠了。不過到了2013年,情況改變,Google預期深度神經網路的使用會變得非常普遍,可能會使數據中心計算需求倍增,要是使用傳統CPU就會非常昂貴。因此,Google優先進行相關研發計畫,目標將性能提高至GPU的10倍以上。
TPU處理速度可達GPU/CPU的15-30倍
Google開發的Tensor Processing Unit是針對自家的「TensorFlow」機器學習框架最佳化的晶片,主要用於機器學習演算的後半階段。以大量數據對神經網路進行訓練時,通常是在GPU加速的伺服器上進行。之後對新數據進行推測的階段,Google則開始使用TPU,處理效率更高。
據論文中Google對自家晶片的測試,TPU在執行Google常規的機器學習運算時,速度比現行標準的GPU/CPU組合(Intel Haswell處理器與Nvidia K80 GPU)平均快上15-30倍。考量數據中心的功耗,使用TPU的效能功耗比也高了30-80倍(將來使用更快的記憶體,或許還會更高)。
相關細節,可以參考Google論文:In-Datacenter Performance Analysis of a Tensor Processing Unit。
資料來源:Venture Beat、TechCrunch、Google