Categories
程式開發

谷歌為 AI 合成音視頻質量引入了新的度量標準


谷歌人工智能的研究人員發布了兩個新的度量標準來衡量由深度學習網絡生成的音頻和視頻的質量,分別是 Fréchet Audio Distance (FAD)Fréchet Video Distance (FVD)。這些指標已被證明與人工質量評估有很高的相關性。

在最近的一篇博客文章中,軟件工程師 Kevin Kilgour 和 Thomas Unterthiner 描述了他們的團隊們所做的工作,該研究建立在以前評估由神經網絡生成的圖像質量的研究基礎上。這些團隊展示了他們的新指標如何分別檢測添加到聲音或視頻中的噪音,以及將他們的評估指標與人工對聲音或視頻質量評估進行跟踪。 FAD 通過對一系列失真音頻樣本的排序進行評價,其選擇與人工判別選擇的相關性為 0.39。 FVD 通過對深度學習模型生成的視頻進行排序進行類似的評估。根據使用的生成標準的不同,它與人工判別的一致性在 60% 到 80% 之間。

深度學習模型的成功在一定程度上是由 ImageNet 等大型高質量數據集來推動的。這些數據集還提供了可用於評估模型的“正確答案”。近年來,深度學習在圖像生成中的廣泛應用帶來了新的問題:如何評估模型輸出的質量呢?由於通過這些神經網絡生成的圖像或者數據沒有“正確答案”,因此無法應用傳統的信噪比均方誤差等常見指標來評估質量。

由於目標是生成對人類來說看起來或聽起來是否真實的輸出,所以數據可以由人工判別進行評分,但這既不可能規模化應用,評價的結果也不一定客觀。最開始的度量標準是由 GAN 模型的發明者提出的 Inception score(IS)。這個度量標準是通過將一個預先訓練好的初始圖像分類器應用於圖像併計算結果的統計數據來進行計算的。這個度量標準與用於訓練生成模型的目標密切相關,並被證明與人工對質量的判別結果密切相關。

然而,IS 度量還有一些缺點。尤其是它對所使用的底層初始模型中的更改非常敏感。澳大利亞約翰開普勒林茨大學 LIT AI 實驗室的 Unterthiner 以及其他成員改進了 Fréchet Inception Distance (FID)方法。 FID 沒有使用 Inception 模型的分類輸出,而是使用 Inception 模型的一個隱含層來計算輸入圖像的嵌入。嵌入是由一組生成圖片以及一組真實世界的圖片(基準)來計算的。所得到的數據集被視為由多元高斯分佈產生的數據,並使用 FID 對兩種分佈進行比較。與 IS相比,FID 的一個優點是,當圖像中加入噪聲時,可以將噪聲變平滑甚至消除。

谷歌的新度量方法擴展了為生成的數據計算嵌入的思想,並將統計數據與基準數據進行比較。對於 FAD,團隊使用 VGGish 計算嵌入,對於 FVD,使用的是 Inflated 3D Convnet。為了驗證其度量方法的有效性,研究人員計算了通過在基準數據中添加噪聲而產生的數據集的度量值。預期分數的確會隨著噪音的增加而增加。該團隊還將他們的度量結果與人工判別進行了比較,發現了該度量方法與人工判別之間的相關性,而且這一新度量方法與人工判別的一致性比其他常用度量方法更強。

用於計算 FADFVD 的 Python 代碼和 TensorFlow 代碼目前已經開源至 GitHub。

原文鏈接:

Google Introduces New Metrics for AI-Generated Audio and Video Quality