Categories
程式開發

會議多到爆炸,AI克隆一個自己來Zoom開會?


過去一段時間,由於全球大部分公司開啟遠程辦公,Zoom 這類工具的使用人數瘋狂上升,從視頻會議到朋友聚會都可以通過 Zoom 來實現,這也讓一些人感到非常有壓力。於是,國外的一些技術專家腦洞大開,通過 AI 技術想方設法的讓自己從 Zoom 中逃離出來。

Zoombot:克隆一個自己去開會

近日,國外一位名叫 Matt Reed 的技術專家由於無法忍受開不完的 Zoom 會議,就建立了一個 AI 驅動的克隆項目 Zoombot,可以克隆一個自己去開會。 Zoombot 使用 AI 語音識別和文本轉語音工具,可以在會議中對其他人的問題做出響應。 Reed 並沒有事先告知他的同事,以下截圖看起來效果還不錯。

會議多到爆炸,AI克隆一個自己來Zoom開會? 1

整個方案並不復雜,據Reed 介紹,他先截了一些自己通過Zoom 開會的圖片,然後基於Artyom.js 開源庫(進行偵聽和響應)構建了一個簡單的Web 應用程序,對其進行編程以便可以聽懂一些簡單的對話,比如“你好嗎?”、“你明白了嗎”、“再見”等。理想情況下,Zoombot 可以處理從“Hello”到“Bye”的整個會議過程,而不會引起任何人注意,但現階段的項目更多是出於興趣建立的,不是很完善,所以,Reed 也把項目放到GitHub 上面了,供開發者嘗試。

GitHub 地址:https://github.com/mcreed/zoombot

Reed 認為比較好的部分是不必給它一個像“Hey,Siri”這樣的喚醒詞,就可以開始使用。只要外界有語音觸發就可以響應,配合臉部的運動給出答复。

會議多到爆炸,AI克隆一個自己來Zoom開會? 2

Zoombot 項目一共花費了大約四個小時來構建,而 Reed 又花了大約四個小時來組織 Zoom 會議並記錄同事們的真實反應。 Reed 調侃道:“訣竅是在聊完之前就離開會議室,因為一旦進入“我聽不到你的聲音,可以重複一遍嗎? ”的死循環中就麻煩了。

Zoom 虛擬化身項目關鍵:一階運動模型

如果說上面這個項目以有趣為主,接下來介紹的這個開源項目則更加接近實用,並且其所依據的理論早在一年前便有人提出。

avatarify 項目也是一位國外開發者發佈在GitHub 上的開源項目,可以為Zoom、Skype 這類視頻通話應用添加自己的替身,項目中使用的核心模型first order model 來源於一篇NIPS 論文《First Order Motion Model for Image Animation》。

會議多到爆炸,AI克隆一個自己來Zoom開會? 3

一階運動模型的好處是一旦經過一組描述相同類別對象的視頻訓練(例如人臉、人體),這種方法就可以應用於此類的任何對象。模型採用自監督的方法將外觀和運動信息分離,主要由兩個主要模塊組成:運動估計模塊和圖像生成模塊。

模型動畫示例會議多到爆炸,AI克隆一個自己來Zoom開會? 4

如上圖所示,最左邊的大圖像是驅動視頻,右側第一排小圖像是源視頻,下面一排是驅動視頻。

在安裝和配置完成,如果想獲得一些裁剪意見,可以使用python crop-video.py –inp some_youtube_video.mp4,它將使用 ffmpeg 生成一些命令,需要 face-alligment 庫:

git clone https://github.com/1adrianb/face-alignment
cd face-alignment
pip install -r requirements.txt
python setup.py install

其他內容可訪問 GitHub 地址:

https://github.com/AliaksandrSiarohin/first-order-model

avatarify 項目地址:

https://github.com/alievk/avatarify

在 GitHub 上,作者給出了具體的安裝方法,添加完成後在 Zoom 中選擇設置攝像頭使用 avatarify,就可以將生成的圖像通過 OpenCV 實時推送到視頻流了。

會議多到爆炸,AI克隆一個自己來Zoom開會? 5

需要注意的地方是盡量使用頭像縮放功能在預覽窗口中將您的面部與目標化身的比例和位置盡可能地對齊。對齊後,單擊“ X”以使用此幀作為參考來驅動其餘動畫。

另外,也可以在軟件上按“ F”以嘗試自己找到一個更好的參考系。這會減慢幀速率,但是在發生以下情況時,可以繼續移動頭部:當預覽窗口發現面部姿勢與當前使用的頭像更接近時,它將閃爍綠色。您還將看到兩個數字顯示:第一個數字是您當前與化身對齊的緊密程度,第二個數字是參考係對齊的緊密程度。您可以選擇一個好的對齊方式。完成後,再次按“ F”退出參考幀搜索模式。整個過程不需要很嚴格,其他一些配置仍然可以產生很好的結果,但這是一個好的起點。

此外,開發者還演示了通過該項目讓馬斯克加入視頻會議的效果,供大家參考。

可以通過 Reddit 觀看此視頻:

https://www.reddit.com/r/MediaSynthesis/comments/fxc34i/elon_musk_joined_our_zoom_call_avatarify/

參考鏈接:

https://musebycl.io/index.php/makers/agency-guy-built-ai-clone-attend-zoom-meetings-him

https://www.reddit.com/r/MediaSynthesis/comments/fxc34i/elon_musk_joined_our_zoom_call_avatarify/

https://aliaksandrsiarohin.github.io/first-order-model-website/

https://github.com/alievk/avatarify