首頁 > 比特幣 > 字節跳動發布AI模型「OmniHuman-1」:讓黃仁勳變Rapper、泰勒絲唱日文歌…網讚超逼真

字節跳動發布AI模型「OmniHuman-1」:讓黃仁勳變Rapper、泰勒絲唱日文歌…網讚超逼真

2025/02/07 23

TikTok 母公司字節跳動近期發佈了最新 AI 模型 OmniHuman-1,該模型允許用戶僅透過一張靜態圖片加上搭配音頻,就能生成栩栩如生的影片,包括人物說話時的口型、手勢等細節,都能得到細緻的刻畫。
(前情提要:被DeepSeek逼急?OpenAI免費上線新推理模型o3-mini!Altman首度承認:閉源策略錯了)
(背景補充:OpenAI怒控DeepSeek侵權創作者反酸:最大的小偷喊抓賊、美國海軍下令封殺DeepSeek)

在中國 AI 新創公司 DeepSeek 上月向全球 AI 界投下震撼彈之後,TikTok 母公司字節跳動近期也吸引了全球 AI 界的關注。據《Forbes》報導,字節跳動在 2 月 5 日公佈了其最新 AI 模型 OmniHuman-1,該模型允許用戶僅透過一張靜態圖片加上搭配的音頻,就能生成一個栩栩如生的影片,包括人物說話時的口型、手勢等細節,都能得到細緻的刻畫。

目前社群上已經有釋出部分 OmniHuman-1 使用成果,例如:黃仁勳唱 Rap、愛因斯坦演講、泰勒絲唱青鳥…效果相當逼真。紐約大學教授 Samantha G. Wolfe 就表示:

從技術角度來看,僅僅根據一張圖片,就能創造出來看起來真的會說話、會動的人物形象,這非常令人著迷。

以下截取 OmniHuman-1  實際演示結果 👇

Chinese ByteDance just announced OmniHuman-1 🤯

This AI can make a single image talk, sing, and rap expressively with gestures from audio or video input.

Here are 7 wild examples: pic.twitter.com/GDytBwyb9B

— Johanne | AI Tools & News (@shedoesai) February 6, 2025

6/ pic.twitter.com/aYLkAfGjIv

— Johanne | AI Tools & News (@shedoesai) February 6, 2025

OmniHuman-1 特性有哪些?

據官方說明,OmniHuman-1 的關鍵特性包括:

  • 多模態輸入:OmniHuman-1 模型支援文本、語音和影片等多種輸入形式,由此生成的數位人物可以在不同的場景中展示出豐富的情感與動作;
  • 高質量輸出:OmniHuman-1 由於具備先進的深度學習技術,能夠生成包含真人、動漫人物、3D 人物等高質量數位形象,可用於直播、娛樂、教育等眾多場景;
  • 實時生成:OmniHuman-1 具備實時生成的能力,在互動中,用戶能夠即時獲得數位人物的反饋;
  • 表現力強:在多種驅動模式下,由 OmniHuman-1 生成的數位人物能夠完成具有挑戰性的動作,進一步提升了影片的真實感和表現力。

OmniHuman-1 引人擔憂

不過雖然 OmniHuman-1 的強大功能讓人讚歎 AI 可能為人類生活帶來的改變,當前社群對這一模型也產生了一些擔憂,具體來看包括:

  • 身份冒用:該模型看起來能夠精確複製特定個人的容貌和動作,可能會被用於惡意模仿和身份詐欺;
  • 資訊操縱:當前 AI 最令人擔憂的負面影響之一,就是可能會催生網路虛假資訊的氾濫,這可能嚴重影響公共輿論和社會認知;
  • 隱私侵犯:該模型的推出,也可能導致惡意分子在未經許可的情況下,擅自重建和操縱個人形象,例如利用某明星的圖片製作色情影片等,可能引發倫理問題。

不過要說明的是,當前雖然字節跳動已經推出 OmniHuman-1 模型,但目前該模型尚未正式投入商業使用,官方也尚未清楚說明具體釋出時間。

另一方面,字節跳動掌管著抖音這一中國當前最熱的社交媒體平台,但 OmniHuman-1 的推出似乎在中國社群內部的討論度還不高,頗令人玩味。

📍相關報導📍

OpenAI 縮了!Altman:暫無計畫控告 DeepSeek,專心打造更優質產品

2025 加密 AI 賽道十大預測:Bittensor 復興、實用為王、合成數據超越人類資料..

特斯拉實現車輛「出廠自動駕駛開到碼頭」,馬斯克:AI帶來無人FSD時代

最新文章

同类文章