繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

基於自研多模態基礎模型提供智能設計服務,「HiDream.ai」獲新一輪融資

2023-12-12 11:18

作者 | 鄧詠儀

編輯 | 蘇建勛

36氪獲悉,HiDream.ai近期已完成新一輪融資,由科大訊飛創投基金領投,將門創投等多家機構跟投。其中,上一輪投資的阿爾法公社、中喝大種子一號基金也都再次跟投。

從創立到現在,HiDream.ai半年內已完成兩輪融資,先后由阿爾法公社和訊飛創投領投,累計融資額近億元人民幣。本輪融資將用於產品研發、電商場景的市場拓展和C端產品出海方向的發展等。

HiDream.ai是36氪多次報道的企業,是一家定位於圍繞視覺方向,打造生成式多模態基礎模型及應用的初創公司,由前京東集團副總裁、京東探索研究院副院長梅濤博士於2023年初創立。

梅濤博士是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow,是多媒體領域榮獲國際最佳論文獎最多的華人學者(15項),也是科技部科技創新2030人工智能重大項目首席科學家。HiDream.ai團隊中,博士、碩士佔90%以上,核心團隊成員曾任職於微軟、百度、騰訊、華為、京東、字節跳動等全球500強公司的核心技術團隊。

△HiDream.ai創始人兼CEO梅濤

自去年ChatGPT點燃全球大模型領域浪潮以來,如今模型層已經從原來的純文字大模型,逐步走到多模態(包括文字、圖像、視頻、3D模型等)大模型的探索,包括OpenAI的GPT-4、谷歌近期發佈的Gemini等都走向了這一道路。而在生成式圖像、視頻這一細分賽道,Runway、Pika等應用近期引起全球關注,也正是多模態領域模型技術和產品化進展飛快的證明。

「當前,大公司的主要精力還是在大語言模型,還無暇顧及視覺多模態生成。雖然最近多模態大模型進展迅猛,但主要還是在追求通用人工智能,特別是多模態內容的理解和識別。而HiDream.ai從成立之日起就立志做自研的生成式多模態基礎模型,聚焦多模態內容生成,是國內這個領域起步最早的初創公司。」HiDream.ai創始人兼CEO梅濤對36氪表示, 「半年前,大家普遍覺得視頻領域的大模型應用很難,但這個領域的進展比大家想象中的都要快。」

從3月成立以來,如今HiDream.ai已經形成了清晰的多模態大模型+應用的佈局。當前,HiDream.ai底層的自研視覺大模型具備文本、圖像、視頻、3D四種模態,其參數已經超過100億,每兩周就會進行一次迭代。在全球範圍基於Diffusion框架開發的視覺生成式大模型中,HiDream.ai的參數規模也是位於前列。在香港中文大學主導構建的文生圖測試集上,HiDream.ai在總共三項指標中(人類主觀偏好HPS、文圖匹配相關性CLIP、圖像美感Aesthetic),有兩項已經超過了Midjourney V5和Dall-E 3,整體處於領先位置,特別是反映綜合水平的HPS指標,HiDream.ai位居第一。

△來源:HiDream.ai

國內AIGC市場從去年的文生圖熱潮,現在也走到了對視頻生成的探索上。「但視頻想要做好的話,一定要有一個比較好的圖片基礎模型。」梅濤表示。「這是因為,視頻是由連續的圖片組合而成的,如今想要生成視頻,用户通常更偏向於先生成一個關鍵幀圖片,也就是物體關鍵動作所處的那一幀,再基於關鍵幀在時間域做擴展。這樣的視頻生成方式通常也有更好的可控性。

△關鍵幀到視頻生成流程

在生成式視頻領域,模型訓練的難點主要在於如何同時建模複雜的時間域和空間域。HiDream.ai的底層視覺大模型是基於海量圖片和視頻數據的聯合訓練,從而既保持了空間域上的美感和文本相關性,也針對性地細化了時間域上豐富的運動變化,最終才能實現高質量的視頻生成。

就在12月初,HiDream.ai就推出了一次重磅更新,特別針對圖生視頻的功能進行了強化,提升了鏡頭控制的能力。用户可以實現上下、左右、前后六種單一方向以及組合方向的運鏡,參數由用户確定,從而滿足了用户在各種不同場景下的需求。

也就是説,用户可以立馬化身短片導演,想往哪里拍就往哪里拍:

△來源:HiDream.ai

提示詞:Commercial photography, powerful yellow powder explosion, hamburger, white background, bright environment, white lighting, studio lighting, OC rendering, super detail, solid color isolation platform, professional photography, color gradinging#Galaxy

從今年3月到如今,HiDream.ai基於底層大模型+應用的定位,已經形成「一橫一縱」的發展戰略。其中,「一橫」指基於底層多模態大模型所推出的「Pixeling千象」應用,主要面向設計師人羣提供服務,類似GPT-3.5模型和上層的ChatGPT應用的關係。

而從提供的服務來看,Pixeling千象在單純提供圖像生成等功能上更進一步,其定位是做專業設計者的設計工具和平臺,覆蓋創意生成、素材收集、編輯精修和排版交付等設計環節,覆蓋全流程。

△千象101設計大賽獲獎作品

比如, Pixeling千象當前提供了包括文生圖、圖生圖、文生視頻、圖生視頻等多種生成式AI服務。用户在開始尋找靈感時, Pixeling千象就可以提供包括文案模版、預設的提示詞庫等輔助內容,支持中英文提示詞(prompt),並且針對配色、構圖、視角、情緒、環境、光線、風格等十多種維度。

在每個維度下方,還有數十個二級類目提示詞指導,可以大幅降低用户使用門檻,為用户提供易上手、交互式的生成入口。

△Pixeling千象的海量詞庫

基於底層基礎模型的高性能,當前Pixeling千象也已經能做到生成圖像后選定區域后局部重繪(類似PS中的修圖功能),用户只需要簡單地塗抹待選區域,就能實現精準摳圖、改圖和替換:

例如:生成一張「穿紅色毛衣、站在櫻花樹下的女人」,選中需要修改的區域,改為「身穿白色毛衣/粉色襯衫/棕色大衣」。

△來源:Pixeling

還可針對人像面部進行配件微調,比如「新增金邊眼鏡/炫酷墨鏡/奢華面具」:

來源:Pixeling

除了重繪,爲了滿足圖像在不同場景的使用需求, Pixeling千象也能提供智能拓圖功能,基於原有畫面延展,效果真實自然:

△來源:Pixeling

圍繞專業設計師、普通設計師到有設計訴求的C端用户,Pixeling千象已經搭建了一個設計社區,所有用户都可以將設計創意和設計作品上傳到社區中,激發社區的創造力。

而爲了保證圖像的審美和風格領先,千象已經和中央美術學院、北京電影學院、清華美術學院、北京郵電大學等高校設計藝術和數字媒體院系建立長期專家顧問合作。

「過去,國內的設計師和設計愛好者通常需要同時使用幾個國外的產品(如Midjourney和Runway),才能產生一個好的創意和作品,並且這些服務在國內是受限的。現在,HiDream.ai的Pixeling千象提供了一站式圖片和視頻的生成、編輯等功能,更好地方便了我們的個人用戶。」

△Pixeling

一橫一縱的「一縱」,則是指HiDream.ai會基於底層大模型的能力,針對不同的垂直行業提供產品和服務。

HiDream.ai所選擇的第一個細分賽道是電商。基於多模態基礎模型,HiDream.ai打造了面向電商商家的AI工具「PixMaker」,可以生成商品營銷的商品圖和人像模特圖等。團隊在這一領域有很深的技術積累,CEO梅濤在京東時就已經圍繞計算機視覺,主導拍照購、多模態內容審覈與生成、視覺多算法平臺等多項技術的研發。

另一方面,電商營銷對圖像和視頻內容的需求很大,市場也很廣闊。梅濤表示,如果是一個頭部的電商客户,一年GMV在數十億到百億元左右,單月的圖片需求就會到百萬張這一量級;而中小型電商賣家的單月需求也在萬張級別。

在以往,商家想要拍攝一張圖,找拍攝團隊、模特等硬性支出成本,單張商品圖可能就要30-50元,而一個SKU迭代上新一次就需要5-10張圖,如果是需要模特出鏡,圖像成本還會上升到平均數百元,並且需要數天不等的拍攝周期。「但使用PixMaker后,我們基本可以將成本降低10倍以上,而效率提升就遠遠不止10倍了。」梅濤表示。

而無論是圖像還是視頻,進入到電商領域的生產作業環節,可控性是非常重要的一環。比如客户要拍攝特定場景中的商品圖,那麼商品需要保證和原來的圖像一模一樣,PixMaker基於自研基礎模型和工程優化,可以保證99%以上商品圖和原商品一致——在模特換臉、衣服換模特等場景,也同樣需要這種保真性。

而HiDream.ai的另一個優勢在於,比起如今主流的1K圖片分辨率,HiDream.ai已經可以生成2K的高清圖片。

△圖源:PixMaker在數分鍾即生成一張商品圖,且能自定義場景生圖

△PixMaker生成模特試衣效果

從服務形式來看,HiDream.ai對用户主要採用預充值的收費方式,提供月費、年費和訂閲制等不同類型的會員套餐。用户可以根據自己的需求選擇合適的套餐。目前,最低的套餐首次充值價格為9.9元,其他套餐價格從39.9元到數百元不等。

HiDream.ai的商業化也已經在推進當中。梅濤透露,當前電商AIGC產品PixMaker近期已經與多家跨境電商簽約,達成第一步合作。另一方面,HiDream.ai通過組織AI創作比賽、建立社區等形式,面向設計人羣的Pixeling千象自9月正式上線,如今月活用户已經過萬,付費用户已突破千人。

對未來的發展規劃,梅濤表示,目前圖像生成效果已經對標Midjourney V5,未來除了在圖像領域繼續加深底層基礎模型投入和產品研發之外,HiDream.ai在今年8月也已經推出了視頻生成的部分功能,主要通過文字或者文字生成的圖片,再生成一個數秒的視頻片段。而到今年年底,HiDream.ai也計劃推出視頻生成領域的重要更新,可以生成的視頻時長會進一步延長。

 

網址(PC 端瀏覽器打開):

Pixeling千象:www.hidreamai.com

PixMaker:https://e.hidreamai.com/#/

 

 掃碼加入「智湧AI交流羣」:

歡迎交流

歡迎交流

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。