hth华体官方下载

细节表现超Sora网友:真正的国产之光!MiniMax视频模型再上新

发表时间:2024-12-23 10:58:25 来源:hth华体官方下载

详情介绍

  3 个月前,MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1。只用了 5 周时间,海螺 AI 的网页版访问量便增速超 800%,还登上了 AI 产品榜当月全球增速榜、国内增速榜双榜单 TOP 1。

  12 月初,MiniMax 又上新了图生视频模型 I2V-01-Live,新的模型专门对二次元效果进行了优化,能够更好的将静态的二次元图片转化为流畅且自然的动态视频,至此,海螺 AI 开始进军“动漫界”。

  与此同时,OpenAI 的“双十二”活动也在如火如荼的进行着,万众期待的 Sora Turbo 顺势开放。当“国产之光”碰上“话题之王”,会擦出怎样的火花?雷峰网(公众号:雷峰网)AI 科技评论第一时间对二者最新、最完整的模型进行了一手体验,在给定的一系列固定提示词的条件下,海螺 AI 的生成效果属实令人眼前一亮。

  在这场视频生成的狂欢中,不少网友脑洞大开,提供了各种虚实结合的有趣 idea:

  在网友对比海螺 AI 和 Sora 生成的“喝茶的龙”的视频下,评论区一致认为 Sora 生成的龙与背景存在一定的违和感,尽管能够创造出看似真实的图像,但在细节融合和场景一致性上可能还存在一些挑战。

  也有网友直接让两个模型生成《了不起的盖茨比》小说中所描述的画面,对比其生成效果的还原度,并锐利点评:海螺 AI 的效果确实有 20 世纪的味道,但 Sora 的效果却显得过于现代,不符合提示词的要求。

  一个线横向视频,描绘了F. Scott Fitzgerald的小说《了不起的盖茨比》中Jay Gatsby的豪宅里举办的奢华派对场景。这场戏捕捉了20世纪20年代的奢华氛围。

  还有网友将同一提示词下 sora 和海螺 AI 生成的视频做了横向对比并评论:现在不需要Sora,海螺 AI 也能满足我的一切需求。

  一位穿着白色宇航服、戴着反光面罩的宇航员站在一片发光的生物荧光花丛中,头顶是超现实的繁星点点的夜空。宇航员伸手向空中优雅漂浮的幽灵般发光的水母。摄像机进行缓慢的推拉变焦拍摄。

  除了以上这些对比二者生成效果真实性的网友外,也有大批网友在体验了 MiniMax 最新的 I2V-01-Live 图生视频模型后纷纷加入了对 海螺AI 的赞誉行列。

  有从事艺术行业的网友晒图并表示:这是我尝试过的最难动画化的图片之一,几乎所有平台都试过了,只有海螺 AI 成功让这张图片动了起来!

  更有网友专门整理了视频海螺 AI 的视频合集,并配文:I2V-01-Live 就为了让 2D 动画动起来而设计的,它不会让你失望!

  甚至有网友用 I2V-01-Live “复活”了塔罗牌:这些人物动作流畅,仿佛被注入了生命一样!

  也有网友在尝试过之后,认为这个模型的生成效果和儿童故事的插图完美匹配,效果十分完美。

  看过了网友们对海螺 AI 和 Sora 的真实测评后,AI科技评论也进行了一手体验,为了更加直观的进行对比,生成时统一使用了 Sora 官方 demo 的视频提示词。

  在尝试制作“猕猴眼部特写镜头”视频时,海螺 AI 的生成效果相较于 Sora 更为直观。视频中,镜头缓缓移动,揭示出主角是一只猕猴,毛发与脸部轮廓处理真实细腻。然而,Sora 的效果如果不结合提示词来理解,很难让人将其与“猕猴”联系起来。尽管如此,Sora 却成功捕捉到了猴子眼中的“星河宇宙”,而这一细节在海螺AI的效果中并不那么明显。

  一只猕猴的眼睛的特写镜头。它非常静止。眼睛不动,目光也不移动。猴子在镜头中凝视着我们。我们在猴子的眼睛里看到了宇宙。

  在处理“头发凌乱不堪”这一指令时,两个模型都选择了通过“风吹”的效果来展现。然而,海螺 AI 所呈现的画面更具动感,画面感更为强烈。画面中,一位老人缓缓转身,微风轻拂,自然地掀起他的头发,显得既真实又细腻。相比之下,Sora 的处理则显得有些粗犷,仿佛是在“乱吹”。

  主角行走时动作僵硬、缺乏流畅性是许多视频生成大型模型普遍面临的问题,即使是被誉为“话题之王”的 Sora 也未能免俗。在 Sora 生成的视频中,人物行走时步伐略显僵硬,同时伴随着镜头的轻微拉近,本意是为了营造一种从远及近的视觉效果,但结果却不尽人意,反而让画面显得有些不协调。

  而海螺 AI 在这方面的处理则显得更为自然且流畅,巧妙地避免了这样一些问题,让人物的动作和镜头的过渡都更和谐,视觉舒适感拉满。

  时至今日,MiniMax 视频模型依然凭借其卓越的画面质感、内容的真实性以及流畅性等优势,在 VBench榜单独立测评评分上稳居首位。

  据 MiniMax 介绍,他们的大模型每天要与全球用户进行超30亿次交互,平均处理超过3万亿文本token,生成2000万张图片以及7万小时语音。在全球拥有多元化用户分布的同时,位居国内 AI 公司大模型日处理交互量榜首。

  和Sora在年初的初次亮相相比, MiniMax 在视频生成赛道上的“姗姗来迟”,公司创始人闫俊杰则表示这其实是一种“蓄力”,他希望 MiniMax 能够在技术上形成非常大的优势后再进入赛道,以弥补入局晚的劣势。在他看来,要大投入去做的研发技术,不应该只追求 5% 或是 10% 的提升,而应该追求几倍的提升。

  也正因如此,MiniMax 在视频生成赛道中的“迟到行为”,便更像是刻意而为之,给人一种待万事俱备之时,再乘东风之势,一鸣惊人的从容与淡定。

  2024 年 8 月,MiniMax 的 Abab-video-1 模型一经上线便火遍全球,迅速包揽各大榜单的 TOP 1。但在人们一声声“国产之光”的欢呼中,闫俊杰最先冷静下来,他知道对于 MiniMax 而言,技术的重要性还在不断的提升,技术好了,才能留住用户。他曾说:“当技术做不好的时候,所有东西都是问题,当技术做好了,所有问题都会被掩盖。”

  继10月上线图生视频功能后,MiniMax此次发布最新图生视频模型 I2V-01-Live,再次证明了 MiniMax 在视频生成大模型领域的技术能力。快速的产品更新周期将人们对海螺 AI 未来的文+图生成视频以及编辑可控性的期待值直接拉满。

  在竞争日益激烈的视频生成大模型领域,MiniMax 作为新兴力量,凭借专注深耕的技术路线与精准前瞻的战略布局脱颖而出,拉着视频生成行业往前走了一大步。

  然而,作为“后来者”,MiniMax究竟是如何推动行业发展的?其中缘由并不难理解。

  Sora 热潮掀起了国内对视频生成大模型的广泛关注,各大公司“先后”入局,MiniMax 凭初创公司的身份,在一众“宇宙大厂”面前表现不输。

  从默默无闻的初创公司,仅用了三年时间便到“国产之光”,MiniMax 或许真的不一般。

  自公司成立,MiniMax坚持在多模态发力,其视频生成模型生成内容从细节性、准确性以及丰富度上都得到了不错的效果。

  在应用趋势上,MiniMax 的两款视频生成模型抢在 2024 年正式上线,紧抓 AI 视频大模型爆发式增长的机遇。作为 AI 视频的应用元年,2024 年不仅是一个重要起点,也预示着行业迈入快速地发展的新阶段。随着模型能力的不断的提高和推理成本的逐步下降,未来3-5年内,各类应用场景将陆续被解锁。而 MiniMax 的这一布局,无疑占据了行业应用趋势的制高点。

  从更长远的视角来看,视频生成模型则承载着更宏大的愿景,有望变成全球模型以及通用 AGI 不可或缺的重要组成部分。无论是眼前还是未来,MiniMax 的路看似都没有走错。

  除此之外,新一代的 AI 视频工作流也正在萌生,它将会整合音频、视频的整个创作流程,大大的提高创作效率,同时也能够更好的降低 AI 视频内容在制作中所有的环节的“违和”现象。这个工作流最重要的包含“精细化生成”和“流程化整合”两个方向,前者主要是对视频中的各类细节进行精准调试,后者是通过一站式服务提高工作效率。在这方面,MiniMax凭借自研语音模型、音乐模型的创新和应用,可能早已为此做好了布局。

  MiniMax 选择在国内的 B 端和 C 端同时发力,打破了国内市场被“大厂”瓜分的商业化布局,力求在不同市场层面取得突破。通过满足企业客户的高效工作流需求和个人用户对创新工具的追求,MiniMax 能够在两条市场线中获得更多机会。除此之外,MiniMax 还积极扩展海外市场,寻求全球化的发展机遇,利用不一样地区的需求特点和潜力,推动品牌的全球化发展,并为其未来的商业化带来更多的机遇。

  与此同时 ,MiniMax 也在 AI 视频生成的竞争中,凭借其在基础模型、产品和场景三个关键要素上的深度布局,逐步推动了技术和市场的发展,拉着国内视频生成行业往前走了一大步。

  至于 MiniMax 还能走多远,看它硬是把自己从 mini 拼成了 Max 的劲头,足以相信它以后的路还会很长。