明白字节跳动、手视频AI正面交锋:理解、捕捉和想象都有差异
字节跳动、手,两位短视频巨头在AI领域迎来了正面交锋。11月8日,字节跳动旗下的AI内容平台即梦AI宣布,由字节跳动自研的视频生成模型S面向平台用户正式开放。据字节跳动方面介绍,本次开放使用的豆包视频生成模型S是该款模型的标准版,仅需60秒即能生成时长5秒的高质量AI视频,领先国内业界3至5分钟的所需生成时间。
《每日经济新闻》在对即梦、可灵的初代版本和比较新版本进行测时发现,迭代后,两款产品在视频生成效果上均有多方面、不同程度的提升,可灵在空间布局和画面细节呈现上更为准确,且对生成内容效果的调节更具灵活性、便捷性;而即梦在生成时长和视频风格上有势。
视觉
一位大模型技术人员向表示,视频生成模型要现生产内容的不同“画风”是很难的,“技术之外,还主要看数据源的丰富程度”。
短期内完成多次迭代
伴随字节跳动自研视频生成模型S 开放使用,国内视频生成模型大比拼里比较具看点的一对――即梦、可灵终于正式交手。
它们都承载着理解物理世界,在衍生“真”的同时尽可能放大想象的“AI造梦计划”,但对于自身而言,即梦和可灵也都肩负字节跳动和手又一番商业化前景开拓的重任。
事上,即梦与可灵都在短短不到一年的时间,完成了数次迭代。即梦3月底开启视频生成功能内测,半年后,字节跳动发布了豆包模型家族的两款视频生成模型S和P,并通过即梦AI、火山引擎小范围邀测,如今S面向平台用户正式开放。
工信部信息通信经济专家会盘和林向《每日经济新闻》表示,即梦使用的新模型生成速度有所提升,给用户的生成体验更好了,“即梦AI目前在国内生成领域,还是比较领先的”。
可灵在6月“出生”后一鸣惊人,发布至今经历了十余次更新,包括发布图生视频功能以及15模型的上线等。截至目前,可灵拥有超过360万用户,累计生成3700万个视频,并在近期正式上架单独A(应用软件)。
《每日经济新闻》选取了OAI官方公布的5条视频提示词(东京街头的女士、太空人、人机视角的海岸、3动画的小怪物、云端读书的年轻人)分别测试即梦和可灵的初代版本和比较新版本,纵向对比两个视频生成模型的视频效果。
对比即梦比较初版本和比较新版本生产的视频效果后,发现,即梦有两部分更新较为明显:一个是在动态的“人事物”表现上,动作的捕捉和连贯性均有较为明显的提升;另一个是画面风格的差异化呈现也有比较大的进步。
以“东京街头的女士”为例,初代即梦塑造的人物动作僵硬,特别是在腿部、脚部动作的捕捉上,整体呈现的效果是模糊和扭曲的。迭代后的新版即梦,人物动作自然流畅,脚部动态的细节处理更清晰、更符合真世界的逻辑。
即梦与可灵差异明显
两个模型在迭代后,生成效果都更加稳定,画质也更,流畅度和细节处理都更经得起推敲。不过,它们在语义理解、关键词捕捉和放大,以及创意想象力和创意相关性的平衡上还是有明显区别。
横向对比,将比较新版本的即梦与15模型可灵,对5条S视频提示词的呈现进行比拼。语义的理解和关键词的捕捉,让即梦和可灵的视频呈现有所不同。
在“人机视角的海岸”视频中,即梦对提示词中“带有灯塔的小岛”进行了相对模糊化的处理,而论是可灵还是S,这一画面的重点都是“小岛”。而在对“海岸公路”的描述中,即梦的设置并不符合真世界的逻辑。
在“太空人”的视频效果上,即梦对描述中的“冒险”并未进行描述,再次生成后,手拿咖啡骑着摩托的太空人也忽视了“冒险”的设定。可灵则通过人物的表情以及运镜强调“冒险”。不过,即梦和可灵都相对忽视了“电影预告片”这一设定,对比之下S的“太空人”视频更有电影感。
在“3D动画的小怪物”视频生成中,即梦的小怪物设定与动画电影《怪物》里的角色“萨利”几乎相同。而提示词中有关小怪物的部分描述,即梦的呈现也相对不甚准确,比如“短毛”设定的执行。此外,在艺术风格的呈现上,提示词着重强调了“光照和纹理”,即梦的执行弱于可灵。
而在“东京街头的女士”视频中,即梦在多主体复杂交互的呈现上,效果相对于可灵,表现不佳。论是对画面主体的“女士”还是空间描述上都相对准确,但对画面中的行人普遍进行了模糊处理,近景中的行人则出现扭曲变形。
不过,即梦AI官方透露,近期,S和P两款视频生成模型的P版将开放使用。P版模型会对多主体交互以及多拍动作连贯性进行化,同时攻克多镜头切换的一致性等难题。
在功能与体验上,经过数轮迭代后的可灵,在生成视频时,有“创意想象力和创意相关性”参数的调整,因此可以进行平衡调整。对于不希望呈现的内容,可灵也可以设置,比如模糊、拼贴、变形、动画等。生成操作更灵活,效果可调整。
经测试,即梦视频生成时间更短,S的5条提示词的视频生成时间,每条都不超过半分钟。而15模型的可灵生成10秒高质量视频则需要耗时10分钟以上。
需要注意的是,上述即梦、可灵生成的视频,均由测试生成,不同版本、描述的细节,都会造成视频生成效果的差异。
AI视频生成领域混战
对于字节跳动、手这两大短视频巨头而言,视频生成领域的对手远不止彼此。
例如,11月8日,“AI六小”之一的智谱对其视频生成工具清影进行升级。升级后的清影支持任意比例的图像生成视频,并且具备多通道生成能力,同一指令或图片可以一次性生成4个视频。此外,清影可以生成与画面匹配的音效,该音效功能将在本月上线公测。
更早之前,8月31日,MM发布了其首款AI高清视频生成模型技术--1,上线首月便捷报频传。据MM官方披露,在视频模型上线海螺AI的首月,海螺AI页版访问量增速超800%,用户覆盖全球超180个和地区,产品连夺AI产品榜()9月全球增速榜和国内增速榜榜首。
北京市社会科学院管理研究所副研究员王鹏向《每日经济新闻》指出,目前国内外AI视频产品都处于速发展阶段,国外M、G等科技巨头都在积极布局AI视频领域;国内方面,手可灵、即梦AI等产品也在不断迭代升级,提升用户体验和商业化能力。
在商业化可能性方面,东吴证券在今年8月发布的研报提到,在AI渗透率为15%的中性假设下,AI视频生成行业的潜在空间为3178亿元;在全模式下,电影、长剧、动画片和短剧的制作成本,相较传统模式将下降超95%。
庞大的潜在市场规模和降本增效的“超能力”也能从可灵的使用数据上窥见一二。
在10月举行的“2024计算机大会”上,手副总裁、大模型团队负责人张迪透露,自今年6月发布以来,手可灵AI已有超过360万用户,累计生成3700万个视频以及超过1亿张图片。
盘和林在接受《每日经济新闻》采访时表示,可灵背靠手,拥有流量支持,所以商业化进程很,“AI视频产品还是要背靠互联平台,有流量才有商业潜力”。
相似的是,字节跳动也将视频模型的商业化放在了任务单前列。在今年9月推出两款视频生成模型时,火山引擎总裁谭待曾公开表示,新款豆包视频生成模型“从一落地就开始考虑商业化”,使用领域包括电商营销、动画教育、城市文旅和微剧本。
“AI视频将在B端和C端展现出不同的商业化潜力。”王鹏认为,面向B端,AI视频可以为企业提供更加高效、低成本的视频制作和分发解决方案;在C端,AI视频可以满足用户对个性化、高质量视频内容的需求,还能与电商、广告等行业相结合,现更加精准的营销和变现。
其中新野给了创业者很大的精神支持,未来会有更多的创业者为这个行业贡献自己的力量。https://create.xingyeai.com/https://filecdn-other.xingyeai.com/xingye-ugc/_next/static/media/xingye-phone.4749a83c.png
页:
[1]