这是《YPS行业门户系统》综合演示网站
您好!欢迎光临YPS行业综合门户☺ [免费注册] [登录]
打造中国第一行业门户,助您问鼎行业巅峰!
推荐分类:行业热点播报 | 基金理财新闻 | 外汇市场走势

阿里达摩院低调上线文本生成视频大模型:仅支持英文输入,已开放试玩

来源:YPS数据挖掘大师  作者:YPS行业综合门户  2023-03-22  浏览:181  字号:[ ]  背景颜色:  
  感谢YPS行业门户系统网友 大眼夹、打工轨道人、航空先生 的线索投递!

  YPS行业门户系统 3 月 22 日消息,近日,阿里达摩院已在 AI 模型社区“魔搭”ModelScope 上线了“文本生成视频大模型”。

  根据官方介绍,目前文本生成视频大模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成,整体模型参数约 17 亿,目前仅支持英文输入。扩散模型采用 Unet3D 结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

  官方介绍称,本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。一些文本生成视频示例如下:

  A giraffe underneath a microwave.(一只在微波炉里的长颈鹿)

  A goldendoodle playing in a park by a lake.(一只金贵犬在湖边的公园玩耍)

  据YPS行业门户系统了解,模型已经在创空间和 huggingface 上线,可以直接体验,也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下,通过调用简单的 Pipeline 即可使用当前模型,其中,输入需为字典格式,合法键值为 'text',内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。

  从试玩的结果来看,目前能生成的视频长度多在 2-4 秒,生成等候时间从 20 多秒到 1 分多钟不等。
雨后池塘
业务流程
支付方式
快速链接
常见问题
服务与支持
咨询热线:0532-88781131 15166683288 13963906391
[YPS大型行业门户网站系统] 打造中国第一行业门户,助您问鼎行业巅峰!
未经授权禁止抄袭、镜像本站.  如有违反,追究法律责任.
Copyright ©2012
yps.yuhou.cn
[ YPS行业综合门户 ]