欢迎来到第壹文秘! | 帮助中心 分享价值,成长自我!
第壹文秘
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 第壹文秘 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    OPENAI-SORA+技术文档总结+中英对照原稿.docx

    • 资源ID:813301       资源大小:288.76KB        全文页数:8页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    OPENAI-SORA+技术文档总结+中英对照原稿.docx

    OPENAlSORA技术报告原文+译文+报告总结要点总结模型路径:1 .架构为扩散模型(diffusionmodel)+transformer2 .训练时先用预训练模型把大量的大不一的视频源文件编码转化为统一的patch表示,把时空要素提取作为transformer的token进行训练。3 .模型效果好和超大量的数据集和更多的运算时间息息相关优势:1 .人物和背景的连贯性,即时人物运动出了相机范围再回来时还保持同样特征2 .自然语言的理解程度很高3 .可以在同一个种子下生成不同尺寸(横向竖向)的视频适配不同设备4 .可以生成长达Imin高清视频5 .可以以文字,图片,视频作为控制要素控制输出结果不足:1 .对于物理规则了解较弱,比如吹气后蜡烛不会熄灭,左右不分,玻璃掉落不会碎2 .对于算力要求较高(猜测)可以实现:1 .文生槐顷,图生视频,图+文生视频,视频修改2 .视频转绘,视频延伸,视频补全未来畅想:1 .重新洗牌Al生成视频产业2 .扩散模型的上限比想象中的高!3 .全局一致性可以被解决4 .文字生成3D或将迎来突破5 .AR,VR,VIsionPro新型应用潜力大神观点:路思勉清华叉院看完TeChrliCalRePcXt的一些想法:1. DiffUSiOn生成框架的天花板远比我们之前想象的要更高(费可能已经学了).makediffusiongreatagain!给DiffUSion研究者注入一剂之心剂也.从数学理论上来说.DiffUSion也是舱解几乎双合任意数据分布的(包括Ik实世界的连费住视频).2. Scaleisallyouneed.SCaIe上去后,在视频生成上能券产生类似在LLM里的满观现象.包括视续连贯性,3Dconsistency.Long-rangecoherence.3. PhysicsPrkx什么的可能都不需要强外引入.ScaleData足以.报告原文hups:/ODenaicomresearchVideOgeneration-models-as-woidsimulalors英文原文中文翻译VideogenerationmodelsasworldsimulatorsWeexplorelarge-scaletrainingofgenerativemodelsonvideodata.Specifically,wetraintext-conditionaldiffusionmodelsjointlyonvideosandimagesofvariabledurations,resolutionsandaspectratios.Weleverageatransformerarchitecturethatoperatesonspacetimepatchesofvideoandimagelatentcodes.OurlargestmodelzSora,iscapableofgeneratingaminuteofhighfidelityvideo.Ourresultssuggestthatscalingvideogenerationmodelsisapromisingpathtowardsbuildinggeneralpurposesimulatorsofthephysicalworld.Thistechnicalreportfocuseson(1)ourmethodforturningvisualdataofalltypesintoaunifiedrepresentationthatenableslarge-scaletrainingofgenerativemodels,and(2)qualitativeevaluationofSorazscapabilitiesandlimitations.Modelandimplementationdetailsarenotincludedinthisreport.Muchpriorworkhasstudiedgenerativemodelingofvideodatausingavarietyofmethods,includingrecurrentnetworks,lz2f3generativeadversarialnetworks,45,6z7autoregressivetransformersz8z9anddiffusionmodels.10,11,12Theseworksoftenfocusonanarrowcategoryofvisualdatazonshortervideos,oronvideosofafixedsize.Soraisageneralistmodelofvisualdataitcangeneratevideosandimagesspanningdiversedurations,aspectratiosandresolutions,uptoafullminuteofhighdefinitionvideo.TurningvisualdataintopatchesWetakeinspirationfromlargelanguagemodelswhichacquiregeneralistcapabilitiesbytrainingoninternet-scaledata.l3z14ThesuccessoftheLLMparadigmisenabledinpartbytheuseoftokensthatelegantlyunifydiversemodalitiesoftext-code,mathandvariousnaturallanguages.Inthiswork,weconsiderhowgenerativemodelsofvisualdatacaninheritsuchbenefits.WhereasLLMshavetexttokens,Sorahasvisualpatches.Patcheshavepreviouslybeen视频生成模型作为世界模拟器我们探索了在视频数据上进行大规模生成模型的训练。具体而言,我们联合在可变持续时间、分辨率和宽高比的视频和图像上训练了文本条件扩散模型。我们利用了一个在视频和图像潜在编码的时空块上操作的transformer架构。我们最大的模型,Sora,能够生成一分钟高保真度的视频。我们的结果表明,扩展视频生成模型是建立通用物理世界模拟器的一条有前景的道路。本技术报告关注以下两个方面:(1)我们将各种类型的视觉数据转换为统一表示的方法,以实现大规模生成模型的训练,以及(2)对Sora的能力和局限性进行定性评估。模型和实现细节未包含在本报告中。之前的研究已经探讨了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变压器和扩散模型。这些工作通常侧重于某一类视觉数据、较短的视频或固定大小的视频。Sora是一种视觉数据的通用模型一一它可以生成跨越各种持续时间、宽高比和分辨率的视频和图像,高清视频最长可达一分钟。将视觉数据转换成patch我们受到大型语言模型的启发,这些模型通过在互联网规模的数据上进行训练而获得了通用能力。LLM范式的成功部分得益于优雅地统一了文本的多种模态一一代码、数学和各种自然语言的标记。在这项工作中,我们考虑了生成视觉数里模型如何继承这些好处。而LLMs具有文本标记,Sora具有视觉patch0patch已被证明是视帝数据模型的有效走示。showntobeaneffectiverepresentationformodelsofvisualdata.15,16,17,18Wefindthatpatchesareahighly-scalableandeffectiverepresentationfortraininggenerativemodelsondiversetypesofvideosandimages.我们发现,patch是一种高度可扩展且有效的表示方法,适用于训练不同类型的视频和图像的生成模型。Atahighlevel,weturnvideosintopatchesbyfirstcompressingvideosintoalower-dimensionallatentspacez19andsubsequentlydecomposingtherepresentationintospacetimepatches.VideocompressionnetworkWetrainanetworkthatreducesthedimensionalityofvisualdata.20Thisnetworktakesrawvideoasinputandoutputsalatentrepresentationthatiscompressedbothtemporallyandspatially.Soraistrainedonandsubsequentlygeneratesvideoswithinthiscompressedlatentspace.WealsotrainacorrespondingdecodermodelthatmapsgeneratedIatentsbacktopixelspace.SpacetimeLatentPatchesGivenacompressedinputvideo,weextractasequenceofspacetimepatcheswhichactastransformertokens.Thisschemeworksforimagestoosinceimagesarejustvideoswithasingleframe.Ourpatch-basedrepresentationenablesSoratotrainonvideosandimagesofvariableresolutions,durationsandaspectratios.Atinferencetime,wecancontrolthesizeofgeneratedvideosbyarrangingrandomly-initializedpatchesinanappropriately-sizedgrid.ScalingtransformersforvideogenerationSoraisadiffusionmodel21,22,23,24,25;giveninputnoisypatches(andconditioninginformationliketextprompts),it'strainedtopredicttheoriginal"dean"patches.Importantly,Soraisadiffusiontransformer.26Transformershavedemonstratedremarkablescalingpropertiesacrossavarietyofdomains,includinglanguagemodeling,13,14computerViSiOn,15,16,17,18andimagegeneration.27z28,29在高层次上,我们通过首先将视频压缩成低维度潜在空间,然后将表示分解为时空补丁来将视频转换成补丁。视频压缩网络我们训练了一个网络来降低视觉数据的维度。这个网络以原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并随后生成视频。我们还训练了一个对应的解码器模型,将生成的潜在空间映射回像素空间。时空潜在补丁给定一个压缩的输入视频,我们提取一系列的时空补T»这些补丁充当transformer的tocken。我们

    注意事项

    本文(OPENAI-SORA+技术文档总结+中英对照原稿.docx)为本站会员(p**)主动上传,第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知第壹文秘(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 1wenmi网站版权所有

    经营许可证编号:宁ICP备2022001189号-1

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!

    收起
    展开