生成式人工智能的发展趋势与应用场景.docx
《生成式人工智能的发展趋势与应用场景.docx》由会员分享,可在线阅读,更多相关《生成式人工智能的发展趋势与应用场景.docx(5页珍藏版)》请在第壹文秘上搜索。
1、生成式人工智能的发展趋势与应用场景2024年2月发布的文生视频模型Sora引起关注。这一技术的问世被认为是视频生成领域的重大突破。对比同样引起轰动的ChatGPT,两者在技术路线和产品定位上有所联系,又有所区别。一方面Sora结合了ChatGPT所采用的模型架构,能够结合数个静止画面生成连续的视频,也可以自动修补残缺的视频段。另一方面Sora和ChatGPT都有良好的自然语言理解能力,可以依据用户的描述生成与调整视频内容,也可以对用户提供的素材进行总结归纳和补充。Sora的问世是OpenAI在模型架构、数据管理等方向积累创新的结果,其背后是GPT系列的技术转化和新技术创新的融合。ChatGPT
2、侧重于对文本内容的理解和生成,用户可以与之进行对话问答,也可以指令其撰写文章、撰写代码等,其基础功能主要由文字交互实现。最常见的应用场景主要是文本内容的处理,包括对文字的解读、重组、拓展、排序等。Sora则侧重于视频内容的创造,其核心功能是依据文本提示生成视频内容,在理解和模拟物理世界的前提下,构造出虚拟的世界并展现这个世界的交互规律。文生视频模型都在多大方面表现出强大的能力,但其本身并不完美。类似的生成式模型仍然存在一些问题,如不能完全反映所有的物理规律,主要表现为一些违背生活常识和科学认识的情况仍然会发生。上述文生视频模型缺陷由来已久,并且在短期内难以得到很好的解决,在维持、扩大模型优势的
3、同时克服这些缺陷将成为人工智能产业下一阶段的重点。首先文生视频模型的首要缺陷是其巨量的算力资源消耗。相较于主流的大语言模型算力,图像参数要占用更多的算力资源。为了追求更好的模型性能,全球人工智能产业的算力需求还会进一步提高,算力匮乏的国家和地区将处于技术不利地位。其次是模型幻觉现象依旧严重。与文本生成模型类似,视频生成模型也受幻觉效应影响。训练数据在压缩等处理环节中失真、用户提示词过于模糊或者依据安全策略不能响应时,模型会被迫填补空缺内容。这种填补有可能使模型陷入幻觉认识,输出与事实不符或者用户未要求的内容。最后是生成视频细节上存在常识性错误。文生视频模型对物理法则的认识还停留在初级阶段,它能
4、够正确反映人和物体宏观上的互动关系,但还不能准确把握涉及物体形状改变的物理规律。生成式人工智能既可能因为缺乏认知而生成错误内容,也可能因为被不当灌输认知而生成错误内容。比如,当人物咬下一口饼干后,饼干却依旧保持完整。虽然这类常识性错误通常被控制在很小的规模,但依旧说明模型对真实物理规律的理解还停留在较浅层次。Sora的技术路线和性能表现依托于大语言模型基座提供的强大的自然语言理解能力。未来用户与生成式人工智能的交互会越来越轻松,模型也会因为被大量用户使用而得到进一步的反馈训练。研发能够理解、再现甚至模拟物理交互的生成式人工智能将成为新的产业发展方向。第一个是媒体行业能够借助此类工具提高内容生产
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生成 人工智能 发展趋势 应用 场景