下载网

高新技术

OpenAI CTO:Sora今年将发布 会添加语音功能

3DM游戏网 日期:

美国当地时间周三,人工智能初创公司OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)接受了媒体记者专访。在采访中,她谈到了该公司最新文本转视频工具Sora,这款产品预计将于今年晚些时候向公众发布,同时还会添加语音功能;此外在发布前,团队将对其进行优化,以降低计算资源消耗。

以下为翻译全文:

某个清晨醒来时,你是否曾幻想过一头公牛在精致的瓷器店中悠然自得地行走的场景?要实现这一奇幻景象,你有三种途径:

A)联系当地的动物驯养师以及知名家居品牌Crate & Barrel;

B)雇请顶尖的好莱坞动画制作人;

C)使用神奇的AI工具Sora,简单输入指令即可。

欢迎进入人工智能的下一个“魔法世界”。在这里,你的语言能够化作逼真、流畅且细腻的视频画面。

OpenAI计划在今年晚些时候向大众推出其文本到视频的转换工具Sora。尽管正式发布尚需时日,但OpenAI已经向我们揭示了这款工具的惊人潜力:仅需精心设计的文本指令,便可创造出几乎足以替代许多视频制作专业人员的作品。《华尔街日报》专栏作家乔安娜·斯特恩(Joanna Stern)向该公司提交了几条由她自己编写的提示,比如一条美人鱼和她的螃蟹伙伴评测智能手机,或是一头公牛在精致的瓷器店内自由漫步。

斯特恩随后亲身体验了Sora的神奇之处,她利用这款工具制作了一段模拟对OpenAI首席技术官穆拉蒂进行虚拟视频采访的片段,两人深入剖析了这些有趣的问题,并对该技术的潜在问题进行了探讨。

OpenAI在上个月首次展示了用其生成式人工智能工具制作的视频预览,整个互联网为之沸腾。与之前那些断断续续、分辨率低下的人工智能视频技术相比,Sora生成的内容无疑是一场视觉盛宴,堪比高品质的自然纪录片或大制作电影。

与之前的人工智能技术相似,Sora首先让我们对其能力感到惊叹,随即又担忧其对社会的影响。面对斯特恩的担忧,穆拉蒂向她保证,OpenAI在发布这一强大工具时将采取慎重的步骤。但这并不意味着一切都将无忧无虑。

这些超逼真视频真的是Sora生成的吗?

斯特恩对Sora生成的视频感到深深震撼:从无人机视角拍摄的意大利阿马尔菲海岸的壮观景色,到手持自拍杆的柯基犬,再到冲浪板上活泼的动画水獭,这些画面无一不展示了Sora在创意和细节处理上的强大能力。她进一步挑战Sora,要求它生成更接近日常生活的场景:“两名30多岁、棕发的职业女性在一个明亮的演播室里坐下接受新闻采访。”

Sora生成的视频中,两位女性的嘴唇和头发动作自然流畅,皮夹克的细节也清晰可见。穆拉蒂透露,这段20秒长、720P分辨率的视频仅用了几分钟就完成了生成,尽管目前还未加入声音。但她承诺,OpenAI正在计划为Sora增添语音功能。

为了对比Sora与其他工具的区别,斯特恩也在另一个AI视频生成器Runway上输入了相同的提示。然而,得到的结果大相径庭,Runway生成的画面是两个模糊、幽灵般的女性形象,它们看起来像是直接从恶梦中走出来的,令人毛骨悚然。

那么,Sora究竟是如何实现这一神奇转换的呢?尽管解释其内部工作原理可能比解释美人鱼的进化还要复杂,但简单来说,Sora背后的AI模型通过分析大量视频数据,学会了识别和理解各种物体与动作。输入文本提示后,模型能够迅速勾勒出整个场景的基本轮廓,并逐帧添加细节。

行业观察人士和竞争对手,包括Runway的首席执行官,都认为OpenAI的这些显著成就归功于其巨大的计算资源和庞大的训练数据量。但OpenAI最近也面临着版权侵犯的指控,因未经授权使用大量在线内容训练其ChatGPT模型。

当被问及OpenAI为训练Sora使用了哪些数据时,穆拉蒂表示:“我们主要使用了公开可获取的数据及已授权数据。”。当被进一步追问这些数据是否包括YouTube、Instagram和Facebook上的视频时,穆拉蒂表示她并不清楚具体细节,但后来确认,已授权的材料确实包含了知名版权图片网站Shutterstock上的内容。

人工智能模型对普通用户来说往往是个神秘的黑匣子。我们看到的是输入和输出,而中间的处理过程则不得而知。因此,我们可能永远无法完全理解为何生成的内容展现出某些特定的风格或特征。例如,斯特恩提到的那条美人鱼身旁的甲壳类伙伴留着类似《海绵宝宝》中蟹老板的胡须,这是否是模型的创新还是某种偶然?

穆拉蒂还告诉斯特恩,当前Sora生成视频的成本远高于该公司的图像生成器Dall-E。但她承诺,在Sora正式向公众发布前,团队将对其进行优化,以降低计算资源消耗。

如何识别人工智能生成视频?

在当前的早期阶段,人工智能生成的内容中还存在一些明显的瑕疵。

例如,在Sora生成的采访视频中,一位浅发色女子的一只手似乎多出了五根手指。对此,穆拉蒂解释道:“准确再现手部运动真的很难。”

在另一次测试中,斯特恩期望看到一个机器人从电影制片人手中夺走摄像机的场景。但Sora生成的是一位人类电影制片人突变成机器人,场面显得突兀且不自然。更有甚者,背景中的黄色出租车也不知怎的变成了银色轿车。穆拉蒂承认模型“在维持连贯性方面表现尚可,但并不完美”。

这引出了一个深刻的议题:当这些缺陷得到修正,人工智能生成的视频愈发逼真时,我们如何区分真实与人工智能生成的视频?

Sora生成的每个视频下方都会有一个水印。穆拉蒂解释说,最终这些视频还将包含元数据,以标示其生成方式和来源。此外,OpenAI设有一个名为“Sora红队”的安全测试小组。该团队的职责是提供各种提示,探索潜在的漏洞、偏见和其他可能的有害结果。穆拉蒂说:“这就是我们目前还没有广泛部署这些系统的原因。我们需要先弄清楚这些问题,然后才能放心地将其推向市场。”

就Sora的提示词政策而言,穆拉蒂透露,它可能借鉴OpenAI的另一工具Dall-E的做法。例如,为了防止滥用和侵犯隐私,用户将无法使用Sora来生成公众人物的形象。当斯特恩试图输入“在任美国总统的电视新闻画面”时,Sora拒绝了这一请求。

斯特恩也尝试让Sora生成“在东欧小镇上行走的士兵”的视频,但也遭到了拒绝。对于裸露等敏感内容的提示,穆拉蒂表示OpenAI正在与艺术家和专家紧密合作,共同探讨如何在不阻碍创意表现的同时,设立合理的“护栏和限制”。

将与好莱坞合作

随技术发展,像Sora这样的AI工具将变得更强大、更精细。这种进步可能会改变传统的工作方式,如无人机操作员或插画家的角色,引起好莱坞既期待又忧虑的反响。

演员、电影制片人和工作室老板泰勒·佩里(Tyler Perry)表示,看到Sora的潜力后,他宣布暂停耗资8亿美元的工作室扩建计划。他认为这项技术能够削减布景和外景拍摄的成本,但同时也对电影行业和演员的未来抱有担忧。

代表好莱坞和全美各地动画艺术家的动画协会主席珍妮特·莫雷诺·金(Jeanette Moreno King)也称,尽管艺术创作决策仍需人类参与和判断力,未来却是充满不确定性的迷雾。

爱德华·萨奇(Edward Saatchi)及其人工智能视频工作室Fable正梦想打造一个AI版Netflix:仅需输入一段文本提示,便可呈现完整的电视剧集。

对于Sora对视频制作行业的潜在影响,穆拉蒂重申了OpenAI采取的缓步审慎策略。她表示,OpenAI正在与行业内部人士合作,进行早期的测试和反馈征集,希望全球的电影制作者和创作者能加入这一探索过程,共同促进电影产业的发展。

如果将OpenAI比作一开始提到的那头在瓷器店里自由漫步的公牛,那么它目前可能需要小心行事。但最终,它可能不可避免地将带来一些破坏。

更新于:6个月前

相关资讯

  • 苹果在欧洲再遭集体诉讼:被指赚取2.59亿欧元不正当利润

    快科技9月19日消息,近日,欧洲消费者权益组织Euroconsumer在比利时、意大利、西班牙和葡萄牙联合发起了针对苹果公司的集体诉讼。诉讼的核心问题是苹果公司在其应用商店(App Store)中对非苹果音乐流媒体服务的高额收费,这被认为是抬高音乐流媒体服务订阅费用的主要原因。Euroco..
  • 《最终幻想 XVI》,《战神:诸神黄昏》等游戏发布并借助DLSS 3提升性能

    每周都有新游戏支持NVIDIA DLSS、NVIDIA Reflex和先进的光线追踪技术,为GeForce RTX玩家提供出色的游戏体验。《战神:诸神黄昏》(God of War Ragnarök)、《最终幻想 XVI》(FINAL FANTASY XVI)、《丧尸围城豪华重制版》(Dead Rising Deluxe Remaster)和《艾诺提亚:失落之歌》(Enotr..
  • iPhone 16电商平台已破发 起价降至5799元

    iPhone 16系列手机将于9月20日正式上市。目前,苹果官网显示iPhone 16、iPhone 16 Plus发货时间延迟至10月1日。iPhone 16 Pro Max最晚送达时间为10月17日。此外,iPhone 16 起售价5999元,但在电商平台上,起售价已降至5799元。..
  • Wi-Fi HaLow再次创下Wi-Fi连接距离记录 近16公里

    早在今年1月,无线科技公司Morse Micro使用Wi-Fi HaLow标准(802.11ah)的设备,创下了3公里的Wi-Fi连接距离新记录。HaLow标准发布于2016年初,不过到近期才开始加速。本次测试中,Morse Micro在远离Wi-Fi热点的情况下启动视频通话,连接速度从500米处的11 Mbps到3公里处的1 Mbps..
  • 联想将在印度生产AI服务器:预计年产能5万台

    9月18日消息,联想日前宣布,将在印度南部的工厂开始生产人工智能(AI)服务器,并在班加罗尔设立一个以AI服务器为重点的研发实验室。联想计划每年在印度普杜谢里的工厂生产5万台AI机架式服务器和2400台GPU服务器,这些服务器专为机器学习和深度学习等资源密集型任务设计。联想亚太..
  • 中国可重复使用运载火箭大突破 商业航天迎来万亿级市

    快科技9月18日消息,近日,朱雀三号VTVL-1可重复使用垂直起降回收试验箭,在中国酒泉卫星发射中心成功完成了十公里级的垂直起降返回飞行试验。这一成就标志着中国商业航天在可重复使用运载火箭技术上取得了重大突破,为未来实现大运力、低成本、高频次的航天发射奠定了坚实基础。..
  • 特斯拉第1亿颗4680电池下线 Optimus扮演“微小”助力

    特斯拉在降低电池生产成本方面迎来了新助力。特斯拉制造了大量电池。现在,它获得了一位新员工的意外帮助。周六,特斯拉(TSLA.O)在推特上宣布,其生产的4680电池单元已达1亿个。这些是特斯拉更大、更先进的电池,具有更高的能量、更长的续航里程和更低的生产成本。“4680”这个..
  • AMD与笔电OEM厂商关系紧张 沟通、供应和支持都很差

    AMD在COMPUTEX 2024上带来了全新的Zen 5系列架构,并发布了采用新架构的消费级处理器,包括面向移动端的Ryzen AI 300系列。不过直到现在,市场上能看到搭载新款处理器的笔记本电脑并不多,可选的品牌和型号数量都很少,这似乎不是偶然的现象。据ComputerBase报道,多份来自于OEM厂..
  • 苹果确认欧盟的iPad用户可通过第三方下载APP 9月16日起实行

    快科技9月16日消息,据媒体报道,苹果宣布将对欧盟地区的iOS系统、Safari浏览器和App Store进行更改,以遵循欧盟的《数字市场法案》(DMA)。此次调整涵盖了超过600项新增的应用程序接口(API),旨在增强App分析功能,引入支持替代浏览器引擎的能力,并提供更加灵活的App支付机制..
  • 百度联盟大会发布首个智能体联盟解决方案

    IT之家9月16日消息,9月12日,2024年百度联盟大会在深圳召开。百度向联盟伙伴展示了智能体在开发平台、分发场域以及变现解决方案等方面的全链路布局。除此之外,百度还对联盟生态进行了全面升级,发布智能体联盟变现解决方案以及“分发 + 变现”一体化解决方案,为联盟伙伴及智能..

我要评论

全部评论