下载网

高新技术

苹果开发出新款AI:能"看懂"屏幕上内容并用语音回复

3DM游戏网 日期:

苹果公司的研究团队最近发表了一篇论文,宣布他们成功开发出了一款创新的人工智能系统。这个系统能够准确地理解屏幕上模糊的内容及其相关对话和背景环境,进而实现与语音助手更加自然的互动。

这个系统被命名为ReALM(Reference Resolution As Language Modeling,即以语言建模为基础的参考解析),它通过大语言模型的运用,将理解屏幕视觉元素指向的复杂任务转化为一个纯粹的语言问题。这一转换使得ReALM在性能上相较于现有技术有了显著的提升。

苹果研究团队强调:“让对话助手能够理解上下文,包括相关的内容指向,非常关键。能让用户根据他们所看到的屏幕内容进行提问,是确保真正实现语音操作体验的重要一步。”

增强对话助手的能力

ReALM的一大创新在于它能够重新构建屏幕内容,即通过分析屏幕上的信息及其位置信息来生成文本表示,这一点对捕捉视觉布局至关重要。研究人员展示了这种方法与专为内容指向调整的语言模型结合起来,能在执行相关任务时超越GPT-4的性能。

研究人员表示:“我们对现有系统进行了显著改进,在处理多种类型的内容指向时均展现出卓越性能。我们的最小模型就实现了超过5%的性能提升,而大型模型的表现则明显超过了GPT-4。”

实际应用与局限性

这项研究凸显了专注于语言模型在处理如内容指向解析等任务上的巨大潜力。由于响应时间或计算资源的限制,大型端到端模型往往难以实施。通过这项创新性研究,苹果展现了其持续投入,使Siri等产品在对话和理解上下文方面更加出色。

尽管如此,研究人员也指出,依靠自动化解析屏幕内容仍然面临挑战。在处理更复杂的视觉内容,比如区分多个相似图像时,可能需要结合计算机视觉和多模态技术。

努力缩小与AI竞争对手差距

虽然在人工智能领域苹果曾稍显落后,但它正在默默取得显著进展。从融合视觉与语言的多模态模型,到开发AI驱动的动画工具,再到构建高性能的专业AI技术,苹果的研究实验室持续实现技术突破。

面对谷歌、微软、亚马逊和OpenAI等公司的激烈竞争——这些公司已在搜索、办公软件、云服务等领域推出了先进的AI产品——作为一个以保密闻名的科技巨头,苹果正努力不落人后。

长期以来,苹果更多在创新领域扮演跟随者而不是领先者的角色,现在正面临着一个由人工智能快速改变的市场。在6月举办的全球开发者大会上,苹果预计将推出新的大语言模型框架、“Apple GPT”聊天机器人及其生态系统中的其他AI功能。

“我们很高兴今年晚些时候分享我们在人工智能方面的工作进展,”首席执行官蒂姆·库克(Tim Cook)最近在一次盈利电话会议上暗示。尽管苹果向来低调,但其在AI领域的广泛努力已经引起了业界的广泛关注。

然而,在日益激烈的人工智能领域竞争中,苹果的相对滞后使其处于不利地位。但凭借其雄厚的资金实力、品牌忠诚度、一流的工程师团队和紧密整合的产品线,苹果仍有机会扭转局面。

更新于:7个月前

相关资讯

  • 不会有RDNA 5架构!AMD将从RDNA 4后改用UDNA

    在德国柏林举行的IFA 2024上,AMD高级副总裁、计算与图形事业部总经理Jack Huynh就确认,未来将把面向消费者的RDNA和面向数据中心的CDNA架构统一为UDNA架构。AMD通过简化架构,让开发人员只需要专注于一个系统,以更好地应对英伟达的CUDA生态系统。近日CHH论坛上就有网友透露,接..
  • SpaceX星舰计划大升级 获准每年最多25次发射

    快科技今日(11月22日)消息,据报道,SpaceX完成第六次星舰试飞后,联邦航空管理局(FAA)发布了关于其在得克萨斯州南部星际基地的行动审批草案,为SpaceX的未来发展铺平了道路。具体而言,FAA在草案中宣布将大力支持SpaceX大幅提升星舰的发射频次。根据草案内容,SpaceX的星舰发..
  • 台积电2nm工艺步入正轨 预计到2025年实现大规模生产

    前段时间,台积电董事长兼首席执行官魏哲家表示,客户对于2nm的询问多于3nm,看起来更受客户的欢迎。为了应对市场对2nm工艺技术的强劲需求,台积电持续对该制程节点进行投资,加快了2nm产线的建设,并进一步扩大了产能规划。台积电在近日对官网上的逻辑制程内容进行了更新,称台积..
  • 谷歌回应AI让用户去死:已采取行动

    央视财经今日(11月21日)消息,据英国天空新闻台20日报道,日前,美国谷歌公司旗下的人工智能模型“双子座”让一位与其对话的用户“去死”。当时这名用户问了“双子座”一个与老年人相关的问题,但“双子座”并没有给出相关回答,反而对用户进行一系列人格侮辱,比如“你在浪费时..
  • 世界第一!“天河”超算夺得世界图计算领域桂冠

    11月21日消息,根据2024年11月最新公布的Graph 500全球排名,湖南大学国家超级计算长沙中心的“天河”超级计算机以22301.67 MTEPS/W位居Small Data Green Graph500(小数据图计算能效)榜单榜首。大数据时代,数据之间存在关联关系。图(Graph)是一种用来表示建模事物之间关系的..
  • 英伟达2025财年第三财季营收350.8亿美元:同比大增94%

    快科技今日(11月21日)消息,美东时间周三盘后,人工智能龙头股英伟达公布了2025财年第三财季(截至10月27日)财报。财报显示,英伟达Q3营收为350.8亿美元,同比大增94%,超出分析师预期的331亿美元;在GAAP规则下,净利润为193.09亿美元,同比增长109%,也高于市场预期的174亿美..
  • 360将发布新一代颠覆性AI搜索 光域名就花了近一个亿

    11月20日消息,360公司创始人周鸿祎宣布,计划于本月发布一款全新的搜索产品。他表示,目前360旗下的360AI搜索已成为国内最大的原生人工智能应用之一,这充分说明了搜索是普通用户接触并使用AI技术最直接、最简单的方式之一。基于此成功经验,360团队希望在现有基础上进一步创新,..
  • 曝AMD将进军手机领域!推出“Ryzen AI”移动SoC

    11月20日消息,据Wccftech报道,AMD正计划进军智能手机市场,并可能推出类似APU的“Ryzen AI”移动SoC。这一消息源自Smartphone Magazine,其称AMD已与集成商进行洽谈,希望将其“Ryzen AI”移动SoC用于智能手机中,直接与高通和联发科等在移动市场上的竞争。但无论如何,现在还没..
  • 蜜雪冰城进军人工智能 首次成立AI技术公司

    快科技11月20日消息,在茶饮界深耕多年的蜜雪冰城,近日通过其两家子公司联合投资成立了雪王爱智慧科技(郑州)有限公司,注册资本为5000万人民币。与蜜雪冰城其他供应链、销售公司不同的是,该公司的业务范围涵盖了新兴能源技术研发、人工智能理论与算法软件开发、人工智能公共数..
  • 微软发布云PC Windows 365 Link 售价2500元

    微软在Ignite 2024大会上正式宣布推出专为Windows 365设计的全新云端PC设备——Windows 365 Link。这款设备将于2025年4月正式上市,售价349美元(约合人民币2500元),目前已在美国、加拿大、英国、德国、澳大利亚、新西兰和日本七个国家/地区开放预览版申请。Windows 365 Link产..

我要评论