WWDC24 – 青瓜传媒 //www.f-o-p.com 全球数字营销运营推广学习平台! Tue, 11 Jun 2024 03:20:42 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico WWDC24 – 青瓜传媒 //www.f-o-p.com 32 32 WWDC24苹果放出AI大招 //www.f-o-p.com/346792.html Tue, 11 Jun 2024 03:20:42 +0000 //www.f-o-p.com/?p=346792

 

又是一年一次的WWDC,北京时间6月11日凌晨,WWDC24主题演讲正式开启。按照惯例,每年的WWDC上,苹果都会带来一众软硬件新品。

WWDC24的特殊之处在于,今年没有发布新款硬件产品(国行版Vision Pro将于月底开售),同时在各大系统例行更新之外,亮出了AI大招——Apple Intelligence(苹果智能)。

(图源:苹果)

苹果的AI大招:安全和隐私

Apple Intelligence可以视作苹果推出的AI产品,它为iPhone、iPad、Mac等一系列硬件产品提供各类AI功能,与iOS、macOS等系统紧密结合。因此,Apple Intelligence不是单独的App或功能,而是一揽子解决方案。

按照苹果官方的说法,Apple Intelligence基于内置的大模型,采用的是时下流行的端云结合模式。

具体来说,在处理一般的涉及AI的任务时,如果本地算力能满足需求,那么直接通过端侧模型来运行生成,解决用户需求。

但是,如果本地算力不够,那么Apple Intelligence就会通过云端服务器来完成AI任务。而苹果在WWDC24上多次强调了用户隐私安全的重要性,如果苹果的云端AI也采用了时下通用的方式,Apple Intelligence的安全优势就会被抹除。

为此,苹果采用了一种极为特别的形式。Apple Intelligence搭建的云端服务器,采用了苹果自家的芯片,并且用Swift语言编程,服务器的代码接受第三方专家的审查。同时,苹果承诺,用户上传的数据不会在服务器上存储,用户的隐私不会被苹果记录和知晓。

(图源:苹果)

当然,如果要用本地算力来承担大部分的AI需求,那么就得需要AI性能出众的芯片。WWDC24上,苹果公布了支持Apple Intelligence端侧运算的芯片要求,iPhone端目前仅支持A17 Pro这一款芯片,也就是说满足要求的只有最新款的苹果手机iPhone 15 Pro和iPhone 15 Pro Max;PC和iPad端支持的最老款芯片为M1,基本覆盖到了苹果所有PC ARM芯片,近几年的苹果Mac产品、iPad Pro/Air倒是基本都能支持。

(图源:苹果)

现在来看,Apple Intelligence更多是跟硬件而非系统版本绑定,老款iPhone受限于芯片性能的拖累,后续即便升级到了最新系统,AI体验肯定是会大打折扣的。

但有一说一,Apple Intelligence采用的端侧为主、云端为辅的模式,以及特殊的云端服务器部署方式,的确很符合苹果一贯的重视隐私安全的人设。而这,很大程度上能削弱部分用户对AI产品隐私泄露方面的担忧,从而成为苹果产品未来的又一竞争优势。

Apple Intelligence的核心优势:体验

其实,仅通过一场WWDC的演讲,我们还是无法深入了解Apple Intelligence背后的技术细节。比如说,外界并不知道Apple Intelligence内置的大模型,是苹果自研的技术成果,还是之前外界所爆料的外部采购品。

但无论怎样,通过苹果官方在WWDC上的详细展示,我们已经能初步了解到Apple Intelligence在苹果设备上能发挥怎样的作用,以及用户日常使用时会获得怎样的体验改善。

按照苹果的说法,Apple Intelligence能够充分理解在设备中的各项数据和信息,包括照片、邮件、信息等等。在此基础上,Apple Intelligence能够感知用户当下的情境中的需求,并提供恰当的帮助。

首先苹果的语言助手Siri变得更强大了,得到Apple Intelligence助力的它,各方面的能力得到大幅增强,并且能打通不同的App。苹果在WWDC上演示了一个功能:用户在填写驾照号码时,直接呼出Siri,它会在照片App中找到之前拍摄的带有驾照号码的照片,自动识别提取出驾照号码,并自动为用户完成填写。

(图源:苹果)

要实现这点,Apple Intelligence需要做到几点:感知出用户当下要填写驾照号码的需求、识别出照片App中的驾照照片、将这几处信息结合判断并满足用户需求。

另外,我们已经很熟悉的文本摘要、文字生成等功能,Apple Intelligence也能实现了。不过它的特殊之处在于,用户不用专门打开一款App或网址,直接在文本编辑界面即可呼出这一功能。比如说,写邮件时编辑框内选中文字即可调用系统级的AI相关功能,生成后的文字会直接填充在编辑框中。

(图源:苹果)

这样一来,用户就省去了在单独的AI工具中复制粘贴、来回倒腾的麻烦,Apple Intelligence所带来的AI功能是无处不在、且融入到了苹果系统的每个角落中的。

WWDC24上苹果还演示了多个比较有意思的AI功能,小雷把它们罗列在这里:

Genmoji表情包:通过用户的文字描述自由定制个性化的表情包,比如用朋友的照片生成带有他头像风格的照片。

Image Playground:文生图、图生图,具体有动图、插图、草图三种类型。

Image Wand:可以将草图转化生成为精品成品图,并且支持图片消除,抹除照片背景。

通话录音:iPhone终于支持这一功能,并且可以将通话转为文字。

(图源:苹果)

总体来看,Apple Intelligence带来的AI功能,基本上不算特别新颖,它们的呈现形式和使用场景,对于我们这些见识过各类AI工具的人来说,自然都不是什么新东西。但对于苹果用户来说,Apple Intelligence的部署,意味着他们在使用各类苹果设备时,也能吃上丰富全面的AI大餐。

苹果的AI答卷该给几分?

坦率说,WWDC24上的主题演讲,带给小雷的惊喜并不多。这场发布会前半部分仍然是各大系统按部就班的更新,所谓的新功能基本都乏善可陈,当小雷看到iOS 18上的图标自定义排列、应用锁这类在国产定制系统的古董级功能被大吹特吹时,内心是无比失望的。

WWDC24上的绝对主角当然是Apple Intelligence,毕竟这是苹果交出的首份正式的AI答卷。此前席卷而来的AI浪潮中,苹果看起来像是一个局外人,当安卓品牌们纷纷在AI手机上发力时,苹果已经被甩开一大截。WWDC24主题演讲快结束时,苹果透露了和ChatGPT在AI领域的合作,一定程度上能看出苹果AI基本功的先天不足。

所以,当作为追赶者的苹果发布Apple Intelligence时,我们很难从心底生出一种被震撼的惊喜感。毕竟,文本摘要、图片生成、照片查找、AI智能助理等一系列功能,我们此前都在安卓机或专门的大模型App中见识过。说到底,苹果基于Apple Intelligence实现的各类AI功能,并不具备创新性。

然而,通过WWDC24上演示的内容,小雷还是深刻感受到了Apple Intelligence的体验优势。

苹果以封闭系统起家,并且在过去十余年里将iOS、macOS、iPadOS等各类不同设备的系统融会贯通,保持着软硬件结合优势,对自家系统生态的每个角落拥有着绝对的控制权。

(图源:苹果)

因此,Apple Intelligence可以出现在苹果系统中的每个细节处,和原有的App或功能相融合,用户可以以一种更加无感、更加自然的方式借助AI的能力来提升自己的使用体验。

这方面,安卓品牌更容易感受到一种无力感,推进端侧AI它们需要芯片厂商提供支持,将AI塞进系统它们需要深度定制安卓系统,完成手机AI化后它们无法将PC与之融合。在不同形态设备上为用户提供统一且全面的AI体验,目前可能只有苹果能做到。

不过,在小雷看来,任何AI相关的概念,无论愿景被讲述得多么美好,对用户而言能否落地为实用的功能和体验的切实改善才是最重要的。而苹果交出的Apple Intelligence这份AI答卷,最终能得到几分,还是得看它全面落地、用户实际体验后才能得出结论。

 

作者:雷科技

来源公众号:雷科技(ID:leitech)

]]>
苹果 WWDC24 AI 功能预测解析 //www.f-o-p.com/346332.html Wed, 05 Jun 2024 08:39:03 +0000 //www.f-o-p.com/?p=346332

 

在正文之前,首先感谢本期内容的联合创作者  @SysErr0r ,他搜集了超多的相关资料,并且把他们有逻辑的编排在一起,完成了初稿的撰写。

从 ChatGPT 上线开始,全世界的厂商和媒体都在不停地重复这个词:AI。但同样是头部公司,苹果却直到最近才参与到这次如火如荼的 AI 浪潮当中。

有人说是苹果低调,轻易不显山露水,也有人说这纯属扯淡。苹果最近破天荒地在公开场合主动提到「AI」这两个字,不仅落后,而且急了。苹果在 AI 领域到底是个什么水平?他们都干了些什么?今年的 WWDC,苹果又会有哪些动作呢?

Hello 大家好,欢迎收看这一期的两颗皮蛋,我是初号。这期护城河,我们来聊聊苹果的 AI。

过往的积累

那其实跟很多报道的风向不太一样,苹果对 AI 技术的应用开始得很早,而且一直是很积极和具体的。只不过苹果吧,用词儿比较隔路,它在今年之前,一直用 「机器学习」 来指代整个这一大类的技术。

我问一下啊,就屏幕前各位 AirPods Pro 2 的用户,你现在回忆一下自己上一次戴上耳机以后,去动音量是什么时候?AirPods Pro 2 有一个独占功能叫「个性化音频」,它就是利用机器学习了解你在不同环境下,所需要的音量偏好,然后自动去给你微调。

这个功能,再加上自适应噪声控制,和自动设备切换,基本上等于干掉了耳机上所有需要手动控制的地方。用户只需要做一件事儿,那就是打开盒子,戴上耳机。

用户层面,像 GPT-2 模型驱动的自带输入法的单词预测,iOS 17  手记 App 里的智能建议,watchOS 9 开始自带的睡眠分析 App,这些东西的背后都是机器学习。

还有很多甚至是更加基础和不可见的,比如说很多辅助功能,像 Apple Watch 的手势捏合,就是结合加速度计和心率传感器的数据,在手表本地跑了一个模型。再比如 Sign in with Apple 背后一整套的风控机制。

还有 iOS 和 iPadOS 刚上的那个眼动追踪,就眼动追踪这个能力,换成有些公司,一定都会先拿来做成用户注意力热区检测的 API,然后拿去卖广告。

它真的,我哭死(

就连自然语言处理这方面,苹果也是早在 2020 年就在系统里提供了本地运行的基于词、句向量的计算以及对句子成分和关系进行推理比较的 API。

Vision Pro 更是这样,它的两大基础能力,手势识别和房间建模,都是 AI 模型驱动的。可以说如果没有机器学习,Vision Pro 这个产品几乎不可能存在。

但是 iOS 上最古老的、机器学习驱动的软件功能,可能绝大多数用户手机从买到扔,一次都没打开过。在相册里头,点开下边那个「为你推荐」,这里头那个它自动分类、生成的这些「回忆」视频,就是苹果第一个有据可查的 AI 功能。从 2016 年的 iOS 10 开始就实装了。

其实 iOS 第一个 AI 功能这项殊荣,本来应该是 iPhone 7 Plus 的人像模式,它那个景深分割也用到了机器学习,但是最后因为软件更新的关系,7 Plus 的人像模式一直到 iOS 10.1 才正式推出。可见苹果不光机器学习的应用历史悠久,软件做的慢也是老传统了。

现实的窘境

那按这么说,苹果在 AI 领域不光不落后,甚至还遥遥领先吗?应该这么说,在大模型出来之前,苹果的体验确实算是不错的,只是他的 AI 能力用在了很多功能细节上,来帮助用户减少使用步骤,但是像 Google IO 那种全场 AI 的大活确实少一些,Siri 也是有点躺平的意思。

但是在 22 年底 ChatGPT 出来之后,大语言模型这个词一下就出现在了普通人的视野当中,而这恰恰是苹果技能树偏弱的部分。这个东西的背后是以注意力机制,和巨大参数量的大语言模型为代表的,机器学习领域的一次范式转移。这两个东西结合起来,让 AI 模型具备了以前难以想象的性能和能力。

历代 GPT 参数量对比

新老两代技术对比

一个最明显的例子是在 ChatGPT 之前,不管你说什么都能接住的聊天机器人几乎是不存在的。这一波范式转移,就是让包括苹果在内的所有消费电子公司,都如坐针毡的真正原因:大语言模型的出现让人类的自然语言第一次变成了一种可行的人机交互界面。

就像 iPhone 用触摸屏取代了机械按钮一样,HUMAIN 的 AI Pin 和 Rabbit R1 赌的都是同一件事儿,那就是这一次人机交互界面的变革将再一次颠覆消费电子产品的主流形态。但是很可惜,从发售以后的评测来看,这两家公司的产品,差的都太远了。Rabbit R1 甚至连天气预报这么基础的东西都能顺嘴儿胡编。自定义能力也很差,甚至还不如 Siri。

The Verge Rabbit R1 评测文章

苹果真的落后了吗?

前进半步是先进,前进三步是先烈。从语音交互这个角度讲,母公司当年的 TNT 死得实在是太早了。但是这产生了一个新问题,就是为什么苹果在 AI 领域应用的这么积极,在大模型领域还是慢了半拍呢?

首先肯定不是因为外部的物质条件。人才、算力、训练数据,这些能用钱解决的事儿对字面意义上富可敌国的苹果来说都构不成问题。实际上根据现有的报道,苹果从 18 年到现在,已经从谷歌最少挖走了 36 个 AI 领域相关的技术人才。AI 服务器也准备直接上 M2 Ultra,自给自足。至于大模型的训练,海外媒体估算 GPT-4 的训练成本大概在 6300 万美元左右,而苹果 2023 财年的净利润高达 969.95 亿美元,眼一闭,一睁,五个半小时就全挣回来了…

那既然不是物质条件的原因,这事儿就只能是跟苹果的主观意愿有关了。

一方面苹果是一家极度关注「技术落地」的公司,他追求的是敢为人后、后中争先,纯粹的技术预研风险高、落地周期不可控,这不是他擅长的东西,就你啥时候看见过苹果发布会的发言人挂的 Title 是苹果研究院吗?没有,他压根就没有研究院这个东西。而苹果擅长的是,哪个公司捣鼓出新玩意,他直接买过来就是了,然后把技术工程化,把东西量产出来,他做的更多是工程创新,甚至可以说是工程奇迹。

Vision Pro 的硬件说起来,没有任何东西超越了行业的技术水平和想象力

但这个世界上最重要的技术创新,大部分都是几个科技公司的研究院搞出来的,就比如说大模型的基石 Transformer,他就是谷歌研究院的杰作。可以说真正的脱产,往往才能有真正的创新。这个问题大伙可以去看杨玄感老师的这条视频,讲得老牛*了。

那另一方面,我觉得也是路径问题。大语言模型能力大小某种意义上是跟参数量大小绑定在一起的。巨大的参数量,也让它几乎跟端测运行说再见了。OpenAI 今年 4 月出了一个新的 Batch API,把你的请求放在一个文件里打包上传,可以在 24 小时内返回结果,费用打五折,完全是大型机时代的运行模式。这些跟苹果过去在机器学习领域的产品实践正好是完全相反的。

可以说,苹果在这一轮范式转移的过程中慢了一步,是无可争议的,但这时候一棒子敲死苹果还为时尚早,苹果之所以坚持不做脱产预研,也是因为他认为,技术只是解决问题的一种手段,最终都要落回到实际体验,而好的体验是有很多部分组成的,技术领先固然重要,但是当技术不具备领先性时,对于问题的思考和洞察,其实同样重要。这是苹果构建护城河的重要基石,就像我们以前讲到的,苹果虽然没有发明、也没能力制造 OLED,但是他依托供应商的 OLED 屏构建了全流程的 HDR 生态,依然在很长一段时间做到了体验领先。

而在 AI 领域,苹果依旧有着非常多的积累。

首先是硬件层面的积累,前面我们说了,机器学习近 10 年来始终是苹果产品不可分割的一部分。这里面所有的功能都是硬件驱动的。苹果的 Neural Engine 从 A11 Bionic 开始算力就一路水涨船高,再加上 CoreML,让苹果能够迅速地把 AI 驱动的功能带到每一台条件允许的苹果设备上。

苹果不做中端芯片,只有旗舰芯片,去年的旗舰芯片,还有大去年的旗舰芯片,还有…… 

这样的模式,在这时候就能体现出优势了,向大模型的技术路线迁移时,苹果能够保证覆盖到更多的机型和用户,我估计端测模型往前覆盖 2 代用户应该不成问题。

再就是需求洞察上的积累,大语言模型的产品落地之路走得也并不顺畅。大众预期和产品的真实能力存在巨大落差,它最大和最成功的用途很可能是被营销号和机器人水军用来在互联网上制造内容垃圾,甚至相当比例的真实用户需求也是一样。大家拿它来写都是工作报告、文献摘要、公开致辞…

套话还是那些套话,只不过现在不用现编了。

去年 5 月份,谷歌内部泄露出来一篇文档,你光看标题都能感觉到那种绝望和焦虑:《我们没有护城河,OpenAI 也没有》。本质上,大家还是在找场景,找痛点,而这件事苹果已经做了很多年了。前面提到的很多例子都证明,AI 早就融入进了系统体验的方方面面。所以苹果会怎么用大模型来加强他既有的功能和体验,并且拿出新的需求洞察和解决方案,绝对是今年 WWDC 最大的看点之一。

WWDC 24 AI 预测

那正好我们发这期视频的时候 WWDC 也快开了。最后咱们就结合现在苹果已经公开发表的模型、论文和媒体的公开报道来预测一下 WWDC24,苹果在 AI 方面会有哪些动作。

大的方向我认为是不会变的。苹果过去在机器学习方面的实践和最近相关的爆料仍然都指向一个小型化的、能运行在用户设备端的帮助用户解决实际问题的模型。

首当其冲的就是 Siri。这块如果不出意外的话他肯定是往死了抄 ChatGPT,因为样板实在是做得太好了,听苹果抄别人好像是个挺新鲜的事儿哈。首先他能记住你之前跟他说过所有的内容,问他问题时应该也不仅仅局限于语音或者文字这一种了,并且回答也是经过检索和总结的,而不是直接甩给你一堆搜索结果。

但是苹果做这件事的优势在于,Siri 他能获得的信息维度比 ChatGPT 要大很多,他更容易知道你跟设备当前的状态,你拍过什么照片,你常用哪些 App,以及你有哪些事情要做,这样他就可以给出一些更有语境更有上下文的回答。

甚至是不是能够根据场景,他可以主动的发起对话,我觉得如果做到这个体验,那确实可以 Wow 一下了。不过这里面的难点是,虽然 Siri 现在作为一个智能助理他是不及格的,但是定个闹钟、问个天气,这些他都是没有问题的。

我就有点担心接入大模型之后,他反而会给你搞出点花活,我们已经看过不少大模型一本正经编瞎话的例子了,如何能让他的回答更有创造力,更有理解力,同时执行简单任务的时候保持稳定和准确,这是一件苹果必须要解决的问题。

跟他对话只是交互的手段,重要的是那个执行结果。

其次是对于界面当中内容的理解能力,那去年年底苹果悄悄开源了一个叫「Ferret」也就是雪貂的多模态大语言模型,重点是今年 4 月,他们推出了一个变种 Ferret-UI。这个模型能够理解手机 UI 的界面元素,并且在这篇论文的实例当中,允许用户通过自然语言去操作 App。

同样是 4 月份,他们的另一个大模型 ReALM 则是专门针对自然语言的模糊性做了改进。你跟它说,打这个电话,摁底下那个按钮,它也都能听懂,你指的到底是屏幕上的哪个元素。

这个东西再往前想一步,就是 Rabbit R1 发布会上他们想要做的自动化程序,帮用户点击页面,填写信息,最终达成一句话就可以帮用户打车、订机票酒店的体验。而且这两个模型都不大,雪貂能找到 70 亿和 130 亿的版本,ReALM 更小,最小的版本只有 8000 万参数。明显是奔着在 iPhone 上,甚至是 Apple Watch 和耳机上跑的。

毕竟手表和耳机,也只有旗舰芯片,去年的旗舰芯片,还有…

不管最后这个能力包装进 Siri 还是什么,总之苹果是最有机会打通整套体验的,毕竟前面统一 UI 框架的底子已经打了很多年了,还能顺带大幅度改善无障碍的体验,以后就不是猫踩你手机帮你锁了 SU7 的订单了,还有可能是 Siri 干的。

再来,让真正需要 AI 的场景生效,肯定是苹果的做事方式,苹果估计还是不会整什么大活,而是把 AI 贯彻在一系列的功能细节中。比如文生图或者图生图这种场景,肯定是要结合在 Keynote 生成背景或者个性化生成壁纸这种场景才更有想象力的。再比如内容总结或者摘要,也应该放在 iMessage 或者其他聊天软件中才更合理,直接通过上下文帮你新建日程安排,Siri 在帮你检索一下机票酒店的价格,做个推荐,感觉一下就闭环了。

最后就是面向开发者这一侧,苹果应该会把大模型的能力打包成 API,直接开放给开发者。提升旧能力,提供新玩法,甚至把三方 App 的能力直接整合进 Siri 建议。这方面我会在 WWDC 之后好好看一下后续的开发者课程,如果发现了什么有意思的东西在做成视频分享给大家。

总结

当然啊,我们讲到的可能是最好的情况,即使是苹果估计也很难一口吃成胖子,即便这些体验,下一代系统没有办法全部达成。你从它的研究方向上也能看出来,未来让用户可以通过自然语言简单无缝地指挥 Siri 去操作手机,肯定是苹果在大模型领域的终极目标之一。甚至在他的曾经的产品定义中,苹果汽车都是这么操作的。

但是如果真这样发展下去,苹果也即将要面对一个终极困境,就是 AI 越强,用户对 App 的需求越弱。AI 杀死苹果生态中最重要的一环——App Store,从逻辑上来说是必然会发生的,只是时间长短的问题。

现在的 App 开发者可能慢慢都会变成服务的提供者,由 AI 来调用他们的能力。而因为 App Store 诞生,各个 App 之间建立起的阻隔之墙,是非常有希望被 AI 直接捅破的。原本互联网时代一个网址就可以跳转和分享的体验,是不是能够重新变成日常,这个我们可以把时间拉长到五年或者十年拭目以待。

不过呢,App 可能会消失,但手机仍然是承载 AI 最好的载体,自然语言交互不可能适用于所有场景,内容消费也需要一块高素质的屏幕,与此同时手机拥有的算力、机器视觉以及能够满足需求的续航体验,是其他设备短时间没有办法给你的。

可以说 AI 不会消灭手机,

但没有 AI 的手机,注定消亡。

原文链接:

https://sspai.com/post/89315?utm_source=wechat&utm_medium=social

 

作者:两颗皮蛋

来源公众号:少数派(ID:sspaime)

]]>