《科技与互联网行业:AI手机深度智能机迈入2.0时代-241122(35页).pdf》由会员分享,可在线阅读,更多相关《科技与互联网行业:AI手机深度智能机迈入2.0时代-241122(35页).pdf(35页珍藏版)》请在薪酬报告网上搜索。
1、请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明证证券券研研究究报报告告科科技技与与互互联联网网推推荐荐(维维持持)重重点点公公司司重点公司评级苹果(APPL.O)增持谷歌-A(GOOGL.O)增持小米集团(01810.HK)买入比亚迪电子(00285.HK)增持高伟电子(01415.HK)买入来源:兴业证券经济与金融研究院海海外外研研究究emailAuthor分分析析师师:洪嘉骏SFC:BPL829SAC:S0190519080002翁嘉源SAC:S0190523060002请注意:翁嘉源并非香港证券及期货事务监察委员会的注册持牌人,不可在香港从事受监管的活动as
2、sAuthor投投资资要要点点summaryAI 手手机机将将是是消消费费者者换换机机的的增增量量驱驱动动。手机领域近几年缺乏重大创新,难以驱动大规模换机,根据艾媒预估,2024 年中国智能机消费者中,有 51%的用户更换周期已达 3-4 年。AI 手机功能与生态的演化,或将带来使用体验的核心升级。目前主要品牌的 AI 手机的功能相似,如实时翻译、画圈搜索、修图写作等,而智能助手领域最具有想象空间,有机会成为下一波换机潮的关键驱动。意意图图框框架架vs.纯纯视视觉觉方方案案。智能助手的实现关键在于人机交互及外部App联动,实现该能力目前有两条技术分支:(1)意图框架,需要第三方 App 授权,
3、但技术相对成熟,硬件算力要求低;与(2)纯视觉方案,无需授权,但技术仍有待提升,硬件算力要求更高。谷谷歌歌:短短期期优优势势来来自自生生态态与与模模型型能能力力,长长期期看看意意图图框框架架普普及及。目前谷歌在 AI手机上进展较快,主要在于谷歌拥有自身生态数据的优势,在不依赖第三方App 时,也为用户提供更好体验,并且其领先的大模型能力也使得谷歌取得了先期优势。同时谷歌利用 Gemini Extension 接入如 WhatsApp 等第三方服务生态,取得一定优势。长期来看,由于谷歌的安卓系统厂商众多,意图框架适配难度较大,需进一步优化。苹苹果果:或或有有更更强强后后发发能能力力。从今年 iO
4、S 18.1 与 18.2 版本的发布中,我们看到苹果的 Apple Intelligence 主要是围绕着手机系统应用中的 AI功能进行精细化打磨,尚未发布与第三方 App 联动功能(需要等到 2025 年)。但我们也看到得益于苹果的封闭系统生态,以及良好的开发者生态,第三方 App 开发者接入苹果意图框架生态的难度低,第第三三方方 App 合合作作情情况况将将是是重重要要观观察察指指标标。国国内内:华华为为意意图图框框架架进进展展快快,小小米米长长期期或或受受益益于于生生态态优优势势。华为大力推广意图框架,第三方合作进度较快。而荣耀另辟蹊径,主打纯视觉方案,短期实现了功能上的差异化。此外,
5、我们认为,小米由于人车家的一体化生态优势,虽短期尚未有差异化的 AI 手机功能出现,但长期来看,大模型能获取更多感知数据,也有潜在的差异化机会。投投资资建建议议:硬硬件件:建议关注拥有开发者生态优势的苹果(AAPL.O)、人车家带来更多生态感知数据的小米集团(01810.HK)、同时,随着 AI 手机的普及,硬件要求也将提升,建议关注上游相关厂商如处理器厂商高通(QCOM.O)、联发科(2454.TW)、存储厂商 SK-海力士(000660.KS)、三星电子(005930.KS)和美光科技(MU.O)、消费电子供应链比亚迪电子(00285.HK)、高伟电子(01415.HK)。软软件件:看好
6、AI 手机带来的大模型能力需求、云端算力需求,建议关注谷歌-A(GOOGL.O)、百度集团(09888.HK)、金山云(03896.HK)等。A 股股产产业业链链(电电子子组组覆覆盖盖):长期看好苹果产业链,本轮核心在于模型的升级,每几个月一次,即使短期不及预期,也能打下一次预期,每次升级具有“复利”性,并不是推倒重来。近期关注较为确定的 NPI 信息,软板、散热、电池等 ASP 提升较大的方向,重点推荐鹏鼎控股(002938.SZ)、立讯精密(002475.SZ)、蓝思科技(300433.SZ)、领益智造(002600.SZ)。风险提示:1)AI 手机销量不及预期;2)AI 手机应用生态不及
7、预期;3)地缘政治及出口管制风险。titleAI 手手机机深深度度:智智能能机机迈迈入入 2.0 时时代代createTime12024 年年 11 月月 22 日日 请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-2-海海外外行行业业深深度度研研究究报报告告目目录录1、AI 是消费者换手机的新理由.-4-1.1、AI 将接棒手机硬件创新.-4-1.2、什么是手机系统 AI 化.-4-2、AI 手机系统化之路:意图框架 vs.纯视觉.-6-2.1、屏幕理解以苹果与谷歌为例.-6-2.2、路线一:通过意图框架实现 AI 手机苹果 vs.谷歌.-7-2.3、路线二:通
8、过纯视觉方案实现 AI 手机.-9-3、各厂商 AI 手机进展.-12-3.1、苹果:打磨自身应用体验,意图框架虚位以待.-12-3.2、谷歌:Gemini 先行,意图框架跟进.-15-3.3、三星:海外贴紧谷歌,国内与百度、字节、美图等合作.-20-3.4、华为:盘古大模型与意图框架相结合.-22-3.5、荣耀:纯视觉方案为亮点.-24-3.6、小米:智能家居是小米 AI 最大的差异化.-25-3.7、vivo:意图框架为主,PhoneGPT 尝试纯视觉.-26-3.8、oppo:目标是操作系统 AI 化.-28-3.9、传音:谷歌助力,走 AI 本土化战略.-30-3.10、各厂商策略总结
9、.-30-4、投资建议及风险提示.-31-图图目目录录图 1、iOS 中创意创作和效率提升功能界面示例.-5-图 2、Ferret UI 模型训练过程对手机屏幕内容详尽标注.-6-图 3、ScreenAI:视觉-语言模型(Vision-Language Model,VLM).-7-图 4、Apple Intelligence 的三步.-8-图 5、Android intent:工作原理.-8-图 6、纯视觉方案工作原理.-9-图 7、Mobile-Agent-v2 操作流程和交互图解.-10-图 8、智谱 AI 实验中不同模型在 AndroidLab 中的成功率.-11-图 9、Apple I
10、ntelligence写作润色.-13-图 10、Apple Intelligence智能回复.-13-图 11、Apple Intelligence 更新节奏.-13-图 12、Apple Intelligence 模型调用流程端侧模型能完成大部分交互类任务-14-图 13、制作一杯威士忌酸酒无 ChatGPT(左)与有 ChatGPT 回复(右).-15-图 14、让 ChatGPT 对照片进行分析.-15-图 15、Gemini Nano 屏幕理解功能.-16-图 16、Gemini Nano 通话总结功能.-16-图 17、输出不同语言每字符所需毫秒.-17-图 18、利用 Gemin
11、i 联动查找 Gmail 信息.-17-图 19、利用 Gemini 联动查找 Gmail 信息.-17-图 20、利用 Gemini 联动查找 Google Map 信息.-17-图 21、利用 Gemini 联动查找 Google Map 信息.-17-图 22、谷歌生态一览(截至 2023 年).-19-图 23、华为意图框架.-23-图 24、意图框架合作案例钉钉.-23-图 25、小爱识屏.-26-请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-3-海海外外行行业业深深度度研研究究报报告告图 26、小爱帮看.-26-图 27、vivo AI 意图框架与
12、PhoneGPT.-27-图 28、vivo 在 2024 年 10 月开发者大会上发布 vivo 意图框架白皮书.-27-图 29、基于大模型的意图理解流程.-28-图 30、PhoneGPT 餐厅自动定位.-28-图 31、oppo:AIOS 的三个阶段.-29-表表目目录录表 1、纯视觉方案研究列举.-10-表 2、iOS 18.1 与 iOS 18.2 AI 功能一览.-12-表 3、Gemini Nano 实现功能一览.-16-表 4、谷歌 AI 手机功能一览(非穷尽).-18-表 5、Gemini 联动一览.-19-表 6、手机厂商与谷歌合作发布 AI 手机一览(非穷尽).-20-
13、表 7、三星 AI 手机功能一览与效率相关任务.-20-表 8、三星 AI 手机功能一览与图像、视频相关任务.-21-表 9、华为 AI 手机功能一览(非穷尽).-22-表 10、华为意图框架入口情况.-23-表 11、华为意图框架与应用厂商的合作模式(白皮书披露).-23-表 12、荣耀 AI 手机功能一览.-24-表 13、小米手机 AI 功能一览.-25-表 14、vivo AI 手机功能一览.-26-表 15、oppo AI 手机功能一览.-29-表 16、传音 AI 手机功能一览.-30-表 17、华为、vivo 意图框架合作伙伴举例.-31-请请务务必必阅阅读读正正文文之之后后的的
14、信信息息披披露露和和重重要要声声明明-4-海海外外行行业业深深度度研研究究报报告告报报告告正正文文1、AI 是是消消费费者者换换手手机机的的新新理理由由1 1.1 1、A AI I 将将接接棒棒手手机机硬硬件件创创新新硬硬件件性性能能提提升升遇遇到到瓶瓶颈颈期期,较较难难说说服服消消费费者者买买单单。手机近几年来的硬件创新已遇到瓶颈,新手机在性能上的提升已很难打动消费者换机,根据艾媒预估,2024年中国智能机消费者中,有 51%的用户更换周期已达 3-4 年。手手机机系系统统 AI 化化,将将是是未未来来几几代代手手机机更更新新中中最最大大的的变变量量。自三星 S24 在今年 1月发布了 AI
15、 手机 S24 后,经过近一年的发展,行业对 AI 手机也有了更多的路径思考,从最初的单一 AI 功能提供,到后面的跨应用协同,手机系统 AI 化已成为大多数厂商的共识。今年十月以来,各手机厂商纷纷举办开发者大会,AI功能是各厂商在手机系统升级中的核心。我们相信,随着手机品牌对 AI 功能的优化与用户教育的推进,AI 将在手机的日常使用中扮演更重要的角色。根据目前 AI 手机的发展速度,我们认为在明年或将催动新一轮换机潮。海海外外 AI 手手机机已已有有初初步步成成绩绩。根据 SAMMOBILE 报道,今年年初三星发布其首款 AI 手机 Galaxy S24 表现亮眼,自 2018 年以来,没
16、有一款 Galaxy S 旗舰机在第三季度进入畅销榜前十,而 Galaxy S24 是五年来首款挤进第三季度前十的产品,同时 Galaxy S24 已连续三季度在全球畅销手机前十中。同时 Counterpoint表示,谷歌今年第三季度创下了“有史以来最高的智能手机销量”,这主要得益于 5 月份 Pixel 8a 正式上市,以及 8 月推出的 Pixel 9 系列。1 1.2 2、什什么么是是手手机机系系统统 A AI I 化化AI 手机有两大方向:(1)App 拥有 AI 功能,以及(2)操作系统层面通过 AI去实现交互功能。方方向向 1:App 拥拥有有 AI 功功能能。如 AI+图像(生成
17、、修改等)、AI+文字(完善/建议对话,书写,总结等)、AI+语音(实时翻译等),本质上是创意创作和效率提升,这些功能经过精细打磨,能在一定程度打动部分用户,但很难产生使用上的“质变”。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-5-海海外外行行业业深深度度研研究究报报告告图图 1、iOS 中中创创意意创创作作和和效效率率提提升升功功能能界界面面示示例例资料来源:Apple Newsroom,苹果开发者文档,兴业证券经济与金融研究院整理方方向向 2:交交互互上上的的质质变变。系统 AI 化,即手机能通过理解用户个性化情景,通过AI 拆解用户的需求、达成步骤,通
18、过调用不同 App 的信息完成用户的复杂需求。例如荣耀的“一句话点咖啡、一句话取消自动续费”,便是类似场景的雏形。我们认为,这一功能的本质是减少用户的使用摩擦,最终目标是每个人手机上都有一个私人助理(AIAgent)。实现这些功能,需要对用户的数据、各家 App 的服务有全局的掌握、理解与调度,单一 App 难以获得足够权限进行操作,因此,未来手机的 AI 化,将会是手机厂商与拥有生态数据的应用共同协作的成果。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-6-海海外外行行业业深深度度研研究究报报告告2、AI 手手机机系系统统化化之之路路:意意图图框框架架 vs.
19、纯纯视视觉觉目前实现手机系统 AI 化有两条技术分支,(1)意图框架与(2)纯视觉,而这两条技术路线的起步,都需要依赖大模型对手机屏幕的理解与任务规划。2 2.1 1、屏屏幕幕理理解解以以苹苹果果与与谷谷歌歌为为例例Ferret-UI 作作为为多多模模态态大大语语言言模模型型,作作用用是是帮帮助助 Apple Intelligence 理理解解用用户户屏屏幕幕上上的的内内容容,为为 Siri 获获得得更更好好的的上上下下文文理理解解。苹果于 2024 年 4 月 8 日发布 Ferret-UI,并于24年7月将模型升级到Ferret v2,目前有70亿与130亿参数两个版本的Ferret模型。
20、图图 2、Ferret UI 模模型型训训练练过过程程对对手手机机屏屏幕幕内内容容详详尽尽标标注注资料来源:FERRET:REFER AND GROUND ANYTHING ANYWHERE AT ANYGRANULARITY,Ferret-UI:Grounded Mobile UI Understanding with Multimodal LLMs,兴业证券经济与金融研究院整理Ferret-UI 具具备备 7 项项基基本本功功能能和和 4 项项高高级级功功能能。基本功能可具体区分为引用和定位两大板块,通过以下两步技术实现:一是定义和构建 UI 引用和定位任务;二是在模型训练中添加任务,包括
21、一系列 UI 引用任务(OCR、图标识别、控件分类)和定位任务(查找文本、查找图标、查找控件、控件列表),一共可完成 7 项基本功能。高级功能则通过 GPT-4 生成数据进行模型训练实现,包括详细描述、感知对话、交互对话和功能推断等。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-7-海海外外行行业业深深度度研研究究报报告告Ferret-UI 与与 GPT-4V 相相比比,在在基基础础功功能能上上表表现现明明显显更更好好,高高级级功功能能中中的的对对话话相相关关功功能能表表现现不不及及 GPT-4V;虽虽然然 GPT-4V 解答能力强,但在需要精确的边界框以及需要
22、精确到较小区域的应用中时,Ferret-UI 的表现更为突出,而这也正是Ferret-UI 的优势所在。与与苹苹果果类类似似,谷谷歌歌也也推推出出了了类类似似屏屏幕幕理理解解模模型型ScreenAI(2024 年年 1 月月 17 日日),用于理解 UI 和信息图表的类型和位置,包括针对图表、插图、地图等信息图表的问题回答,以及对 UI 上的元素进行注释、摘要、导航和问题回答。谷歌DeepMind 团队训练了三种不同大小的模型,包含 670M、2B 和 5B 参数。在大模型通过屏幕理解了用户需求,并拆解任务完成所需步骤后,如何与 App 进行互动成为关键。这里厂商既可选择意图框架方案,也可以选
23、择纯视觉方案。图图 3、ScreenAI:视视觉觉-语语言言模模型型(Vision-Language Model,VLM)资料来源:ScreenAI:A Vision-Language Model for UI and Infographics Understanding,兴业证券经济与金融研究院整理2 2.2 2、路路线线一一:通通过过意意图图框框架架实实现现 A AI I 手手机机苹苹果果 v vs s.谷谷歌歌意意图图框框架架方方案案:在在手手机机后后台台调调用用应应用用 API(须须 App 授授权权),实实现现任任务务。以苹果手机为例,实现 Apple Intelligence 分为
24、三步:第一步,借助 Ferret-UI 实现屏幕上下文理解;第二步,语义信息检索;第三步,借助意图框架(App Intents)实现跨 APP 功能调用。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-8-海海外外行行业业深深度度研研究究报报告告图图 4、Apple Intelligence 的的三三步步资料来源:Ferret-UI:Grounded Mobile UI Understanding with Multimodal LLMs,Apple 开发者文档,兴业证券经济与金融研究院整理苹苹果果 App Intent 对对开开发发者者友友好好,谷谷歌歌安安卓卓
25、也也有有类类似似的的意意图图框框架架。在应用程序中导入 App Intents 功能较为简单,在学习开发者文档后,使用 App Intents 将数据类型实现为 Entities,并使用 App Intents 设置 Shortcuts 的过程十分简易。谷歌的意图框架方案 App Actions,于 2019 年在 Google I/O 大会上首次亮相。整体来看,苹果的封闭系统带来许多便利,如容易适配、开发门槛低等。而谷歌的安卓系统厂商众多,不同厂商的设备型号繁多,适配难度相对更大。图图 5、Android intent:工工作作原原理理资料来源:voicebot.ai,兴业证券经济与金融研究
26、院整理安安卓卓与与手手机机厂厂商商之之间间有有直直接接利利益益博博弈弈。Google Assistant 与 android intents 有将更多流量吸引至谷歌平台本身的趋势,而开发者和其他厂商使用该功能的目的则是增加自身的流量。双方存在利益冲突,其中存在的流量利益博弈使开发者更为谨慎。有些厂商会对 Android intents 功能设置一定的限制,进而限制 AI 功能的实际效果。这也是国内安卓厂商倾向发布自己的意图框架系统的原因之一。意意图图框框架架目目前前更更容容易易实实现现。意图框架方案的优点在于算力需求与准确度,其算 请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重
27、重要要声声明明-9-海海外外行行业业深深度度研研究究报报告告力需求在于屏幕理解与任务拆解,在任务执行上,由于是调用 App API,所需算力较小,同时准确度有保障。但是需要第三方 App 厂商配合接入,如如何何说说服服第第三三方方 App 加加入入生生态态是是苹苹果果等等手手机机厂厂商商需需要要解解决决的的难难题题。2 2.3 3、路路线线二二:通通过过纯纯视视觉觉方方案案实实现现 A AI I 手手机机纯纯视视觉觉方方案案以以 Mobile Agent 为为例例:北京交通大学和阿里巴巴合作研发的Mobile-Agent-v2(2024 年 6 月发布),采用纯视觉方案实现自动化手机操作。该架
28、构由三个代理组成:规划代理(Planning Agent)、决策代理(Decision Agent)和反思代理(Reflection Agent)。Mobile-Agent-v2 无需额外的训练和探索,借助中枢模型强大的操作能力,便能够实现即安装即使用。图图 6、纯纯视视觉觉方方案案工工作作原原理理资料来源:Mobile-Agent-v2:Mobile Device Operation Assistant with Effective Navigation viaMulti-Agent Collaboration,兴业证券经济与金融研究院整理该模型解决了追踪任务进度和追踪重点内容上的困难。此前
29、大模型需要记忆每一步操作和相应的屏幕状态,带来了过长的标记序列以及交错的文本图像数据格式,增加了代理追踪任务进度的难度。Mobile-Agent-v2 引引入入规规划划代代理理,将将冗冗长长的的操操作作历历史史转转化化为为纯纯文文本本,加加快快决决策策代代理理的的处处理理速速度度,并并减减少少转转化化过过程程中中因因潜潜在在信信息息丢丢失失而而导导致致的的决决策策失失误误。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-10-海海外外行行业业深深度度研研究究报报告告图图 7、Mobile-Agent-v2 操操作作流流程程和和交交互互图图解解资料来源:Mobile
30、-Agent-v2:Mobile Device Operation Assistant with Effective Navigation viaMulti-Agent Collaboration,兴业证券经济与金融研究院整理除了 Mobile Agent 以外,我们看到智谱 AI、谷歌、微软、Anthropic、腾讯等机构也在研究类似的纯视觉方案。表表 1、纯纯视视觉觉方方案案研研究究列列举举论论文文题题目目机机构构时时间间要要点点成成功功率率/完完成成率率实实现现功功能能瓶瓶颈颈/局局限限性性AutoGLM:AutonomousFoundationAgents forGUIs智谱 AI20
31、24.10.25通过安卓应用的方式,在真实的安卓手机中支持多个应用上的自动化任务执行,AutoGLM 的任务执行需要通过无障碍服务权限获取用户当前屏幕上的信息,基于此进行理解分析并且做出任务规划,实现手机上常用操作的模拟执行在常见简单任务中,大众点评、小红书成功率为 100%,淘宝93%、微信 92%、美团 70%、高德 92%、12306 80%手机端暂时仅支持安卓系统Introducingcomputer use,anew Claude 3.5Sonnet,andClaude 3.5HaikuAnthropic2024.10.22开发人员可以指导Claude 像人们一样使用计算机-通过查看
32、屏幕、移动光标、单击按钮和输入文本实现在评估人工智能模型像人一样使用计算机的能力的 OSWorld上,Claude 3.5 Sonnet 仅在屏幕截图类别中得分为 14.9%,优于第二好的人工智能系统 7.8%的得分。当提供更多步骤来完成任务时,Claude 得分为 22.0%。目前人类水平通常为 70%75%AppAgent v2:AdvancedAgent forFlexible MobileInteractions悉尼科技大学腾讯北京交通大学西湖大学2024.8.5基于 LLM 的移动设备多模式代理框架,能够导航移动设备,模拟人类交互。该代理构建了一个灵活的动作空间,增强了跨各种应用程序
33、的适应性,包括解析器、文本和视觉描述在 10 个任务类别的所有指令中实现了 100%的成功率。三个指令集的平均过程准确度超过 90%方法依赖于代理识别UI 上数字标签以确定特定 UI 元素的能力,因此识别包含数字的 UI 元素时可能发生混乱,与隐藏的 UI 元素交互时存在执行操作限制 请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-11-海海外外行行业业深深度度研研究究报报告告Mobile-Agent-v2:MobileDeviceOperationAssistant withEffectiveNavigation viaMulti-AgentCollaborat
34、ion北京交通大学阿里巴巴集团2024.6.3当前多模态大语言模型(MLLM)受训练数据限制缺乏有效充当助手,而基于MLLM的代理通过工具调用来增强自身能力正在逐渐应用于该场景。论文提出一种关于移动设备操作辅助的多代理架构用于解决导航挑战借助多智能体架构,即使在极具挑战性的高级指令中,成功率也可达到 55%。同时在知识注入的情况下,即使决策准确率没有达到 100%,但完成率仍然可以达到 100%。资料来源:arXiv,Anthropic,兴业证券经济与金融研究院整理纯纯视视觉觉方方案案的的优优缺缺点点鲜鲜明明。其优点是“第三方零适配”,可以直接模拟人类操作,无需第三方应用厂商授权,模型能力一旦
35、突破,可扩展性更加大。但其劣势也很明显,其响应速度取决于模型运行速度,目前仍需依赖云端算力,同时,由于模型幻觉问题,准确率目前低于意图框架。纯视觉模型需要突破的关键主要是“成功率”与“速度”:1)成成功功率率:纯纯视视觉觉方方案案的的成成功功率率主主要要由由“精精准准操操作作”与与“任任务务规规划划”决决定定。(a)精准操作:智能手机的屏幕中元素众多,甚至包含了如广告等干扰项,如何训练模型精准识别并操作屏幕的元素是一大难题。智谱 AI 近期发布的 AutoGLM(2024.10)引入了“基础智能体解耦中间界面”的设计,便是为了解决此问题。(b)任务规划:在面对复杂任务和环境时,模型的任务规划和
36、纠错能力也是决定成功率的重要一环。例如智谱 AI 则是通过“自进化在线课程强化学习框架”,引入自进化学习策略,以期最大程度激发模型潜能。智谱 AI 的 AutoGLM 在常见的简单任务中,如大众点评、小红书等成功率为 100%,但在淘宝中的成功率只有 93%、而在美团中则只有70%,足见这一任务的挑战性。图图 8、智智谱谱 AI 实实验验中中不不同同模模型型在在 AndroidLab 中中的的成成功功率率资料来源:智谱 AI 官网,兴业证券经济与金融研究院整理2)执执行行速速度度:纯视觉方案的执行速度有待提升,如 vivo 开发者大会提到,目前其 PhoneGPT(纯视觉方案)自动完成每一步任
37、务的精确度在 94%左右,每一步需要两秒左右,同时目前该功能仍旧通过云端算力运行,未来随着 请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-12-海海外外行行业业深深度度研研究究报报告告手机算力提升,其希望能够实现端侧化。而据媒体报道,谷歌或即将发布纯视觉方案机器人 Jarvis,能够帮助用户操作 Chrome 浏览器,但其目前的运行速度也相对较慢,在采取每个行动之前都需要思考几秒钟。3、各各厂厂商商 AI 手手机机进进展展3 3.1 1、苹苹果果:打打磨磨自自身身应应用用体体验验,意意图图框框架架虚虚位位以以待待苹果的 AI 手机策略是将自身应用的 AI 功能做
38、到极致,同时搭好意图框架方案吸引应用厂商,并与 OpenAI 合作,将 ChatGPT 引入 Siri,弥补其模型能力较弱的问题。表表 2、iOS 18.1 与与 iOS 18.2 AI 功功能能一一览览iOS 版版本本功功能能功功能能介介绍绍iOS 18.1书写工具可以在整个操作系统中生成、校对、总结和重写文本。支持在邮件、备忘录、信息、Pages,以及第三方应用中使用AI 消除选中图片中不想要的人物或物体,能够做到一键去除邮件总结Apple Intelligence 会辨识邮件阅读优先级,用户可以直接点击邮件查看摘要,并使用 AI 撰写智能回复通知摘要智能摘要使通知变得更加实用和高效,能够
39、让用户快速浏览堆叠的通知并突出显示关键细节照片Memory Maker 可以根据描述创建自定义回忆影片,支持自然语言搜索,并有一个清理功能可以从图像中删除不需要的对象Siri全新升级的 Siri 视觉会环绕着 iPhone 屏幕边缘发出光线。Siri 的语言理解能力变得更强,也可以用文字输入与 Siri 交流智能回复在邮件和信息中,Apple 可以结合邮件上下文情境给出建议的回复内容iOS 18.2集成 ChatGPT 的 SiriSiri 可以集成 ChatGPT 以处理某些请求,当 Siri 遇到无法回答或难以解决的问题时,ChatGPT 会自动介入以弥补不足Visual Intellig
40、ence(视觉智能化)长按相机控制按钮进入该功能,能够智能识别周围的物体和地点。将镜头对准物品,用户能够立刻获得相应的信息。此外,也可用于翻译文本、朗读文本、复制文本、检测电话号码和地址并添加到通讯录等Image Playground(图像乐园)可以根据提示创建风格化图像,用户可以自行输入图像描述或者使用苹果提供的内置建议,该功能与信息应用集成以便从消息线程或笔记应用的内容中汲取灵感Image Wand(图像魔棒)可以在备忘录应用中为内容添加图片,用户可以进行粗略的草图绘制后使用 Image Wand 将草图转化为更详细的图像Genmoji可以创建自定义表情符号,通过照片或描述打造专属表情包,
41、生产的Genmoji 可以插入消息文本内发送或作为 Tapback(快速回复)书写工具书写功能不再局限于三种风格,用户可以描述想要的语气或内容,例如添加更多动态词语或将电子邮件变成诗歌资料来源:苹果官网,友和,腾讯网,兴业证券经济与金融研究院整理 请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-13-海海外外行行业业深深度度研研究究报报告告图图 9、Apple Intelligence写写作作润润色色图图 10、Apple Intelligence智智能能回回复复资料来源:苹果官网,兴业证券经济与金融研究院整理资料来源:苹果官网,兴业证券经济与金融研究院整理智智能
42、能 Siri 将将在在明明年年面面世世。Apple Intelligence 的下一个重大更新将会是预计于2025 年 3 月发布的 iOS 18.4,它将为 Siri 带来改进的自然语言处理系统、更广泛的系统控制范围和屏幕内容解释能力的增强。不过,其中一些内容可能会在 2025 年 1 月份发布的 iOS 18.3 中提前发布。图图 11、Apple Intelligence 更更新新节节奏奏资料来源:苹果官网,CSDN,量子位,兴业证券经济与金融研究院整理Apple Intelligence 由由自自研研模模型型 AFM 支支持持。苹果 Apple Intelligence 主要是由其自研
43、模型 AFM-on device(端侧)与 AFM-server(云端)运行,辅以 OpenAI的模型支援。AFM-on device 参数量为 30 亿参数,可以直接在 iPhone、iPad、Mac 上本地运行,训练算力约 2048 片 TPU v5p(约等于 2048 片 H100),能够提供如摘要、总结等简单 AI 能力。而更复杂的能力则需调用 AFM-server,通过私有云计算并在 Apple 芯片服务器上运行,苹果没有披露其云端模型具体参数,但表示其训练算力为 8192 片 TPU v4(约 3200 片 H100)。自自研研模模型型能能力力有有待待提提升升。虽这两个模型并未开放
44、评测,但从训练算力上看,这 请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-14-海海外外行行业业深深度度研研究究报报告告两个模型所用训练算力相较行业头部水平仍有一定距离,性能不会特别出众。而根据彭博媒体报道,ChatGPT 准确率比 Siri 高 25%,可以回答的问题类型要多 30%,苹果的 AI 技术开发落后行业龙头至少 2 年。图图 12、Apple Intelligence 模模型型调调用用流流程程端端侧侧模模型型能能完完成成大大部部分分交交互互类类任任务务资料来源:36kr,兴业证券经济与金融研究院整理OpenAI 弥弥补补“世世界界知知识识”短短板板
45、。苹果与 OpenAI 合作,预计将在 iOS 18.2 中,整合 Siri 与 ChatGPT。遇到无法解决的“世界知识”时,Siri 将询问用户是否将问题发送给 ChatGPT,交由 ChatGPT 回复。此外,用户也可以在 iPhone 16新增的相机控制键中调用 ChatGPT,让 ChatGPT 对照片进行分析,或使用谷歌图片搜索在网络上查找类似的结果。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-15-海海外外行行业业深深度度研研究究报报告告图图 13、制制作作一一杯杯威威士士忌忌酸酸酒酒无无 ChatGPT(左左)与与有有 ChatGPT 回回复复
46、(右右)图图 14、让让 ChatGPT 对对照照片片进进行行分分析析资料来源:The Verge,兴业证券经济与金融研究院整理资料来源:The Verge,兴业证券经济与金融研究院整理意意图图框框架架虚虚位位以以待待。虽然 iOS 18.1 与 18.2 呈现的 Apple Intelligence 已为我们展现了AI手机时代的一角,但是苹果的最终目标是希望Siri能代替用户操作不同App,这些功能的正式使用将需要等到 2025 年。封闭操作系统以及庞大的用户群体使苹果的开发者生态具备优势,但苹果缺少生态级应用,而调用第三方应用数据与权限在意图框架的技术下,需要获得第三方开发者/厂商授权,第
47、第三三方方应应用用厂厂商商后后续续能能否否接接入入与与合合作作是是决决定定 Apple Intelligence 进进展展的的重重要要观观察察指指标标之之一一。3 3.2 2、谷谷歌歌:G Ge emmi in ni i 先先行行,意意图图框框架架跟跟进进谷歌目前的 AI 手机策略是利用 Gemini 对安卓系统进行改造,同时推广其意图框架方案,并与海外手机厂商合作。谷谷歌歌大大模模型型端端侧侧搭搭载载 Gemini Nano。谷歌 AI 手机端侧是由 Gemini Nano谷歌最小的多模态模型驱动的。该模型拥有两个版本(18 亿参数与 32.5 亿参数),根据手机内存大小适配,能实现包含“屏
48、幕理解”、“通话笔记”、“智能回复”等功能,利用手机端侧算力运行,在端侧帮助手机理解文本、图像和音频。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-16-海海外外行行业业深深度度研研究究报报告告表表 3、Gemini Nano 实实现现功功能能一一览览功能功能介绍Image understanding图像理解对图像及其内容进行更丰富、更清晰的描述Speech transcription语音转录理解您正在讲的内容以实现用讲话代替打字Text summarization文本摘要将消息、电子邮件和文档提炼为简洁、可读的摘要Pixel Screenshots截图助手自动
49、保存和处理屏幕截图的详细信息,例如事件、地点等,以便用户随时可以找到和使用这些截图。提供智能的搜索和分类功能以便用户通过应用程序快速寻找特点截图。Call Notes通话摘要和转录在通话结束之后自动提供完全私密的对话摘要和转录Pixel Recorder录音摘要录音机应用程序使用Gemini Nano 和 AICore 提供设备上的摘要功能Gboard输入法基于 AI 的输入法提供智能回复建议TalkBack屏幕朗读(无障碍功能)利用 Nano 的多模态功能提供清晰的图片描述并朗读AI-supported content creationAI 支持的内容创作提供写作协助、内容校对、语法纠正和改
50、正等功能。AI-enhanced contentconsumptionAI 增强的内容消费(或内容使用)提供对内容的概况、翻译、回答问题、分类、表征等功能。资料来源:谷歌官网,2024 谷歌 I/O 大会,兴业证券经济与金融研究院整理图图 15、Gemini Nano 屏屏幕幕理理解解功功能能图图 16、Gemini Nano 通通话话总总结结功功能能资料来源:谷歌官网,兴业证券经济与金融研究院整理资料来源:谷歌官网,兴业证券经济与金融研究院整理谷谷歌歌大大模模型型云云端端由由 Gemini 1.5 系系列列支支持持。对于端侧模型无法解决的复杂任务,谷歌将使用 Gemini 1.5 系列模型(
51、1.5 Pro 与 1.5 Flash)在云端提供支持,根据雷锋网报道,今年 8 月 2 日,Gemini 1.5 Pro 模型能力在海外大模型排行表 Arena榜单上超过 GPT 4o 和 Claude-3.5 夺得第一。谷谷歌歌大大模模型型长长文文本本与与低低延延迟迟是是谷谷歌歌 Gemini 1.5 系系列列模模型型的的最最大大特特色色。Gemini1.5 Pro 与 1.5 Flash 均支持上下文 200 万的 tokens(GPT-4o 为 12.8 万),使得模型拥有更长的记忆能力,能够解锁更多任务。同时,谷歌针对模型效率和延迟做了大幅度优化:对比 GPT-4 Turbo 的 5
52、3.4 毫秒/字,Claude 3 Opus 的 55.3毫秒/字,Gemini 1.5 Pro输出中文字符能力为14.1毫秒/字,而主打高效的Gemini 请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-17-海海外外行行业业深深度度研研究究报报告告1.5 Flash 能做到 5.2 毫秒/字。图图 17、输输出出不不同同语语言言每每字字符符所所需需毫毫秒秒注:各种模型在处理 10,000 字符输入时,针对不同语言每个输出字符所需毫秒资料来源:Gemini 1.5 Pro 技术报告,兴业证券经济与金融研究院整理得得益益于于自自身身基基础础模模型型的的实实力力,谷
53、谷歌歌在在最最新新安安卓卓 15 中中将将 Gemini 深深度度集集成成。用户可以在正在使用的 App 顶部调出 Gemini 模块,就屏幕上的内容提出问题。例如,查找正在观看的 YouTube 视频的具体信息。用户还可以直接从 Gemini 模块中生成图片,并将它们拖放到 Gmail 和 Google Messages 等应用中。同时,谷歌也向所有安卓用户免费开放 Gemini Live,即谷歌的实时语音助手,并支持自然语言对话(对标 ChatGPT 4o 的实时语音功能)。图图 18、利利用用 Gemini 联联动动查查找找 Gmail 信信息息图图 19、利利用用 Gemini 联联动
54、动查查找找 Gmail 信信息息资料来源:谷歌官网,兴业证券经济与金融研究院整理资料来源:谷歌官网,兴业证券经济与金融研究院整理图图 20、利利用用 Gemini 联联动动查查找找 Google Map 信信息息图图 21、利利用用 Gemini 联联动动查查找找 Google Map 信信息息资料来源:谷歌官网,兴业证券经济与金融研究院整理资料来源:谷歌官网,兴业证券经济与金融研究院整理 请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-18-海海外外行行业业深深度度研研究究报报告告表表 4、谷谷歌歌 AI 手手机机功功能能一一览览(非非穷穷尽尽)功能功能介绍内置
55、 GeminiGemini Live可以自然地与大模型进行对话,随时打断或改变话题推荐/规划计划活动,查找本地生活服务,如想找一家本周五晚上 8 点营业的寿司店或者推荐一家步行即可到达的甜点店。调用其他 AppGemini 集成多个 Google 应用程序,如 Gmail、地图、文档、Drive、YouTube、Google Flights 等。当信息分散在多个应用程序中时,它可以找到这些信息多模态回答问题随时调用大模型进行交流(文字、拍照、视频),获得答案邮件总结汇总未读邮件,并获得最重要结果的摘要拍照/视频Add MeAdd Me 可以将两张照片无缝合并成一张的图片。它将真实的瞬间摄影与人
56、工智能和增强现实技术相结合,让每个在场的人都能出现在照片中,包括拍照的人Magic Editor可以移动、删除和调整图像中人物或物体的大小,以及更改背景Audio Magic Eraser减少视频中令人分心的声音(如音乐和风声),并打开想要的声音Video Boost云处理功能,可以减少背景瑕疵并提高照明质量,从而告别抖动、颗粒感和其他不完美的视频Best Take将相似的照片合并到一张适合装裱的图片中,让每个人都展现出最佳状态搜索Circle to Search圈选图片或文本,甚至是视频中的图片或文本进行快速搜索资料来源:谷歌官网,兴业证券经济与金融研究院整理谷谷歌歌生生态态:除除了了大大模
57、模型型的的能能力力支支持持外外,得得益益于于谷谷歌歌庞庞大大的的用用户户生生态态,谷谷歌歌 AI手手机机有有着着明明显显的的可可扩扩展展性性。目前谷歌的 GeminiApp 可以与用户现在所使用的所有应用程序和工具集成,包括 Google Workspace、Keep、Tasks、日历、YouTube 音乐、谷歌地图等,无需跳转并可一站式完成任务,举例如下:1)让 Gemini 找出朋友在 Gmail 中发来的千层面食谱,并让它将配料添加到 Keep 的购物清单中。2)请 Gemini“制作一份播放列表,让我想起 90 年代末的歌曲”。不需要太多细节,Gemini 就能明白你想要什么,并交付给
58、你。3)拍下音乐会传单的照片,询问 Gemini 当天是否有空,设置购票提醒。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-19-海海外外行行业业深深度度研研究究报报告告图图 22、谷谷歌歌生生态态一一览览(截截至至 2023 年年)资料来源:SeekingAlpha,Google Play 商店公共政策报告,DATAREPORTAL,搜狐等,兴业证券经济与金融研究院整理Gemini 未未来来将将接接入入第第三三方方 App。我们看到,Google 正在为 Gemini 开发多个第三方集成,其中两个是 Spotify 和 WhatsApp。以 WhatsApp
59、为例,用户可以通过 Gemini 向 WhatsApp 好友发送消息,或者拨打 WhatsApp 电话。随着 Gemini的进一步推广,谷歌将与更多第三方应用厂商合作,为谷歌 AI 手机提供更高的可扩展性。表表 5、Gemini 联联动动一一览览分类内容Google 内置Gmail 电子邮件、Google Calendar 谷歌日历、Google Docs 谷歌文档、GoogleDrive 谷歌硬盘、Google Flights 谷歌航班、Google Home 谷歌家庭、GoogleHotels 谷歌酒店、Google Keep、Google Maps 谷歌地图、Google Message
60、 谷歌信息、Google Tasks 谷歌任务、Notifications 通知。Utilities:Alarm,Apps,Camera,Clock,LED Flash,Timer,and Device Settings 实用工具闹钟、应用程序、相机、时钟、LED 闪光灯、计时器和设置 Phone 电话第三方软件WhatsApp、Spotify资料来源:Sammobile,谷歌开发者,兴业证券经济与金融研究院整理除了 Gemini 由于自身模型优势与生态优势发展迅速外,谷歌也在推广自身的意图框架。利用意图框架联动各家手机厂商的原生 App 功能,或能做到系统级调 请请务务必必阅阅读读正正文文之
61、之后后的的信信息息披披露露和和重重要要声声明明-20-海海外外行行业业深深度度研研究究报报告告用,同时也将联动更多第三方 App 厂商。目前,谷歌的手机 AI 功能在自家的Pixel 9 系列已全面搭载,同时,诸多安卓厂商亦纷纷跟进此项技术应用,如三星已经其在 Galaxy S24 系列产品上搭载此功能。此外,我们看到,Oppo、荣耀、小米、传音等在内的众多手机厂商在海外市场中,同样选择了与谷歌开展合作。表表 6、手手机机厂厂商商与与谷谷歌歌合合作作发发布布 AI 手手机机一一览览(非非穷穷尽尽)厂商产品系列发布时间上市时间功能简介三星Galaxy S24 系列2024.1.17(国际版)20
62、24.1.31(国际版)三星的笔记、录音机和键盘应用程序将使用 Gemini Pro 为用户提供更好的摘要功能。内置 Gemini Nano,以启用 GoogleMessages 中的新功能。Galaxy S24 系列推出了 Circle to Search、Magic Compose、Photomoji 和 Android Auto 等功能OPPOOPPO Reno12 系列2024.6.18(国际版)2024.7.8(港版)2024.7.10(港版)OPPO 利用自研 AI,结合 Google Gemini模型,在海外市场上推出了一系列创新的AI 功能,将手机转变为强大的生产力工具,包括
63、AI 录音摘要、AI 工具箱等功能OPPO Find X8 系列2024.10.24(国行)预计 2024.11.21(国际版)2024.10.30(国行)荣耀HONOR Magic V3系列2024.8.27(港版)2024.8.30(港版)与谷歌合作,配备了 AI 消除、面对面翻译和荣耀笔记等工具。AI 橡皮擦是一款照片编辑工具,允许用户从图片中移除不需要的对象。面对面翻译提供面对面交流时的实时翻译。荣耀笔记实时翻译为手写笔记提供即时翻译。此外,HONOR Magic V3和 HONOR 200 将会推出 Circle to Search功能,带来卓越性能和影棚级人像摄影体验HONOR 2
64、00 系列2024.6.12(国际版)2024.6.21(港版)2024.6.28(港版)小米小米 15 系列2024.10.29(国行),国际版预计2025 初2024.10.31(国行)小米 15 系列国际版本将会内置谷歌 AI 大模型 Gemini,具体功能待发布传音Tecno Phantom V 系列2024.9.13(非洲)2024.9.23(非洲)传音推出 TECNO AIOS,其 AI 功能是通过与谷歌、联发科等第三方合作整合至移动端,具备实时通话翻译、自动生成视频字幕、生成创意壁纸或图片、用简单描述精确搜索照片等功能。PHANTOM V 系列新引入的 TECNO AI 能完成网
65、页搜索、AI总结、笔记生成、AI 画板等日常任务。资料来源:三星、Oppo、荣耀、小米、传音发布会,兴业证券经济与金融研究院整理3 3.3 3、三三星星:海海外外贴贴紧紧谷谷歌歌,国国内内与与百百度度、字字节节、美美图图等等合合作作Galaxy S24 系系列列打打响响三三星星 AI 手手机机第第一一枪枪。2024 年 1 月,三星推出新一代高端旗舰系列 Galaxy S24 Ultra、Galaxy S24+和 Galaxy S24,搭载 AI 功能。7 月,三星推出 Galaxy Z Fold6 与 Galaxy Z Flip6,将折叠屏手机与 Galaxy AI 深入结合,为用户提供更加
66、便捷的 AI 智能体验。表表 7、三三星星 AI 手手机机功功能能一一览览与与效效率率相相关关任任务务功功能能介介绍绍(2024 年年 1 月月)更更新新(2024 年年 7 月月)即圈即搜使用简单手势,快速在图库应用程序和网络上搜索即时看到的信息(图像、视频、文本)通话实时翻译在原生通话应用中为通话双方提供实时语音和文本翻译可用范围扩展至更多第三方应用 请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-21-海海外外行行业业深深度度研研究究报报告告同传在无网络信号的状态下可以为谈话双方提供实时文本转录及翻译增 加 双 屏 对 话 模 式 和 聆 听 模 式(Gal