【AI日报·6/24】华为2025开发者大会,已校验—2025刊

前言.

最近有更新啦噜~


目前已经上线滴工具&板块:

  • 省流日报:就是您现在正在看的栏目啦‘v’
  • 金选工具箱:以用户需求出发,免费好用工具的聚集地!
  • 横向测评:人文+AI测评体系,筛选出免费,易用性强滴工具~
  • 最新进程:每天AI的最新突破都会更新在这里!还有AI改造社会进度的评估哟。
  • AI教学:从需求出发,一起用AI做些事情吧~(签到免费)
  • AI多维板:从身份出发,深入需求,研发定制化AI方案!(学生党板块免费)
  • 测试集整理:将资讯置信度提升到学术级水平。

社内快讯

  • 心猿社再次优化了省流日报的信息搜索逻辑。现在,在信息来源更宽更广的同时:在资讯的”查看详情“中,我们会视具体情况向您推荐关于该资讯高质量的文章与视频;此外,对于时效性差的资讯我们会再次进行筛选,而”伪人“资讯现在的功能性则更加聚焦,即向大家澄清资讯内容哪些是不真实的,防止大家被外面的资讯误导。
  • 心猿社完成了AI测试集整理,AI资讯的筛选逻辑也进一步增强。
  • 最新进程与最新突破表的优化:省流日报中,“新的突破!”板块的标题逻辑现在改为:“主体+领域+突破类型+简单要点”,以平衡日报“文章目录”和最新突破表的视觉效果。

有关超链接观感问题:您所看到的超链接(如心猿社)的实现是我们自己手搓的插件,目前还有许多需要优化的地方(比如白名单,黑名单功能等),所以有的地方视觉体验还不那么好,见谅呀。


华为开发者大会 HDC2025 专题

我们会标注资讯与大会对应的时间点,点击大会官网即可进入华为开发者大会 HDC2025现场。

这次华为在AI领域公布了许多技术,例如:自适应快慢思考技术(推理效率提升8倍)与DeepDiver深度研究能力(5分钟生成万字专业报告),但是这些讲得实在是太笼统了,听发布会的描述,似乎就是“合成数据”+“强化学习”老一套;对比的维度也很难有置信力,我们很难判断这到底算不算突破,毕竟心猿社负责的是整个AI领域,突破必须是他无我有,才能列入。【注意】某些网址加载慢,打不开是因为魔法问题。

AI手机突破,系统级智能体量大管饱,华为鸿蒙智能体框架【仔细查证】

在2025华为开发者大会(HDC 2025)上,华为正式推出鸿蒙智能体框架(HMAF),将AI助手“小艺”升级为系统级智能中枢,支持跨设备调度50余个鸿蒙智能体,实现“唤醒即服务”的主动交互。用户可通过语音、导航条等入口一键调用场景化服务,如长按天气App生成穿衣指南、语音指令创建非遗歌单等。【短评】华为与许多软件一起开发了系统级的智能体,简单的功能应当是可以实现的;当然,大部分还是隔靴搔痒,这是手机端智能体的弊端。【注意】期望不要抱太高,因为模型能力有很大局限,你可以参考我们的横向测评心猿社也试了一下其中一个智能体的源工具:ChatExcel,对其官方给的示例进行了测试,但完成度…太抽象了,我是真没想到官方示例还能翻车,而且这个表已经是非常非常简单的数据了…【时间点】00:20:30

图片[1] | 【AI日报·6/24】华为2025开发者大会,已校验—2025刊 | 心猿社

AI硬件突破,纯国产芯片训练的AI模型多维度跻身第一梯队,华为Pangu R-718B【仔细查证】【伪人资讯】

在HDC 2025大会上,华为正式推出7180亿参数盘古R-718B深度思考模型,基于昇腾AI云服务(6000+NPU集群)训练,成为全球首个纯国产硬件训练的超大规模混合专家模型(MoE)。

【短评】这是基于国产昇腾芯片训练的,就算得上是突破;因为华为没有用户端(C端)的AI工具,所以大家对华为在AI领域的感知不强,可以说华为的竞争力正在逐步显现了,作为工业(行业)AI国内的头部和“英伟达”,同时还是手机大厂,这种多复合优势是无可替代的。此外,数据上更详细的对比可以看我们的测试集整理

【涉及测试集】MMLU-ProBFCL-V3AIME 2024Arena HardLiveCodeBenchGPQA Diamond

【时间点】00:20:30

【伪人鉴定】本次发布会在数据上有很多问题:

  1. 发布会中的数据我们没有找到相关论文,最接近的是“PANGU ULTRA MOE(也是718B参数)”论文,但里面的数据和发布会的不一样,可能是还没来得及发——因为论文里的Deepseek R1是老版的数据,发布会中的是新版的。
  2. Deepseek R1在“BFCL-V3”测试得到的数据是“63.79”,发布会里变成了“63.”——这么大的发布会居然能少两个数字?
  3. LCB应该就是指LiveCodeBench测试,但是这个测试是有许多问题的,对比可信度不高。
  4. GPQA应该指的是GPQA Diamond测试,但本次发布会,该数据的部分来源是:超级非权威网站——不是,这PPT是外包的吗?太离谱了,里面甚至还有梯子广告…这大概率是PPT制作者的锅,因为数据的确是有来源的,只不过是找错了位置。
  5. 重要的成本问题没有提及,详细计费需要去咨询才能获得…心猿社建议,个人开发者还是选择更有性价比的,大企业端(B端)则可以尝试一下,华为在行业AI中确实深耕已久。
图片[4] | 【AI日报·6/24】华为2025开发者大会,已校验—2025刊 | 心猿社
发布会的数据问题

通用AI多模态性能突破,首个实现生成可交互4D空间,华为盘古世界模型【仔细查证】

华为发布全球首个可交互4D空间生成模型——盘古世界模型,通过物理规则嵌入+数据驱动,实现自动驾驶仿真、机器人训练及太空探索场景的低成本高保真模拟,推动AI从“理解世界”迈向“生成操控世界”的突破性飞跃。【短评】物理规则嵌入——这一点就是华为对AI的诠释,追求“原子化表达”,这一点和心猿社不谋而合,找到那个更本质的东西。【时间点】01:08:05;02:08:22(“原子化表达”)

行业AI突破,华为行业大模型【仔细查证】

华为依托盘古大模型3.0在工业领域实现全场景落地,通过智能体集群、能耗优化及生态共建推动多行业效率革命与安全生产,驱动社会生产力变革。【短评】行业AI是基本对比不了的,每个企业的情况都不一样,并且往往是不会公开数据的,所以某几个头部企业结合AI有突破,就算是突破;华为在行业AI领域有着独一份的优势,无论是市场还是数据。【时间点】01:54:05


新的突破!

视频AI性能易用性双突破,海螺2.0与智能体(Agent)功能【仔细查验】【追踪】

MiniMax 推出的第二代视频人工智能模型 Hailuo 02 采用噪声感知计算重分配架构,训练和推理效率提升 2.5 倍。新模型参数数量和训练数据量大幅增加,数据质量和多样性改善,能准确生成复杂场景。Hailuo 02 有三种变体,生成视频费用低于谷歌 Veo 3。同时,他们还新发布了视频 Agent 工具,可依用户文本指令生成高清视频,还支持上传人脸图片生成视频且保持人物身份特征一致。【短评】重点还是海螺2.0,这个动效,太变态了,这是很大很大的突破。海螺AI官方给的排名第二是ELO竞技场测试,实际上,这个动态效果绝对能干到第一,等测试集的测试出来吧;此外,价格海螺AI也做到了超级低价,简直不可思议。【注意】某些网址加载慢,打不开是因为魔法问题。

软件工程突破,昆仑万维开源Skywork-SWE-32B【仔细查验】

昆仑万维发布并开源了自主研发的代码智能体基座模型Skywork-SWE-32B,在软件工程任务中表现卓越。该模型在SWE-bench Verified基准上取得38.0%的pass@1准确率,刷新了32B参数规模下开源模型的最佳成绩。通过引入测试时扩展技术,准确率进一步提升至47.0%。团队构建了超过1万个可验证的GitHub仓库任务实例,创建规模最大的可验证数据集,验证了大模型在软件工程任务上的数据缩放定律。【短评】软件工程和智能体是有区别的,软件工程是开发与维护软件,软件本身可以完成任务;智能体则是直接完成某个任务。【涉及测试集】SWE-bench【注意】某些网址加载慢,打不开是因为魔法问题。


思维必看!

过度依赖AI或削弱批判性思维与记忆力【仔细查验】

麻省理工学院媒体实验室研究发现,使用大型语言模型如ChatGPT撰写论文,虽便捷却可能削弱学习技能,产生认知负债,降低大脑连接性,影响记忆与内容所有权感知。 【短评】置信力有限,但还是可以看一看的。


国内动向*

网信办开展 “清朗・整治 AI 技术滥用” 行动,成果显著

自 2025 年 4 月启动,第一阶段处置大量违规产品和账号,清理违法信息,各地网信办及各大平台积极采取措施,推动显式标识规范等,确保网络安全。

文心快码推出Comate AI IDE:多模态多智能体协同

百度发布的Comate AI IDE是行业首个多模态、多智能体协同AI IDE,具备设计稿一键转代码等功能,内置多种开发工具,支持MCP对接外部工具和数据,启动“Comate Next计划”,助力开发者提升编程效率。 【短评】可以尝试尝试,头衔很响亮,但是“多智能体”、“多模态”不一定代表更好的性能,官方也没发布性能对比。

宇树科技完成C轮融资,估值超100亿人民币

宇树科技近期完成C轮融资交割,投前估值超100亿元人民币。此轮融资由中国移动旗下基金、腾讯、阿里、蚂蚁金服、吉利资本等多家知名投资机构领投,老股东积极跟投。自2016年成立以来,宇树科技已完成9轮融资,上一轮融资时估值为80亿元。过去半年,宇树科技在人形机器人领域表现突出,备受关注。公司已更名为杭州宇树科技股份有限公司,可能为上市做准备,其创始人王兴兴对在香港上市表示有可能但不确定。

即梦图片3.1模型灰测:电影感与风格化提升

即梦灰测的图片3.1模型相比3.0版本,在电影感、故事感、场景丰富度和艺术类提示词响应效果上表现更佳,光影层次、细节处理更出色,风格把控更精准,但同批次生成图片差异较大。 【短评】观感上没啥区别,主要是到边际效应的阈值了。


国外资讯:

Grok智能编辑器来袭:支持电子表格

xAI开发的新文件编辑器集成文本和电子表格功能,与Grok深度互动,简化工作流程,预计提供智能推荐、自动校正和数据分析等功能,助力用户提升办公效率。 【短评】这个意思可能是可以线上即时修改表格,就像WPS一样。具体还是等出来吧。

Meta重金挖角AI人才,布局AGI领域

扎克伯格近期在AI领域动作频频,先是试图收购Ilya Sutskever的初创公司安全超智能(SSI),未果后直接挖走SSI CEO丹尼尔・格罗斯。格罗斯背景显赫,曾是苹果机器学习总监和YC AI项目负责人,还入选《时代》杂志“人工智能领域最具影响力的人物”。此外,Meta还向GitHub前CEO纳特・弗里德曼伸出橄榄枝,并计划投资他们管理的NFDG风险投资基金,该基金曾投资SSI等AI初创企业。这一系列动作表明Meta在人才和资金方面全力布局AGI领域,计划组建约50人的超级智能团队,成员包括来自谷歌和OpenAI的顶尖人才。 【短评】Meta最近动作很多,大有破釜沉舟之势。【注意】某些网址加载慢,打不开是因为魔法问题。

AI语音助理11ai发布:语音优先集成MCP

ElevenLabs推出全新语音优先AI个人助理11ai,支持超5000种声音并可自定义专属语音。其核心功能涵盖日程管理、实时搜索及团队协作,还支持MCP集成,多模态交互能力强,支持70多种语言,为全球用户提供更高效的工作流体验。


有点意思~

“The OpenAI Files” 网站上线引发关注

新网站 “The OpenAI Files” 汇集 OpenAI 内部文件及对其领导层、战略和企业文化的批评,引发公众对 OpenAI 是否偏离非营利目标的广泛关注。该网站收录前员工报告,分析 OpenAI 重组计划并审视 CEO 角色,期望引发公众对 AI 开发透明度、安全性与监管问题的讨论,为科技公司树立监督标杆。

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容