4.29省流日报丨智能体框架突破丨2026

前言

2026年4月29日,惊魂夜。

确认伪人:一名;疑似伪人:一名。

七点已至,欢迎来到心猿社AI省流日报,请工酱开始发言。

思维必看

普林斯顿刘壮:AI进步核心在数据与算力规模,而非架构【深度查验】

其团队实验显示不同亿级数据集间准确率高达80%以上,记忆才是当前AI最大瓶颈。

【推演深思】这个资讯值得一看,尤其是通用AI已经抵达专家水准的当下。

虽然现在大模型的上下文窗口(记忆能力)都来到了一百万Token,但相比人类,这只是九牛一毛。

心猿社对此采用的方案是细分人类的所有需求,然后对每个细分情况,进行持续的动态更新,来无限接近最佳形态。而这样的内容,可以说是最佳的数据库,AI时代研究所就是这个思路。而其背后的支撑理论——推演论,它未来很可能是这个思路的指导理论。

但你可能还有疑问:这样个性化不就会消失吗?就像“缓存命中”一样?

别忘了,所谓的个性化,不就是在进行细分吗?

前推特CEO创办的Parallel Web Systems获1亿美元融资,估值20亿美元【深度查验】

该AI代理基础设施公司由Sequoia CAPItal领投,已有超10万名开发者使用。

【思路启发】这家公司的思路值得一看。

智能体之所以能获取外部信息,正是通过API或SDK等接口连接背后的数据服务厂商。

而这家公司直接为AI代理(智能体)打造了专用的网络搜索与数据提取基础设施,使AI能够像人一样高效地浏览、分析和研究互联网内容。这是一个风口。

模型突破

商汤开源SenseNova-U1,实现图像理解与生成原生统一【深度查验】

该系列基于自研NEO-unify架构,摒弃传统拼接式设计,8B轻量版多项指标登顶开源榜首。

【解读】尽管该模型在性能、审美上与 GPT-Image-2 仍有明显差距,文字生成也存在问题,但它带来了你从未见过的新能力:比如,当你输入“生成手绘钢铁侠战甲的一系列图案,要素描到上色的详细 6 步过程”时,它会自主推理出每一步该如何生成。

【注意】某些网址加载慢,打不开是因为魔法问题。

英伟达发布多模态模型Nemotron3 Nano Omni【深度查验】

该开源模型基于30B-A3B混合专家架构,在统一框架中集成了视觉与音频编码器,能够快速理解视频内容并精准定位相关片段。其吞吐量是同类开放多模态模型的9倍,在文档智能榜单MMLONGBENCH-DOCOCRBench V2上均跻身前五。在视频与音频理解任务中,该模型更是在Daily-OmniVoiceBench上取得第一,超越了Qwen3-Omni-30B-A3B-Thinking与Gemini 2.5 Flash。

【启发】很多人对多模态有误解,认为只要能上传图片,视频那就是多模态。并非如此,真正的多模态核心在于跨模态的语义对齐与联合推理。比如,看到“猫趴在键盘上”的照片,真正多模态模型能理解“猫压住了键盘,可能影响了打字”,而不仅仅是认出“一只猫”。而未来的多模态,还应实现用一个模型同时生成文字、音频、视频等多种输出。

【注意】某些网址加载慢,打不开是因为魔法问题。

阶跃星辰3.5B图像编辑模型Step Image Edit 2综合排名第一【深度查验】【疑似伪人】

该模型在轻量级评测KRIS-Bench中登顶,参数量仅3.5B,API定价0.02元/张,单次文生图仅需0.7秒。

【短评】很轻量化的模型,性价比确实挺香,有成本控制需求的可以看看。

【伪人】我查询了KRIS-Bench榜单,该榜单实际上早就停止更新了,压根没有Step Image Edit 2这个模型。但资讯中却说它在该榜单中综合排名第一?也可能是我查询的榜单不对…?但我查了很久,这个可能性很低。

【注意】某些网址加载慢,打不开是因为魔法问题。

易鑫金融Agent以Model+Harness架构落地汽车金融场景【深度查验】

其自研Agentic大模型参数量约300亿,搭配三层Harness体系将概率输出转化为确定业务结果。

【短评】就是一个汽车金融领域的特训AI突破。

【启发】如果你是小白,建议点击预设工程,来逐步理解驾驭工程

首款全双工全模态开源大模型MiniCPM-o 4.5技术报告发布,消费级显卡可运行【深度查验】

该模型基于Omni-Flow流式全模态框架,12GB显存即可流畅运行,下载量突破25万。

【提醒】全模态你就理解为具备文字,图像,音频,视频四种模态即可。但实际上还应该加上触觉,脑机接口等;全双工指的是允许双方同时收发、互不干扰:你可随时打断AI,AI也能主动发问,交互实时、双向、并行,接近自然对话。

【注意】某些网址加载慢,打不开是因为魔法问题。

澜舟科技多模态RAG方案将图表理解准确率从69.6%提升至90.7%

该方案核心包含图表语义建模、跨模态检索、多步推理增强和图文融合生成四个阶段。

【短评】就是RAG的嵌入模型进化为多模态模型了。

开源产品

蚂蚁百灵Ling-2.6-flash开源,Token效率为同类10倍

该模型总参数量104B、激活参数7.4B,推理速度最高340Tokens/s,商业版已同步上线。

国内动向

讯飞星火X2-Flash发布,基于国产算力支持256K长文本

该模型完全基于华为昇腾910B集群训练,Token消耗仅为同类大模型三分之一。首次在国产算力上实现了DSA(稀疏注意力)与MTP(多Token预测) 的结合。

斑陌易行在硅谷发布T6无人配送机器人,搭载端到端大模型

该机器人拥有6m³装载空间,最高时速60km/h,续航里程200km,最大涉水深度190mm,最大载重1000kg(续航同样为200km)。单次可承载600-800票,配送能力相当于一辆小型厢式货车,经济回报周期为12-18个月。采用乐高式设计,用户可按需快速组合软硬件,实现开箱即用与灵活部署。

【短评】国内基础版38万元人民币,高阶配置版52万元人民币。快递员失业也就这两三年的事情了…

算电协同联合体在闽成立

“算电协同科技与产业融合创新联合体”在福州正式成立,旨在协调算力与电力的平衡发展,推动AI算力绿色化。

原粒半导体完成超5亿元Pre-A轮融资,前AMD技术大牛创办

原粒半导体完成超5亿元Pre-A轮融资,通过独创的Chiplet积木架构将服务器级大模型能力下沉至端侧,即将推出能让个人和企业免费拥有无限本地智能算力的“端侧生产力芯片”。

【短评】就类似显卡,插上电就有了一个算力设备。

机器人租赁平台擎天租获数亿元Pre-A轮融资,智元持股55%

该平台已可调度机器人超4000台,覆盖全国百城,海外业务扩展至13个国家。

【短评】好家伙,机器人出租。

豆包上线“帮你选”功能,AI购物仅支持抖音商城

该功能允许用户在App内完成选购、下单、支付全流程,不支持跳转其他电商平台。

DeepSeek多模态识图模式开启灰度测试

该功能支持物体识别、场景分析和地理位置推断,推理模式可分步骤拆解画面信息。

【短评】上个日报刚预测,今天就应验了。核心原因是通用AI已经到了专家水准,进入了滞涨时期,易用性现在要比性能更加重要。并且,个性化是接下来的趋势,而这些都需要Deepseek好好做网页端和APP端。

【推荐】通用AI丨发展评估报告心猿社AI丨需求出发的理念

商米科技港交所上市,开盘大涨292%市值超320亿

该企业是全球最大安卓端商业物联网解决方案提供商,2024年营收34.6亿元。

腾讯智能体生态亮相数字中国峰会,SkillHub收录超3.5万个技能

混元Hy3 preview模型迎来展会首秀,五款产品首批通过信通院安全评估。

2025年中国AI数据量预计达199.48EB,推理数据首超训练数据

系统软件和AI产生的数据量将首次超过传统物联感知数据,日均词元调用量年末或达100万亿。

山东首家百度AI漫剧创作基地落户淄博

百度将为基地开放自研AI技术与IP资源,首期培训班已展开。

国外动向

苹果App Store反垄断案:法院驳回苹果暂停令请求

该裁决要求苹果继续允许开发者使用外部支付且不收取费用,案件将进入最高法院审理。

Firestorm Labs获8200万美元融资,将无人机工厂装进集装箱

其xCell平台可在24小时内3D打印无人机系统,已在美国空军部署。

宝马i Ventures推出3亿美元新基金,聚焦智能体与物理AI

该基金将投资早期至B轮初创公司,管理总资本达11亿美元。

Scout AI获1亿美元融资,在军事基地训练作战AI模型

该公司正构建名为“Fury”的AI模型,其独特之处在于,不仅在虚拟世界训练AI,更让它在真实的军事基地中“当兵”。已从DARPA等机构获得1100万美元合同。

谷歌与五角大楼达成合作,Gemini将用于机密任务

该协议排除大规模监控和完全自主武器,谷歌员工联署反对。

Claude Code偷偷涨价,开发者每日成本翻倍至13美元

Anthropic解释称长周期智能体办公模式导致Token消耗激增,原有定价难以为继。

【短评】真÷吧,连公告都不发。真心建议非必要别用Claude,不是怕它出事,关键是它出事了不给赔偿。

Anthropic推出Claude for Creative Work,深度集成Adobe等八大软件

该工具可在Photoshop中调用50多项功能,在Blender中通过Python API编写自定义脚本。

【短评】相关从业者可以看一下,这个确实会方便很多。

通用汽车将为美国四百万辆汽车引入Gemini AI

该助手将深度集成车辆信息娱乐系统与安吉星,系汽车行业最大规模生成式AI部署之一。

迪士尼乐园在加州园区部分入口引入人脸识别技术,游客可自主选择不使用

该技术用于防止年票共享等欺诈行为,隐私专家警告需警惕“无障碍入场”先例。

有点意思

OpenRA-RL开源,将《红色警戒》改造为大模型Agent训练场

该项目暴露50个MCP游戏工具,支持单进程64局并发训练,已为奖励塑形研究提供精确诊断。

【短评】六六六。我的油田我的矿,简直是简直了。话说电脑会出偷车吗?

Anthropic封杀110人公司全部账号,API却仍在计费

该企业账号因某成员违规被全体封禁,申诉36小时无回复,Reddit发帖获广泛关注。

【短评】内部是在宫斗吗?这才几天,连着爆核弹。

Kimi K2.6设计能力超越Claude Design且价格低85%【深度查验】【确认伪人】

该模型支持300个智能体集群并行执行任务?

【伪人鉴定】这篇资讯很容易误导没有基础的读者。智能体调用得越多,消耗的 Token 就越多,产生的费用自然也就越高。但文章只贴出了Kimi定价比Claude省七倍,却没有对比消耗的Token数量以及最终消耗的金额。我去查阅了原文,也并没有找到相关的费用数据。这是一篇明确的伪人资讯,它只能说明Kimi比Claude更加易用。

【注意】某些网址加载慢,打不开是因为魔法问题。

学术突破

智能体上下文效率突破,Token消耗仅为Claude Code的27.7%【深度查验】

基于上下文信息密度最大化原则,该系统具备持续的进化能力。在 Lifelong AgentBench 评测中,GA 仅用 222k 输入 Token(分别为 Claude Code 的 27.7%、OpenClaw 的 15.5%)便实现了 100% 的完成率;而在 9 轮重复执行的 GitHub 研究任务上,其 Token 消耗下降 89.6%,调用次数也从 32 次收敛至 5 次。

参数压缩突破!仅440MB的手机端翻译模型Hy-MT1.5实现世界级的翻译质量【深度查验】

该模型基于腾讯混元架构打造,以极小参数实现世界级翻译质量,性能超越谷歌、微软等主流商业API。它支持33种语言离线运行,现已开源并发布Demo应用。应用仅440MB,普通手机即可流畅使用;自带后台取词模式,在任意应用(邮件、网页、聊天等)中无需切换,即可获取即时翻译。无需联网,不收集任何数据,一次下载,永久畅享。

平头哥发布首款智能网卡磐脉920,发布即量产

作为国内首款内置PCIe Switch的400G智能网卡,磐脉920已在阿里云数据中心规模部署。该卡支持多路径RDMA,最大吞吐带宽达400Gbps,实现“发布即量产”,标志着平头哥“算-存-网”全栈自研拼图正式就位。其采用可编程架构设计,可灵活部署于万卡智算集群、通用计算集群及高性能存储等场景。

【短评】它的作用是让大模型训练的速度更快了,资源利用率更高了。

Multi-Embed统一多模态嵌入框架发表于Nature Methods【深度查验】

该方法构建共享嵌入空间协同整合病理形态与多层分子特征,覆盖12种癌症类型。

【短评】你可以理解为一种另类的多模态

南洋理工提出Pask主动智能体架构,2秒内完成意图检测与主动响应【深度查验】

该架构采用底层小模型流式意图检测加上层Agents执行的双层设计,实现基于全局记忆自进化。

【短评】实际上就是做个性化,他们发明了一个框架。

尾语

本篇日报,心猿社对每个板块进行了需求分析,并以此对内容进行了全面的优化。

有任何意见,欢迎提案~

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
提案面板 抢沙发

请登录后发表评论

    暂无评论内容