【AI日报·6/25】测试中,未校验—2025刊

北大团队首次量化AI组合创造力:GPT-4理解能力超普通人类

北大认知科学团队提出IEI框架,首次从”识别-解释-引申”三层解析AI组合创造力。实验显示GPT-4在创意理解任务中准确率70%,超越普通人类(50%),但深层隐喻解读仍逊于专家(78%)。通过该框架优化的DALL-E 3生成质量提升35%,配套CreativeMashup数据集已开源,含艺术家创作的概念融合案例。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

微软Win11内置AI助手Mu:一句话搞定系统设置,330M模型本地运行

微软为Win11设置界面植入自研轻量模型Mu(330M),支持自然语言指令直接调用系统功能,如”鼠标指针太小”可一键调大。模型采用编码器-解码器架构,通过NPU优化实现500ms内响应,性能接近3.5B参数的Phi模型,首批支持骁龙芯片的Copilot+PC设备,后续将扩展至AMD/Intel平台。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

UC伯克利华人团队让宇树G1零样本执行指令:视觉语言驱动全身动作

UC伯克利联合团队开发LeVERB框架,首次实现人形机器人视觉语义与全身控制闭环。宇树G1通过”坐黑箱””跨箱子”等语言指令,无需预训练即可完成复杂动作,简单导航任务零样本成功率80%。框架包含分层双系统(102.6M视觉语言模型+1.1M动作模型),配套LeVERB-Bench开源数据集含150+仿真任务,部署真实场景验证迁移能力。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

机器人顶会RSS 2025揭晓:伯克利团队开源MuJoCo Playground获杰出Demo奖

RSS 2025大会颁发年度奖项,UC伯克利联合DeepMind等机构的《Demonstrating MuJoCo Playground》斩获杰出Demo奖。该框架通过单GPU分钟级训练、多机器人平台兼容的开源方案,实现仿真到现实零样本迁移,支持人形/四足机器人、灵巧手等硬件,代码已开源(pip install即可部署)。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

8B模型突破:港大ParallelComp实现128K长文本推理,显存压缩95%超越GPT-4o

香港大学团队提出ParallelComp,通过并行分块注意力+智能KV缓存淘汰,使8B模型在A100单卡实现128K长度推理,prefill加速23.5倍。实测在InfiniteBench基准上,8B模型整体性能达GPT-4o的91.17%,特定任务超越闭源大模型,代码已开源。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

港大开源GoT-R1:强化学习让多模态模型「先想后画」,复杂场景生成SOTA

香港大学联合商汤发布GoT-R1,通过RL优化生成思维链(GoT),在T2I-CompBench基准的复杂组合任务中创SOTA。框架引入空间布局可视化奖励,使模型自主优化推理路径,经GPT-4o评估,其生成的推理链在空间关系任务中84%优于监督基线,代码已开源。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

AI法律独角兽Harvey再融资3亿美元,4个月估值涨67%至50亿美元

法律大模型公司Harvey完成3亿美元E轮融资,估值50亿美元(4个月前D轮30亿)。客户覆盖全球337家机构(含顶级律所KKR、普华永道),年化营收7500万美元,通过私有数据微调+安全合规架构,将法律流程从周级缩短至分钟级,OpenAI、红杉连续四轮押注。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

OceanBase推GPU向量数据库:成本降95%,性能超ES9.0 16%,支持10亿级向量检索

蚂蚁集团OceanBase发布云数据库OB Cloud,集成自研GPU向量引擎,在1536维500K数据集上,同等召回率下成本仅为开源方案1/20,性能超ES9.0 16%。支持分布式亿级向量检索,结合SQL原生AI能力,已落地零售(银泰)、物流(货拉拉)等行业RAG场景。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

Rokid Glasses 量产引爆市场,获 25 万台全球预售订单

近期,灵伴科技与蓝思科技联合开发的 Rokid Glasses 在蓝思科技湘潭基地正式下产线,实现规模化量产,且已获25万台全球预售订单,有望推动中国AI眼镜终端进入商业化爆发新阶段。这款眼镜整机重仅49克,外观接近普通眼镜,集成多项AI功能,如智能提词、实时翻译等,还支持创新交互方式。Rokid在操作系统等核心领域坚持自研,蓝思科技作为独家供应商提供核心组件及生产服务,双方还通过资本协同推动生态闭环建设。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

SolidGeo 基准助力 AI 突破立体几何推理瓶颈

由中国科学院自动化研究所推出,专注立体几何推理能力的 SolidGeo 基准给多模态大模型带来挑战。其数据集包含3113个高质量的立体几何问题,源自K-12教育和高中数学竞赛,配有图像和详细解答说明。实验显示,当前最强的OpenAI-o1模型在测试中准确率仅为49.5%,远低于人类的77.5%,揭示了AI模型在三维空间理解方面存在不足,未来需进一步提升大模型的空间推理能力。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

Harvey AI 获3亿美元 E 轮融资,估值达50亿美元

成立仅三年的Harvey AI专注于法律工作自动化,日前完成3亿美元的 E 轮融资,估值飙升至50亿美元。这轮融资由 Kleiner Perkins 和 Coatue 共同主导,现有投资者红杉资本等也参与其中。该公司计划利用资金将员工人数从340人翻倍,并拓展至税务会计等专业服务领域,目前已有337家法律客户,预计年化收入7500万美元。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

Wispr Flow 获3000万美元A轮融资,致力于语音 AI 研发

语音输入技术初创公司Wispr Flow完成3000万美元的A轮融资,由Menlo Ventures领投,NEA、8VC等跟投,累计融资达5600万美元。其核心产品“Flow”支持超100种语言输入,能自动编辑口语冗余并适配用户写作风格。公司计划用于团队扩张、跨平台扩展及AI硬件合作,正开发Android版本并计划推出企业级解决方案,自2024年10月发布macOS应用后,用户增长强劲。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

Claudia 横空出世!Claude Code 跨平台编程体验升级

Claudia 是一款为 Claude Code 打造的开源图形界面工具,基于 Tauri 跨平台框架,结合 React 前端和 Rust 后端。它以 “隐私优先、本地优先” 为理念,具备一站式项目管理、自定义 AI 智能体等亮点功能,为 Claude Code 用户带来从 CLI 到优雅桌面的跨越,其技术架构轻量高效且跨平台兼容性佳,有望不断扩展功能成为 AI 编程标杆工具。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

奥比中光发布天工 Pro 机器人,搭载尖端深度相机

奥比中光与北京人形机器人创新中心合作升级天工 Pro 机器人,其头部、胸部、腰部和后背配置 Gemini330 系列深度相机,增强感知能力与环境适应性。该深度相机利用深度感知和视觉识别技术,在工业自动化中发挥关键作用,尤其在智能物流和机器人领域表现卓越。此外,奥比中光还推出了 Gemini435Le 工业级双目视觉方案,具备长距高精度感知能力,为智能设备行业自动化和智能化发展助力。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

前言.

目前已经上线滴工具&板块:

标签解析:

【伪人资讯】:向大家澄清资讯内容哪些是不真实的,没有时效性的,防止大家被外面的资讯误导。

【追踪】:我们会对仍然有疑问的资讯进行追踪,追踪的结果会在后面的省流日报公布。

板块解析:

【新的突破!】板块,由于心猿社还处于信息库建立的初级阶段,所以部分不算突破的突破有时也会划进去,这是因为心猿社对该领域信息库建立的还不完善的缘故。

有关超链接观感问题:您所看到的超链接(如心猿社)的实现是我们自己手搓的插件,目前还有许多需要优化的地方(比如白名单,黑名单功能等),所以有的地方视觉体验还不那么好,见谅呀。

新的突破!

医疗AI模型突破,MedBench排名第一,性能达三甲医院医师水平,讯飞星火医疗大模型 V2.5 国际版【仔细查验】

科大讯飞发布星火医疗大模型 V2.5 国际版,是唯一基于全国产算力训练的医疗大模型,在 MedBench 排名第一。该模型融合快思考与循证长思维链慢思考,提升全科诊疗和专科诊断推理能力,达三甲医院主治医师水平,且在完整性、实用性和可读性上优于人类医生。支持多语言,包括普通话、粤语和英语,拓展国际市场,推动全球医疗技术交流合作。 【短评】国产算力,含金量很高。【注意】某些网址加载慢,打不开是因为魔法问题。【关联榜单】MedBench。

AI数据库突破,成本降95%性能超ES9.0,支持SQL+AI混合检索,OB Cloud【仔细查验】

OceanBase发布云数据库OB Cloud,集成自研GPU加速向量引擎,单机支持10亿向量检索,同等性能下成本降低95%,通过SQL原生融合向量、标量、文本检索,已落地零售、物流等行业RAG场景,实现企业知识库智能问答与以图搜图等应用。 【短评】主要提升的是:面对大规模的数据,更好的进行数据的检索,方便AI调用;核心采用的是“向量”技术,就是对你上传的文件进行处理,比如你上传了一张“鸽鸽穿背带裤打篮球”的图片,但是你的文件名是“114514”,那计算机肯定不知道这张图片是个啥——但经过AI多模态模型对图片的内容识别后,模型会对该图片打上一个标签:“男性”,“背带裤”,“篮球”,“唱跳rap”,这样计算机就充分了解了这张照片,等到AI调用时,这些特征就可以被AI检索进去。【注意】某些网址加载慢,打不开是因为魔法问题。

机器人突破,本地化运行,可进行供微调的VLA模型,谷歌Gemini Robotics On-Device【深度查验】

谷歌推出首个设备端视觉语言动作模型Gemini Robotics On-Device,支持本地低延迟推理,仅需50-100次演示即可让机器人学习拉开拉链、叠衣服等双手操作,适配机械臂、人形机器人等多形态,配套SDK助力开发者快速调优,被喻为“机器人安卓”。 【短评】机器人方面,只有其采用的多模态模型方便横向对比,因此心猿社对其“突破”的要求就低些,只要是有创新,性能有提升,一般都会划入。【注意】某些网址加载慢,打不开是因为魔法问题。


发烧友(学术深思)

字节跳动与上海交大推出 ProtoReasoning 框架,提升大语言模型逻辑推理【仔细查验】

字节跳动和上海交大团队推出 ProtoReasoning 框架,借助逻辑原型增强大语言模型推理能力,利用 Prolog 和 PDDL 等结构化原型表示,包含原型构建器和验证系统模块。经评估,该框架在逻辑推理、规划等基准测试中显著提升模型表现,基于 Prolog 的训练也验证了结构化原型训练的有效性,未来将深入探索推理原型理论基础。 【短评】在AI大模型中有一个现象:AI模型在数学上训练后,竟然在逻辑推理甚至创意写作上也表现出色?他们首先假设:跨域泛化能力源于共享的抽象推理原型,然后以此假设构建了新的框架,并显著提高了模型表现。【注意】某些网址加载慢,打不开是因为魔法问题。【学术深思】这其实就揭示了人的思考方式在各个领域存在共性,实际上,这和心猿社所说的“意识数据”是一个逻辑,都是通过“混沌分析”来逐步接近本质。


思维必看!

硅谷六大佬激辩AI就业:辛顿建议学修水管,哈萨比斯力挺STEM专业

“AI教父”辛顿预言初级脑力劳动将被替代,建议选择水管工等实操职业;DeepMind CEO哈萨比斯强调STEM(科学、技术、工程、数学)专业重要性,认为AI将创造高价值岗位;英伟达黄仁勋反对大规模失业论,称AI将开启创意新机遇,OpenAI阿尔特曼则警告智能体接管工作”未来不远”。


国内动向*

小米AI眼镜官宣:AI小爱实时问答+第一视角拍摄,雷军演示攀岩撸猫全场景记录

小米首款AI眼镜亮相,支持语音唤醒小爱同学实时识物(花种/宠物/食物热量),第一人称视角拍摄,覆盖运动、育儿、手工等20+场景,采用高通AR1+恒玄双芯片方案,供应链成本177.5美元,或定价1499元。 【短评】重点是小米生态和拍摄状态下的续航,而且这个还是非屏幕款的,只能说慎重考虑,体验有限。

夸克应对志愿报告高峰,紧急扩容算力

随着高考成绩公布,志愿填报进入高峰期,夸克生成志愿报告出现排队等待现象。阿里巴巴集团副总裁吴嘉表示,截至当日 15:15,夸克系统已累计生成超 300 万份志愿报告,排队原因是多省份集中出分致需求爆发。夸克团队已紧急扩充算力,全力压缩等待时间,此前阿里已调配比去年多 100 倍的算力资源支持夸克,但部分高考大省出分时算力仍吃紧。 【短评】这波营销,爽。

支付宝推出国内首个 “AI 打赏” 服务助力开发者

支付宝宣布为 AI 开发者提供国内首个 “AI 打赏” 服务,首发上线蚂蚁百宝箱平台、阿里云百炼。开发者登录平台按两步操作即可开通,用户打赏金额直接入开发者账户,形成双向正反馈机制。此前支付宝推出的支付 MCP 与之结合,构成多元服务模式,推动 AI 技术商业化应用。


国外资讯:


多维发展,


有点意思~

奥特曼晒邮件反击IYO抄袭指控:收购未果反遭诉讼

OpenAI创始人奥特曼公开与IYO CEO往来邮件,揭露对方多次求收购未果后提起商标诉讼。邮件显示IYO曾主动演示产品、寻求1000万美元投资及联合开发,甚至在OpenAI宣布收购IO团队两天后仍提议合作。法院此前已临时禁止OpenAI使用IO名称,双方围绕产品定位(IYO定制耳戴设备 vs IO非穿戴设备)和技术差异持续交锋。 【短评】打起来,打起来!

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容