【AI日报·6/28】测试中—2025刊

AI音乐编辑工具突破,Suno收购WavTool强化功能,应对版权诉讼

AI音乐公司Suno于本周四宣布收购基于浏览器的AI数字音频工作站WavTool,旨在增强歌曲创作和制作方面的编辑能力。此次收购时机微妙,正值Suno面临多起版权诉讼,乡村音乐人Tony Justice等已对其提起诉讼,指控训练AI音乐生成器时使用受版权保护的音频录音。此外,Suno在今年5月获得1.25亿美元融资。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

海洋科技领域突破,“沧渊”大模型问世,提升海洋装备作业能力

中国首个海洋领域开源大模型OceanGPT(沧渊)在浙江杭州正式发布,由浙江大学海洋精准感知技术全国重点实验室牵头研发。该模型具备海洋专业知识问答能力,能解读多模态数据,采用“慢思考”推理机制降低错误率。其可用于海洋机器人操控等场景,已在浙江大学海鹰系列水下机器人平台完成技术验证,提升了机器人代码编写效率。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

法律争议突破,法院判决Anthropic部分行为侵权,AI训练版权纠纷

2025年6月27日消息,针对Anthropic公司训练AI助手Claude引发的版权纠纷,法官裁定其使用合法来源书籍训练模型构成合理使用,但依赖盗版图书库训练属于侵权行为,该公司12月还需进行版权审判,可能面临高额赔偿金。这一判决凸显AI训练版权问题的复杂性。【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

视频音效技术突破,实现音画同步,可灵AI“视频音效”功能上线

2025年6月27日,可灵AI宣布全系列视频模型上线“视频音效”功能,用户生成视频时能同步生成立体声音效。同时,升级的“音效生成”功能新增“视频生音效”模块,基于自研模型实现音画帧级对齐,目前该功能已向所有用户限时免费开放。【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

模型开源突破,降低部署成本,腾讯混元-A13B模型发布

2025年6月27日,腾讯发布并开源混元大模型家族新成员混元-A13B模型。该模型采用MoE架构,参数规模达800亿,激活参数130亿,在保持顶尖开源模型效果的同时,降低推理延迟与计算开销,仅需1张中低端GPU卡即可部署。其在多项推理任务表现出色,还支持调用工具生成复杂指令响应,腾讯同时开源两个新数据集。【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

企业估值突破,SpaceX登顶,全球独角兽榜单公布

2025年6月27日消息,胡润研究院发布《2025全球独角兽榜》,全球独角兽企业数量达1523家创历史新高。美国以758家位居榜首,中国以343家紧随其后。SpaceX凭借26000亿元人民币估值首次成为全球最高价值独角兽,OpenAI和字节跳动并列第二,估值均为22000亿元人民币。【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

多领域技术突破,涵盖模型开源、功能上线等,6月27日AI日报汇总

2025年6月27日,AI领域有多则重要消息。腾讯开源混元-A13B模型,降低部署成本;可灵AI推出“视频音效”功能;Black Forest Labs开源图像编辑模型;OpenAI发布新模型;小米推出AI眼镜;迅雷发布下载MCP服务;HeyGen推出AI视频Agent;谷歌开源Gemma3n多模态模型,为端侧设备带来新功能。【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

AI语音设计突破,文本提示生成拟人语音,ElevenLabs发布Voice Design v3

ElevenLabs发布语音设计工具Voice Design v3,通过文本提示生成高度拟人化语音,支持70多种语言和数百种本地化口音,能精准解析多种信息,用户还可细腻控制语音,音频保真度更高。目前已在平台对所有用户开放,API访问即将推出。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

API模型突破,推出两款新模型助力深度研究,OpenAI发布Deep Research API新模型

OpenAI于2025年6月26日推出o3-deep-research-2025-06-26和o4-mini-deep-research-2025-06-26两款Deep Research API新模型,分别注重性能与效率,支持多步骤研究等功能,仅限ChatGPT生态内使用,旨在巩固其在企业级市场的领先地位。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

游戏玩法突破,联合三大模型打造智能竞技,巨人网络《太空杀》上线“残局对决”

巨人网络《太空杀》上线“残局对决”玩法,联合阿里通义千问、腾讯混元、字节豆包三大国产大模型,构建“真人玩家 vs AI智能体 vs 真人玩家”竞技格局,AI智能体具备多种能力,游戏还上线了大模型对决数据模块。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

虚拟试穿技术突破,AI助力直观体验试穿效果,谷歌推出Doppl应用

谷歌在美国iOS和Android平台推出实验性AI试穿应用Doppl,用户上传全身照片后可导入服装照片进行虚拟试穿,能保存、分享造型。该应用基于谷歌购物虚拟试穿功能,提供更个性化和沉浸式体验,但目前处于早期阶段。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

开发者活动突破,预计吸引超1500人参与,OpenAI宣布2025年开发者大会举办信息

OpenAI宣布2025年开发者大会(DevDay)定于10月6日在旧金山举行,预计吸引1500多名开发者。议程包含主题演讲和实操工作坊等,目前已开启更新通知注册,具体细节尚未完全公布。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

生成式AI冲击突破,影响SEO主导内容,谷歌搜索生成体验

由于谷歌在搜索结果中引入生成式AI,以SEO为主导的内容的未来成为热门话题。谷歌新的搜索生成体验将GAI直接集成到搜索结果中,可能导致搜索者更少点击内容创建者的链接,对内容创作者的引用流量和收入产生威胁。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

AI功能优化突破,测试新功能,YouTube

YouTube正在试验两项生成式AI功能,包括AI总结评论主题和会话AI工具,以改善观看体验。此外,还将测试“Dream Screen”功能,用户可输入想法为短片创建AI生成的视频或图像背景,并推出人工智能配音工具。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

AI创作辅助突破,引入大模型,知乎、微博

知乎发布“知海图AI”中文大模型,其“热榜摘要”功能已上线并开启内测。微博计划推出AIGC创作助手,旨在帮助创作者提高效率和质量,二者都不会取代创作者,而是作为辅助工具。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

AI工具搭建突破,基于OpenAI API,多种实用工具

在AI热潮推动下,基于OpenAI API的应用使用门槛降低。如Sider人工智能助手可在浏览网站时提供对话体验、划词增强等功能;Glarity Summary能为谷歌搜索、YouTube视频等生成文字摘要,还有ChatPDF可处理文档相关问题。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

电视观看体验突破,电视端观看用户超手机,YouTube

YouTube首席执行官称电视屏幕已超越移动设备,成为美国观众消费YouTube内容的主要方式。YouTube在电视市场影响力渐增,通过优化电视应用体验、推出新功能、吸引新广告商等,还将为创作者提供更多人工智能工具。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

虚拟试衣技术突破,上传照片即可体验,谷歌Doppl应用

谷歌近日推出AI试衣应用Doppl,用户上传全身照后,可选择各类服装照片或截图进行虚拟试穿,应用能生成试穿效果图,还具备将静态图像转换为AI生成视频的功能。目前该应用仅在美国上线,支持iOS和Android系统,处于实验阶段。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

AI助手革新突破,Gemini将取代Google助手,隐私保护升级

Google宣布7月7日推出重大更新,全新AI助手Gemini将取代Google Assistant成为Android设备新智能助理。用户可在关闭Gemini应用时,仍通过它控制手机多项功能。同时,用户能选择禁用应用活动设置,保护聊天记录不被用于训练AI模型,且对话记录最多保存72小时以确保安全。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

AI助手替代突破,Gemini取代Google助手,为Android用户带来新体验

Google宣布Gemini功能将在Android设备上取代Google助手,7月7日开始推送更新。更新后用户关闭Gemini应用也可使用其控制手机应用。用户还能选择禁用应用活动设置保护隐私,同时仍可使用日常功能,Gemini会保留最多72小时对话记录保障安全。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

视频创作变革突破,一键生成专业视频,HeyGen AI视频Agent

HeyGen推出AI视频Agent,用户上传图片、视频片段或文本素材,它就能自动完成从故事规划、脚本编写到镜头选择的整个视频制作流程,几分钟内生成可直接发布的专业级视频内容,适用于多种视频创作场景,操作简便。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

端侧AI性能突破,小体积实现云端能力,谷歌Gemma3n多模态模型

谷歌发布并开源全新端侧多模态大模型Gemma3n,其有E2B和E4B两个版本,内存占用小,支持多模态输入处理多种语言。E4B版本在LMArena评测表现出色,还具备多项技术创新。谷歌已在Hugging Face平台开源相关内容。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

图像编辑模型突破,参数120亿性能强大且开源,FLUX.1 Kontext [dev]

Black Forest Labs正式开源图像编辑模型FLUX.1 Kontext [dev],该模型有120亿参数,能在消费级硬件上运行。它具备多场景精准编辑、角色一致性强等优势,还可与主流工具无缝整合,采用非商业许可,推动开源社区发展。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

API服务升级,开放深度研究模型且网页搜索降价,OpenAI

OpenAI开放深度研究模型API访问权限,开发者可调用o3和o4-mini等深度研究版本模型,这些模型支持网页搜索功能且价格大幅下调,同时推出webhook功能提升开发者体验。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

图像编辑技术突破,开源且功能强大可媲美GPT-4o,FLUX.1 Kontext [dev]

Black Forest Labs开源全新图像编辑模型FLUX.1 Kontext [dev],基于12亿参数架构,具有上下文感知与精准编辑能力,支持多次迭代编辑,采用非商业许可,上线多个平台,未来还将拓展应用。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

人才竞争升级,Meta挖走OpenAI顶级研究员,AI超级智能团队扩充

Meta成功挖角OpenAI顶级研究员Trapit Bansal,他是强化学习推动者和AI推理模型o1的基础贡献者。此外,还有多位前OpenAI及其他公司研究人员加入Meta的AI超级智能部门,Meta希望借此在AI模型竞赛中实现领先。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

人才抢夺升级,Meta重金挖走OpenAI三大顶尖专家,发力AI领域

Meta从OpenAI挖走卢卡斯·贝耶尔、亚历山大·科列斯尼科夫和翟晓华三位顶级人工智能研究员,此次招聘由扎克伯格牵头,Meta还在AI基础设施方面投入大量资金,凸显科技巨头在AI人才竞争中的激烈程度。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

多模态RAG技术突破,统一理解复杂文档内容,港大RAG-Anything系统

港大黄超教授团队开源多模态智能处理系统RAG – Anything,它针对复杂多模态文档设计,整合多模态文档解析、语义理解等核心能力,能处理多种格式文档,构建跨模态语义关联网络,提供两种安装部署方式和灵活使用模式,助力AI多模态应用落地。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

代码图融合技术突破,提升代码任务处理能力,蚂蚁开源模型CGM

蚂蚁开源模型CGM将仓库代码图模态融入大模型,采用类似VLM的跨模态建模方式,通过两阶段训练让LLM理解代码图结构,构建Graph – RAG框架替代Agent。在多个测试基准中,CGM在代码修复和补全任务上成绩领先,且基于开源模型,技术论文、代码等均已开源。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

数学猜想验证突破,制成单稳四面体实物,建筑学者阿尔马迪

建筑学者杰尔戈·阿尔马迪借助计算机辅助,证实了康威提出的不均匀配重单稳四面体猜想,并制作出实物。他通过算法程序找到符合条件的四面体顶点坐标,经团队探索确定单稳四面体的结构条件,最终成功制作出模型,目前团队致力于成果在航空领域的应用。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

厨房机器人技术突破,获融资并取得食品经营许可证,享刻智能LAVA机器人

享刻智能的LAVA机器人获得数千万元Pre – A轮融资,该机器人能快速制作薯条、汉堡等,具备视觉识别食材、自主判断烹饪时间等能力,已取得北京市首张具身智能机器人食品经营许可证,拿到千台订单并计划下半年启动海外部署交付,后续还将围绕“三机一体”架构升级。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

信息检索Agent突破,超越GPT-4o基准成绩,阿里WebDancer

阿里发布WebDancer信息检索Agent,它能自主上网搜索、做攻略,具备多步推理、工具使用和泛化能力。在GAIA和WebWalkerQA基准测试中,WebDancer成绩优于部分基线模型和开源框架。其通过四阶段训练范式提升能力,模型和方法均已开源。 【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

蛋白质逆折叠技术突破,MapDiff框架提升预测精度,谢菲尔德大学与阿斯利康

谢菲尔德大学和阿斯利康提出MapDiff框架,该框架基于掩模先验的去噪扩散,能准确捕捉蛋白质逆折叠的结构信息和残基相互作用。它以给定蛋白质骨架为条件迭代生成低噪声氨基酸序列,在四个序列设计基准测试中表现优异,生成的序列与天然蛋白质特征相似。研究成果已发表于《Nature Machine Intelligence》。【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

智能体安全评估突破,AgentAuditor框架达人类评估水平,多校联合团队

纽约大学、南洋理工大学等多校研究者推出AgentAuditor框架,它将结构化记忆和RAG结合,赋予LLM评估器类似人类的学习和理解能力,从而精准识别智能体安全风险。在多个基准测试中,AgentAuditor能显著提升LLM评估器表现,评估准确率接近甚至超越单个人类标注员平均水平。同时,研究团队还构建了ASSEBench基准。【短评】【注意】某些网址加载慢,打不开是因为魔法问题。

前言.

今日更新:

目前已经上线滴工具&板块:

标签解析:

【伪人资讯】:虽然心猿社对资讯的真实性,时效性,广告问题已经做了初步的人工筛选,但仍然有社会影响大的,内容存在虚假的资讯存在,这样的资讯我们会标注上“伪人资讯”,目的是进行澄清,防止大家被外面的资讯误导。

【仔细查验】:每一篇资讯心猿社都会继续人工查验,其中,我们认为要仔细核实,或者是要仔细阅读来帮助大家阅读的资讯,心猿社会进行“仔细查验”。

【追踪】:心猿社会对仍然有疑问的资讯进行追踪,追踪结果若与原资讯出入很大,心猿社会在后面的省流日报公布。

板块解析:

【产品突破】和【研究突破】:由于心猿社还处于信息库建立的初级阶段,所以部分不算突破的突破有时也会划进去,这是因为心猿社对该领域信息库建立的还不完善的缘故。

学术深思】:依据心猿社理论体系,对资讯进行延伸解读。

有关超链接观感问题:您所看到的超链接(如心猿社)的实现是我们自己手搓的插件,目前还有许多需要优化的地方(比如白名单,黑名单功能等),所以有的地方视觉体验还不那么好,见谅呀。

优质活动


开源与产品


产品突破!

智能家居模型突破,算法能力提升,架构升级,萤石蓝海大模型【仔细查验】

6月26日,萤石网络推出萤石蓝海大模型2.0版本,实现感知、理解、记忆等算法能力升级,新推垂直场景混合大模型,覆盖多个领域。同时升级AI核心架构EZVIZ HomePlay OS ,涉及场景化智能体、设备开放和App开放等层面,并分享多垂直场景落地成果。【短评】就是综合能力都提高了,这个也不好对比,感兴趣就直接看详情吧~

声音克隆上线APP端,成品难辨真假且素材需求短,科大讯飞【仔细查验】【伪人资讯】

科大讯飞升级声音复刻技术,在讯飞星火App和开放平台上线新版功能。用户通过选择性别、朗读一句话即可快速创建自定义发音人,学习素材仅需不到10s,复刻效果能精准还原多种发音特征,达到人机难辨的程度,还在多领域广泛应用。

  • 【短评】现在的AI语音克隆聚焦在情绪,看示例效果确实可以,但是网页端是没有的,想要快捷体验,得去APP端,而且功能性非常有限,克隆完声音只能用来和自己对话;如果你想克隆声音,可以看MiniMax的海外版(就是以前的海螺问问),它的语音克隆目前可以说是TTS(文本转语音)第一梯队的水平。
  • 【伪人鉴定】首先,给的视频例子有问题,这个例子是RVC技术(你可以理解为AI翻唱),现在的TTS根本做不到这么细腻的情绪表达,而这个上线的新功能很明显是TTS技术,RVC和TTS,这可差得太远了——意思就是,这个上线的新功能是无法实现例子中的效果的,这很容易误导大家。其次,网络上说有去和其他工具对比,也就是打榜,但是心猿社没有找到相应的内容。但是心猿社还是把它放在了产品突破中,原因是APP端的AI工具基本上就都没有声音克隆技术,而且讯飞在声音克隆上确实是有一套的。
  • 【注意】某些网址加载慢,打不开是因为魔法问题。


研究突破:)

通用AI强化学习突破,RLPR技术拓展通用推理,清华NLP实验室【仔细查验】

清华大学自然语言处理实验室提出基于参考概率奖励的强化学习(RLPR)技术。该技术通过Prob-to-Reward方法提高概率奖励质量,还提出基于奖励标准差的动态过滤机制,提升强化学习稳定性和性能。RLPR解决了现有基于可验证奖励的强化学习(RLVR)范式的领域依赖问题,在多种主流模型上验证了有效性。

  • 【论文核心】这个方法的逻辑是让模型反复试生成推理答案,用 “生成正确答案的概率” 当积分,积分高的操作就多鼓励(参数往这个方向调),同时过滤掉无效生成,让模型越练越会推理。传统的强化学习要对每个学科找个裁判,用外部的这些裁判对模型的生成质量打分,分数高的进行鼓励;这个方法就不需要了,只需要规定一个标准答案,就可以让模型自己奖励自己。
  • 【思考启发】这套方法的目前面临的局限是:要进行更大量的数据工作,简单的答案还好,但是那种长文本答案,处理的量大,难度也高;但这是通用AI正确的方向,现在的大语言模型基本是MOE架构的江山,MOE最大的问题就是模块化,当你询问问题,它会先分析你的问题,再决定调用哪些模块(比如数学,比如生物)——所以RLPR这套方案好处非常明显,减去了中间过程,高度的一体性:比如正确答案是 “水”,模型答 “H2O”,传统裁判可能判错,但 RLPR 看 “水” 和 “H2O” 的概率都很高,会给高分。
  • 学术深思这个模式其实就和心猿社的推演论非常像,只不过,推演论虽然是用语言作为载体,但讨论的是世界各个事物的联系(逻辑链工程)。它的核心是对一种复合表达(以一句话为载体)不断进行拆解,不断建立“索引分析”的同时进行“混沌分析”,从而不断接近世界的本质。没错,什么是世界的本质?人类社会来到了这个关键的节点——心猿社将探寻这种本质的方向分为“尺度论”与“维度论”。
  • 学术深思2】不光是这篇论文,前几天的华为HDC大会对AI的发展也笃定在“原子化”思想(点我查看);哈佛大学成功在蝌蚪脑内实现单神经元电活动的连续追踪,支持5天以上全脑动态记录(点我查看);字节跳动与上海交大推出的 ProtoReasoning 框架便是依据“AI模型训练中的跨域泛化能力现象”——AI模型在数学上训练后,在逻辑推理,创意写作上也表现出色(点我查看);物质与相互作用,生物反射,意识数据,混沌分析和索引分析,这些实际上是同一个思路,心猿社目前给出的方案是用“尺度论”,“推演论”,“人文社科模型”来诠释这个思路。
  • 【关联测评集】MMLU-ProGPQA Diamond,TheoremQA,MATH-500,Minerva——Avg@2的意思是 “前两次尝试的平均得分”
  • 【注意】某些网址加载慢,打不开是因为魔法问题。

扩散语言模型强化训练突破,coupled-GRPO算法提升性能,苹果公司

苹果研究团队针对扩散语言模型(dLLM)后训练问题,提出coupled-GRPO算法。该算法基于对DiffuCoder的分析,通过定制优化GRPO,采用全新耦合采样方案,在训练dLLM时实现更稳定的奖励学习与更低的自回归性,显著提升生成质量与并行效率。实验结果验证了强化学习与扩散模型结合的潜力。

【短评】就是优化了扩散语言模型强化学习的方法。大模型的核心是“猜词”,比如一句话是 “今天很热,适合吃…”,那么模型就要猜下一个词是什么,猜对了有奖励,猜错了有惩罚,模型通过不断试错,学会优先猜能拿奖励的词,最终生成更符合要求的内容——这个就叫强化学习。【注意】某些网址加载慢,打不开是因为魔法问题。

名词解析
图片[1] | 【AI日报·6/28】测试中—2025刊 | 心猿社


思维必看!


国内动向*

递表港交所,C端效率类AI产品排名领先,合合信息【仔细查验】

6月26日,合合信息递表港交所。该公司是原生AI公司,业务覆盖全球超200个国家和地区,3款C端产品拥有数亿全球用户群。按2024年相关收入计,在MAU超1亿的全球C端效率类AI产品公司中排名全球第五、中国第一。旗下有多款爆款应用,过去三年营收、净利润持续增长。【短评】他们聚焦的点是文档的扫描,OCR识别等功能,全能扫描王就是他们家的,具体可以看官网介绍。

上市冲刺,提交港交所申请,镁伽科技【仔细查验】

6月25日,镁伽科技向港交所提交上市申请。该公司2016年成立,总部位于杭州,是中国机器人技术应用领域领先的自主智能体提供商。2022 – 2024年,其营收年复合增长率达43%,但尚未盈利。研发人员占比50.7%,拥有超450项专利。前五大客户贡献过半数营收,主要供应商与客户存在重叠。 【短评】具身智能体,你理解成机器人就好。它和宇树其实业务上不算冲突,镁伽科技更偏向自动化,更偏向行业与工程,走的是专精路线;宇树则是探索执行能力,让机器人更像人,走的是通用路线。【注意】某些网址加载慢,打不开是因为魔法问题。


国外资讯:

谷歌重新开放AI搜索工具“Ask Photos”

谷歌重新开放AI搜索工具“Ask Photos”访问权限并优化性能,用户可立即获取初步结果,Gemini模型持续处理复杂查询。7月7日起,Android用户关闭“应用活动记录”后,Gemini仍可执行基础设备操作且对话数据不用于AI训练。谷歌Sheets新增AI函数功能,由Gemini驱动,可帮助用户生成文本填充电子表格,目前面向特定用户开放。 【短评】AI办公,这也是通用AI的一个发展趋势,WPS表示瑟瑟发抖。【注意】某些网址加载慢,打不开是因为魔法问题。


有点意思~

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容