AI音乐编辑工具突破,Suno收购WavTool强化功能,应对版权诉讼
AI音乐公司Suno于本周四宣布收购基于浏览器的AI数字音频工作站WavTool,旨在增强歌曲创作和制作方面的编辑能力。此次收购时机微妙,正值Suno面临多起版权诉讼,乡村音乐人Tony Justice等已对其提起诉讼,指控训练AI音乐生成器时使用受版权保护的音频录音。此外,Suno在今年5月获得1.25亿美元融资。
海洋科技领域突破,“沧渊”大模型问世,提升海洋装备作业能力
中国首个海洋领域开源大模型OceanGPT(沧渊)在浙江杭州正式发布,由浙江大学海洋精准感知技术全国重点实验室牵头研发。该模型具备海洋专业知识问答能力,能解读多模态数据,采用“慢思考”推理机制降低错误率。其可用于海洋机器人操控等场景,已在浙江大学海鹰系列水下机器人平台完成技术验证,提升了机器人代码编写效率。
法律争议突破,法院判决Anthropic部分行为侵权,AI训练版权纠纷
2025年6月27日消息,针对Anthropic公司训练AI助手Claude引发的版权纠纷,法官裁定其使用合法来源书籍训练模型构成合理使用,但依赖盗版图书库训练属于侵权行为,该公司12月还需进行版权审判,可能面临高额赔偿金。这一判决凸显AI训练版权问题的复杂性。
视频音效技术突破,实现音画同步,可灵AI“视频音效”功能上线
2025年6月27日,可灵AI宣布全系列视频模型上线“视频音效”功能,用户生成视频时能同步生成立体声音效。同时,升级的“音效生成”功能新增“视频生音效”模块,基于自研模型实现音画帧级对齐,目前该功能已向所有用户限时免费开放。
模型开源突破,降低部署成本,腾讯混元-A13B模型发布
2025年6月27日,腾讯发布并开源混元大模型家族新成员混元-A13B模型。该模型采用MoE架构,参数规模达800亿,激活参数130亿,在保持顶尖开源模型效果的同时,降低推理延迟与计算开销,仅需1张中低端GPU卡即可部署。其在多项推理任务表现出色,还支持调用工具生成复杂指令响应,腾讯同时开源两个新数据集。
AI语音设计突破,文本提示生成拟人语音,ElevenLabs发布Voice Design v3
ElevenLabs发布语音设计工具Voice Design v3,通过文本提示生成高度拟人化语音,支持70多种语言和数百种本地化口音,能精准解析多种信息,用户还可细腻控制语音,音频保真度更高。目前已在平台对所有用户开放,API访问即将推出。
虚拟试穿技术突破,AI助力直观体验试穿效果,谷歌推出Doppl应用
谷歌在美国iOS和Android平台推出实验性AI试穿应用Doppl,用户上传全身照片后可导入服装照片进行虚拟试穿,能保存、分享造型。该应用基于谷歌购物虚拟试穿功能,提供更个性化和沉浸式体验,但目前处于早期阶段。
生成式AI冲击突破,影响SEO主导内容,谷歌搜索生成体验
由于谷歌在搜索结果中引入生成式AI,以SEO为主导的内容的未来成为热门话题。谷歌新的搜索生成体验将GAI直接集成到搜索结果中,可能导致搜索者更少点击内容创建者的链接,对内容创作者的引用流量和收入产生威胁。
AI功能优化突破,测试新功能,YouTube
YouTube正在试验两项生成式AI功能,包括AI总结评论主题和会话AI工具,以改善观看体验。此外,还将测试“Dream Screen”功能,用户可输入想法为短片创建AI生成的视频或图像背景,并推出人工智能配音工具。
AI创作辅助突破,引入大模型,知乎、微博
知乎发布“知海图AI”中文大模型,其“热榜摘要”功能已上线并开启内测。微博计划推出AIGC创作助手,旨在帮助创作者提高效率和质量,二者都不会取代创作者,而是作为辅助工具。
电视观看体验突破,电视端观看用户超手机,YouTube
YouTube首席执行官称电视屏幕已超越移动设备,成为美国观众消费YouTube内容的主要方式。YouTube在电视市场影响力渐增,通过优化电视应用体验、推出新功能、吸引新广告商等,还将为创作者提供更多人工智能工具。
虚拟试衣技术突破,上传照片即可体验,谷歌Doppl应用
谷歌近日推出AI试衣应用Doppl,用户上传全身照后,可选择各类服装照片或截图进行虚拟试穿,应用能生成试穿效果图,还具备将静态图像转换为AI生成视频的功能。目前该应用仅在美国上线,支持iOS和Android系统,处于实验阶段。
AI助手革新突破,Gemini将取代Google助手,隐私保护升级
Google宣布7月7日推出重大更新,全新AI助手Gemini将取代Google Assistant成为Android设备新智能助理。用户可在关闭Gemini应用时,仍通过它控制手机多项功能。同时,用户能选择禁用应用活动设置,保护聊天记录不被用于训练AI模型,且对话记录最多保存72小时以确保安全。
AI助手替代突破,Gemini取代Google助手,为Android用户带来新体验
Google宣布Gemini功能将在Android设备上取代Google助手,7月7日开始推送更新。更新后用户关闭Gemini应用也可使用其控制手机应用。用户还能选择禁用应用活动设置保护隐私,同时仍可使用日常功能,Gemini会保留最多72小时对话记录保障安全。
视频创作变革突破,一键生成专业视频,HeyGen AI视频Agent
HeyGen推出AI视频Agent,用户上传图片、视频片段或文本素材,它就能自动完成从故事规划、脚本编写到镜头选择的整个视频制作流程,几分钟内生成可直接发布的专业级视频内容,适用于多种视频创作场景,操作简便。
端侧AI性能突破,小体积实现云端能力,谷歌Gemma3n多模态模型
谷歌发布并开源全新端侧多模态大模型Gemma3n,其有E2B和E4B两个版本,内存占用小,支持多模态输入处理多种语言。E4B版本在LMArena评测表现出色,还具备多项技术创新。谷歌已在Hugging Face平台开源相关内容。
图像编辑模型突破,参数120亿性能强大且开源,FLUX.1 Kontext [dev]
Black Forest Labs正式开源图像编辑模型FLUX.1 Kontext [dev],该模型有120亿参数,能在消费级硬件上运行。它具备多场景精准编辑、角色一致性强等优势,还可与主流工具无缝整合,采用非商业许可,推动开源社区发展。
图像编辑技术突破,开源且功能强大可媲美GPT-4o,FLUX.1 Kontext [dev]
Black Forest Labs开源全新图像编辑模型FLUX.1 Kontext [dev],基于12亿参数架构,具有上下文感知与精准编辑能力,支持多次迭代编辑,采用非商业许可,上线多个平台,未来还将拓展应用。
多模态RAG技术突破,统一理解复杂文档内容,港大RAG-Anything系统
港大黄超教授团队开源多模态智能处理系统RAG – Anything,它针对复杂多模态文档设计,整合多模态文档解析、语义理解等核心能力,能处理多种格式文档,构建跨模态语义关联网络,提供两种安装部署方式和灵活使用模式,助力AI多模态应用落地。
代码图融合技术突破,提升代码任务处理能力,蚂蚁开源模型CGM
蚂蚁开源模型CGM将仓库代码图模态融入大模型,采用类似VLM的跨模态建模方式,通过两阶段训练让LLM理解代码图结构,构建Graph – RAG框架替代Agent。在多个测试基准中,CGM在代码修复和补全任务上成绩领先,且基于开源模型,技术论文、代码等均已开源。
数学猜想验证突破,制成单稳四面体实物,建筑学者阿尔马迪
建筑学者杰尔戈·阿尔马迪借助计算机辅助,证实了康威提出的不均匀配重单稳四面体猜想,并制作出实物。他通过算法程序找到符合条件的四面体顶点坐标,经团队探索确定单稳四面体的结构条件,最终成功制作出模型,目前团队致力于成果在航空领域的应用。
厨房机器人技术突破,获融资并取得食品经营许可证,享刻智能LAVA机器人
享刻智能的LAVA机器人获得数千万元Pre – A轮融资,该机器人能快速制作薯条、汉堡等,具备视觉识别食材、自主判断烹饪时间等能力,已取得北京市首张具身智能机器人食品经营许可证,拿到千台订单并计划下半年启动海外部署交付,后续还将围绕“三机一体”架构升级。
信息检索Agent突破,超越GPT-4o基准成绩,阿里WebDancer
阿里发布WebDancer信息检索Agent,它能自主上网搜索、做攻略,具备多步推理、工具使用和泛化能力。在GAIA和WebWalkerQA基准测试中,WebDancer成绩优于部分基线模型和开源框架。其通过四阶段训练范式提升能力,模型和方法均已开源。
蛋白质逆折叠技术突破,MapDiff框架提升预测精度,谢菲尔德大学与阿斯利康
谢菲尔德大学和阿斯利康提出MapDiff框架,该框架基于掩模先验的去噪扩散,能准确捕捉蛋白质逆折叠的结构信息和残基相互作用。它以给定蛋白质骨架为条件迭代生成低噪声氨基酸序列,在四个序列设计基准测试中表现优异,生成的序列与天然蛋白质特征相似。研究成果已发表于《Nature Machine Intelligence》。
前言.
今日更新:
- 【AI+英语协同】单词&短语背记方案,双端同步版——自动化更新:消除扇贝划选单词会出现的悬浮框,方便看句子。
目前已经上线滴工具&板块:
标签解析:
【伪人资讯】:虽然心猿社对资讯的真实性,时效性,广告问题已经做了初步的人工筛选,但仍然有社会影响大的,内容存在虚假的资讯存在,这样的资讯我们会标注上“伪人资讯”,目的是进行澄清,防止大家被外面的资讯误导。
【仔细查验】:每一篇资讯心猿社都会继续人工查验,其中,我们认为要仔细核实,或者是要仔细阅读来帮助大家阅读的资讯,心猿社会进行“仔细查验”。
【追踪】:心猿社会对仍然有疑问的资讯进行追踪,追踪结果若与原资讯出入很大,心猿社会在后面的省流日报公布。
板块解析:
【产品突破】和【研究突破】:由于心猿社还处于信息库建立的初级阶段,所以部分不算突破的突破有时也会划进去,这是因为心猿社对该领域信息库建立的还不完善的缘故。
有关超链接观感问题:您所看到的超链接(如心猿社)的实现是我们自己手搓的插件,目前还有许多需要优化的地方(比如白名单,黑名单功能等),所以有的地方视觉体验还不那么好,见谅呀。
优质活动
开源与产品
产品突破!
智能家居模型突破,算法能力提升,架构升级,萤石蓝海大模型【仔细查验】
6月26日,萤石网络推出萤石蓝海大模型2.0版本,实现感知、理解、记忆等算法能力升级,新推垂直场景混合大模型,覆盖多个领域。同时升级AI核心架构EZVIZ HomePlay OS ,涉及场景化智能体、设备开放和App开放等层面,并分享多垂直场景落地成果。
声音克隆上线APP端,成品难辨真假且素材需求短,科大讯飞【仔细查验】【伪人资讯】
科大讯飞升级声音复刻技术,在讯飞星火App和开放平台上线新版功能。用户通过选择性别、朗读一句话即可快速创建自定义发音人,学习素材仅需不到10s,复刻效果能精准还原多种发音特征,达到人机难辨的程度,还在多领域广泛应用。
【短评】 现在的AI语音克隆聚焦在情绪,看示例效果确实可以,但是网页端是没有的,想要快捷体验,得去APP端,而且功能性非常有限,克隆完声音只能用来和自己对话;如果你想克隆声音,可以看MiniMax的海外版(就是以前的海螺问问),它的语音克隆目前可以说是TTS(文本转语音)第一梯队的水平。【伪人鉴定】 首先,给的视频例子有问题,这个例子是RVC技术(你可以理解为AI翻唱),现在的TTS根本做不到这么细腻的情绪表达,而这个上线的新功能很明显是TTS技术,RVC和TTS,这可差得太远了——意思就是,这个上线的新功能是无法实现例子中的效果的,这很容易误导大家。其次,网络上说有去和其他工具对比,也就是打榜,但是心猿社没有找到相应的内容。但是心猿社还是把它放在了产品突破中,原因是APP端的AI工具基本上就都没有声音克隆技术,而且讯飞在声音克隆上确实是有一套的。【注意】 某些网址加载慢,打不开是因为魔法问题。
研究突破:)
通用AI强化学习突破,RLPR技术拓展通用推理,清华NLP实验室【仔细查验】
清华大学自然语言处理实验室提出基于参考概率奖励的强化学习(RLPR)技术。该技术通过Prob-to-Reward方法提高概率奖励质量,还提出基于奖励标准差的动态过滤机制,提升强化学习稳定性和性能。RLPR解决了现有基于可验证奖励的强化学习(RLVR)范式的领域依赖问题,在多种主流模型上验证了有效性。
【论文核心】 这个方法的逻辑是让模型反复试生成推理答案,用 “生成正确答案的概率” 当积分,积分高的操作就多鼓励(参数往这个方向调),同时过滤掉无效生成,让模型越练越会推理。传统的强化学习要对每个学科找个裁判,用外部的这些裁判对模型的生成质量打分,分数高的进行鼓励;这个方法就不需要了,只需要规定一个标准答案,就可以让模型自己奖励自己。【思考启发】 这套方法的目前面临的局限是:要进行更大量的数据工作,简单的答案还好,但是那种长文本答案,处理的量大,难度也高;但这是通用AI正确的方向,现在的大语言模型基本是MOE架构的江山,MOE最大的问题就是模块化,当你询问问题,它会先分析你的问题,再决定调用哪些模块(比如数学,比如生物)——所以RLPR这套方案好处非常明显,减去了中间过程,高度的一体性:比如正确答案是 “水”,模型答 “H2O”,传统裁判可能判错,但 RLPR 看 “水” 和 “H2O” 的概率都很高,会给高分。【学术深思】 这个模式其实就和心猿社的推演论非常像,只不过,推演论虽然是用语言作为载体,但讨论的是世界各个事物的联系(逻辑链工程)。它的核心是对一种复合表达(以一句话为载体)不断进行拆解,不断建立“索引分析”的同时进行“混沌分析”,从而不断接近世界的本质。没错,什么是世界的本质?人类社会来到了这个关键的节点——心猿社将探寻这种本质的方向分为“尺度论”与“维度论”。【学术深思2】 不光是这篇论文,前几天的华为HDC大会对AI的发展也笃定在“原子化”思想(点我查看);哈佛大学成功在蝌蚪脑内实现单神经元电活动的连续追踪,支持5天以上全脑动态记录(点我查看);字节跳动与上海交大推出的 ProtoReasoning 框架便是依据“AI模型训练中的跨域泛化能力现象”——AI模型在数学上训练后,在逻辑推理,创意写作上也表现出色(点我查看);物质与相互作用,生物反射,意识数据,混沌分析和索引分析,这些实际上是同一个思路,心猿社目前给出的方案是用“尺度论”,“推演论”,“人文社科模型”来诠释这个思路。【关联测评集】 MMLU-Pro,GPQA Diamond,TheoremQA,MATH-500,Minerva——Avg@2的意思是 “前两次尝试的平均得分”【注意】 某些网址加载慢,打不开是因为魔法问题。
扩散语言模型强化训练突破,coupled-GRPO算法提升性能,苹果公司
苹果研究团队针对扩散语言模型(dLLM)后训练问题,提出coupled-GRPO算法。该算法基于对DiffuCoder的分析,通过定制优化GRPO,采用全新耦合采样方案,在训练dLLM时实现更稳定的奖励学习与更低的自回归性,显著提升生成质量与并行效率。实验结果验证了强化学习与扩散模型结合的潜力。
![图片[1] | 【AI日报·6/28】测试中—2025刊 | 心猿社](https://xysai.top/wp-content/smush-webp/2025/06/大模型训练方法.png.webp)
思维必看!
国内动向*
递表港交所,C端效率类AI产品排名领先,合合信息【仔细查验】
6月26日,合合信息递表港交所。该公司是原生AI公司,业务覆盖全球超200个国家和地区,3款C端产品拥有数亿全球用户群。按2024年相关收入计,在MAU超1亿的全球C端效率类AI产品公司中排名全球第五、中国第一。旗下有多款爆款应用,过去三年营收、净利润持续增长。
暂无评论内容