【AI日报·5/30】各领域突破—2025刊

新的突破!

AI绘画一致性突破

FLUX.1 Kontext发布,变态的一致性,支持连续图片微调,在多轮编辑中能够高度保持外观的一致性!【短评】AI视频狠狠狠需要!图片的一致性增强其实对AI视频来说是非常重要的利好!

AI多模态,开源模型刷新记录

小米多模态大模型 Xiaomi MiMo-VL 已开源。其中 MiMo-VL-7B 参数量 7B(70亿参数),采用经典三模块架构及创新混合在线强化学习算法 MORL,在多项多模态任务中超越大参数闭源模型,在 40 多项评测中表现惊艳,尤其在复杂推理和 GUI 交互领域刷新开源记录。

让TTS更有情感!

Hume 推出语音语言模型EVI3,突破传统 TTS 限制,支持任意风格语音生成(如模仿莎士比亚语调) 和情感精准传递(如识别用户愤怒情绪并调整回应语气)。模型采用语音到语音架构,延迟低至 150ms(GPT-4o 语音生成延迟 250ms),已应用于虚拟助手、跨语言翻译,实测在复杂情感对话(如心理咨询场景)中用户满意度达 92%。【注意】该项目现在官网进不去。

图表更丰富的PPT

Manus 推出 AI 幻灯片工具Slides,输入提示词(如 “生成云计算市场分析 PPT”)即可自动生成结构化演示文稿,支持 Google Slides 导出。实测显示,10 分钟可生成 8 页专业 PPT(含数据图表、案例示意图),用户修改效率提升 3 倍,已被斯坦福商学院用于教学材料制作,网友评价 “当前 PPT 工具第一名”。【短评】国内智谱清言首选,Kimi备用,具体可以看心猿社通用AI/横向测评


重要动向:

MJ:用户投票决定功能开发方向

Midjourney V7升级,渲染速度提升了40%,对文字理解也更强,并且,启动了第二轮社区路线图投票活动,用户可以参与决定未来功能开发方向。【短评】作为以前的王者,现在开始更加关注需求端(易用性),这条路说不定让你重回巅峰呢?【注意】项目地址,论文地址加载慢,打不开是因为魔法问题。

Hugging Face 进军人形机器人市场

Hugging Face 推出开源人形机器人HopeJR(全尺寸,66 个驱动自由度,3000 美元)Reachy Mini(桌面级,250-300 美元),支持行走、机械臂操作等功能。相比宇树 G1(1.6 万美元),其价格降低 80%,开源架构允许开发者自定义传感器和算法,已被 The Robot Studio 等机构用于教育和科研场景。【注意】项目地址,论文地址加载慢,打不开是因为魔法问题。


发烧友(研究)

支持MCP协议,适配千问3

阿里云通义灵码 AI IDE 正式上线,深度适配千问 3 大模型,集成编程智能体、行间建议预测(NES)、行间会话等功能,支持 MCP 协议扩展 3000 + 工具服务,可自主完成复杂编程任务。

开源LLM,AI思维可视化,定位AI幻觉来源

Anthropic 开源AI决策分析工具:“电路追踪”,通过归因图可视化大模型内部推理路径(如识别影响回答的关键神经元),配套 Neuronpedia 交互式前端降低研究门槛。该工具可定位模型幻觉来源(如错误关联知识点),已用于 Claude 3.5 的决策优化,推动 AI 透明化发展,相关论文已提交至 NeurIPS 2025。【短评】其实就是AI纠错的进一步加强。【注意】项目地址,论文地址加载慢,打不开是因为魔法问题。

开源自主搜索AI智能体 WebAgent

阿里开源WebAgent智能体,包含 WebDancer(训练模块)和 WebWalker(测试模块),可模拟人类在网络中主动搜索、多步推理(如整合多篇文献生成研究综述)。其创新算法将数据效率提升 40%,支持学术文献检索、市场动态分析等场景,已用于内部电商趋势预测和科研辅助,开源代码在 GitHub 获星超 5000。【短评】可以看一看智谱清言的AutoGLM,那个是简易版本的AI代理智能体)。【注意】项目地址,论文地址加载慢,打不开是因为魔法问题。


心猿社相关.

快报:AI金选工具箱正式上线啦!以用户需求出发,免费好用工具的聚集地!

捧哏:我现在就要爽用!

提醒:您所看到的超链接(如心猿社)的实现是我们自己手搓的插件,目前还有许多需要优化的地方(比如白名单,黑名单功能等),所以有的地方视觉体验还不那么好,见谅呀。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容