【AI日报·5/30】各领域突破—2025刊

社群交流微信公众号图标

媒体矩阵联系我们图标

AI工具箱请求更新图标

栏目介绍

新的突破！

AI绘画一致性突破

FLUX.1 Kontext发布，变态的一致性，支持连续图片微调，在多轮编辑中能够高度保持外观的一致性！【短评】AI视频狠狠狠需要！图片的一致性增强其实对AI视频来说是非常重要的利好！

查看详情官网介绍

AI多模态，开源模型刷新记录

小米多模态大模型 Xiaomi MiMo-VL 已开源。其中 MiMo-VL-7B 参数量 7B（70亿参数），采用经典三模块架构及创新混合在线强化学习算法 MORL，在多项多模态任务中超越大参数闭源模型，在 40 多项评测中表现惊艳，尤其在复杂推理和 GUI 交互领域刷新开源记录。

查看详情项目地址评估套件

让TTS更有情感！

Hume 推出语音语言模型EVI3，突破传统 TTS 限制，支持任意风格语音生成（如模仿莎士比亚语调） 和情感精准传递（如识别用户愤怒情绪并调整回应语气）。模型采用语音到语音架构，延迟低至 150ms（GPT-4o 语音生成延迟 250ms），已应用于虚拟助手、跨语言翻译，实测在复杂情感对话（如心理咨询场景）中用户满意度达 92%。【注意】该项目现在官网进不去。

查看详情项目地址

图表更丰富的PPT

Manus 推出 AI 幻灯片工具Slides，输入提示词（如 “生成云计算市场分析 PPT”）即可自动生成结构化演示文稿，支持 Google Slides 导出。实测显示，10 分钟可生成 8 页专业 PPT（含数据图表、案例示意图），用户修改效率提升 3 倍，已被斯坦福商学院用于教学材料制作，网友评价 “当前 PPT 工具第一名”。【短评】国内智谱清言首选，Kimi备用，具体可以看心猿社的通用AI/横向测评

查看详情项目地址

重要动向：

MJ：用户投票决定功能开发方向

Midjourney V7升级，渲染速度提升了40%，对文字理解也更强，并且，启动了第二轮社区路线图投票活动，用户可以参与决定未来功能开发方向。【短评】作为以前的王者，现在开始更加关注需求端（易用性），这条路说不定让你重回巅峰呢？【注意】项目地址，论文地址加载慢，打不开是因为魔法问题。

查看详情项目官网

Hugging Face 进军人形机器人市场

Hugging Face 推出开源人形机器人HopeJR（全尺寸，66 个驱动自由度，3000 美元） 和Reachy Mini（桌面级，250-300 美元），支持行走、机械臂操作等功能。相比宇树 G1（1.6 万美元），其价格降低 80%，开源架构允许开发者自定义传感器和算法，已被 The Robot Studio 等机构用于教育和科研场景。【注意】项目地址，论文地址加载慢，打不开是因为魔法问题。

查看详情项目官网

发烧友（研究）

支持MCP协议，适配千问3

阿里云通义灵码 AI IDE 正式上线，深度适配千问 3 大模型，集成编程智能体、行间建议预测（NES）、行间会话等功能，支持 MCP 协议扩展 3000 + 工具服务，可自主完成复杂编程任务。

查看详情项目地址

开源LLM，AI思维可视化，定位AI幻觉来源

Anthropic 开源AI决策分析工具：“电路追踪”，通过归因图可视化大模型内部推理路径（如识别影响回答的关键神经元），配套 Neuronpedia 交互式前端降低研究门槛。该工具可定位模型幻觉来源（如错误关联知识点），已用于 Claude 3.5 的决策优化，推动 AI 透明化发展，相关论文已提交至 NeurIPS 2025。【短评】其实就是AI纠错的进一步加强。【注意】项目地址，论文地址加载慢，打不开是因为魔法问题。

查看详情项目地址

开源自主搜索AI智能体 WebAgent

阿里开源WebAgent智能体，包含 WebDancer（训练模块）和 WebWalker（测试模块），可模拟人类在网络中主动搜索、多步推理（如整合多篇文献生成研究综述）。其创新算法将数据效率提升 40%，支持学术文献检索、市场动态分析等场景，已用于内部电商趋势预测和科研辅助，开源代码在 GitHub 获星超 5000。【短评】可以看一看智谱清言的AutoGLM，那个是简易版本的AI代理（智能体）。【注意】项目地址，论文地址加载慢，打不开是因为魔法问题。

查看详情项目地址