新的突破!
AI绘画一致性突破
FLUX.1 Kontext发布,变态的一致性,支持连续图片微调,在多轮编辑中能够高度保持外观的一致性!【短评】AI视频狠狠狠需要!图片的一致性增强其实对AI视频来说是非常重要的利好!
AI多模态,开源模型刷新记录
小米多模态大模型 Xiaomi MiMo-VL 已开源。其中 MiMo-VL-7B 参数量 7B(70亿参数),采用经典三模块架构及创新混合在线强化学习算法 MORL,在多项多模态任务中超越大参数闭源模型,在 40 多项评测中表现惊艳,尤其在复杂推理和 GUI 交互领域刷新开源记录。
让TTS更有情感!
Hume 推出语音语言模型EVI3,突破传统 TTS 限制,支持任意风格语音生成(如模仿莎士比亚语调) 和情感精准传递(如识别用户愤怒情绪并调整回应语气)。模型采用语音到语音架构,延迟低至 150ms(GPT-4o 语音生成延迟 250ms),已应用于虚拟助手、跨语言翻译,实测在复杂情感对话(如心理咨询场景)中用户满意度达 92%。【注意】该项目现在官网进不去。
重要动向:
MJ:用户投票决定功能开发方向
Midjourney V7升级,渲染速度提升了40%,对文字理解也更强,并且,启动了第二轮社区路线图投票活动,用户可以参与决定未来功能开发方向。【短评】作为以前的王者,现在开始更加关注需求端(易用性),这条路说不定让你重回巅峰呢?【注意】项目地址,论文地址加载慢,打不开是因为魔法问题。
发烧友(研究)
支持MCP协议,适配千问3
阿里云通义灵码 AI IDE 正式上线,深度适配千问 3 大模型,集成编程智能体、行间建议预测(NES)、行间会话等功能,支持 MCP 协议扩展 3000 + 工具服务,可自主完成复杂编程任务。
开源LLM,AI思维可视化,定位AI幻觉来源
Anthropic 开源AI决策分析工具:“电路追踪”,通过归因图可视化大模型内部推理路径(如识别影响回答的关键神经元),配套 Neuronpedia 交互式前端降低研究门槛。该工具可定位模型幻觉来源(如错误关联知识点),已用于 Claude 3.5 的决策优化,推动 AI 透明化发展,相关论文已提交至 NeurIPS 2025。【短评】其实就是AI纠错的进一步加强。【注意】项目地址,论文地址加载慢,打不开是因为魔法问题。
暂无评论内容