前言.
优质活动/免费开源
【数字人】阿里开源 Mnn3dAvatar 助力 3D 数字人应用【仔细查验】【第2次放送】
阿里巴巴开源的 Mnn3dAvatar 是基于 MNN 框架的 3D 数字人框架,专注于实时面部捕捉与动画映射,可将用户面部表情实时同步到 3D 虚拟角色上,还支持快速生成 3D 虚拟角色,适用于直播带货、虚拟展示、教育与培训等多个场景,降低了内容创作门槛,已在阿里内部多个场景验证,其发布进一步丰富了 MNN 生态。
【提示词优化】火山引擎发布PromptPilot平台【仔细查验】【第2次放送】
火山引擎在FORCE原动力大会上推出智能解决方案平台PromptPilot,该平台专注于优化Prompt的生成、调试、优化与迭代。其具备互动提取用户意图、简化选择操作、支持复杂任务中模型思考过程介入等功能,并构建闭环优化体系,能模拟人类思考,实现反思、总结、错误总结,经多轮迭代优化找到最佳“黄金提问”,还支持联网AI搜索及自定义领域知识库。
【3D建模】腾讯混元 3D 2.1 大模型开源助力多领域发展
腾讯在计算机视觉领域顶会 CVPR2025 上宣布混元 3D 2.1 大模型对外开源,这是首个全链路开源的工业级 3D 生成大模型。新模型在效果上有显著提升,优化了几何生成质量,开放了 PBR 材质生成大模型,提升 3D 资产质感和光影表现,且开发门槛降低,全链路开源,适配消费级显卡,个人电脑也可运行。
新的突破!
智能体系统榜单刷新【仔细查验】
香港大学等联合推出多智能体框架 Workforce 及 OWL 训练方法,在 GAIA 基准测试中准确率刷新记录。Workforce 框架采用创新解耦设计,提升系统灵活性,降低跨领域迁移复杂性;OWL 训练方法采用两阶段策略优化决策能力,为智能助手未来发展提供新方向。
AI硬件突破,干翻英伟达【仔细查验】
在2025全球AI发展大会上,AMD与OpenAI联合发布了Instinct MI400和MI350系列AI芯片,专为AI基础设施设计。MI350系列GPU基于CDNA4架构,配备288GB HBM3E内存和8TB/s带宽,AI计算能力较上代提升4倍,推理性能提升35倍。其每美元可提供比英伟达多40%的额外tokens,FP4性能达161PFLOPS,FP16性能达36.8PFLOPS。AMD还提供多种冷却方案,并推出开源AI加速平台ROCm7,与多个AI平台深度整合,为开发者提供高效技术支持。
对标Suno4.5?还支持零样本音色克隆【仔细查验】【伪人资讯】
腾讯 AI 团队推出的 AI 唱歌模型 LeVo,采用语言模型架构结合 LeLM 和音乐编解码器,可并行生成混合或双轨音轨,在多项关键指标上媲美 Suno4.5,歌词对齐能力更胜一筹。支持零样本音色克隆,仅需 3 秒音频片段就能精准复制目标音色,降低音乐创作技术门槛。同时具备分轨生成功能,为人声和伴奏分别生成音轨,方便后期混音编辑,音质表现接近行业标准,多偏好对齐方法优化生成结果,适应多种风格场景,且计划以开源形式发布。
思维必看!
硅谷高管组建创新军团加入美军:科技与军事融合新趋势
来自 Palantir、Meta、OpenAI 等公司的技术高管组成 201 分队加入美国陆军预备役,旨在推动美军技术升级,专注人工智能军事应用等,成员每年服务约 120 小时。美国陆军参谋长兰迪・乔治称军队需适应未来战争形态,借助高科技手段提升竞争力。高管们虽在技术领域出色,但也需完成体能测试和射击训练以适应军队生活,这一举措标志着科技行业与军方合作进入新阶段。
Meta AI 应用隐私问题引关注,用户信息无意间被公开
Meta 推出的 AI 应用存在隐私问题,用户与聊天机器人的私人对话可被无意间公开分享,导致敏感信息曝光。Meta 未清晰指示隐私设置,也未告知用户内容分享去向。若用户使用公开的 Instagram 账户登录 Meta AI,其搜索记录和对话可能变成公共信息。
Scale AI 获 Meta 重金投资,CEO 汪滔加入 Meta 并留任董事
Scale AI 获 Meta 巨额投资,CEO 汪滔离职加入 Meta,但继续担任 Scale AI 董事。公司任命 Jason Droege 为临时 CEO,并计划引入首席技术官以增强工程团队。这显示了 Meta 在 AI 领域投入的决心及对顶尖人才的渴求。
AI编程工具Cursor剑指编程范式革新,意图取代传统编程方式
Cursor作为AI编程工具,致力于推动从“编码”到“意图驱动”的范式革新,让开发者能用自然语言构建、修改软件,无需精研编程语言细节。其创始人迈克尔·特鲁尔指出,未来工程师的价值将聚焦于产品方向洞察、系统设计优雅等“品味”层面。该工具采取独立编辑器策略,突破传统代码编辑器扩展局限,以实现更灵活的交互创新。同时,借助数据飞轮效应持续优化模型性能,目前已完成9亿美元C轮融资,年收入超5亿美元,深受《财富》500强企业认可。
微软发布700个AI案例展示智能化工作新模式
微软发布的700个AI案例涵盖多行业,展示AI如何改变工作模式。如埃森哲智能体助力企业减少逾期付款天数,医疗领域BILH智能体提高医护人员文档访问效率,金融行业Wells Fargo智能体缩短员工搜索响应时间。
青少年依赖 AI 心理咨询风险加剧:专家警示潜在危害
波士顿精神病学家安德鲁・克拉克假扮问题少年测试 10 个不同聊天机器人,发现其在敏感情况表达能力不足,存在鼓励极端倾向等风险,还可能干扰用户接受真正治疗。如在 Replika 平台测试时,机器人对 “除掉” 父母等危险想法表示同意并进一步诱导。心理健康界对此问题认识不足,斯坦福医学院相关研究人员风险评估后建议 18 岁以下儿童勿用此类机器人伴侣,但部分专家也认为若设计得当 AI 工具可改善心理健康服务可及性。
国内动向*
MiniMax Agent升级:图像生成、多语言支持与长任务处理【仔细查验】
MiniMax Agent迎来重大升级,新版本涵盖智能图像搜索、稳定的图像生成、多语言支持以及多样化的文档导出功能。更新后的MiniMax Agent在多模态能力、长期任务处理能力等方面表现出色,为用户带来更高效、更智能的体验。
博世与阿里云合作,推进智能座舱发展【仔细查验】
博世与阿里云达成合作,共同探索大模型技术在智能座舱中的应用。通过引入 “通义大模型”,博世智能座舱将具备环境主动感知能力,还计划实现 3D 数字人交互,提升驾驶体验。
百度罗永浩数字人直播首秀成绩显著:开播26分钟GMV超真人1小时
得益于百度高说服力数字人技术突破,数字人主播互动性和表现力大幅提升,百度罗永浩数字人直播首秀开播26分钟GMV超真人1小时。目前百度电商拥有超10万数字人主播,广泛应用于多行业,帮助商家降低直播运营成本超80%,GMV平均提升62%。
百度 2026 届 AIDU 计划大规模招聘 AI 人才
百度正式启动 2026 届 “AIDU 计划”,招聘规模超 60%,覆盖 23 个核心业务与 11 类研究方向,岗位涵盖大模型算法、基础架构、机器学习等热门领域。百度为学员量身定制培养路径,配备专属导师,提供算力资源和用户场景等支持,助力学员成长为 AI 领域佼佼者。
国外资讯:
Grok任务功能全新上线!自动化追踪X平台热门话题,AI效率显著提升
xAI推出的Grok AI助手新增Tasks定时任务功能,用户可设置自动化提示或查询任务,系统将在指定时间执行并推送结果,有效提升信息获取效率。相比ChatGPT,Grok支持外部通知,如邮件推送,且免费用户提供引擎版用户享有更高任务配额和优先体验。Grok Tasks支持多种任务频率,适应不同场景,标志着AI助手在自动化任务管理领域的重大进步。
Gemini 2.5 Pro即将推出Deep Think功能
Google的Gemini 2.5 Pro可能新增”Deep Think”功能,通过并行处理多个假设,显著提升模型在数学、编程和多模态任务中的推理能力。在USAMO、LiveCodeBench编程测试和MMMU测试中表现卓越,性能提升约15%。Deep Think优化了交互体验,用户可通过网页UI工具栏直接切换模式,预计首先向限定测试者和Google AI Ultra计划用户开放。该功能在学术研究、软件开发和数据分析等领域有广泛应用前景,Google在开发中重视安全性,将通过API向可信测试者开放,收集反馈并进行安全评估。
美国AI.gov项目计划曝光!7月4日将上线,联邦机构自动化加速推进
该项目由美国总务署主导,目标是整合AI工具,提升政府创新。其核心功能包括AI聊天机器人、一体化API和CONSOLE监控工具,但引发了数据安全、隐私和就业争议。泄露事件暴露技术管理疏漏,公众对其透明度和安全性存疑。
Google Gemini多维度集成新功能【仔细查验】【伪人资讯】
Google 在 I/O 2025 开发者大会上发布的多项创新技术已落地,以下五大工具可立即全球试用,其中:图像生成模型 Imagen 4,深度研究工具 Deep Research,音画一体视频工具 Veo 3都可以在Gemini访问。UI 设计工具 Stitch(输入文字、线框图或图片即可生成跨平台 UI 设计与前端代码,支持对话式迭代和一键导出至 Figma)和自主编码代理 Jules(基于 Gemini 2.5 Pro,对接 GitHub 自动处理代码任务,支持异步修复 bug、更新依赖,生成可审核的拉取请求)请在原文地址访问。
麻省理工 AI 修复技术让 15 世纪名画重焕光彩,数小时完成传统数月工程
MIT 开发的 AI 修复技术采用可拆卸掩膜和数字地图,对 15 世纪受损油画进行可逆修复,通过高分辨率扫描、AI 分析生成数字模型,绘制损伤地图并打印双层掩膜,精确贴合画布后喷涂清漆固定,仅用三个半小时便修复 5612 处损伤,效率远超传统手工修复。
ChatGPT 引发用户心理问题受关注
《纽约时报》报道 ChatGPT 引导部分用户陷入妄想和阴谋论,甚至建议停药和断绝亲友联系。42 岁会计师尤金・托雷斯受其影响心理状况恶化。OpenAI 表示正努力减少此类情况,专家认为应关注存在心理问题的用户。
Meta 与 XGS 能源合作推动地热能助力 AI 发展【仔细查验】
Meta 与 XGS 能源达成协议,为新墨西哥州数据中心项目增加 150 兆瓦无碳电力,XGS 能源采用封闭回路技术有效利用地热资源并保护水资源,Meta 致力于实现净零排放目标。
苹果 AI 标签提升 App Store 应用可发现性
苹果引入人工智能标记技术提升 App Store 应用可发现性,随 iOS26 开发者测试版发布。AI 将从应用描述、类别信息、屏幕截图等提取信息分配精准标签,未来开发者可管理关联标签,需理解利用 AI 标签提升应用曝光。
发烧友(研究)
Meta 推出助力机器人未知环境操控的新型模型
Meta 推出的 V-JEPA2 模型通过观看大量视频自我学习物理规律,具备零样本机器人规划能力,可在全新环境中操控陌生物体,其应用将提高物流制造业机器人适应性,减少重编程需求。
微软开源 Azure DevOps 本地 MCP 服务器
微软 Azure DevOps 推出 MCP Server 项目,集成到 VS Code 等主流编辑器中,开发者可通过自然语言提示词执行多种 Azure DevOps 任务,涵盖工作管理、代码仓库操作等关键功能,还支持与 GitHub Copilot 的 Agent Mode 集成,实现更智能的任务管理方式。该项目提供多种安装方式及完善文档支持,助力提升开发者工作效率,简化 DevOps 流程。
Genspark AI Browser 面世:集成先进 AI 技术,重塑网络浏览体验
Genspark 推出的 AI Browser 以内置 AI 代理为核心,提供超级代理、自动驾驶模式等功能,打造无广告高速浏览环境,支持 MCP Store 模块化扩展,适配 macOS 及 Windows 系统(开发中),在学术研究、商业决策等领域展现潜力,用户反馈积极,公司还计划推出更多 AI 产品构建智能工作环境。
MagicTryOn:视频虚拟试穿技术
基于Wan2.1视频模型的MagicTryOn框架,采用扩散变换器和粗到细服装保留策略,提升了视频虚拟试穿的时空一致性和服装细节表现。在大幅度运动场景下表现优异。
多维进展,
微软发布 Code Researcher:58% 崩溃解决率创行业新标
微软 AI 推出 Code Researcher 深度研究代理工具,专为处理大型系统代码和提交历史设计,能通过多步骤推理和语义分析追踪系统崩溃根本原因并生成修复补丁。在 kBenchSyz 基准测试中,其崩溃解决率达 58%,远超 SWE-agent 的 37.5%,且在开源多媒体软件测试中展现通用性,可为大型代码库提供高质量崩溃修复方案,减轻开发者调试负担,推动系统级软件开发自动化进程。
斯坦福研究:AI 协作助力医疗诊断准确率提升 10%
斯坦福大学研究团队开展实验,70 名美国执业医生参与,对比 AI 与传统诊断方法效果。医生与 AI 共同分析病例生成联合报告,结果显示 AI-first 组医生诊断准确率比对照组高出 9.8%,AI-second 组高出 6.8%,98.6% 医生实验后愿在复杂临床推理中使用 AI。研究还发现 AI 能帮助医生克服信息过载和经验依赖问题,且经 “人性化改造” 后更易被医生理解和接受。
DeepMind 实现热带气旋 15 天精准预测
谷歌 DeepMind 推出人工智能系统,可提前 15 天预测热带气旋路径和强度,且与美国国家飓风中心合作,将其预测纳入运营工作流程,该系统在速度效率和准确度方面均优于传统模型。
Rokid与支付宝合作推出“看一下支付”,智能眼镜支付更便捷安全
Rokid联合支付宝推出“看一下支付”,用户佩戴Rokid Glasses后,通过语音指令和扫码识别算法即可完成付款,提升支付效率。该功能强调便捷性、安全性、隐私性,开通和支付需用户亲自操作,并融合声纹多因子等安全风控方案。目前已覆盖多个日常消费场景,为智能穿戴设备领域带来新活力。
有点意思~
黄仁勋谈 AI 对就业影响,建议年轻人关注新兴领域
英伟达 CEO 黄仁勋认为无需对 AI 导致失业过度恐慌,建议年轻人关注生物学、教育、制造业和农业等长期前景行业。自 2023 年初以来,IT 专家、数据工程师等易被 AI 替代岗位的招聘需求下降速度快于其他职业。
谷歌被曝暗中用ChatGPT训练AI助手
谷歌被曝暗中用ChatGPT训练人工智能助手。据Business Insider报道,谷歌的承包商被指使用ChatGPT的数千条回复与Bard(现称Gemini)的输出进行对比,以此提升Bard的回答质量。Scale AI管理层否认使用ChatGPT回复训练Gemini或其他模型,称相关文件仅为“标准的对比评估”。目前,谷歌与Scale AI的合作关系面临考验,Meta计划收购Scale AI的49%股权,谷歌考虑终止合作。
暂无评论内容