【AI日报·6/10】平淡的一天,已校验—2025刊

新的突破!

高效视觉注意力机制,突破视觉理解

香港大学联合英伟达研发的广义空间传播网络(GSPN)在高分辨率图像生成上取得突破,其采用二维线性传播方法和 “稳定性 – 上下文条件” 理论,将计算复杂度降至√N 级别,保留图像空间连贯性的同时提升计算效率,在多项视觉任务中刷新性能纪录,如图像分类任务中计算量 5.3GFLOPs 下 Top-1 准确率达 82.2%,文本到图像生成任务中 16K×8K 分辨率下推理时间加速超 84 倍。 【短评】对视觉理解一维的局限做出了尝试,保留了空间关系。【注意】某些网址加载慢,打不开是因为魔法问题。

“进化搜索”技术,提升AI作画质量

香港科技大学和快手科技研究团队提出EvoSearch技术,颠覆AI作画领域“大力出奇迹”观念。该技术将达尔文进化论思想引入AI生成过程,通过生成初始“种群”、适应度评估、优胜劣汰和变异操作等环节,实现图像生成的主动探索。EvoSearch在图像和视频生成任务上表现优异,即使使用小参数模型,也能生成高质量作品,为AI生成领域提供新思路。 【短评】好家伙,这也能达尔文,确实有点意思。【注意】某些网址加载慢,打不开是因为魔法问题。

豆包App“一句话P图”功能升级

豆包App基于SeedEdit 3.0模型升级“一句话P图”功能,支持多种P图操作,新增质感键迁移和分局部图像编辑增强功能,用户可轻松实现文字添加、风格迁移及局部修改,无需专业技能打造个性化照片。


思维必看!

苹果质疑大语言模型推理能力,GitHub 工程师提出不同看法

苹果论文指出大语言模型在推理方面存在缺陷,如在汉诺塔测试中,模型在复杂任务中易放弃推理。GitHub 高级软件工程师 Sean Goedecke 不认同苹果结论,认为汉诺塔非理想测试案例,且模型设计初衷非执行大量重复步骤,用其测试推理能力有失公允,真正的挑战在于更好地设计和评估模型以挖掘其潜力。 【短评】现在的大语言分为标准模型,推理模型,多模态模型。为什么OpenAI还没有放弃标准模型?Sean Goedecke说的很有道理,推理模型是为推理而训练的,不是为执行数千次机械步骤而训练的。【注意】某些网址加载慢,打不开是因为魔法问题。

俄亥俄州立大学全体学生将接受AI培训,提升技术应用能力

俄亥俄州立大学宣布所有学生必须接受AI相关培训,通过“AI流利度”计划,使学生掌握专业知识并灵活应用AI技术,同时禁止使用生成性AI抄袭作业,加强教师学术诚信培训。 【短评】就很矛盾,又要AI技术,又要学习知识…关键是这些知识未来真的必要了吗?未来的学习更多的是对“人”素养的培养,以及必要科目,如语言,社交…


国内动向*

蚂蚁数科升级天玑实验室,聚焦 “AI + 产业创新”

在 2025 第九届数字金融与金融安全大会上,蚂蚁数科宣布将天玑实验室升级为 “人工智能 + 产业创新” 实验室,聚焦 AI 大模型在产业应用的关键技术突破,打造 “产学研用” 协同创新生态。实验室将围绕 AI + 数据、AI + 安全、AI + 金融及 AI + 具身智能四大方向布局,联合顶尖高校和科研院所,打通技术全链条,推动 AI 与产业深度融合,此前蚂蚁数科已发布企业级大模型产品及服务,如 Agentar 和 EnergyTS 等。

豆包视频生成模型即将发布,支持多镜头叙事与多动作运镜功能

全新豆包・视频生成模型将在 2025FORCE 原动力大会上发布,具备多项特性。其通过高效模型结构设计、多模态位置编码和多任务统一建模技术,实现多镜头叙事的无缝衔接;还学习了丰富场景、主体及行为动作,能生成含多主体、多动作及随心运镜的复杂视频,且在稳定运动与真实美感方面表现出色,可生成多种风格高品质视频,满足多样化创作需求。 【短评】建议等实际的出来再说。

百度“AI相机”功能上线,一站式解决照片处理需求

百度网盘与百度文库联合发布的“AI相机”功能已正式登陆百度网盘App。用户可通过相机入口拍摄或导入图片进行处理。该功能集成了修图美颜、拍照识别、解题、文字提取、翻译、扫描、合同检查等AI功能模块,覆盖“存、管、用、创、享”等核心能力,致力于在百度网盘一个App内一站式解决用户99%的照片存储、拍摄、处理、管理等需求。 【短评】学聪明了,知道走夸克的路子,但吹得太过头了,AI视频通话都没实现,你就敢说全模态了?现在百度的产品,也就网盘和贴吧还坚挺了,真没有多少试错机会了。

理想汽车成立两大机器人部门,布局车载智能生态

理想汽车宣布成立“空间机器人”和“穿戴机器人”两个全新二级部门,隶属于高级副总裁范皓宇领导的产品部。空间机器人部门由帅一帆负责,穿戴机器人部门由张文博负责,二人均为理想汽车早期员工。空间机器人部门的设立与理想汽车提出的“智能空间”概念密切相关,旨在围绕车内空间进行深入的产品功能开发和用户体验优化。穿戴机器人部门则暗示理想汽车欲将智能化体验延伸至车外场景,构建完整的智能生活服务体系。 【短评】好家伙,理想本身研发就够烧钱了,现在还开两个新口子,但你别说,还真有点意思。

硅基流动完成数亿元融资,用户数突破600万

硅基流动完成数亿元A轮融资,由阿里云领投,推出一站式异构算力纳管平台,提升算力资源使用效率,旗下SiliconCloud平台用户数突破600万,日均生成Token量上千亿,计划加大研发投入,拓展国内外市场。

科大讯飞星火X1升级版即将发布

科大讯飞董事长刘庆峰透露,讯飞星火X1升级版将于7月推出。今年高考中,星火X1(420版)在多学科应用中表现卓越,其模型参数虽比同类产品小一个数量级,但性能媲美OpenAI的o1和DeepSeek的R1。升级版将在现有基础上优化和扩展功能,以更好地满足用户在教育和专业领域的期待,推动AI技术在各行业的应用,提升生活质量和工作效率。 【短评】对标o1早就实现了,实际上就是各个厂家都推出了推理模型,核心是:Deepseek开源,其他的都是闭源…

比亚迪携手阿里通义大模型升级智能座舱

比亚迪接入阿里通义大模型,推出Mobile-Agent创新,用户在智能座舱内可通过语音一句话享受购票、点餐等在线服务。该技术基于比亚迪开放的座舱应用生态和阿里通义大模型Qwen-VL的视觉识别与推理能力,构建多模态智能体,能智能感知座舱屏幕、进行任务规划和操作决策。双方合作还应用于智能座舱、心理陪伴和营销服务等领域,如腾势的“AI壁纸”“心理伴聊”功能及比亚迪的客服对话质量管理,标志着智能汽车技术新突破。 【短评】对嘛,多模态还是得选通义。

DeepSeek前高管离职创业,新AI Agent项目获顶级VC支持

原DeepSeek技术统筹高管秘密创业,计划于2025年圣诞节推出首款Agent产品,该项目已获头部VC融资,正加速推进,瞄准AI Agent赛道竞争。 【短评】不算大新闻,Deepseek长处在于推理性能,Agent(智能体)目前真正考验的是多模态。


国外资讯:

AI威胁加剧,SecOps团队面临压力与风险

根据一项针对500名美国大型企业高级网络安全专家的调查,86%的受访者在过去一年加大了AI技术的使用以应对AI驱动攻击。尽管AI工具在威胁检测和数据分析等方面提供了帮助,但近70%的专业人士认为AI及其他新兴技术反而加剧了工作疲惫感。38%的组织在过去一年遭遇了AI驱动的网络攻击,关键基础设施领域这一比例高达50%。为应对AI驱动威胁,超过80%的组织已将重点转向预防,并采取投资新技术、扩展外部合作或发展内部安全能力等措施。 【短评】现在的网络环境确实是乌烟瘴气的,各种爬虫,各种攻击,这个还是希望法律能尽快完善吧。

OpenAI业绩飙升,ChatGPT年收入突破百亿

OpenAI凭借ChatGPT的出色表现,年化经常性收入(ARR)突破100亿美元,同比增长近80%。其收入来源包括消费者产品、商业版本和API销售,但不涵盖微软授权收入等。付费商业用户增长至300万,公司估值约是收入的30倍。今年3月,OpenAI完成了400亿美元的融资,日本软银集团成为其第一大投资者,但与微软的合作依然稳固。尽管面临盈利挑战,去年亏损约50亿美元,公司仍设定了2029年实现年收入1250亿美元的目标。 【短评】1250亿…这个难度很高。

Grok AI技术深度整合X算法,小创作者获更多曝光机会

X平台更新推荐算法,深度整合Grok AI技术,优先推送高质量内容,特别关注小型账户爆款帖子,提升其可见性,创造公平竞争环境,同时根据互动相关性调整评论回复顺序,增强互动质量。 【短评】X平台就是推特,类似国内的小红书,抖音。

LVMH借助AI技术应对奢侈品市场挑战

在奢侈品市场面临放缓时,LVMH与谷歌云合作建立集中数据平台,运用预测AI、生成式AI及智能代理等技术,在供应链规划、定价、产品设计、市场营销及个性化体验等领域发力。蒂芙尼销售顾问通过智能代理总结顾客互动,生成个性化信息。电商领域采用谷歌搜索产品提升客户搜索体验和转化率。内部推出生成式AI代理MaIA,每月处理超200万条请求,服务约40000名员工。

Anthropic下架Claude博客引AI内容透明性争议

Anthropic悄然关闭“Claude Explains”官方博客,该试点项目试图结合Claude生成的“技巧与窍门”类内容和公司市场推广策略,由人工编辑团队把关,展示AI在多领域的能力,但未明确披露每篇博文中AI与人工撰写的比例。尽管内容质量不错,却因社交媒体反响不佳和用户质疑内容生成方式缺乏透明度而结束。分析认为,Anthropic可能担忧Claude写作表现被过度宣传,当前大模型存在“幻觉”问题,近期多家媒体也因AI生成内容错误频发陷入公关危机。这场实验提醒AI进入内容创作主流需更注重透明度与谨慎态度。

YouTube音乐创作者标注“No AI”以示区别

由于AI生成音乐在YouTube泛滥,创作者们开始在播放列表标注“No AI”,确保听众享受人类创作的音乐。AI生成的“lo-fi”音乐播放列表通常以动漫角色形象为缩略图,营造放松氛围。创作者通过发布AI音乐视频能快速积累订阅者和观看量,增加广告收入,同时避免版权问题。但YouTube在AI音乐内容管理上的执行力度不足,检测手段尚不可靠,尽管谷歌已推出鼓励创作者利用AI制作内容的功能。 【短评】多个筛选功能终归是好事,但只是权宜之策。

苹果WWDC25未公布新AI驱动Siri,预计2026年前更新

苹果在WWDC25上未公布个性化Siri的详细信息,软件工程高级副总裁Craig Federighi表示更新仍需时间。个性化Siri将理解用户个人背景,具备更强实用性,但因稳定性不足未能如期发布。苹果对Siri项目进行人事调整,由迈克・罗克韦尔接手。苹果与OpenAI合作,提升Siri性能,并在iOS26系统中升级AI图像生成应用。 【短评】好的,一直拖到新手机是吧。

亚马逊200亿美元扩建宾州数据中心,加速AI云服务布局

亚马逊宣布在宾夕法尼亚州投资200亿美元扩建数据中心,以增强其在人工智能云服务市场的竞争力。宾州优越的地理位置、丰富的人才资源和良好的基础设施为投资提供了理想环境。此举旨在满足全球云计算市场的快速增长需求,巩固亚马逊的领导地位,并推动当地经济发展。 【短评】未来算力的需求仍然旺盛,不要因为Deepseek就认为算力需求崩塌,AI视频,AI工业,AI机器人,这些消耗的算力是不可估计的。

新型比萨机器人xPizza Cube每月生产2.5万张披萨

XRobotics公司推出的比萨机器人xPizza Cube在旧金山引发关注。这款机器人体积小巧,利用机器学习技术快速准确地完成酱料涂抹、奶酪撒放和香肠摆放等重复性工作。每台机器每月租赁费用1300美元,合同期三年,一小时能制作100张比萨,还能根据需求改装以适应不同风格的比萨制作。公司已完成250万美元种子融资,计划扩大生产并拓展至墨西哥和加拿大市场。 【短评】事实证明,科技的发展不适合在意大利进行。


发烧友(研究)

美团No Code平台免费开放

美团创始人王兴在股东大会上详细阐述了公司的AI战略布局。美团早期将深度神经网络算法应用于外卖配送的路由和派单系统,目前则专注于大语言模型及其衍生应用的开发。为应对AI领域竞争,美团过去三年进行了大规模硬件投入和人才争夺。其内部研发的No Code平台现已免费开放,使两万多名研发人员能通过AI辅助完成编程工作,目前已上线1680个应用。 【短评】免费+可实时预览+中文,还蛮适合入门的。

苹果向开发者开放本地AI能力,推出Foundation Models框架

苹果在WWDC大会上推出Foundation Models框架和升级版Xcode26,为开发者提供集中化工具,可将自研AI模型直接嵌入应用程序。该框架在设备本地运行,无需云端连接,保障用户隐私并免费使用。同时,App Intents升级新增视觉搜索能力,Xcode26集成AI编程助手,覆盖开发全流程,提升开发效率。 【短评】就是把AI和开发结合了,苹果这进度…

开源多智能体开发框架Rowboat亮相

由Y Combinator支持的开源多智能体开发框架Rowboat发布,支持MCP服务和OpenAI Agent SDK,GitHub星标数超2000颗。框架由Agent、Playground和Co pilot三大模块组成,Agent专注对话处理并支持自然语言配置,Playground提供交互式测试环境,Co pilot驱动辅助工具优化智能体表现。Rowboat让用户可创建和管理多个智能体,满足不同需求,如构建信用卡助手,并提供HTTP API和Python SDK,方便将智能体嵌入广泛基础设施,适应多样化开发场景。 【短评】这有点意思,目前模型能力有限,多个智能体复合工作效果会好很多。【注意】某些网址加载慢,打不开是因为魔法问题。

心猿社相关.

快报:AI金选工具箱正式上线啦!以用户需求出发,免费好用工具的聚集地!

捧哏:我现在就要爽用!

提醒:您所看到的超链接(如心猿社)的实现是我们自己手搓的插件,目前还有许多需要优化的地方(比如白名单,黑名单功能等),所以有的地方视觉体验还不那么好,见谅呀。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容