新的突破!
Chatgpt-4o可在语音中唱歌
GPT-4o 的高级语音模式全新升级,新增唱歌功能,可根据指令生成旋律、歌词,模仿演唱风格,同时提升自然语音交互能力,拓展娱乐和教育应用场景。【短评】从AI音乐的角度讲,很拉胯,这个模型质量明显的垃圾,Suno 很旧版本的水平;但是,这是交互功能,它不仅仅是单独唱歌,而是可以对话+唱歌。
10秒定制语音
法国 AI 实验室 Kyutai 推出 Unmute 系统,赋予文本模型语音交互能力,支持智能对话、超低延迟、个性化定制,仅需 10 秒语音样本即可生成专属 AI 声音。【短评】很牛,不用预训练。但其实10秒定制语音早有了,但质量问题一直是核心问题,它的输出音域是很窄的,这个还没有解决,预计也不会很快解决。
语言指令精准控制无人机
UAV-Flow 项目借助自然语言处理技术,让用户可通过语音指令精准控制无人机,应用于消费娱乐、工业巡检及紧急救援等场景。【短评】怎么说呢,开发自然语言控制主要还是面向大众,但现在这个技术还可不可以支持精准的控制存疑,但是个好的突破!【注意】项目地址,论文地址加载慢,打不开是因为魔法问题。
谷歌网页分析工具接入AI
Chrome v137 引入 Gemini AI 智能助手,通过智能标注、CSS 修改、性能洞察等功能,大幅提升开发效率,优化网站加载速度与运行时性能。【短评】这个真的好,而且是谷歌推出来的,网站站长必看呀!【注意】虽然目前功能免费,但卡地区,需要谷歌账户,并且需要好的英文基础,因为使用该功能,开发者工具设置中将语言偏好设置为英文。
重要动向:
Claude即将升级
Anthropic 计划为 Claude 升级多项功能,包括扩展上下文窗口至百万字符、新增记忆功能、提升输出能力等,增强长文本处理和企业级应用场景竞争力。【短评】对大部分人来说是性能过剩的,而且百万上下文,其实最后的记忆效果很难达到预期。所谓的新增记忆功能实际上就是给每个用户配一个数据库,即使不是在一个对话窗口,Claude 也能读取你和它过去的对话,以此更加个性化。但不免费,贵。
苏州设60亿AI基金(伪人资讯
苏州成立 60 亿元人工智能产业专项母基金,由 20 家机构共同出资,聚焦算力等关键环节,推动多行业融合,助力产业转型升级,预计园区将聚集超 1800 家 AI 企业。【短评】离谱,官网原文件找到了,人家是2月份就出的文件,现在蹦出来一堆报道,估计是哪个用AI写资讯的搞出来的,然后同行爬虫,于是出现这么抽象的一幕…
发烧友(研究)
谷歌推出新AI评估框架
谷歌推出开源框架 LMEval,用于简化和标准化大型语言及多模态模型的评估,支持跨平台模型对比,提供增量评估和可视化分析功能。【短评】主要还是多模态,自然语言目前都到达了专家水平,对群众来说意义不大。【注意】项目地址加载慢,打不开是因为魔法问题。
国内企业
美团AI模型达GPT-4o水平
美团在AI领域进展显著,大模型能力接近 GPT-4o 水平,将推出业务决策助手,且内部工程师 52% 代码由 AI 生成,还开发 NoCode 编程工具。
有点意思~
一句话生成高考志愿填报方案
阿联酋向全体居民免费提供 ChatGPT Plus 高级版服务,推动人工智能普及化,还计划建设星际之门阿联酋AI数据中心等,促进全球 AI 技术普及与应用。【短评】其实不太影响张雪峰等咨询机构,愿意花钱咨询的,自然还是会选择花钱咨询。但是,这个对夸克的拉新很有效果。
暂无评论内容