星知

logo
logo
登录
法国Mistral AI实验室发布Magistral推理模型系列:240亿参数Small版本开源,Medium版本强化企业级应用

法国Mistral AI实验室发布Magistral推理模型系列:240亿参数Small版本开源,Medium版本强化企业级应用

法国知名人工智能研究机构Mistral近期正式发布了其首个推理模型系列Magistral,这一重要发布标志着该实验室在AI推理技术领域取得的重大突破。Magistral系列包含两个核心版本:拥有240亿参数的Magistral Small已在Hugging Face平台开源发布,采用Apache 2.0许可证供开发者自由使用;而功能更为强大的Magistral Medium目前处于预览测试阶段,用户可通过Mistral的Le Chat聊天平台、官方API以及第三方云服务合作伙伴进行体验。该系列模型专门针对数学、物理等领域的逻辑推理能力进行优化,通过分步骤问题解决机制,为企业级应用提供高透明度的可追溯思考过程。

2025/06/13

FUDOKI模型革新多模态AI架构:香港大学与华为诺亚方舟实验室联合推出非掩码离散流匹配技术

FUDOKI模型革新多模态AI架构:香港大学与华为诺亚方舟实验室联合推出非掩码离散流匹配技术

香港大学与华为诺亚方舟实验室联合研发团队近期发布了创新性多模态模型FUDOKI,该模型采用突破性的非掩码离散流匹配(Discrete Flow Matching)架构,彻底改变了传统自回归模型的单一推理模式。FUDOKI通过并行去噪机制实现双向信息整合,在复杂推理和生成任务中展现出卓越性能,成功架起了图像生成与文本理解之间的桥梁,实现了两者的统一建模。该模型在GenEval基准测试中获得0.76的优异成绩,超越了同等规模的自回归模型,在生成质量和语义准确性方面都达到了新的高度。

2025/06/13

小红书Hi Lab团队发布首款开源语言模型dots.llm1:1420亿参数规模挑战行业标杆

小红书Hi Lab团队发布首款开源语言模型dots.llm1:1420亿参数规模挑战行业标杆

知名社交内容平台小红书的Hi Lab研发团队近期正式发布了其首款开源文本大语言模型dots.llm1,该模型凭借1420亿参数的超大规模和140亿激活参数的高效架构在业界引发强烈关注。作为一款采用混合专家(MoE)架构的语言模型,dots.llm1经过11.2TB高质量真实数据的深度训练,性能表现可与阿里巴巴Qwen2.5-72B模型相提并论。该模型在预训练过程中完全采用真实场景数据,未使用任何合成数据,这使其在理解人类语言的精准度和自然性方面展现出显著优势,为用户提供更加贴近真实的智能交互体验。

2025/06/13

轻量级模型实现重大突破!香港科技大学与快手联合推出EvoSearch进化搜索算法,重新定义AI图像生成效率

轻量级模型实现重大突破!香港科技大学与快手联合推出EvoSearch进化搜索算法,重新定义AI图像生成效率

香港科技大学与快手科技联合研发团队近期发布了革命性的EvoSearch(进化搜索)算法,彻底打破了AI图像生成领域"参数越多效果越好"的传统认知。该技术最引人注目的成就是让仅有865M参数的Stable Diffusion2.1模型在生成质量上超越了强大的GPT-4o,而1.3B参数的Wan模型结合EvoSearch技术后,其表现甚至能够媲美参数量大10倍的14B模型。这一突破性进展为AI生成领域开辟了全新的发展路径,证明了通过智能算法优化可以显著提升小模型的生成能力。

2025/06/13

Rowboat开源多智能体框架正式发布:MCP协议支持让智能助手构建变得轻而易举

Rowboat开源多智能体框架正式发布:MCP协议支持让智能助手构建变得轻而易举

知名创业孵化器Y Combinator最新孵化的开源多智能体开发平台Rowboat正式面世,凭借其卓越的易用性和丰富的功能特性迅速获得开发者社区的广泛认可,GitHub项目已收获超过2000个星标。该框架深度集成MCP(多元协作平台)协议以及OpenAI Agent SDK,使开发者能够在短短几分钟内快速搭建功能完备的智能体工作流系统。Rowboat采用模块化架构设计,核心包含Agent对话处理模块、Playground交互测试环境和Copilot AI辅助工具三大组件,为智能助手的创建、管理和部署提供了完整的解决方案。

2025/06/13

谷歌低调发布AI Edge Gallery:智能手机离线AI模型运行迎来创新突破

谷歌低调发布AI Edge Gallery:智能手机离线AI模型运行迎来创新突破

谷歌近日低调推出了一款名为Google AI Edge Gallery的实验性应用程序,这一举措标志着边缘计算和隐私优先的AI部署技术迈出了重要步伐。该应用允许用户直接在智能手机上运行来自Hugging Face平台的开源AI模型,无需依赖网络连接即可实现图像生成、文本处理、代码编辑等多种功能。Google AI Edge Gallery通过谷歌的LiteRT(轻量运行时)技术,充分利用设备本地硬件运行AI模型,在显著提升数据隐私性的同时大幅改善处理速度。应用支持多样化任务,包括用于对话的"AI Chat"、用于图像分析的"Ask Image",以及用于文本摘要和单轮任务的"Prompt Lab"等功能模块。用户可通过直观的操作界面浏览和选择适合特定任务的模型,模型大小从500MB的轻量版到4GB的高级版不等,能够满足不同硬件性能的需求。

2025/6/6

400余款AI模型获得网络搜索能力:Exa携手OpenRouter掀起RAG技术革命

400余款AI模型获得网络搜索能力:Exa携手OpenRouter掀起RAG技术革命

Exa与OpenRouter正式宣布建立战略合作伙伴关系,为超过400种大语言模型(LLMs)提供实时网络搜索功能。这一革命性的技术突破将大幅提升AI模型的实用性和信息获取能力,为开发者、研究人员及广大用户创造全新的智能交互体验。Exa是一家专注于运用大语言模型技术优化网络搜索的创新企业,致力于通过精准高效的搜索结果,将网络海量信息转化为结构化的可用数据。OpenRouter作为统一的AI模型接口平台,支持开发者通过单一API访问包括ChatGPT、Claude、Gemini等在内的50余种免费及付费模型。此次强强联合将Exa的搜索技术与OpenRouter的广泛模型支持完美结合,赋予400余种大语言模型实时获取网络信息的强大能力。

2025/6/6

英伟达携手MIT发布Fast-dLLM框架:AI推理效率飙升27.6倍

英伟达携手MIT发布Fast-dLLM框架:AI推理效率飙升27.6倍

近期,科技领军企业英伟达与麻省理工学院(MIT)、香港大学联合发布了革命性的Fast-dLLM框架。这一突破性技术专门针对扩散模型(Diffusion-based LLMs)的推理速度优化,实现了高达27.6倍的性能提升,为人工智能领域带来了强劲的技术驱动力。扩散模型作为传统自回归模型的强力竞争对手,采用双向注意力机制,理论上能够通过多词元同步生成来加速解码流程。然而,在实际部署中,扩散模型的推理效率往往不如自回归模型,主要原因在于每个生成步骤都需要重新计算完整的注意力状态,造成计算资源的大量消耗。此外,多词元并行解码过程中,词元之间的依赖关系容易受到破坏,进而影响最终的生成品质。

2025/6/6

音乐行业巨头与AI公司Udio、Suno启动版权授权合作洽谈

音乐行业巨头与AI公司Udio、Suno启动版权授权合作洽谈

据《彭博社》最新消息,包括环球音乐集团、华纳音乐集团和索尼音乐娱乐在内的全球顶级音乐公司,目前正与人工智能初创企业Udio和Suno开展版权许可授权谈判。此轮协商旨在构建一套完善的框架体系,确保AI技术公司在使用音乐作品时能够给予艺术家合理的经济补偿。Udio和Suno两家企业专注于为新锐音乐创作者提供AI辅助创作服务,用户仅需提供音乐风格或主题的文字描述,系统便能自动生成相应的音频作品。例如,当用户输入"关于单相思的现代乡村情歌"这样的提示词时,AI系统就会据此创造出符合要求的音乐内容。此次谈判的成败将在很大程度上决定音乐产业与AI初创公司未来的合作模式。

2025/6/6

Character.AI发布AvatarFX功能:打造专属动画角色视频体验

Character.AI发布AvatarFX功能:打造专属动画角色视频体验

知名AI聊天和角色扮演平台Character.AI最新宣布推出多项多媒体创新功能,致力于为用户带来更加丰富的交互体验。该公司在周一的官方博客中详细介绍了全新的AvatarFX工具,这一功能使用户能够制作个性化动画视频,将AI聊天角色转化为生动的视觉内容。同时,平台还新增了"场景(Scenes)"与"流(Streams)"两大特色功能,用户不仅可以创建包含角色的视频内容,还能通过即将推出的社交动态功能进行分享互动。Character.AI从最初专注于一对一文本聊天,如今已根据用户需求不断拓展功能边界。AvatarFX工具此前已面向付费订阅用户开放测试,现已全面向所有注册用户提供服务,每位用户每日可免费制作最多五个视频作品。

2025/6/6

Direct3D-S2发布:千兆级3D生成速度提升近10倍

Direct3D-S2发布:千兆级3D生成速度提升近10倍

近日,一款名为Direct3D-S2的全新3D生成框架引发了业界热议。该框架通过创新的空间稀疏注意力(SSA)机制,显著提升了高分辨率3D图像生成的质量与效率,为千兆级3D生成提供了更具可扩展性的解决方案。Direct3D-S2的核心创新在于其空间稀疏注意力(SSA)机制,专为处理稀疏体视数据设计。该机制通过优化扩散变换器(DiT)的计算方式,显著降低了训练和推理的资源需求。据悉,SSA机制使前向传播速度提升3.9倍,反向传播速度提升9.6倍,极大缩短了生成高分辨率3D模型的时间。

2025/5/30

Kyutai发布Unmute语音AI系统:支持10秒语音定制和低延迟对话

Kyutai发布Unmute语音AI系统:支持10秒语音定制和低延迟对话

法国AI实验室Kyutai近日推出了一款革命性的语音AI系统Unmute,为文本大语言模型(LLM)赋予了强大的语音交互能力。这款高度模块化的语音模型以其智能对话、超低延迟和个性化定制功能引发业界热议。Unmute的核心亮点在于其高度模块化的架构,开发者无需重新训练模型,只需将Unmute"包裹"在现有文本大语言模型上,即可为其快速添加语音输入和语音输出功能。Unmute的另一大创新是其强大的声音定制功能,仅需10秒的语音样本,即可生成高度个性化的AI声音,满足不同场景下的需求。

2025/5/30

搜狗输入法上线AI汪仔快捷搜索:接入腾讯混元模型

搜狗输入法上线AI汪仔快捷搜索:接入腾讯混元模型

近日,搜狗输入法Windows版迎来重大升级,全新推出AI汪仔"快捷搜索"功能,为用户带来了更高效便捷的办公学习体验。AI汪仔"快捷搜索"功能具有一键触发、快速响应的特点。用户无需再遵循"打开浏览器👉🏻搜索引擎👉🏻输入内容"的传统搜索三步曲,只需在桌面任意地方直接打字,或者使用快捷键"Ctrl+Shift+空格",就能在0.5秒内召唤出全能"快捷搜索"功能,信息获取速度相比传统方式提升了300%。该功能接入腾讯混元快思考模型Turbo S,具备响应更快、结果更准的优势。在办公学习中,它能够发挥多种实用功能,支持快捷翻译和计算功能。

2025/5/30

微软更新Windows应用:画图、截图工具和记事本接入AI功能

微软更新Windows应用:画图、截图工具和记事本接入AI功能

微软近期在其Windows11操作系统中,针对画图、截图工具和记事本推出了一系列令人兴奋的生成式AI功能。这些功能目前正在Canary和Dev渠道的Windows Insider用户中进行测试,但部分功能需要支持Copilot的电脑才能使用。在画图应用中,用户可以通过输入提示来生成自定义贴纸,只需在Copilot菜单中点击"贴纸生成器"按钮,输入想要的贴纸描述,画图就会根据提示生成一系列独特的贴纸。截图工具新增"完美截图"功能,可以根据用户选择的内容自动调整截图大小。记事本应用也引入了生成式AI的能力,用户可以通过输入提示,在光标所在的位置插入新内容。

2025/5/30

谷歌发布LMEval:让大模型评估变得更简单统一

谷歌发布LMEval:让大模型评估变得更简单统一

近日,谷歌宣布推出LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的AI模型进行比较,比如GPT-4o、Claude3.7Sonnet、Gemini2.0Flash和Llama-3.1-405B等。以往,对新AI模型的比较往往比较复杂,因为各个提供商使用自己的API、数据格式和基准设置,导致评估效率低下且难以进行。因此,LMEval应运而生,它通过标准化评估流程,使得一旦设置好基准,就能轻松地将其应用于任何支持的模型,几乎无需额外工作。该系统在LiteLLM框架上运行,能够平滑处理谷歌、OpenAI、Anthropic、Ollama和Hugging Face等不同提供商的API差异。

2025/5/30

美团AI编程工具"NoCode"即将上线,对话式开发工具对标Lovable

美团AI编程工具"NoCode"即将上线,对话式开发工具对标Lovable

据智能涌现消息,美团正在加速其AI战略布局,即将推出一款名为"NoCode"的AI编程工具,并已悄然注册了"nocode.cn"域名,目前该网站正处于灰度测试阶段,预示这款面向非技术用户的全新产品即将正式面世。该工具由美团研发质量与效率团队打造,定位于新兴的"Vibe Coding(氛围编程)"赛道,通过对话式交互实现应用构建,主打"人人可用"的AI编程体验。不同于Cursor这类以开发者为中心的辅助编程工具,也区别于Devin所代表的AI自主编程路径,美团的"NoCode"更接近于近期在行业内受到关注的Lovable产品,面向非程序员用户,强调通过自然语言多轮对话完成代码生成、部署和修改。据接近项目的人士透露,美团推出这款产品的核心动因,是希望将AI编程的能力普及至更广泛的用户群体,尤其是其平台上大量的中小商家和运营人员,让他们像点外卖一样简单地开发和使用自定义工具。

2025/05/23

谷歌CEO宣布:Gemini AI月活用户突破4亿,覆盖15亿全球用户

谷歌CEO宣布:Gemini AI月活用户突破4亿,覆盖15亿全球用户

在最近的一次公开讲话中,谷歌的CEO桑达尔・皮查伊透露,公司的Gemini AI应用程序的月活跃用户数量已经超过4亿。这一数据的公布无疑为Gemini AI的成功增添了光彩,并显示出消费者对这一人工智能技术的强烈兴趣。Gemini AI不仅在用户量上取得了显著的成绩,还在全球范围内实现了广泛的覆盖。根据皮查伊的介绍,该AI应用已经在200多个国家和地区正式推出,服务范围涵盖了超过15亿的用户。值得一提的是,Gemini AI的语言支持已经扩展到超过40种语言,最近新增了阿拉伯语、中文、马来语和乌尔都语等多种语言的支持。这一举措不仅提升了用户的使用体验,还让更多用户能够轻松获取信息和服务,展示了谷歌在推动人工智能技术普及方面的决心。

2025/05/23

Shopify推出全新AI工具,让在线商店建设变得更简单

Shopify推出全新AI工具,让在线商店建设变得更简单

Shopify在最近的一次发布会上宣布推出一项创新的生成式人工智能功能,名为"AI商店构建器"。这一新工具旨在帮助商家通过输入描述性的关键词,快速搭建自己的在线商店,极大简化了电子商务的建设过程。这一AI商店构建器的最大亮点是,它能够根据用户输入的关键词,自动生成三种不同的商店布局。每个布局都包含了相应的图片和文本内容,这样商家就可以在短时间内完成店铺的设计,减少了大量的时间和资源投入。Shopify的产品副总裁Vanessa Lee表示,这种基于AI的商店构建工具是针对商家在建站过程中常遇到的困难而设计的。此外,Shopify在人工智能领域的投资并不仅限于此次发布的工具,公司已经推出了多种基于AI的解决方案,覆盖从图像生成到库存管理等多个方面。

2025/05/23

Meta推出J1系列模型,最强"AI法官"上线

Meta推出J1系列模型,最强"AI法官"上线

近日,Meta 公司发布了其全新 J1系列模型,这是一项旨在提升 AI 判断能力的创新技术。通过结合强化学习和合成数据的训练方法,J1模型不仅在判断的准确性上取得显著进步,还在公平性方面表现出色。随着大型语言模型技术的不断发展,"LLM-as-a-Judge" 的新模式,使 AI 模型能够对其他语言模型的输出进行审查,成为强化学习、基准测试和系统对齐的重要工具。Meta 的 J1团队开发了一个包含22000个合成偏好对的数据集,并引入了 Group Relative Policy Optimization(GRPO)算法,简化了训练流程。测试结果显示,J1的表现远超同行,在 PPE 基准测试中,J1-Llama-70B 的准确率达到了69.6%,不仅超过了 DeepSeek-GRM-27B 和 EvalPlanner-Llama-70B,还显示了即使是较小的 J1-Llama-8B 也有62.2% 的成绩。

2025/05/23

Anthropic发布Claude4系列模型:Opus4和Sonnet4领跑编码与复杂推理

Anthropic发布Claude4系列模型:Opus4和Sonnet4领跑编码与复杂推理

作为人工智能领域的先锋,Anthropic于2025年5月22日正式发布了Claude4系列模型,包括Claude Opus4和Claude Sonnet4,开启了编码、复杂推理和 AI 代理的新篇章。Claude Opus4被誉为全球最佳编码模型,能够持续高效地处理复杂的长时间任务和代理工作流。而 Claude Sonnet4则是对 Sonnet3.7的重大升级,能够更精准地响应用户指令,展现出卓越的编码和推理能力。据官方介绍,Claude4系列已于发布当日对所有付费计划用户开放,而Claude Sonnet4还向免费计划用户提供,极大地降低了体验门槛。在SWE-bench Verified测试中,Claude4系列表现出色,达到了行业领先水平,特别是在处理复杂软件问题时展现了无与伦比的稳定性与精准性。

2025/05/23

仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA

仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA

在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉-语言多模态模型——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点。Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力,在视觉定位和推理的速度与准确性上有了显著提升。此外,新增的视频理解和多模态智能体功能,使其在处理复杂任务时表现更加出色。尽管 Seed1.5-VL 的激活参数仅为20B,但其性能已经达到了与 Gemini2.5Pro 相当的水平。在60个公开评测基准中,Seed1.5-VL 在38个任务上取得了 SOTA 表现,尤其是在视频理解、视觉推理和多模态智能体能力方面,均处于行业领先地位。在推理成本方面,其推理输入价格为每千 tokens 仅0.003元,输出价格为每千 tokens 仅0.009元,极具性价比。目前,Seed1.5-VL 已在火山引擎全面开放 API,开发者只需登录后选择 Doubao-1.5-thinking-vision-pro,即可快速调用其能力,构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。

2025/05/16

腾讯混元携手科研机构推出首个多模态统一CoT奖励模型并开源

腾讯混元携手科研机构推出首个多模态统一CoT奖励模型并开源

近日,腾讯混元在与上海 AI Lab、复旦大学及上海创智学院的合作下,正式推出了全新研究成果 —— 统一多模态奖励模型(Unified Reward-Think),并宣布全面开源。这一创新模型不仅具备了强大的长链推理能力,还首次实现了在视觉任务中 "思考" 的能力,使得奖励模型能够更准确地评估复杂的视觉生成与理解任务。统一多模态奖励模型的推出,标志着奖励模型在各类视觉任务中的应用达到了新的高度。过去,许多视觉任务往往面临评估不准确和推理能力不足的问题。而这一新模型的研发,正是为了克服这些局限性。通过深度学习和多模态融合技术,模型能够在多种视觉任务中进行跨任务的泛化与推理,提高了可解释性。该项目的开源内容包括模型、数据集、训练脚本和评测工具,这将有助于推动相关领域的进步与创新。科研人员和开发者可以基于此模型进行深入研究,探索更多应用场景。腾讯混元的这一举动,也体现了其在人工智能领域持续的创新和开放态度,随着这一模型的发布与开源,未来在多模态 AI 研究、视觉任务评估等方面,将会看到更多的可能性和应用前景。

2025/05/16

Google 将 Gemini AI 助手扩展至Wear OS和Google TV,开启全新智能体验

Google 将 Gemini AI 助手扩展至Wear OS和Google TV,开启全新智能体验

在刚刚结束的 Android Show 上,恰逢 Google I/O 开发者大会前夕,Google 宣布了一个备受期待的消息:其最新的人工智能助手 Gemini 即将登陆 Wear OS 智能手表和 Google TV。这一举措是 Google 计划在所有设备和平台上逐步取代 Google Assistant 的重大步骤。用户们早已期待这一时刻,现在终于可以在多种设备上与 Gemini 进行互动。在 Wear OS 智能手表上,Gemini 让用户在无法使用手机的情况下也能方便地使用智能助手,只需简单地与手表对话,无需严格按照特定的指令。而在 Google TV 上,Gemini 将带来个性化的内容推荐,让家庭观影体验更加愉悦。用户可以询问适合儿童观看的动作片,或让孩子提问太阳系的问题,Gemini 则会自动播放相关的教育视频。此外,Google 还将 Gemini 集成到 Android XR 平台,未来用户在使用头戴式设备时也能享受到这一智能助手的服务。Android 团队的高管 Guemmy Kim 表示,当第一款搭载 Android XR 的头显在年底上市时,用户将能够在几分钟内创建出丰富多彩的假期计划。

2025/05/16

Self-Refine方法再度成为热点:通过自我批评提升LLM输出质量

Self-Refine方法再度成为热点:通过自我批评提升LLM输出质量

Self-Refine方法因其通过自我批评与反思显著提升大语言模型(LLM)输出质量,再度成为AI研究热点。这一创新框架让单一LLM通过生成、反馈、优化的循环,自主迭代输出,无需额外训练或外部工具即可实现约20%的性能提升。Self-Refine对包括GPT-4在内的先进模型均有效,引发了开发者与研究者的广泛讨论。Self-Refine的核心在于一个自我循环提示法,通过单一LLM扮演三个角色实现输出优化:生成初始回答、自我批评与反馈、基于反馈优化。该方法无需监督训练数据或强化学习,仅通过提示工程即可实现,极大地降低了应用门槛。测试表明,该方法在代码优化、对话生成、数学推理等七项任务中,平均提升约20%的表现,部分任务(如代码可读性)提升高达40%。该方法已在多种场景中展现出强大潜力,如代码优化、对话生成、文本生成等,并且通过多维度反馈确保输出符合任务要求。开源代码进一步降低了开发者的接入成本。

2025/05/16

苹果推出革命性 AI 模型 Matrix3D:轻松将 3 张照片转化为 3D 场景

苹果推出革命性 AI 模型 Matrix3D:轻松将 3 张照片转化为 3D 场景

苹果机器学习团队与南京大学和香港科技大学合作,推出了一款名为 Matrix3D 的先进 AI 模型。该模型的主要功能是从少量的2D 照片中重建真实的物体和场景,用户只需提供三张照片,便能自动生成详细的3D 重建效果。Matrix3D 改变了传统3D建模的做法,它将图像、相机参数以及深度数据等所有环节统一整合,采用一个统一的架构来处理这些信息,减少了中间步骤,使得重建过程更加顺畅可靠。在训练方法上,Matrix3D 运用了掩码学习策略,灵感来源于早期的 Transformer 基础 AI 系统,通过随机隐藏部分输入数据,促使模型学习如何"填补空白",增强了其适应性。测试结果显示,即使在数据集较小或不完整的情况下,Matrix3D 也能够有效学习关键特征,为沉浸式技术的应用提供了实质性的潜力。在 Apple Vision Pro 等头显设备中,Matrix3D 能够创建真实感十足的虚拟场景,从而提升用户体验。

2025/05/16

谷歌承认:即使网站选择退出,仍用搜索数据训练 AI

谷歌承认:即使网站选择退出,仍用搜索数据训练 AI

科技巨头谷歌在近日的一场联邦反垄断审判中承认,即使网站出版商明确选择不让其内容用于人工智能模型训练,谷歌仍会利用其搜索引擎收集的数据进行 AI 训练,包括备受争议的 AI Overviews 功能。这一承认由谷歌旗下人工智能实验室 DeepMind 的副总裁伊莱·柯林斯在作证时做出。司法部律师戴安娜·阿吉拉尔在质询中指

2025/05/09

Reddit在搜索栏中引入AI助手,告别繁琐搜索

Reddit在搜索栏中引入AI助手,告别繁琐搜索

随着互联网的发展,搜索引擎似乎变得愈发臃肿,广告和推销内容的增多让用户感到困扰。如今,很多人已经习惯在寻找信息时先选择 "谷歌一下,某某某 Reddit"。这不仅是一种幽默,也反映了人们对 Reddit 这一社区的信赖,因为用户提供的信息往往更为真实和有用。为了解决这一问题,Reddit 在去年的时候推出了 "Redd

2025/05/09

Anthropic推出"Integrations"连接应用,Claude新增"高级研究"深挖信息

Anthropic推出"Integrations"连接应用,Claude新增"高级研究"深挖信息

Anthropic周四发布重大更新,为旗下AI聊天机器人Claude引入全新的应用连接方式"Integrations",并扩展了"深度研究"功能至"Advanced Research",使Claude能够搜索网络、企业账户等更广泛的数据源。"Integrations"和"Advanced Research"目前面向Cl

2025/05/09

数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃

数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。DeepSeek-Prover-

2025/05/09

澳大利亚电台首创 AI DJ,半年内无人识破真相!

澳大利亚电台首创 AI DJ,半年内无人识破真相!

澳大利亚知名电台 CADA 近期推出了一位名为 Thy 的 AI DJ,该 DJ 由 AI 语音生成器 ElevenLabs 打造。Thy 自2024年11月开始主持节目《Workdays with Thy》,并在六个月内表现得极为逼真,以至于听众无人察觉他实际上是人工智能。ElevenLabs 的技术原理十分简单,用

2025/05/09

DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破

DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破

中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。根据社交媒体上的最新讨论,这一模型被认为是

2025/05/08

通义灵码接入Qwen3:上线编程智能体 集成魔搭MCP广场

通义灵码接入Qwen3:上线编程智能体 集成魔搭MCP广场

通义灵码团队宣布其编程智能体全面支持Qwen3,并上线了全新的编程智能体功能。这一智能体具备自主决策、环境感知和工具使用等能力,能够根据开发者的诉求,使用工程检索、文件编辑、终端等工具,端到端地完成编码任务。此外,通义灵码还支持开发者配置自己的MCP工具,更加贴合开发者的工作流程,并集成魔搭MCP广场,开发者可以一键下

2025/05/08

清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP

清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP

近日,清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC(人工智能生成内容)机器人大模型 ——VPP(视频预测策略)。这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spotlight 论文奖,显示出其在全球 AI 研究领域的前沿地位。AIGC 技术近年来迅速崛起,从生

2025/05/08

Grok语音模式全面上线 马斯克更改X昵称造势

Grok语音模式全面上线 马斯克更改X昵称造势

近日,人工智能领域迎来新动态,Grok正式宣布其语音模式已在Grok应用程序中完成全面部署。此次更新面向所有iOS用户以及Android平台的SuperGrok订阅者开放,让更多用户能够体验到这一新功能。就在Grok语音模式上线之际,特斯拉和SpaceX首席执行官埃隆·马斯克也做出一个引人关注的举动,他将自己在社交平台

2025/05/08

Midjourney V7推出全新功能 "Omni-Reference",让图像生成更灵活

Midjourney V7推出全新功能 "Omni-Reference",让图像生成更灵活

在图像生成领域,Midjourney 近期推出了一项名为 "Omni-Reference"(全向参考)的新功能,为用户带来了更大的创作自由。这一全新图像引用系统不仅是 V6版本中 "角色参考" 功能的升级版,更是赋予用户在创作过程中对图像元素的精准控制。核心功能:全向参考与多元素支持Omni-Reference通过先进

2025/05/08

AI生物大模型ProGen3:重新定义蛋白质设计的未来

AI生物大模型ProGen3:重新定义蛋白质设计的未来

生物计算公司ProFluent近日推出了ProGen3,这是一款强大的生成式蛋白质语言模型(PLM),有望在抗体、工业酶及基因编辑领域带来重大突破。研究表明,ProGen3的规模和设计优化使其能够生成功能强大的新型蛋白质,甚至重塑我们对生物学的理解。该模型的训练数据来自Profluent Protein Atlas v1数据集,包含34亿个全长蛋白质和1.1万亿个氨基酸标记,成为目前最全面的蛋白质数据集之一。随着模型规模扩大,ProGen3能生成更多样化且功能真实的蛋白质,如ProGen3-46B生成的蛋白质多样性比小模型高出近两倍。在实际应用中,研究团队利用ProGen3设计了一系列高质量抗体,这些抗体在多项属性上与已获批准药物相当,且展现优越的开发性。此外,团队还开发出一种仅由592个氨基酸组成的紧凑型基因编辑器,能实现精准的基因编辑。专家认为,随着此类模型的持续扩展,将为药物发现、酶工程和工业生产等领域带来更多突破性进展。

2025/4/25

Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线

Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。此次更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。Grok的视觉处理能力是此次更新的核心亮点之一,用户可以通过上传图片,让Grok分析复杂视觉内容,例如解读数据图表、识别物体或将视觉信息转化为可执行代码。多语言音频处理方面,Grok通过集成"VoiceWave"扩展,现支持145种以上语言的实时语音交互,覆盖全球主要语种。语音模式下新增的实时搜索功能依托DeepSearch技术,让用户能够通过语音指令即时从网络和X平台获取最新信息。技术上,Grok3的训练依托Colossus超级计算机,配备20万个NVIDIA H100GPU,通过大规模强化学习优化了其推理能力,在多个基准测试中超越了包括GPT-4o、Gemini1.5和Claude3.5Sonnet在内的多个竞品模型。

2025/4/25

Character.AI发布AvatarFX模型:让静态人物图像栩栩如生地"开口交谈"

Character.AI发布AvatarFX模型:让静态人物图像栩栩如生地"开口交谈"

Character.AI日前正式推出创新视频生成模型AvatarFX,这项突破性技术能将静态图像转换为具有高度真实感的会说话视频角色,为图片中的人物赋予动态表情、精准的唇形同步及自然的肢体动作。AvatarFX核心采用最新扩散模型驱动的动态生成引擎,通过精选数据集训练,结合前沿音频条件化、知识蒸馏与优化推理策略,使用户能以极高速度生成高保真且时间一致性强的视频内容。该模型适用于长叙事序列和多角色对话场景,并提供多种音频选项以增强体验沉浸感。平台内置强大安全控制机制,确保创作环境健康可靠。操作便捷的用户界面允许创作者仅通过上传一张起始图片并配置音频,即可生成生动视频,支持多角色参与和连续对话,为个人项目、社交媒体内容或教学演示提供极具创意的表达空间。

2025/4/25

Ostris推出Flex.2-preview:8B参数扩散模型引领ComfyUI工作流新革命

Ostris推出Flex.2-preview:8B参数扩散模型引领ComfyUI工作流新革命

Ostris团队近日发布Flex.2-preview,这是一款搭载8亿参数的文本到图像扩散模型,专为ComfyUI工作流量身定制。据专业分析,该模型在基于线条、姿态和深度的精确控制生成方面表现卓越,同时支持通用控制与高级图像修补功能,沿袭了从Flux.1Schnell经OpenFlux.1到Flex.1-alpha的精细微调进化路径。值得一提的是,Flex.2-preview已在Hugging Face平台完全开源,采用开放的Apache2.0许可协议并提供灵活的工作流整合能力,迅速成为AI创意社区关注焦点。Flex.2-preview核心亮点包括:通用控制系统支持线条、姿态与深度指导;高级图像修补能力;与ComfyUI的无缝集成;以及高效的图像生成表现。技术上,该模型延续了Flux系列的架构优势,同时通过架构精简与控制系统整合实现了更灵活的应用场景,支持从艺术创作到商业设计的多种用途,部署门槛低且性能表现优异,为开源AI艺术创作开辟了新可能。

2025/4/25

mcp-server-weread开源工具实现Claude与微信读书无缝连接,推动阅读体验与人工智能深度结合

mcp-server-weread开源工具实现Claude与微信读书无缝连接,推动阅读体验与人工智能深度结合

近期,创新工具mcp-server-weread在Twitter引起广泛关注,该工具成功打通Anthropic的Claude AI与微信读书平台,使用户能够直接在AI环境中访问并利用微信读书的笔记和阅读数据,为知识工作者带来全新体验。mcp-server-weread作为开源项目,通过建立本地服务器,将微信读书中的笔记、划线及评论以结构化形式导入Claude,实现高效数据处理。Claude凭借强大的分析能力,可基于导入数据生成内容总结、提取关键观点或进行知识关联分析。Twitter社区对该工具的"简便操作"和"高度自定义"特性给予高度评价。其核心优势包括:自动数据同步、结构化信息处理、完善的隐私保护以及丰富的AI交互场景。众多用户已将此工具与Obsidian或Notion等应用集成,构建个性化知识管理体系,为研究人员、职场人士、内容创作者及技术爱好者提供了实用价值。

2025/4/25

阿里达摩院AI模型DAMO PANDA荣获FDA"突破性医疗器械"认证,解决胰腺癌早期检测难题

阿里达摩院AI模型DAMO PANDA荣获FDA"突破性医疗器械"认证,解决胰腺癌早期检测难题

阿里巴巴人工智能模型DAMO PANDA日前获美国食品药品监督管理局(FDA)授予"突破性医疗器械"认证,标志着阿里巴巴在智能医疗领域取得重大突破,也是中国领军科技企业首获此项国际权威认可。DAMO PANDA由阿里达摩院自主研发,专注于胰腺癌早期筛查,通过先进算法精确分析CT图像中的微小病变,有效识别早期胰腺癌征兆。众所周知,胰腺癌因初期症状隐匿,一直被视为医学界难以攻克的难题,传统影像学检查对早期微小病灶的发现能力有限。而DAMO PANDA借助深度学习技术,能在普通CT扫描中准确捕捉并标识病灶,即使是极早期的细微病变也难以逃过其"法眼"。该技术的广泛应用将显著提升胰腺癌早期发现率,为临床干预赢得宝贵时间窗口,彰显了中国AI技术在全球医疗创新领域的强劲实力。

2025/4/18

字节重磅推出豆包1.5深度思考大模型:融合多模态能力,推理延迟更低

字节重磅推出豆包1.5深度思考大模型:融合多模态能力,推理延迟更低

4月17日,在火山引擎AI创新巡展杭州站活动中,字节跳动旗下火山引擎总裁谭待隆重发布豆包1.5・深度思考模型。该模型在数学、编程、科学推理等专业领域及创意写作任务中均表现出色。采用MoE(混合专家)技术架构,总参数规模达200亿,而激活参数仅需20亿,大幅低于业内同类产品,使推理成本获得显著优势。新模型还整合视觉理解技术,提供分析地貌、辅助点餐、生成项目管理流程图等多种实用功能。同时,火山引擎升级了豆包文生图3.0版本,带来更精美文字排版、更高清晰度的图像生成以及2K图片直出能力。值得一提的是,模型视频搜索能力得到提升,可迅速在视频内容中定位所需信息。据谭待介绍,截至2025年3月,豆包大模型日均tokens使用量已超12.7万亿,较初期增长106倍,彰显其强大市场影响力。

2025/4/18

AI音乐新纪元:Deezer平台近两成新曲出自人工智能之手

AI音乐新纪元:Deezer平台近两成新曲出自人工智能之手

根据法国音乐流媒体巨头Deezer最新发布的数据报告,该平台约18%的新上传音乐作品完全由AI创作,清晰呈现出人工智能在音乐创作领域的迅猛崛起。统计显示,每日有超过20,000首AI生成曲目涌入平台,几乎是四个月前数量的两倍之多。Deezer创新主管Aurelien Herault表示,AI生成内容持续大量涌入平台且无减缓迹象,公司已于今年一月推出专门检测工具,能有效筛选纯AI创作内容,确保在面向970万用户的推荐系统中过滤这类作品。与此同时,AI技术在创意产业的迅速扩张也引发诸多法律争议,多家音乐巨头已对Suno和Udio等AI音乐工具发起版权侵权诉讼,众多知名音乐人亦公开表达担忧,警示AI音乐可能边缘化人类艺术家,此类争议同样延伸至好莱坞电影产业。

2025/4/18

人工智能赋能医疗行业革新:Hellocare.ai、SignalFire等企业获得巨额融资支持

人工智能赋能医疗行业革新:Hellocare.ai、SignalFire等企业获得巨额融资支持

近期,健康科技领域涌现多笔重磅投资,彰显人工智能在医疗范畴的迅猛发展与广泛落地。知名早期风投机构SignalFire成功募集10亿美元资金,专注扶持以AI为核心的创业项目,使其管理资产规模达到30亿美元,凸显了其行业领导地位。SignalFire投资组合涵盖多家医疗创新企业,如Grow Therapy与Health Gorilla等。与此同时,Hellocare.ai也斩获4700万美元融资,致力于开发AI驱动的远程医疗解决方案,目前已在70余家医疗机构部署应用。此外,Thatch(4000万美元)、Silna Health(2700万美元)及Layer Health(2100万美元)等新兴公司同样获得可观资金支持,分别专注于个性化健康保险服务、智能医疗账单管理及AI辅助医疗记录审核等领域。随着这些创新科技不断涌现,医疗行业正加速向智能化、个性化服务模式转型。

2025/4/18

理想同学MindGPT 3.0震撼发布:深度思考能力与DeepSeek比肩

理想同学MindGPT 3.0震撼发布:深度思考能力与DeepSeek比肩

近日,理想汽车宣布旗下智能伴侣"理想同学"进行重大更新,搭载的MindGPT3.0模型全面升级并向用户开放使用。此次提升不仅标志着理想汽车在人工智能领域取得又一重大突破,还为广大车主提供了更为智能、便捷的交互体验。据官方透露,MindGPT3.0模型在性能方面实现了突破性进展,其深度思考能力尤为突出。该模型性能可与业内顶尖的DeepSeek-V3-0324(短思维链)及DeepSeek-R1(长思维链)相媲美,展现了理想汽车在AI领域的强大技术实力。用户现可通过理想同学手机应用及网页版免费体验这款全新模型,领略其带来的智能交互新体验。

2025/4/18

工程机械行业首家!机械星球率先推出自研星知大模型,并完成DeepSeek接入

工程机械行业首家!机械星球率先推出自研星知大模型,并完成DeepSeek接入

近日,机械星球率先推出自主研发的星知大模型,这是国内首个工程机械垂直行业大模型。机械星球•星知大模型,通过植入"深度思考模式",全面升级工程行业用户的数智化体验,重新定义设备智慧化租赁、高效施工方案等工程作业场景,旨在助力传统且复杂的工程机械行业,让方案更科学、让作业更安全、让施工更智能。此前星知大模型,已接入通义千问等多个大模型,并于日前完成深度求索(DeepSeek)R1大模型的接入,实现行业深度融合,为行业率先开启了"AI+工程机械"的无限可能!

2025/4/15