
OneRec-V2该技术报告介绍了 OneRec-V2,这是一个用于推荐系统的工业级生成式框架,旨在解决其前身 OneRec-V1 的可扩展性和性能瓶颈。OneRec-V2 的主要创新在于采用了一种 Lazy Decoder-Only 架构,该架构通过消除传统编码器并简化交叉注意力机制,将计算需求降低了 90% 以上,从而实现了模型参数的有效扩展(最高可达 80 亿)。此外,该系统引入了基于 真实用户互动 的偏好对齐(Preference Alignment)机制,包括 Duration-Aware Reward Shaping 和 Gradient-Bounded Policy Optimization (GBPO),以更好地利用用户反馈信号并增强训练稳定性。在快手和快手极速版上的 A/B 测试 表明,OneRec-V2 在显著提升 App 停留时间 等关键指标的同时,有效平衡了多目标推荐,避免了此消彼长的问题。 arxiv.org
深度残差学习实现图像识别这篇研究介绍了残差学习框架 (residual learning framework),旨在解决训练极深神经网络时出现的优化难度和准确性退化问题 (degradation problem)。研究人员通过将网络层重构为学习相对于输入数据的残差函数 (residual functions),而不是直接学习未引用的映射,极大地简化了训练过程。这种方法通过恒等快捷连接 (identity shortcut connections)实现,能够在不增加参数或计算复杂度的情况下,构建并有效训练深度超过100甚至1000层的网络。实验结果表明,残差网络不仅易于优化,而且能从显著增加的深度中获得更高的准确度,最终在ILSVRC 2015 图像分类以及多项目标检测和定位任务中取得**第一名 (1st place)**的优异成绩。 https://arxiv.org/pdf/1512.03385
快手OneRec揭秘he research introduces OneRec, a novel generative recommender system designed to unify the traditional multi-stage "retrieve-and-rank" process into a single, end-to-end generative model. This unified approach, implemented with an encoder-decoder architecture and a sparse Mixture-of-Experts (MoE) structure for scalable capacity, overcomes the limitations of cascaded ranking systems. Crucially, OneRec employs a session-wise generation method, predicting a list of coherent items rather than just the next item, and incorporates an Iterative Preference Alignment (IPA) module using Direct Preference Optimization (DPO) tailored for recommendation sparsity to significantly enhance result quality. The model has been successfully deployed on the Kuaishou platform, demonstrating superior performance by achieving a substantial increase in watch-time metrics. arxiv.org
AgentScopeAgentScope 1.0: A Developer-Centric Framework for BuildingAgentic Applications https://arxiv.org/pdf/2508.16279
openai 开源模型介绍oai_gpt-oss_model_card.pdf
gpt-5 官方系统介绍GPT-5 是一个统一的系统,包含一个智能且快速的模型,可回答大多数问题;一个用于处理更难题目的深度推理模型;以及一个实时路由器,它能根据对话类型、复杂程度、工具需求和明确意图(例如,如果你在提示词中说“仔细思考这个问题”)快速决定使用哪个模型。该路由器会根据实际信号持续进行训练,这些信号包括用户何时切换模型、对回复的偏好率以及衡量的正确率,随着时间推移不断改进。一旦达到使用限制,每个模型的迷你版本将处理剩余查询。在不久的将来,我们计划将这些功能整合到单个模型中。 GPT-5 System Card | OpenAI
Advances and Challenges in Foundation Agents v2基础代理的设计和运作,这是一种受人类认知启发的先进人工智能系统。它详细阐述了代理的核心组成部分,包括世界模型(用于预测环境)、记忆系统(用于存储和检索信息)、奖励机制(用于引导学习和决策)以及感知和行动模块(用于与环境互动)。此外,文本还讨论了多代理系统中的协作、优化和自我演化,并重点关注了人工智能安全方面的挑战和解决方案,例如防止越狱和数据泄露。 arxiv.org
Qwen3Qwen3,Qwen模型家族的最新版本,该系列大型语言模型旨在提升性能、效率和多语言能力。Qwen3系列包含参数规模从0.6到2350亿的密集型和MoE(混合专家)架构模型。Qwen3的关键创新在于将思考模式(用于复杂、多步骤推理)和非思考模式(用于快速、上下文驱动的响应)整合到一个统一框架中,并引入了思考预算机制,允许用户在推理过程中自适应分配计算资源。通过利用旗舰模型的知识,Qwen3显著降低了构建小型模型所需的计算资源,同时确保了其极具竞争力的性能。实证评估表明,Qwen3在各种基准测试中均达到了最先进的水平,并将其多语言支持从29种扩展到119种语言和方言。 2505.09388
Kimi K2Kimi K2,这是一个拥有 1.04 万亿参数的混合专家(MoE)大型语言模型,其中 320 亿参数处于激活状态。报告详细阐述了其预训练阶段采用的 MuonClip 优化器,该优化器结合了 Muon 的效率与 QK-clip 的稳定性,使得模型在 15.5 万亿个 token上实现了无损失尖峰的训练。此外,报告还强调了 Kimi K2 通过大规模 Agentic 数据合成和 强化学习进行后训练,显著提升了其在 软件工程和代理任务方面的能力。性能评估显示,Kimi K2 在多项基准测试中达到了最先进的水平,尤其是在代理能力方面表现突出,并已发布模型检查点以促进相关研究。 Kimi K2: Open Agentic Intelligence
反射、重试、奖励:LLM自提升本研究介绍了一种名为“反思、重试、奖励”的创新方法,旨在通过强化学习提升大型语言模型(LLM)的性能。当模型首次未能完成任务时,它会生成自我反思来分析错误,然后利用这些反思再次尝试。如果第二次尝试成功,模型会奖励那些促成成功的自我反思标记,从而鼓励未来更有效的反思。这种方法在函数调用和数学方程编写等复杂任务中展现出显著的性能提升,甚至使小型模型超越了规模大十倍的未经训练的模型,同时最大限度地减少了灾难性遗忘。
图检索增强生成(GraphRAG)这篇学术文章对图检索增强生成(GraphRAG)进行了全面的概述,这是一种通过整合图结构数据来增强下游任务执行的强大技术。文章详细阐述了一个整体的GraphRAG框架,该框架由查询处理器、检索器、组织器、生成器和图数据源五个关键组成部分构成。它还根据知识图谱、文档图谱、科学图谱和社交图谱等不同领域,考察了GraphRAG的特定设计和应用,讨论了现有挑战和未来的研究方向。文章还提到了在各个领域中构建图的方法,以及GraphRAG在问答、推荐系统和分子生成等方面的应用。 arxiv.org
Qwen2.5-Coder系列模型这份资料介绍了Qwen2.5-Coder系列模型,这是CodeQwen1.5的重大升级版。该系列包含六种不同大小的模型(0.5B到32B),专门为代码相关任务设计,但同时保留了通用和数学能力。这些模型通过精细的数据清洗、可扩展的合成数据生成以及平衡的数据混合进行预训练,数据量超过5.5万亿个token。评估结果显示,Qwen2.5-Coder在代码生成、补全、推理和修复等十多个基准测试中取得了最先进的性能,甚至超越了同等规模的更大模型。该模型的发布旨在推动代码智能领域的研究,并支持开发者在实际应用中广泛采用。arxiv.org
检索增强生成模型 (RAG)这篇研究论文介绍了检索增强生成(RAG)模型,这是一种结合了预训练参数化和非参数化记忆的语言生成方法。该研究探索了两种RAG模型:RAG-Sequence和RAG-Token,它们通过神经检索器访问维基百科的密集向量索引作为非参数记忆,并使用预训练的序列到序列模型作为参数记忆。通过在各种知识密集型自然语言处理任务上进行微调和评估,包括开放域问答、抽象问答、问题生成和事实核查,研究表明RAG模型在多个基准测试中取得了最先进的结果,并且比纯参数化模型生成了更具体、多样和符合事实的语言。此外,该研究强调了可热插拔的非参数记忆的优势,允许轻松更新模型的知识,而无需再训练,并讨论了该方法的社会影响。arxiv.org
AutoCodeRover: Autonomous Program Improvementhttps://arxiv.org/abs/2404.05427 在过去几十年中,研究人员在实现软件开发过程自动化方面取得了重大进展。大语言模型(LLMs)的最新进展对开发过程产生了重大影响,开发人员可以使用基于 LLM 的编程助手来实现自动编码。然而,除了编码之外,软件工程还涉及程序改进过程,特别是为了实现软件维护(如修复漏洞)和软件演进(如添加功能)。在本文中,我们提出了一种自动解决 GitHub 问题的方法,以自主实现程序改进。在我们名为 AutoCodeRover 的方法中,LLMs 与复杂的代码搜索功能相结合,最终实现程序修改或补丁。与人工智能研究人员和从业者最近提出的 LLM 代理方法不同,我们的视角更侧重于软件工程。我们处理的是程序表示(抽象语法树),而不是将软件项目仅仅视为文件的集合。 我们的代码搜索利用类/方法形式的程序结构,来增强大语言模型(LLM)对问题根本原因的理解,并通过迭代搜索有效地检索上下文。只要有测试套件,使用基于测试的频谱故障定位,就能进一步优化上下文。在 SWE-bench-lite(300 个真实的 GitHub 问题)上进行的实验表明,解决 GitHub 问题的效率有所提高(在 SWE-bench-lite 上提高了 19%),高于最近报道的 SWE-agent 的效率。此外,与其他基线相比,AutoCodeRover 以显著更低的成本(平均 0.43 美元)实现了这一效率。我们认为,我们的工作流程能够实现自主软件工程,未来,大语言模型(LLMs)自动生成的代码可以得到自主改进
LLaMA: Open and Efficient Foundation Language Modelshttps://arxiv.org/abs/2302.13971 LLaMA,这是一组参数规模从 70 亿到 650 亿的基础语言模型。我们在数万亿个词元上训练模型,并表明仅使用公开可用的数据集就有可能训练出最先进的模型,而无需借助专有且无法获取的数据集。特别是,LLaMA-13B 在大多数基准测试中优于 GPT-3(1750 亿参数),LLaMA-65B 与最优秀的模型 Chinchilla-70B 和 PaLM-5400 亿参数相比也颇具竞争力