LLM & SLM 研究日报 - 2026-07-05

2026-07-05

LLM & SLM 研究日报

算法·训练·推理 —— 大语言模型与小语言模型的前沿研究

数据源: cs.CL + cs.LG

生成时间: 2026/7/5 09:09:29

📊 今日概况

方向	论文数
🧮 算法与架构	7
🏋️ 训练方法	6
⚡ 推理优化	5
总计扫描	50

📝 论文列表

🧮 算法与架构 (7 篇)

1. Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas

arXiv: 2607.02504
摘要: lrm,dramasr,dramas,532k,speaker,textbf,recognition,reasoning,storyline,198808xc
关键词: lrm,dramasr,dramas,532k,speaker,textbf,recognition,reasoning,storyline,198808xc

2. CheckRLM: Effective Knowledge-Thought Coherence Checking in Retrieval-Augmented Reasoning

arXiv: 2607.02262
摘要: checkrlm,reasoning,factual,knowledge,checking,chain,errors,rlms,coherence,retrieval
关键词: checkrlm,reasoning,factual,knowledge,checking,chain,errors,rlms,coherence,retrieval

3. NAVER LABS Europe Submission to the Instruction-following 2026 Short Track

arXiv: 2607.01960
摘要: track,speech,submission,naver,2026,short,sqa,labs,europe,year
关键词: track,speech,submission,naver,2026,short,sqa,labs,europe,year

4. AIriskEval-edu: New Dataset for Risk Assessment in AI-mediated K-12 Educational Explanations

arXiv: 2607.01934
摘要: airiskeval,risk,edu,explanations,educational,db2,pedagogical,assessment,teacher,dataset
关键词: airiskeval,risk,edu,explanations,educational,db2,pedagogical,assessment,teacher,dataset

5. DecompRL: Solving Harder Problems by Learning Modular Code Generation

arXiv: 2607.02390
摘要: decomprl,gpu,harder,code,generation,livecodebench,problems,modular,sampling,implementations
关键词: decomprl,gpu,harder,code,generation,livecodebench,problems,modular,sampling,implementations

6. One More Time: Revisiting Neural Quantum States from a Reinforcement Learning Perspective

arXiv: 2607.02292
摘要: nqs,pwo,optimization,adam,principled,minsr,born,trust,rwkv,revisiting
关键词: nqs,pwo,optimization,adam,principled,minsr,born,trust,rwkv,revisiting

7. Bayesian Sparse Low-Rank Adaptation for Large Language Model Uncertainty Estimation

arXiv: 2607.02182
摘要: rank,dalorra,bayesian,adaptation,lora,sparse,uncertainty,language,llms,reasoning
关键词: rank,dalorra,bayesian,adaptation,lora,sparse,uncertainty,language,llms,reasoning

🏋️ 训练方法 (6 篇)

1. Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning

arXiv: 2607.02214
摘要: speech,instruction,text,llm,tuning,language,slm,training,unlocking,pre
关键词: speech,instruction,text,llm,tuning,language,slm,training,unlocking,pre

2. Object Aligner: A Configurable JSON Schema Similarity Score for Graphs, Applied to LLM Prompt Optimization

arXiv: 2607.01972
摘要: aligner,json,schema,object,similarity,identifiers,llm,prompt,alignment,gepa
关键词: aligner,json,schema,object,similarity,identifiers,llm,prompt,alignment,gepa

3. DemoPSD: Disagreement-Modulated Policy Self-Distillation

arXiv: 2607.02502
摘要: demopsd,teacher,student,privileged,distillation,leakage,token,opsd,exploration,sciknoweval
关键词: demopsd,teacher,student,privileged,distillation,leakage,token,opsd,exploration,sciknoweval

4. HERMES: A Multi-Granularity Labeling Substrate for Pre-training Data Mixtures

arXiv: 2607.02266
摘要: granularity,hermes,substrate,mixer,prefix,labeling,clusterer,0253,rebuilds,coarse
关键词: granularity,hermes,substrate,mixer,prefix,labeling,clusterer,0253,rebuilds,coarse

5. Bayesian Sparse Low-Rank Adaptation for Large Language Model Uncertainty Estimation

arXiv: 2607.02182
摘要: rank,dalorra,bayesian,adaptation,lora,sparse,uncertainty,language,llms,reasoning
关键词: rank,dalorra,bayesian,adaptation,lora,sparse,uncertainty,language,llms,reasoning

6. Probing Chemical Language Models: Effects of Pre-training and Fine-tuning

arXiv: 2607.02140
摘要: clms,substructures,chemical,tuning,molecular,pre,fine,initialized,representations,encode
关键词: clms,substructures,chemical,tuning,molecular,pre,fine,initialized,representations,encode

⚡ 推理优化 (5 篇)

1. Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning

arXiv: 2607.02214
摘要: speech,instruction,text,llm,tuning,language,slm,training,unlocking,pre
关键词: speech,instruction,text,llm,tuning,language,slm,training,unlocking,pre

2. DecompRL: Solving Harder Problems by Learning Modular Code Generation

arXiv: 2607.02390
摘要: decomprl,gpu,harder,code,generation,livecodebench,problems,modular,sampling,implementations
关键词: decomprl,gpu,harder,code,generation,livecodebench,problems,modular,sampling,implementations

3. Privacy-Preserving and Verifiable Approximate Distributed Coded Computing

arXiv: 2607.02187
摘要: privacy,malicious,coded,adversary,learning,gpbacc,distributed,federated,decentralized,computing
关键词: privacy,malicious,coded,adversary,learning,gpbacc,distributed,federated,decentralized,computing

4. Dynamic Neural Graph Encoding of Inference Processes in Deep Weight Space

arXiv: 2607.02166
摘要: neural,dng,inr,weight,implicit,encoder,dynamic,inference,highdimensional,graph
关键词: neural,dng,inr,weight,implicit,encoder,dynamic,inference,highdimensional,graph

5. ART for Diffusion Sampling: Continuous-Time Control and Actor-Critic Learning

arXiv: 2607.02137
摘要: sampling,art,schedules,diffusion,control,timestep,timesteps,actor,critic,time
关键词: sampling,art,schedules,diffusion,control,timestep,timesteps,actor,critic,time

今日LLM/SLM技术洞察报告

1. 今日技术热点

今日论文呈现三大技术热点：推理能力增强、多模态融合与不确定性量化。在推理方面，CheckRLM通过知识-思维一致性检查提升检索增强推理的可靠性；DecompRL采用模块化代码生成解决复杂问题；多模态领域出现突破性进展，如无需指令调优的语音-文本组合模型；不确定性量化领域，Bayesian Sparse LoRA为大模型提供了可靠的置信度估计。最值得关注的是将强化学习视角引入量子态模拟的研究，开辟了跨领域技术融合的新思路。

2. 算法与架构趋势

算法架构上，稀疏注意力与状态空间模型(SSM)的竞争持续演进，而模块化设计成为新趋势。DecompRL展示如何通过模块化代码生成解决更复杂问题，突破了传统单一架构限制。长上下文处理方面，检索增强方法与神经网络动态编码(DNG)提供了不同技术路线，前者依赖外部知识，后者优化权重空间表示。小模型架构创新集中在多模态融合领域，如语音-文本组合模型展示了无需复杂微调即可实现指令跟随能力的新范式。

3. 训练方法趋势

训练方法呈现四大趋势：对齐技术超越传统RLHF，如DemoPSD通过分歧调节策略自蒸馏；数据工程精细化，HERMES提出多粒度标记基板用于预训练数据混合；高效微调实用化，Bayesian Sparse LoRA结合稀疏性与不确定性估计；训练稳定性提升，化学语言模型研究揭示了预训练与微调对表示能力的差异化影响。特别值得注意的是，语音模型通过解锁语音-文本组合能力，实现了无需指令调优的指令��随能力，降低了训练门槛。

4. 推理优化趋势

推理优化聚焦四大方向：量化技术向隐私保护与可验证计算发展，如隐私保护近似分布式编码计算；Speculative decoding衍生出新变体，如ART为扩散采样提供连续时间控制；端侧部署强调模型轻量化与动态神经图编码；KV cache管理策略与动态神经图编码结合优化推理过程。特别值得注意的是，DecompRL通过GPU加速的模块化代码生成，展示了在LiveCodeBench基准上解决更复杂问题的能力，平衡了性能与效率。

5. 关键洞察

推理与知识融合：CheckRLM证明知识-思维一致性检查能显著提升检索增强推理的可靠性，未来模型需更注重知识整合的连贯性验证机制，而非简单依赖外部检索。
模块化设计优势：DecompRL和NAVER LABS的提交均显示模块化架构能提升模型处理复杂问题的能力，这暗示未来大模型可能朝”专家系统”方向发展，通过模块组合解决特定任务。
多模态融合新范式：语音-文本组合模型展示了无需复杂微调的指令跟随能力，表明多模态融合可能通过预训练阶段的设计而非后微调实现突破。
不确定性量化实用化：Bayesian Sparse LoRA将稀疏适应与不确定性估计结合，为实际应用提供了更可靠的置信度评估，这对高风险场景尤为重要。
数据工程精细化：HERMES的多粒度标记基板反映了数据质量与混合策略对模型性能的关键影响，未来训练数据将更加注重语义结构与知识分布的平衡。
长上下文处理多元化：动态神经图编码与检索增强方法代表两种不同技术路线，前者优化权重空间表示，后者依赖外部知识，未来可能融合互补。
端侧部署新挑战：隐私保护计算与动态神经图编码的结合，反映了端侧部署对模型轻量化与隐私保护的双重需求，推动推理优化向更精细化方向发展。

6. 开源生态动态

今日研究与开源生态紧密关联，DecompRL的实现扩展了现有代码生成库，如LiveCodeBench；Bayesian Sparse LoRA可直接适配HuggingFace的PEFT框架；语音-文本组合模型为llama.cpp等端侧部署提供了新思路；隐私保护计算研究可与vLLM的分布式推理架构结合。这些研究大多基于PyTorch实现，并通过HuggingFace平台分享，表明开源生态仍是LLM/SLM创新的重要推动力。

7. 学习建议

掌握多模态融合技术：研究语音-文本组合模型，理解如何在预训练阶段实现跨模态理解，为未来多模态应用打下基础。
深入模块化架构设计：学习DecompRL的模块化代码生成方法，掌握如何将复杂问题分解为可管理的子问题，提升模型解决复杂任务的能力。
关注不确定性量化方法：研究Bayesian Sparse LoRA等新技术，了解如何将概率推理融入模型训练，提高决策可靠性。
探索长上下文处理多元方案：对比分析检索增强与动态神经图编码等不同技术路线，根据应用场景选择合适的长上下文处理策略。
实践高效微调技术：掌握Bayesian Sparse LoRA等新型微调方法，平衡模型性能与计算效率，适应实际部署需求。

📚 附录

筛选关键词

算法: attention mechanism, mixture of experts, MoE, sparse attention, flash attention, rotary position, RoPE, grouped query, GQA, KV cache …

训练: pre-training, pretraining, post-training, fine-tuning, finetuning, supervised fine-tuning, SFT, alignment, RLHF, DPO …

推理: inference, serving, latency, throughput, speculative decoding, batching, continuous batching, PagedAttention, vLLM, quantization …

本报告由 OpenClaw 自动生成 | LLM & SLM Research Daily