
Tan Yuqiao的第一篇论文 - 来自中国科学学院的自动化工程学院的自然语言过程和研究团队,他的主管是He Shizhu先生。当前的研究方向主要使用大型语言模型参数的知识来增强大型模型的能力。 1跨尺度参数将知识转移到PKT的人类思维的全面评论不是透明的,也不是继承的记忆,因此有必要通过语言交流环境知道。移动人类知识长期以来取决于符号语言:从单词,数学公式到编程代码,我们通过符号系统删除和解码知识。但是,这种方法具有天然的瓶颈,例如所有信息之后,徒劳的等信息。如今,大语言模型(LLM)主要模仿以了解和传达知识的范围。但是,与TH的不可知论和不透明特性不同E人的大脑,可访问的参数和开源LLM信息的流像是透明的大脑,该大脑直接打折了事实知识,并且系统地评估了现有的研究,准确地定位并有效地转移了现有的研究。因此,研究人员问:转移知识的技能的嘲讽能否像阿凡达人一样,可以建立对阿凡达的嘲弄?它使用参数知识作为培养基在自然发生的较大的LLM和较小的LLM对之间扩展。最近,中国科学院自动化研究所提出了对参数知识转移(PKT,转移知识参数)的全面回顾。在句子的摘要中:大型跨尺度模型之间的性能的统一性和参数结构的相似性非常低,从而造成了巨大的挑战以实现有效的PKT。 Pamagat ng Papel:Na na Hindi Pagkakatugma:Ang Hindi Mababawas na agwat ng跨大小Ametric na kaalaman sa paglilipat sa失败MGA Modelo ng wika ng papel地址:https://arxiv.org/abs/2505.144436github地址:https://github.com/github.com/github.com/trae1oung/trae1ounal_incompatibility2参数空间的矿山比对中的实验,这是实现参数知识传递的必要条件。现有的对齐参数的方法,以寻找较大LLM参数巨星的梯度定位适应较小的LLM张量形状,它们是在Lora矩阵中启动的,以通过随后的修复,称为“后平衡参数转移方法”(Align Post-Align PKT)。为了更全面地探索是否制作了PKT,该论文提出了基于对齐时间的时间安装(预先对准)的首次对齐的新范式,并使用位置 - 然后对准方法(LATEN)实现参数。图1:分配在基于语言的知识和基于知识的参数的参数转移之间存在差异。该方法的主要思想是首先通过评估神经元级别的级别来确定与特定任务相关的参数,然后使用整洁的s s s s s s s sh s s s s映射较小LLM中较大LLM的知识。具体而言,最新方法分为两个阶段:获取知识:通过评估大型模型的参数,识别与目标工作相关的知识。该过程使用识别神经元的静态方法来计算任务中每个神经元的重要性,从而选择过渡的最大感知参数。参数对齐:当确定重要参数时,它们将与轻量级超级net工作对齐,以确保可以将这些参数有效地集成到小型模型中。参数注入:此过程强调了对位后的直接注入参数NT,减少了后续培训所需的资源和时间。通过上面的过程,可以将MAS参数的知识转换为可用于较小模型的知识,然后注射以防止参数空间差异引起的性能丧失。 3在实验部分中,研究人员对涵盖世界知识(MMLU),数学推理(GSM8K)和代码功能(HumaneVal和MBPP)的许多基准数据集进行了详细的综述。图2:在各种数据集中显示Align后PKT和平均性能性能,设定了一个实验结论:对于Align PKT,本文将其与使用SVD从模型本身获取Lora的PISSA方法进行了比较。知道PISSA比在同一设置下搜索的PISSA还要糟糕,证明从较大模型ISIT获得的参数知识不如使用模型自身的知识作为Lora的开始,并且更偏差关于它的可行性。对于Align PKT,结果表明,LATEN可以通过少量的培训和开销步骤有效地提高性能。但是,通过实践实现参数比对的预先对准PKT程序受到很高的限制,并且无法克服较大的LLM的上限。同时,培训不是很稳定,没有明确的场景。此外,如果当前阶段的PKT有效,则本文从另一个方面证明。由于传递参数的知识包含对特定任务的有用知识,因此在特定任务中执行得更好的模型应使Malilii更好的模型在传输后的性能。因此,研究人员进行了探索代码活动的探索:图3:基于较强的LLM的知识将知识移至较小的LLM。左图显示了后Aloh PKT实验的结果,正确的图片显示了对齐前实验的结果在PKT中。实验结果证明,这种设置下两个PKT的失败对人们的构想,为什么不能实施跨尺度PKT? 4为什么跨尺度PKT失败? PKT的主要任务在于对齐。无论是通过随后的培训还是通过超级核对来实现这一点,如果对齐能够有效地达到PKT成功的关键。在现有实验结果的判断中,PKT没有有效地实现一致性,那么Balamid的关键是什么?基于代表的相似性和参数的相似性,论文评估了大型跨尺度模型的行为和内部参数结构的相似性是否会导致跨尺度故障,称为神经元不兼容。图4:大型跨尺度模型之间的性能均匀性的分析,以评估性能均匀性,该论文基于Hilbert-Schmidt I采用了基于内核的(CKA)对准方法N依赖性标准(HSIC)计算神经网络上特征表示的均匀性。该措施评估了两个模型之间的行为相似性,可以被视为大语模型的行为的相似性。如图4所示,Llama2-7b和13b之间的相似性较低,尤其是在多头模块意见(MHSA)中,该(MHSA)在整合信息中起着重要作用。有趣的是,投影的上层具有较高的相似性,也许是因为它们充当关键记忆,以获得通常与模型一致的特定输入模式。大型模型之间的低相似性也解释了为什么从同一模型衍生的洛拉(Lora)表现更好,因为它更适合模型的内在行为。验证整个量表中大语言模型之间表示的弱相似性是导致神经不相容性的主要因素之一很难在参数知识的完美转移中取得成功。为了分析参数结构的相似性,本文根据参数结构的相似性进一步进行了DEPTHI,以了解其性能效应。如图5所示,比较上投影和下投影模块中的性能。 (即,LRA LRA层的参数)与搜索和阴茎结果完全相反。在搜索中,大量信息。这种缺陷导致次优性能。从保留到0之间的平均相似性中没有什么,这表明,相比之下,PISSA使用奇异下降(SVD)来获得Lora的重要参数,保持与原始重量的相似性增加,并显着影响模型适应新任务并执行参数的能力。参数的低相似性成为神经不相容的重要因素。同样的模式在MU旁边是SinualsoLTI头自我意识模块。建立了正交关系,因此在学习新技能时会更有效。研究表明,参数结构的相似性在进一步的细调中起着关键作用。特别是5个摘要和期望:从过去和现在的研究中,人类仍应实现理想的PKT,这继续通过语言和文字吸收对历史的长河的知识,并通过吸收和重复来继承知识。但是,我经常决定可以实现这一点。与科幻小说类似,三体人通过脑波直接发送所有知识,或者使用床链接到Navigne体内的人类意识的链接。这是移动知识的更好方法,开放大型参数可能会实现这一目标。通过根据ALIGN对PKT进行划分,我们在当前阶段完成了对PKTS的全面研究,发现背后实验结果不佳是不同尺度大型模型之间参数知识的基本行为和结构。但是,仍然可以预料,将来大型模型之间的沟通不再限于压缩损失,例如语言,而是将测试更好,直接转移方法。语言可能是人类知识的起点,但是不需要大型模型的终结。