Get our free extension to see links to code for papers anywhere online!Free add-on: code for papers everywhere!Free add-on: See code for papers anywhere!

Add to Chrome

Add to Firefox

Add to Edge

Title:Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models

Feb 18, 2025

Gyeongman Kim, Gyouk Chu, Eunho Yang

Figure 1 for Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models

Figure 2 for Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models

Figure 3 for Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models

Figure 4 for Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models

Share this with someone who'll enjoy it:

Abstract:With the emergence of Mixture-of-Experts (MoE), the efficient scaling of model size has accelerated the development of large language models in recent years. However, their high memory requirements prevent their use in resource-constrained environments. While knowledge distillation (KD) has been a proven method for model compression, its application to MoE teacher models remains underexplored. Through our investigation, we discover that non-activated experts in MoE models possess valuable knowledge that benefits student models. We further demonstrate that existing KD methods are not optimal for compressing MoE models, as they fail to leverage this knowledge effectively. To address this, we propose two intuitive MoE-specific KD methods for the first time: Knowledge Augmentation (KA) and Student-Aware Router (SAR), both designed to effectively extract knowledge from all experts. Specifically, KA augments knowledge by sampling experts multiple times, while SAR uses all experts and adjusts the expert weights through router training to provide optimal knowledge. Extensive experiments show that our methods outperform conventional KD methods, demonstrating their effectiveness for MoE teacher models.

View paper on

Share this with someone who'll enjoy it:

Title:Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models

Paper and Code