Transfer Learning: 20 Interview Questions

Question 1

1 What is transfer learning? Why is it important? âš¡ Easy

Answer

Answer: Transfer learning leverages knowledge learned from a source task (usually large dataset) to improve learning on a target task (usually smaller dataset). Critical for data efficiency, faster convergence, and better performance when labeled data is scarce.

Question 2

2 Types of transfer learning: inductive, transductive, unsupervised? ðŸ”¥ Hard

Answer

Answer:

Inductive: source and target tasks different, domains same or different. Fine-tuning is inductive.
Transductive: tasks same, domains different (domain adaptation).
Unsupervised: no labeled data in either task (e.g., self-supervised pretraining).

Question 3

3 Feature extraction (frozen backbone) vs fine-tuning â€“ trade-offs? ðŸ“Š Medium

Answer

Answer: Feature extraction: freeze pretrained weights, train only new head. Faster, less overfitting, good for small data/similar domains. Fine-tuning: unfreeze some/all layers, train end-to-end. Better for large data/different domains, risk of catastrophic forgetting.

Question 4

4 How to decide which layers to freeze/unfreeze? ðŸ”¥ Hard

Answer

Answer: Lower layers learn generic features (edges, textures), higher layers task-specific. Freeze lower layers if target dataset small or similar to source. Gradually unfreeze from top-down (discriminative fine-tuning). If domain shift large, unfreeze more.

Question 5

5 What is catastrophic forgetting? How to prevent it? ðŸ”¥ Hard

Answer

Answer: Neural networks may overwrite previously learned knowledge when fine-tuning on new tasks. Mitigation: lower learning rates, freeze early layers, elastic weight consolidation (EWC), learning without forgetting, replay buffers, gradual unfreezing.

Question 6

6 What is domain adaptation? When needed? ðŸ”¥ Hard

Answer

Answer: Domain adaptation addresses distribution shift between source and target domains (same task, different data distributions). Approaches: adversarial domain adaptation (gradient reversal), CORAL, self-training, data alignment. Used in sim-to-real, cross-lingual transfer.

Question 7

7 Criteria for selecting a pretrained model? ðŸ“Š Medium

Answer

Answer: Source domain similarity to target, dataset size (ImageNet vs JFT), architecture efficiency, performance on relevant benchmarks, input size compatibility, license, and framework support.

Question 8

8 What is self-supervised learning for transfer? Examples? ðŸ”¥ Hard

Answer

Answer: Pretrain on unlabeled data via pretext tasks (contrastive learning, masking). SimCLR: maximize agreement between augmented views. MAE: mask autoencoding. BERT: masked LM. Transfers well to downstream tasks, reduces need for labeled data.

Question 9

9 How does transfer learning enable few-shot learning? ðŸ“Š Medium

Answer

Answer: Pretrained models provide strong feature extractors. With a good feature space, a simple classifier (linear probe, prototype) can generalize from few examples. Meta-learning also builds on transferable representations.

Question 10

10 What is negative transfer? How to detect/avoid? ðŸ”¥ Hard

Answer

Answer: When transferring knowledge harms target performance vs training from scratch. Causes: source task too dissimilar, misleading features, domain shift. Detect via validation performance. Avoid by careful model selection, layer freezing, regularization, or using smaller learning rates.

Question 11

11 Explain progressive resizing and gradual unfreezing. ðŸ“Š Medium

Answer

Answer: Progressive resizing: start training with smaller image size, increase gradually. Stabilizes learning, faster. Gradual unfreezing: initially freeze all but head, then progressively unfreeze layers from top during training. Both improve fine-tuning.

Question 12

12 What are discriminative learning rates? ðŸ”¥ Hard

Answer

Answer: Using different learning rates for different layers. Lower LR for early layers (preserve generic features), higher LR for later layers (adapt task-specific). Implemented via parameter groups in optimizers. Used in ULMFiT.

Question 13

13 How is transfer learning different in NLP vs vision? ðŸ“Š Medium

Answer

Answer: NLP: pretrain on large text corpus (language modeling), fine-tune on downstream tasks. BERT bidirectional, GPT causal. Usually fine-tune entire model (smaller risk of overfitting). Vision: often freeze early layers, train classifier. Both now trend toward full fine-tuning.

Question 14

14 Transfer learning vs multitask learning? ðŸ“Š Medium

Answer

Answer: Transfer: sequential (source â†’ target). Multitask: simultaneous learning of multiple tasks, sharing representations. Transfer focuses on target; multitask aims to improve all tasks via shared inductive bias.

Question 15

15 Metrics to measure transfer learning success? ðŸ“Š Medium

Answer

Answer: Target task accuracy/AUC, convergence speed (epochs to target performance), data efficiency (performance vs training size), negative transfer detection (compare to scratch baseline), and transfer ratio.

Question 16

16 When would you NOT use transfer learning? ðŸ“Š Medium

Answer

Answer: Target domain extremely different (medical images vs natural images), very large target dataset available, custom architecture not supported by pretrained models, or when pretrained model has biased/unsafe features.

Question 17

17 What are adapters? Why use them? ðŸ”¥ Hard

Answer

Answer: Adapters are small trainable modules inserted between frozen pretrained layers. Enables multi-task serving, prevents catastrophic forgetting, parameter-efficient. Used in NLP (Houlsby adapters), LoRA (low-rank adaptation), prefix tuning.

Question 18

18 Explain LoRA. Why is it popular? ðŸ”¥ Hard

Answer

Answer: LoRA injects trainable low-rank matrices into attention layers, approximating weight updates. No inference latency, reduces memory footprint, often matches full fine-tuning. Widely used for LLMs.

Question 19

19 How does cross-lingual transfer work? (mBERT, XLM-R) ðŸ”¥ Hard

Answer

Answer: Multilingual models pretrained on concatenated corpora from many languages (shared vocabulary, aligned representations). Fine-tune on high-resource language, zero-shot transfer to low-resource languages. Relies on shared subword units and contextualization.

Question 20

20 Challenges of transfer learning in RL? ðŸ”¥ Hard

Answer

Answer: Different dynamics, reward functions, observation spaces. Common approaches: policy transfer, value function transfer, feature reuse. Challenges: negative transfer, catastrophic forgetting, exploration-exploitation. Sim-to-real via domain randomization.

Related Deep Learning Links

Transfer Learning: 20 Interview Questions

Transfer Learning â€“ Interview Cheat Sheet

Fine-Tuning Strategies

Risks

Popular Pretrained Models

When Transfer Works Best