PyTorch Vision (torchvision): 20 Essential Q&A

Question 1

1 What is torchvision? ⚡ easy

Answer

Answer: PyTorch domain library for vision—datasets, transforms, model architectures, and utilities (ops, io).

Question 2

2 Transforms v2? 📊 medium

Answer

Answer: Tensor-based, torchscript-friendly transforms with consistent API for image/video/bbox/mask—prefer over legacy PIL transforms.

Question 3

3 Compose? ⚡ easy

Answer

Answer: Chain transforms in order—typically Resize → ToImage → ToDtype(scale) → Normalize before batching.

Question 4

4 ImageFolder? 📊 medium

Answer

Answer: Folder-per-class dataset returning image, label—pairs with DataLoader for supervised classification finetuning.

Question 5

5 Common augmentations? 📊 medium

Answer

Answer: RandomResizedCrop, hflip, ColorJitter, RandAugment—match train vs eval (no randomness at test).

Question 6

6 Normalize mean/std? 📊 medium

Answer

Answer: Per-channel (x-mean)/std—use weights’ documented stats (ImageNet) when loading pretrained backbones.

Question 7

7 models.resnet50 pattern? ⚡ easy

Answer

Answer: Factory functions return architecture; pass weights=ResNet50_Weights.IMAGENET1K_V2 for pretrained kernels.

Question 8

8 Weights enums? 📊 medium

Answer

Answer: Typed enums carry meta (categories, metrics)—get_weight() or auto-download on first use; reproducible defaults.

Question 9

9 Finetune classifier? 🔥 hard

Answer

Answer: Replace final FC layer to num_classes; freeze backbone optionally; differential LR for head vs body.

Question 10

10 DataLoader notes? 📊 medium

Answer

Answer: num_workers, pin_memory=True on GPU, persistent_workers—collate_fn for variable-size detection batches.

Question 11

11 Detection helpers? 🔥 hard

Answer

Answer: coco_eval, NMS in torchvision.ops—RCNN/Mask R-CNN reference implementations live in torchvision.detection.

Question 12

12 ONNX export? 📊 medium

Answer

Answer: torch.onnx.export on wrapped model—watch dynamic axes and op support; verify in onnxruntime.

Question 13

13 torchvision vs timm? 📊 medium

Answer

Answer: timm: huge model zoo; torchvision: tightly coupled PyTorch references—often mix timm backbone + custom head.

Question 14

14 AMP? ⚡ easy

Answer

Answer: autocast + GradScaler—most torchvision ops support fp16 on CUDA; watch BatchNorm numerics.

Question 15

15 torchvision.ops? 📊 medium

Answer

Answer: ROIAlign, NMS, box_iou—building blocks for detectors; CUDA kernels behind the scenes.

Question 16

16 Video datasets? 📊 medium

Answer

Answer: Kinetics-style readers + temporal transforms—memory heavy; clip sampling strategies matter.

Question 17

17 Extract features? 🔥 hard

Answer

Answer: Forward hooks or intermediate layers API—FPN-style multi-scale features for segmentation/detection heads.

Question 18

18 torch.jit? 🔥 hard

Answer

Answer: Trace or script model+transforms carefully—some dynamic Python in transforms blocks scripting.

Question 19

19 Version coupling? ⚡ easy

Answer

Answer: torchvision releases track specific torch versions—install matched pairs to avoid binary incompatibility.

Question 20

20 Debug pipeline? ⚡ easy

Answer

Answer: Visualize tensors after transforms; assert value ranges [0,1] or normalized; check label mapping in ImageFolder.

Related Computer Vision Links