Training

Reward model

A reward model scores outputs by quality.

Quick definition

A reward model scores outputs by quality.

It is used to optimize responses in training. In training workflows, reward model often shapes model adaptation.

Training adapts models through fine-tuning or preference optimization. It uses curated datasets and evaluation loops.

Training methods tailor models to your domain and use case.

Score helpfulness for RLHF.

Low-quality data can degrade performance. Keep datasets clean, representative, and well-labeled.

In BoltAI, this is referenced when discussing model customization.