Multimodal

Speech-to-text

Speech-to-text converts audio into written text.

Quick definition

Speech-to-text converts audio into written text.

It powers dictation, transcription, and voice interfaces. In multimodal workflows, speech-to-text often shapes cross-modal understanding.

Multimodal models align text, vision, and audio signals so one system can reason across modalities.

Multimodal features unlock workflows across text, audio, and images.

Transcribe a meeting recording.

Noisy inputs lead to unreliable results. Provide clear images, clean audio, and explicit instructions.

In BoltAI, this appears when working with audio, images, or voice.