Aller au contenu

Deepgram — IA Voix

à partir de 0,0048 $/min

À propos de Deepgram

Deepgram est une plateforme Voice AI de niveau entreprise qui fournit des API de reconnaissance vocale (STT), de synthèse vocale (TTS) et d'agent vocal en temps réel. Elle résout le problème des transcriptions lentes, inexactes ou coûteuses en utilisant des modèles d'apprentissage profond de bout en bout qui traitent l'audio en moins de 300 millisecondes, sans nécessiter de pré-entraînement sur votre audio spécifique.

Ce qu'elle fait

Deepgram propose une API unifiée qui convertit l'audio en texte (avec des options streaming et batch), génère une parole naturelle et orchestre des agents vocaux avec détection de tour de parole et gestion des interruptions intégrées. Elle prend en charge plus de 45 langues, la diarisation des locuteurs, un vocabulaire personnalisé et la ponctuation automatique. Les modèles comme Nova-3 gèrent le bruit de fond, les chevauchements de parole et l'audio en champ lointain sans configuration préalable.

À qui s'adresse-t-elle ?

Cette API est conçue pour les développeurs créant des applications vocales (assistants vocaux, analyse d'appels, sous-titrage en direct), les centres de contact ayant besoin de transcription d'appels en temps réel et les entreprises médiatiques qui transcrivent des podcasts ou des vidéos à grande échelle. Elle est moins adaptée aux tâches de transcription manuelles ponctuelles où un éditeur humain est préféré, ou aux projets de loisirs à très petit budget qui n'ont pas besoin d'une latence inférieure à la seconde.

Cas d'usage réels

  • Sous-titrage en temps réel pour les événements en direct et les webinaires
  • Évaluation automatique des appels et analyse des sentiments dans les centres de contact
  • Chat agent vocal pour le support client avec les modèles Flux
  • Transcription par lots de réunions enregistrées, d'interviews et de contenu vidéo

Fonctionnalités clés

  • Streaming en temps réel — Transcrivez l'audio au fur et à mesure qu'il est prononcé via l'API WebSocket avec une latence inférieure à 300 ms
  • Traitement par lots — Téléchargez des fichiers pré-enregistrés pour une transcription asynchrone
  • Vocabulaire personnalisé — Ajoutez du jargon professionnel, des noms ou des acronymes pour améliorer la précision
  • Diarisation des locuteurs — Identifie qui a parlé et quand dans un audio multipersonne
  • Ponctuation et mise en forme — Majuscules, virgules et points automatiques pour des transcriptions lisibles
  • Support linguistique — Plus de 45 langues dont l'anglais, l'espagnol, le mandarin et l'arabe
  • API Agent vocal — API unifiée unique pour l'orchestration STT, TTS et LLM avec détection de tour de parole

Tarifs de Deepgram

Tarifs de Deepgram : à partir de 0,0048 $/min. Modèle de facturation : Freemium.

Offre gratuite

Comprend 200 $ de crédits gratuits pour démarrer. Aucune carte de crédit requise. Accès à tous les modèles publics avec une concurrence limitée (jusqu'à 50 API REST, jusqu'à 50 WSS pour la STT).

Pay As You Go

Sans minimum, sans expiration. 0,0048 $/min pour Nova-3 Monolingual (pré-enregistré), 0,0065 $/min pour Flux English (streaming). Limites de concurrence plus élevées : jusqu'à 150 WSS pour la STT.

Croissance

Crédits annuels prépayés (à partir de 4 000 $/an) qui permettent d'économiser jusqu'à 20 % par rapport au paiement à l'utilisation. Inclut une concurrence accrue : jusqu'à 225 WSS pour la STT, jusqu'à 60 pour la TTS et l'API Agent vocal.

Tous les plans incluent le support communautaire et Discord ; des SLA premium sont disponibles sur les plans Croissance et Entreprise. Contactez les ventes pour les modèles personnalisés et le déploiement en entreprise.

Trouvez l’outil qu’il vous faut avec notre conseiller IA →

Questions fréquentes

Existe-t-il un plan gratuit ou un essai gratuit pour Deepgram ?
Oui, Deepgram propose un niveau gratuit avec 200 $ de crédits pour démarrer. Aucune carte de crédit n'est requise pour s'inscrire.
Combien coûte Deepgram par minute ?
Le tarif à l'utilisation de Deepgram commence à 0,0048 $/min pour Nova-3 Monolingual (pré-enregistré). Les tarifs de streaming pour Flux English commencent à 0,0065 $/min. Les plans Croissance offrent jusqu'à 20 % d'économies avec des crédits annuels prépayés.
À quoi sert Deepgram ?
Deepgram est utilisé pour les API de reconnaissance vocale en temps réel, de synthèse vocale et d'agent vocal. Les cas d'usage courants incluent les sous-titres en direct, l'analyse des appels, les assistants vocaux et la transcription par lots de fichiers audio.
Quelles sont les meilleures alternatives à Deepgram ?
Les alternatives les plus populaires incluent Google Cloud Speech-to-Text, Amazon Transcribe, AssemblyAI et Rev AI. Deepgram se distingue par sa latence inférieure à 300 ms, son API unifiée d'agent vocal et sa précision native sans pré-entraînement.
Deepgram prend-il en charge plusieurs langues ?
Oui, Deepgram prend en charge plus de 45 langues, dont l'anglais, l'espagnol, le mandarin, l'arabe et bien d'autres. Nova-3 Multilingual et Flux Multilingual gèrent plusieurs langues dans une même conversation avec détection automatique de la langue.
Quelle est une limite clé de Deepgram ?
Deepgram est optimisé pour les cas d'usage développeur et entreprise nécessitant une faible latence et une grande échelle. Il peut ne pas être idéal pour la transcription manuelle ponctuelle ou pour les utilisateurs qui ont besoin d'un simple éditeur web sans API.
◆ Pas sûr que ce soit le bon outil ?

Trop d’outils parmi lesquels choisir ?
Dites-nous ce dont vous avez besoin.

Répondez à 3 questions rapides et notre conseiller IA vous associera au SaaS idéal — uniquement parmi nos partenaires sélectionnés, souvent avec des offres exclusives introuvables ailleurs.

Obtenir ma recommandation personnalisée 60 secondes · gratuit · sans inscription