2025 sera l'année de l'IA et des agents Openai Il a déplacé ses jetons ces dernières semaines pour annoncer le GPT-4.5 ou lui-même hier son modèle d'IA au plus élevé avec O1-Pro. Aujourd'hui, Openai a annoncé de nouveaux modèles audio de texte et de texte à l'écart dans l'API qui ouvrira les portes aux développeurs pour créer des agents d'IA avec une voix plus expressive, naturelle et plus personnalisable.
L'objectif est de fournir un modèle audio qui peut être utilisé par les agents de l'IA et que les développeurs peuvent Personnalisez votre voix ou votre accent. Si le modèle avancé de la voix de Chatgpt a des voix différentes, ce que Openai a fait est maintenant de fournir la même expérience afin que tout développeur puisse créer une voix unique.
Deux modèles entrent en jeu ici, GPT-4O et GPT-4O Mini Pour la transcription et qui se démarque pour offrir des performances importantes dans ce type de tâches afin de minimiser les erreurs de mots, de reconnaissance du langage ou d'efficacité par rapport à d'autres d'Openai.
Pour Openai, il n'a pas été facile d'atteindre cette étape, car les deux modèles font partie du nouvel audio Techniques d'apprentissage exhaustives Intermédiaire et avec des ensembles de données audio diversifiés et de haute qualité.
Il existe plusieurs nuances très importantes dans ces nouveaux modèles audio comme leur capacité à Comprendre les accents dans la voixréduire les échecs possibles lors de la reconnaissance de la voix et des améliorations de la capacité de transcription même lorsque l'entrée audio comprend le bruit, les accents spéciaux et la variété de vitesse dans la parole.
Le nouveau modèle audio d'Openai
L'androïde gratuit
Openai a aussi annoncé le prix Parmi ces nouveaux modèles audio pour l'IA et le modèle de transcription GPT-4O, il a un coût de 6 $ pour un million de jetons d'entrée audio, 2,50 $ par million de jetons d'entrée de texte et 10 dollars par million de jetons de sortie de texte.
Il Modèle mini-basé sur GPT-4O Il a un coût de 3 dollars par million de jetons audio d'entrée, 1,25 $ par million de jetons d'entrée de texte et 5 $ par million de jetons d'entrée audio. Les coûts par minute de transcription sont à 0,6 cents pour GPT-4O, 0,3 cents pour GPT-4O Mini et 1,5 cents pour GPT-40 Mini TTS.
Manuel Ramírez
L'androïde gratuit
Pour mieux comprendre Ce que les nouveaux modèles audio signifient D'Openai, nous collectons les mots de la même équipe de Votre annonce: “Face à l'avenir, notre objectif est de continuer à investir dans l'amélioration de l'intelligence et de la précision de nos modèles audio et d'exploration de moyens afin que les développeurs puissent intégrer leurs propres voix personnalisées pour créer des expériences encore plus personnalisées alignées sur nos normes de sécurité.”