عادة ما تهدف أصوات الذكاء الاصطناعي إلى أن تكون واقعية بطريقة ودية ، محاكاة أناس مريحين وسعداء ومفيدون. لكن نموذجًا جديدًا مفتوح المصدر يسمى DIA يميل إلى الطيف الأكثر عاطفية للأصوات ، بما في ذلك بعض الصراخ الشديد حقًا.
يعد منشئو DIA في Nari Labs مجموعة صغيرة ، لكنهم أعطوا أصوات الذكاء الاصطناعى خيار أن يبدو وكأنه مؤدي ميلودرامي إلى حد ما ، قادر على جعل الضحك الواقعي ، والسعال ، وقص الحلق ، والاستنشاق ، ونعم ، الصراخ.
قد لا تعتقد أن الصراخ أمر كبير لمنظمة العفو الدولية في هذه المرحلة ، لكن الصراخ يصعب مزيفًا. لا يمكن أن تتحدث بصوت عالٍ ؛ إنه وضع خطاب مختلف تمامًا.
الخطاب التعبيري عاطفيا هو فجوة في معظم أصوات الذكاء الاصطناعي. من السهل على نموذج الصوت قراءة قصة وقت النوم. ومع ذلك ، من الصعب جدًا أن يبدو الأمر وكأنه يحاول تهدئة صديق لأسفل ، أو وكأنه رأى شيئًا مروعًا. تتجنب معظم النماذج التجارية أن تبدو روبوتية عن طريق تجانس نغمة الصوت ، والتي لا تترك مجالًا لنوع عدم تناسق الصوت في التحدث عاطفياً.
ديا يعامل التواصل غير اللفظي كجزء من الأداء. إنها تعرف أن “(السعال)” ليس شيئًا يجب تجاهله أو قراءته حرفيًا. إنها تعرف أن الصراخ ليس مجرد خط أعلى. ويؤدي هذه الأشياء بمستوى من التوقيت ، وتعديل الملعب ، والتحكم في التنفس يجعلها أكثر واقعية.
مستخدم واحد حتى استخدمه إعادة إنشاء قليلا من ليروي جنكينز الشهيرة رسم نفذت عالم العلب.
هذا لا يعني أن Openai و Elevenlabs و Google و Sesame وغيرهم لم ينتجوا نماذج صوت AI مذهلة. يمكنك تخصيص الوضع الصوتي المتقدم من Openai للتحدث بمشاعر مختلفة ، ويعتبر Elevenlabs جيدًا في تفسير الرسملة وعلامات الترقيم لضبط الكلام ، ولكن هذا ليس هو نفسه الصراخ في مفاجأة أو صفير بالضحك.
السمسم جيد بشكل خاص في السبر والتفاعل مثل شخص حقيقي ، ولكن حتى نماذجه تخطئ نحو السلاح البهجة والإيجابية بشكل عام.
بالطبع ، الواقعية ذاتية ، وقد تعمل بسرعة كبيرة على أن ديا هو صوت الذكاء الاصطناعي. ثم مرة أخرى ، الصراخ المزيف والضحك هي أيضا أصوات إنسانية جميلة لصنعها في السياق الصحيح.
اثنين من الطلاب الجامعيين. واحد لا يزال في الجيش. صفر تمويل. هدف مثير للسخرية: بناء نموذج TTS الذي ينافس Podcast Podcast ، و Elevenlabs Studio ، و Sesame CSM.SomeHow … لقد سحبناها. إليكم كيف pic.twitter.com/8cfjsegcix21 أبريل 2025
صراخ من أجل الذكاء الاصطناعي
ما يجعل هذه قصة أكبر من مجرد “AI Voice يتعلم خدعة الحفلات” هو ما يشير إلى السباق الأوسع في الذكاء الاصطناعي من أجل الذكاء العاطفي.
نحن ندخل بسرعة حقبة حيث لن يكون مساعدك كافيًا ليقول الشيء الصحيح ؛ سوف تحتاج إلى قول ذلك بالطريقة الصحيحة. فكر في دعم العملاء التي تبدو آسفًا حقًا ، والمعلمين الذين يبدو مشجعًا بدلاً من الشخصيات التعليمية ، وفي اللعبة التي تنقل الإخلاص.
بطبيعة الحال ، فإن إعطاء منظمة العفو الدولية القدرة على emote يجعلها أكثر إقناعًا وبالتالي من المحتمل أن تكون أكثر تلاعبًا. إذا كان بإمكان الكلام العاطفي أن يكون مجرد أداة منظمة العفو الدولية الأخرى ، فقد يشعر أكثر من بضعة أشخاص بأنهم يصرخون أنفسهم.
ومع ذلك ، يمكنني أن أتخيل بعض المرح في كتابة قصة شبحية حتى لا تقرأ ديا فقط ، ولكن الأداء ، الصراخ وكل شيء.
- لقد جربت رفيق صوت الذكاء الاصطناعي الأكثر واقعية على الإطلاق – إذا كان ChatGpt أو Gemini يحصل على هذا الخير ، فإن الواقع في ورطة
- الآن بعد أن أصبح وضع ChatGpt Voice مجانيًا ، هل يستحق الدفع مقابل ChatGpt Plus بعد الآن؟
- وضع صوت Grok 3 غير محدد ، وهذه هي النقطة