اختبارات أدوات الصوت العربي بالذكاء الاصطناعي

بيانات إنتاج حقيقية من اختبار 12 مزود مع متصلين بالعربية الخليجية. ليست اختبارات صناعية — مكالمات فعلية من وكيل صوتي عقاري يعمل بشكل حي.

كيف نقوم بالاختبار

بيئة الاختبار

جميع الاختبارات تأتي من وكيل صوتي عقاري يعمل في بيئة إنتاج يتعامل مع مكالمات واردة حقيقية من متحدثين بالعربية الخليجية في الإمارات. هذا ليس اختبار مختبري بصوت نظيف وعربية فصحى — هؤلاء متصلون حقيقيون مع ضوضاء خلفية، اختلافات لهجوية، وأنماط محادثة طبيعية.

المقاييس الرئيسية
تأخير EOU

تأخير نهاية النطق — الوقت من توقف المتصل عن الكلام إلى إصدار STT للنص النهائي. الأقل أفضل. أقل من 500 مللي ثانية يبدو فورياً.

وقت الدورة الكاملة

الوقت الإجمالي من نهاية الكلام إلى بدء صوت رد الوكيل. يشمل تأخير خط أنابيب STT + LLM + TTS.

تقييم الجودة

تقييم من 1-5 بناءً على دقة النسخ، التعامل مع اللهجات، وما إذا كان المتصلون بحاجة لتكرار كلامهم.

النتائج الكاملة

المزودالفئةمتوسط تأخير EOUأفضل حالةالجودةالبث المباشرLiveKitالحكم
Deepgram Nova-3تحويل الصوت إلى نص424ms0ms
موصى به
ElevenLabs TTSتحويل النص إلى صوتN/AN/A
موصى به
Groq — Llama 4 Maverickنماذج اللغات الصوتيةN/AN/A
موصى به
LiveKit BVC (Background Voice Cancellation)إلغاء الضوضاءN/AN/A
موصى به
Silero VADكشف النشاط الصوتيN/AN/A
موصى به
Soniox STT RT v3تحويل الصوت إلى نص1678ms773ms
جيد
Google Cloud STT — Chirp 3تحويل الصوت إلى نص2376ms2000ms
مقبول
ElevenLabs Scribe v2تحويل الصوت إلى نص2000ms–2500ms2000ms
غير موصى به
Groq Whisper Large v3 Turboتحويل الصوت إلى نص284ms–3388ms284ms
غير موصى به
Groq Whisper Large v3تحويل الصوت إلى نص32ms–3494ms32ms
غير موصى به
Speechmaticsتحويل الصوت إلى نص460ms0ms
غير موصى به
Mistral Voxtral Miniتحويل الصوت إلى نصN/AN/A
لا يعمل

مقارنة تأخير STT

Groq Whisper Large v3
32ms–3494ms
Groq Whisper Large v3 Turbo
284ms–3388ms
Deepgram Nova-3
424ms
Speechmatics
460ms
Soniox STT RT v3
1678ms
ElevenLabs Scribe v2
2000ms–2500ms
Google Cloud STT — Chirp 3
2376ms

متوسط تأخير نهاية النطق بالمللي ثانية. الأقل أفضل. أقل من 500 مللي ثانية موصى به للوكلاء الفوريين.

النتائج الرئيسية

Deepgram Nova-3 يتفوق

أفضل مزيج من التأخير والجودة. متوسط تأخير EOU يبلغ 424 مللي ثانية مع دقة نسخ ممتازة — لم يحتج المتصلون لتكرار كلامهم. المزود الوحيد للـ STT حيث السرعة والجودة يقدمان معاً.

نماذج Whisper تفشل مع العربية

كلا نوعي Groq Whisper أنتجا جودة نسخ سيئة للعربية. نوع Turbo أضاف تأخيراً غير متسق بشكل كبير (284 مللي ثانية إلى 3.4 ثانية). بنية Whisper ضعيفة جوهرياً مع اللهجات العربية.

المفاضلة بين السرعة والجودة

Speechmatics يقدم أسرع كشف لنهاية النطق (~460 مللي ثانية) لكن جودة نسخ العربية غير مقبولة — اضطر المتصلون لتكرار كلامهم. السرعة الخام لا معنى لها إذا كان النص خاطئاً.

الجودة تتفاوت بشكل كبير

دعم العربية يتراوح من ممتاز (Deepgram، Soniox) إلى غير فعال تماماً (Voxtral Mini — صفر مخرجات). الادعاءات التسويقية حول "الدعم متعدد اللغات" غير موثوقة. اختبر دائماً بصوت عربي حقيقي قبل الالتزام.