AP24253731025560 1780125658 — بابل الرقمية.. كيف أنهى الذكاء الاصطناعي حاجز اللغة في الاتصالات الفورية؟ | تكنولوجيا 4

روكب اليوم

في أسطورة برج بابل القديم، أراد البشر بناء صرح يصل إلى السماء، فأنزل الله عليهم اختلاف اللغات عقابا لهم، فتفرقوا وتشتتت الألسن، وصار البشر غرباء لا يفهم بعضهم بعضا، وتحول التواصل إلى فوضى.

ولكن في عصرنا الرقمي الحالي، تحول اختلاف اللغات من حاجز تاريخي إلى فرصة للتقارب، حيث نجح الذكاء الاصطناعي في هدم جدران العزلة من خلال الخوارزميات، محولا الحواجز اللغوية إلى جسور.

ويستطيع اليوم رجل أعمال عربي أن يتحدث مع مهندس صيني، أو أن يجري طبيب ألماني استشارة مع مريض سنغالي، دون أن يتقن أي منهما لغة الآخر، حيث لم تعد الترجمة الفورية حلما، إنما واقعا يعيد تشكيل التواصل الإنساني.

من بابل إلى الخوارزمية

بعد بداياتها المتواضعة، شهدت تقنيات الترجمة الآلية تطورا دراماتيكيا على مدى العقود الماضية، حيث كانت الخوارزميات تعمل وفق مبدأ القاموس الرقمي، أي كلمة مقابل كلمة، وجملة مبنية وفق قواعد نحوية مبرمجة بيد الإنسان.

وكانت نتائج “الترجمة الآلية القائمة على القواعد” (RBMT) حرفية وتنتج جملا مربكة حين تصطدم بالتراكيب الاصطلاحية أو الفروق الثقافية الدقيقة.

وبعد ذلك جاءت “الترجمة الآلية الإحصائية” (SMT)، حيث أصبحت الأنظمة تتعلم من مليارات الجمل المترجمة مسبقا لكي تستخلص الأنماط الإحصائية، مما رفع مستوى الجودة، لكن الخوارزمية ظلت تفتقر إلى الفهم.

وحدثت النقلة النوعية مع بزوغ “الترجمة الآلية العصبية” (NMT) التي تتعامل مع الجملة بأكملها وتلتقط العلاقات بين كلماتها، لا مجرد ترجمتها كلمة بكلمة، ومع ذلك ظلت تعاني من الترجمة التي تفتقر إلى السياق والعواطف والتلميحات الثقافية.

ومن ثم جاءت “النماذج اللغوية الكبيرة” (LLMs) القادرة على فهم اللغة لا مجرد معالجتها، مما نقل الترجمة إلى مرحلة الإدراك السياقي والتفسير، حيث يستطيع النموذج استيعاب القصد لا مجرد استبدال المفردات.

الإدراك السياقي بديلا للترجمة الحرفية

لا تبحث نماذج الذكاء الاصطناعي عن مقابل حرفي لكسر الإناء الفخاري حين يقول ناطق بالعربية “كسر الجرة”، إنما تستحضر من سياق الجملة أن المتحدث يصف لحظة قطيعة، وتنتج تعبيرا اصطلاحيا مكافئا في اللغة الهدف.

ويكمن الفارق بين الترجمة الآلية والترجمة بالذكاء الاصطناعي في مستوى الفهم، وأصبح الانتقال من الترجمة إلى التفسير ممكنا بفضل تدريب النماذج على مليارات الأمثلة، التي تشمل الأدب والصحافة والحوارات اليومية والوثائق التقنية.

ونتيجة لذلك، أصبحت هذه النماذج قادرة على التمييز بين المعاني المشتركة للمفردة الواحدة، مثل بنك كمصرف وبنك كضفة النهر، بناء على السياق، كما باتت تدرك الفروق بين اللهجات والإيحاءات الثقافية والدلالات العاطفية، مما ساهم في رفع مستوى الدقة السياقية في مجال الترجمة الفورية للصوت.

نتائج “الترجمة الآلية القائمة على القواعد” حرفية ومربكة (شترستوك)

ورفعت “النماذج اللغوية الكبيرة” مستوى الدقة السياقية بشكل ملحوظ، حيث رصدت منصة “كودو” (KUDO) للترجمة الفورية تحسناً قدره 24% في جودة الترجمة من الانجليزية إلى اللغات الإسبانية والفرنسية والألمانية، و 16% في اللغات الآسيوية.

وفي حين أن هذه الأرقام خاصة بمنصة بعينها ولا تعكس بالضرورة أداء القطاع كله، لكنها تمثل مؤشرا دالا على وتيرة التحسن في المجال.

ثورة الدبلجة اللحظية

امتد تطور الترجمة إلى عالم الدبلجة اللحظية للفيديو من خلال تقنية “ترجمة الكلام إلى كلام” (Speech-to-Speech Translation)، حيث بات الكلام ينطق بصوت ويعود بصوت آخر يحمل المعنى ذاته بلغة مختلفة، وأحيانا بنبرة صوتية مستنسخة من صوت المتحدث الأصلي.

وفي هذا الميدان، تبرز عائلة نماذج “سيميليس” (Seamless) المتكاملة من “ميتا”، حيث تتولى النسخة الثانية من نموذج “إم فور تي” (M4T) الترجمة الأساسية بين نحو 100 لغة نصا وصوتا (مع دعم صوتي مباشر لـ 35 لغة مخرجا).

في المقابل يختص نموذج “ستريمينغ” (Streaming) بتقليل زمن الاستجابة، مما يجعله قريبا جدا من الترجمة الفورية البشرية.

أما نموذج “إكسبريسف” (Expressive) فيذهب إلى أبعد من ذلك من خلال نقل النبرة العاطفية وأسلوب المتحدث الصوتي إلى اللغة الهدف.

وفي مجال الدبلجة الكاملة للفيديو، برزت منصات عدة تتنافس على هذا السوق، حيث تتيح “هيجين” (HeyGen) ترجمة الفيديوهات الكاملة إلى أكثر من 175 لغة ولهجة مع مزامنة دقيقة لحركات الشفاه واستنساخ الصوت الأصلي.

وتتفوق “إيليفن لابس” (ElevenLabs) في الحفاظ على العواطف والنبرة، مما يجعل الفيديوهات التسويقية أو التعليمية تبدو محلية تماما في دقائق معدودة.

كذلك تدعم منصة الدبلجة الآلية “إيكودوب إيه آي” (iKODUB AI) أكثر من 35 لغة، من بينها العربية، في حين تجمع “دي آي دي” (D-ID) بين استنساخ الصوت ومزامنة حركة الشفاه لتقديم نتيجة تبدو طبيعية كأن المتحدث يجيد اللغة المترجمة.

وتعتمد هذه المنصات في مجملها على نماذج تفهم السياق واللهجات المحلية والسياق الثقافي والنبرة العاطفية، مما يقلل بشكل كبير من الأخطاء التي كانت شائعة في الأجيال السابقة.

الأجهزة الذكية تهدم الجدار الأخير

أصبحت الترجمة الفورية جزءا مدمجا في الحياة اليومية عبر الأجهزة الذكية القابلة للارتداء، حيث ظهرت سماعات متخصصة توفر نمط الترجمة الثنائية الاتجاه المتزامنة الكاملة دون توقف، مثل سماعات “دبليو فور إيه آي إنتريبتر إيربودز” (W4 AI Interpreter Earbuds) و “واسك” (Wooask).

في حين تعتمد السماعات الذكية من شركات الهواتف على الذكاء الاصطناعي المدمج في نظام التشغيل، حيث تعمل “بيكسل بودز برو تو” (Pixel Buds Pro 2) مع تطبيق “غوغل ترانسليت” (Google Translate) ليستطيع مرتديها التحدث بعشرات اللغات.

وتتيح “غالاكسي بوزد ثري برو” (Galaxy Buds3 Pro) الترجمة الفورية بالاتجاهين عبر تطبيق المترجم المدمج في “غالاكسي إيه آي” (Galaxy AI)

في حين تدعم “إيربودز برو ثري” (AirPods Pro 3) ميزة “الترجمة المباشرة” (Live Translation) بالإنجليزية والفرنسية والألمانية والبرتغالية والإسبانية مع توسع مرتقب نحو المزيد من اللغات، حيث حولت هذه الميزة هاتف “آيفون” إلى مترجم فوري لا يحتاج إلى اتصال بالإنترنت.

وخلافا للمنافسين الذين يعتمدون على الخوادم السحابية، تعالج هذه الميزة كل شيء داخل الجهاز للحفاظ على سرعة الترجمة وخصوصية المحادثات.

الأجهزة الذكية تحول الكلام بين لغات متعددة في أجزاء من الثانية، مسقطة الحواجز التي أقامتها الطبيعة البشرية (أسوشيتد برس)

كما وصلت التقنية إلى النظارات الذكية، التي لا تكتفي بالترجمة الصوتية، إنما تضيف إليها الترجمة البصرية عبر الشاشات المدمجة أو الكاميرات.

وفي هذا الميدان، تبرز نظارات “راي بان ميتا” (Ray-Ban Meta)، إلى جانب نظارات “كوين إس ون” (Qwen S1) و “إكس ريل ون” (Xreal One Series) و “راي نيو إكس 3 برو” (RayNeo X3 Pro).

ونشر فريق بحثي من “جامعة واشنطن” (UW) دراسة حول نظام “الترجمة الصوتية المكانية” (Spatial Speech Translation) القادر على استنساخ أصوات متعددة في آن واحد مع تحديد مصدر كل صوت، مما يتيح ترجمة المحادثات الجماعية مع الحفاظ على هوية صوت كل متكلم وعواطفه.

العربية في منظومة الترجمة

رغم تحدث أكثر من 467 مليون نسمة حول العالم باللغة العربية كلغة أم وثانية، لكنها تواجه تحديا بنيويا نظرا لثراء اللغة وتعقيدات الصرف والنحو والفجوة بين اللغة الفصحى التي تدربت عليها النماذج وبين اللهجات الدارجة المتنوعة المستخدمة في الحياة اليومية.

وتتقن النماذج اللغة العربية الفصحى بمستوى عال نسبيا، فيما تمثل اللهجات العامية تحديا حقيقيا بسبب اختلافها اختلافا يكاد يجعلها لغات مستقلة، مما يجعل الكثير من النماذج تنتج ترجمات تفتقر إلى الدقة في السياقات اليومية.

كما تحتل اللغة العربية مرتبة متوسطة الموارد في معظم النماذج الكبرى مقارنة بالإنجليزية أو الصينية، مما يعني أن جودة الترجمة منها وإليها تبقى أدنى في التعابير الاصطلاحية والنصوص المتخصصة.

نموذج الذكاء الاصطناعي العربي “فنار” يستخدم في قطاعات الترجمة والتعليم والخدمات الحكومية (موقع المشروع)

وتبرز مبادرات دولة قطر كأحد أبرز النماذج في هذا المجال، فقد طور “معهد قطر لبحوث الحوسبة” (QCRI) نموذج “فنار” (Fanar) الذي يتميز بدقة عالية في فهم اللهجات العربية المختلفة والسياقات الثقافية، ويستخدم في قطاعات الترجمة والتعليم والخدمات الحكومية.

كما قدمت قطر في قمة الذكاء الاصطناعي العالمية جناحا وطنيا عرضت فيه أكثر من 20 مشروعا، من بينها حلول ترجمة متقدمة لخطب الجمعة للناطقين بغير العربية، وأدوات تعليمية مدعومة بالذكاء الاصطناعي.

فيما تستثمر شبكة الجزيرة نت تقنيا في تطوير أدوات ذكية قادرة على تحويل الكلام العربي الدارج إلى نصوص فصحى بدقة من خلال “مختبر الجزيرة للابتكار”.

وتعكس هذه المبادرات الالتزام بتعزيز حضور اللغة العربية في عصر الذكاء الاصطناعي وتقليل الفجوة الرقمية بين العربية واللغات المهيمنة، مثل الإنجليزية.

عولمة الوظائف وسوق العمل المفتوح

تقليديا، كانت اللغة شرطا أساسيا، لكن بفضل الترجمة الفورية، أصبح سوق العمل عالما مفتوحا، وبات بإمكانك التحدث بلغتك بينما يسمع الطرف الآخر الترجمة بصوتك الطبيعي تقريبا، مع الحفاظ على نبرة الصوت الأصلية، حيث فتحت هذه التقنيات الباب أمام تصدير الدول النامية لخدماتها الرقمية.

وفي الوقت الحالي، يستطيع مهندس برمجيات يعيش في الدار البيضاء أو عمان التعاون مع شركة في برلين أو سيدني دون إتقان الألمانية أو الإنجليزية بطلاقة، فيما يحصل المستقلون في الدول النامية على فرص أكبر مع عملاء غربيين.

الذكاء الاصطناعي أنهى عقدة اللغة وفتح سوق العمل العالمي أمام الكفاءات أينما وجدت (بيكساباي)

وتتسابق منصات الاجتماعات الإلكترونية، مثل “غوغل ميت” (Google Meet) و “مايكروسوفت تيمز” (Microsoft Teams) إلى دمج ميزات الترجمة الفورية ضمن واجهاتها، حيث بات بإمكان المشارك في اجتماع دولي فهم ما يقوله مشارك برازيلي أو كوري، دون الحاجة إلى مترجم بشري.

وأشارت دراسة صادرة عن “مدرسة أوكسفورد مارتن” (Oxford Martin School) إلى أن المناطق التي ارتفع فيها معدل استخدام أدوات الترجمة الآلية شهدت انخفاضا ملحوظا في الطلب على المترجمين البشريين، لكنها شهدت في المقابل زيادة الطلب على متخصصي التحرير اللاحق للترجمة الآلية.

الوجه الآخر لبابل الرقمية

لا تخلو بابل الرقمية من العقبات، حيث لا تزال الدقة في اللهجات المحلية أو السياقات الحساسة (طبية، قانونية، دبلوماسية) تمثل تحديا بالنظر إلى أن الخطأ في ترجمة تقرير طبي قد يؤدي إلى عواقب وخيمة.

كما أنها تثير قضايا الخصوصية، حيث أن معظم أدوات الترجمة الفورية تعالج البيانات الصوتية والنصية عبر خوادم سحابية، مما يثير تساؤلات حول كيفية تخزين هذه البيانات واستخدامها، وخاصة بعد تعرض شركة “ديفن” (Devon) لاختراق أمني عام 2023 أدى إلى تسريب كميات كبيرة من البيانات الحساسة.

أما التحدي الأعمق فهو خطر إقصاء لغات الأقليات غير المدعومة رقميا من هذه الثورة، كما أن الاعتماد الكلي على الآلة قد يؤدي إلى تراجع التعلم اللغوي البشري وتآكل بعض الروابط الثقافية.

لكن في حين أنجز الذكاء الاصطناعي ما عجزت عنه قرون من التطور اللغوي وجعل البشر يفهمون بعضهم بعضا بسلاسة غير مسبوقة، فإن هناك مخاوف من أن يشكل انهيار حاجز اللغة تهديدا للتنوع اللغوي البشري، حيث يشير التاريخ إلى أن اللغات تموت حين يتوقف الناس عن تعلمها، وفي حال غدت الترجمة الفورية متاحة دائما، فهل يظل ثمة حافز لتعلم لغة أخرى؟.