على الرغم من وجوده لبعض الوقت، إلا أن نظام التعرف التلقائي على الكلام (ASR) مستمر في التقدم. شهد عام 1961 إنشاء أول جهاز ASR. لم تتمكن منازلنا من الاتصال من خلال التكنولوجيا إلا مؤخرًا.

لقد كان للعديد من الأشخاص نوع من التفاعل الشخصي مع روبوتات الخدمة الآلية بفضل مساعد Apple، Siri. تستخدم العديد من حلول خدمة العملاء، بما في ذلك الرد الصوتي التفاعلي (IVR) وبعض روبوتات الدردشة، إمكاناتها في مركز الاتصال الحديث.

كيف يعمل ASR وما هو الغرض منه؟

1.   مقدمة للتعرف التلقائي على الكلام: ما هو؟

الغرض الأساسي من التعرف التلقائي على الكلام هو تحويل الصوت المنطوق إلى نص. “خطاب إلى نص”. ويحاول قدر الإمكان الترجمة سواء كان الأمر يتعلق بقراءة أو فهم صوت الإنسان بشكل مكتوب. في الوقت الحالي، تعد المساعدات الافتراضية مثل Cortana وSiri من بين الأشكال الأكثر استخدامًا لهذه التكنولوجيا. ASR هو نظام يتم تشغيله عندما تقوم بتنشيط جهازك المحمول أو جهاز التوزيع المنزلي باستخدام أمر “Hey, Siri”.

قد تنتج نماذج ASR الأساسية نسخة نصية بسيطة من تسجيل صوتي، لكن النماذج الأكثر تعقيدًا تعتمد على تقنيات مثل معالجة اللغات الطبيعية (NLP) وتحليل المشاعر لإنشاء نسخ أكثر تعقيدًا. إلى جانب تقنيات الذكاء الاصطناعي مثل البرمجة اللغوية العصبية، يعمل ASR كعنصر رئيسي في الذكاء الاصطناعي للمحادثة – الآلات والأنظمة التي يمكنها التواصل كما لو كانت بشرية.

على الرغم من أننا قد لا نكون في مرحلة لا نستطيع فيها التمييز بين المحادثة البشرية أو الآلية، إلا أن التطورات السريعة في تكنولوجيا الذكاء الاصطناعي تشير إلى أننا لسنا بعيدين عن ذلك أيضًا.

2.   ما هو دور ASR في التكنولوجيا الحديثة؟

تعد ثورة الهاتف المحمول أحد التطورات الرئيسية التي تجعل ASR ممكنًا ومرغوبًا فيه. لقد أصبحت الثلاجات والسيارات والإضاءة والسخانات وغيرها من المنتجات لدينا كلها متقدمة تقنيًا مع إضافة ميزات تحويل الكلام إلى نص.

لتمكين التعرف التلقائي على الكلام، يوفر Microsoft Azure أدوات وخدمات لدمج هذه الميزات بسلاسة في تطبيقاتك. أحد الأسباب التي تجعل معظم الأشخاص يعتبرون Azure Cognitive Services أفضل خدمة قائمة على السحابة هي المرونة التي توفرها.

إن المرونة، إلى جانب الأداء الذي يمكن الاعتماد عليه، تترجم حتماً إلى زيادة الإنتاجية في عالم B2B.

هناك مجموعة متنوعة من طرق النشر لتقنية تحويل الكلام إلى نص. كمثال:

تطبيقات المراسلة – يتم نسخ الرسائل النصية من التسجيلات الصوتية بواسطة ASR

محركات البحث – يمكن إجراء عمليات البحث باستخدام ASR

النظام داخل السيارة – من خلال السماح للسائقين بتشغيل أنظمة الملاحة والترفيه بدون استخدام اليدين، يعمل ASR على تحسين السلامة مع ضمان قدرتهم على التركيز على الطريق.

المساعدون الظاهريون – باستخدام المساعد الافتراضي، يمكنك العثور على المعلومات وجدولة المواعيد وتنفيذ المهام الأساسية من خلال التحدث فقط.

تستخدم خدمة العملاء هذه التكنولوجيا أيضًا. الاستخدام الحالي لهذه التكنولوجيا هو ثلاثة أضعاف:

كبديل لإدخال لوحة المفاتيح التقليدية، يقدم IVR – ASR للمتصلين مجموعة متنوعة من الخيارات. من خلال نطق استجابتهم، لا يضطر المستخدمون إلى الضغط على رقم معين على الشاشة عند المطالبة.

Chatbots – على الرغم من أن Chatbots، في معظمها، تتواصل مع مستخدميها عبر الرسائل النصية، إلا أن بعضها يتضمن جوانب من الكلام. سوف تقوم Chatbots بإشراك العملاء بشكل متزايد من خلال التفاعلات الصوتية حيث أصبح ASR أكثر انتشارًا.

تحليل الكلام – تقوم بعض المؤسسات بمراجعة التسجيلات الصوتية لتحسين أداء تكنولوجيا الذكاء الاصطناعي.

3.   إلقاء نظرة فاحصة على ASR لفهمها بشكل أفضل

يجب أن يتغلب ASR على العديد من العقبات حتى يكون دقيقًا، لذلك عند تحليل كيفية عمله، يتعين علينا فحص ماهيتها.

خمسة أسئلة متميزة تلخص هذه المعلومات.

النص – ما الذي تمت مناقشته؟

تحديد المتحدثين – متى تحدث كل متحدث؟

التعرف على المتحدثين – من قال ماذا؟

فهم اللغة المنطوقة – ما هو موضوع المناقشة؟

تحليل مشاعر المتحدث – كيف يشعر المتحدث؟ ما هي المشاعر التي يحاول نقلها؟

لضمان نجاح نظام ASR، من المهم ملاحظة أنه ليس من الضروري معالجة جميع هذه الأسئلة. لا يمكن لأدوات ASR ذات القدرات المحدودة سوى الرد على السؤال الأول، في حين يمكن للأنظمة ذات القدرات المتقدمة تفسير المشاعر والنية في الكلام. يزداد تعقيد ASR وقدرته مع زيادة عدد هذه الأسئلة التي يمكنه الإجابة عليها.

4.   تحليل كيفية إدراك الآلات للصوت

في تفسير كلمة ما، تستخدم أجهزة الكمبيوتر عدة طرق مختلفة. تختلف تفسيرات اللغة بناءً على اللبنات الأساسية التي تستخدمها لبناء تفسيراتها.

يمكن للآلات تفسير الكلمات باستخدام أي من العناصر الأساسية المذكورة أدناه.

الصوتيات – وحدات الصوت الأساسية في اللغة. يُنتج كل صوت من المقاطع الصوتية الـ 44 باللغة الإنجليزية صوتًا مميزًا.

الصرف – أجزاء من الكلمات لها معنى ولكن لا يمكن تقسيمها بشكل أكبر دون فقدان معناها (على سبيل المثال، يتم إنشاء عدم الصحة عن طريق إضافة “un” و”health” إلى الكلمة).

كجزء من الكلام – يمكنك تفسير معنى الكلام من حيث المجموعات النحوية. وتنظر في الأسماء والأفعال والمفرد والجمع وغيرها بحسب دورها في الجملة.

المعنى – يمكن للآلات تفسير الكلمات بناءً على معناها. ومن الصعب القيام بذلك بسبب الطبيعة المتعددة الأوجه للعديد من الكلمات، وحقيقة أن المعاني يمكن أن تتغير مع السياق.

الفونيمات هي الوحدات الأساسية للغة، وتحاول أنظمة ASR تقسيم اللغة المنطوقة إلى وحدات تعتمد على مجموعات من الفونيمات.

وإليك كيف يعمل.

  • يلتقط برنامج التسجيل صوت المستخدم أثناء تحدثه في الجهاز.
  • يتم إنشاء ملفات الموجة من التسجيل الصوتي. تتم بعد ذلك إزالة أي ضوضاء خلفية غير ضرورية وغير مرغوب فيها من ملف الموجة هذا.
  • يتم تقسيم ملفات الموجة وفقًا لصوتياتها.
  • يتم تحليل سلاسل الصوتيات بواسطة برنامج ASR. يقوم بتحليل احتمالية مجموعات صوتية معينة لتحديد الكلمات الكاملة باستخدام التحليل الإحصائي.
  • لا يزال التحليل الإحصائي جزءًا أساسيًا من الجمل والفقرات والنصوص المكتوبة.

تطبق خدمة الذكاء الاصطناعي المقدمة من Microsoft Azure والتي تسمى LUIS (فهم اللغة) ذكاء التعلم الآلي على نص المحادثة للتنبؤ بالمعنى وتوفير معلومات مفصلة بناءً على النص. من خلال البوابة المخصصة وواجهات برمجة التطبيقات ومكتبات عملاء SDK، توفر LUIS إمكانية الوصول إلى خدماتها.

عروض لويس

التبسيط: يريحك LUIS من أي معرفة بالتعلم الآلي قد تكون لديك أو أي متطلبات لخبرة الذكاء الاصطناعي الداخلية. يعد إنشاء تطبيق الذكاء الاصطناعي للمحادثة الخاص بك أمرًا سهلاً مثل النقر على بضعة أزرار. باستخدام عمليات التشغيل السريع، أو استخدام تطبيقات النطاق المعدة مسبقًا، يمكنك إنشاء تطبيقك المخصص.

آمن وخاص ومتوافق.: بفضل البنية الأساسية لـ Azure، يوفر LUIS الامتثال والأمان والخصوصية على مستوى المؤسسة. تظل جميع البيانات ملكك، ويمكن حذفها في أي وقت. عندما تكون بياناتك مخزنة، يتم تشفيرها.

الدمج:  يُسهل إطار عمل Microsoft Bot وQnA Maker وخدمة الكلام دمج تطبيق LUIS مع خدمات Microsoft الأخرى.

كجزء من خدمات Azure المعرفية، تقدم LUIS تحويل الكلام إلى نص، وتحويل النص إلى كلام، وترجمة الكلام، والمساعدين الصوتيين، والتعرف على المتحدث، والعديد من الميزات الأخرى.

خاتمة

يعمل الذكاء الاصطناعي على تسريع تطوير ASR بوتيرة مثيرة للإعجاب ويلهم رواد الأعمال لخلق طرق لا نهاية لها لاستخدام التكنولوجيا من خلال قدرة التكنولوجيا على “التعلم الذاتي” بكميات كبيرة من البيانات.

إحدى المجالات التي تستفيد فيها ASR أكثر من غيرها هي خدمة العملاء. هناك طلب كبير على تقنيات الخدمة المعرفية من Microsoft التي تتيح لك خفض التكاليف دون التأثير سلبًا على جودة خدمة العملاء. وفي هذا الصدد، يعد ASR أداة لا تقدر بثمن لأي مركز اتصال يسعى إلى تحسين خدمة العملاء بميزانية محدودة.

Write A Comment