كيفية تدريب Chatbot باستخدام مجموعات البيانات المخصصة بقلم ريان شيخ

تاريخ النشر: 09.10.23الذكاء الاصطناعي

ما هي تحليلات Chatbot؟ تعرف على المزيد حول تحليلات chatbot ومقاييس chatbot الرئيسية

chatbot data

شيء واحد يجب ملاحظته هو أن برنامج الدردشة الآلي الخاص بك لا يمكن أن يكون جيدًا إلا بقدر بياناتك ومدى جودة تدريبك لها. أصبحت Chatbots الآن جزءًا لا يتجزأ من خدمات دعم العملاء للشركات. يمكنهم تقديم خدمات سريعة على مدار الساعة دون أي اعتماد بشري. لكن لا تزال العديد من الشركات لا تملك الفهم الصحيح لما تحتاج إليه لتشغيل حلول الدردشة الخاصة بها. تحتوي البرمجة اللغوية العصبية (NLP) أو معالجة اللغات الطبيعية على عدد من الحقول الفرعية حيث يصعب على أجهزة الكمبيوتر تفسير المحادثة والكلام والرد عليها. تعمل ميزة التعرف على الكلام باستخدام الأساليب والتقنيات لتمكين التعرف على اللغات المنطوقة البشرية وترجمتها إلى شيء يمكن للكمبيوتر أو برنامج الدردشة الآلي الذي يعمل بالذكاء الاصطناعي فهمه والاستجابة له.

تتمتع وحدة الأسئلة الشائعة بالأولوية على AI Assist، مما يتيح لك التحكم في الأسئلة والأجوبة المجمعة المستخدمة كردود على الروبوت. QASC عبارة عن مجموعة بيانات أسئلة وأجوبة تركز على تكوين الجملة. يتكون من 9,980 سؤال متعدد الاختيارات مكون من 8 قنوات حول علوم المدرسة الابتدائية (8,134 تدريبًا، 926 تطويرًا، 920 اختبارًا)، ويرافقه مجموعة من 17 مليون جملة. إنهم موافقون على تلقي الخدمة من خلال برنامج الدردشة الآلي طالما أنه يجيب على أسئلتهم في الوقت الفعلي ويساعدهم على حل مشكلتهم بسرعة. تظهر الأبحاث أن العملاء قد طوروا بالفعل تفضيلًا لروبوتات الدردشة. في البداية، على سبيل المثال، غالبًا ما يكون إعداد البرمجة اللغوية العصبية (NLP) ليس شاملاً كما ينبغي، لذا يسيء الروبوت الفهم أكثر مما ينبغي.

أدوات البحث: "واشنطن العاصمة تطلق Chatbot البيانات المفتوحة" - LJ INFOdocket

أدوات البحث: “واشنطن العاصمة تطلق Chatbot البيانات المفتوحة”.

تم النشر: الأحد 31 مارس 2024 الساعة 17:52:55 بتوقيت جرينتش [مصدر]

لقد أحدثت Chatbots ثورة في طريقة تفاعل الشركات مع عملائها. إنهم يقدمون الدعم على مدار الساعة طوال أيام الأسبوع، ويبسطون العمليات، ويقدمون المساعدة الشخصية. ومع ذلك، لجعل برنامج الدردشة الآلي فعالاً وذكيًا حقًا، يجب تدريبه باستخدام مجموعات بيانات مخصصة. لقد أتاح ظهور نماذج لغة معالجة اللغة الطبيعية (NLP) لفرق التعلم الآلي (ML) الفرصة لبناء تجارب مخصصة ومصممة خصيصًا.

ما هي بيانات تدريب Chatbot؟

تحتاج إلى إدخال البيانات التي ستسمح لبرنامج الدردشة الآلية بفهم الأسئلة والاستفسارات التي يطرحها العملاء بشكل صحيح. وهذا سوء فهم شائع يمكنك أن تجده بين الشركات المختلفة. في هذا الدليل، قدمنا برنامجًا تعليميًا خطوة بخطوة لإنشاء روبوت محادثة يعمل بالذكاء الاصطناعي. يمكنك استخدام برنامج الدردشة الآلي هذا كأساس لتطوير برنامج يتواصل مثل الإنسان. نماذج التعليمات البرمجية التي شاركناها متعددة الاستخدامات ويمكن أن تكون بمثابة وحدات بناء لمشاريع chatbot مماثلة تعمل بالذكاء الاصطناعي. بعد ذلك، يجب أن يكون الذكاء الاصطناعي لدينا قادرًا على الاستجابة للإشارات الصوتية التي قدمتها له.

chatbot data

بعض نماذج اللغات الأكثر استخدامًا في عالم روبوتات الدردشة المدعومة بالذكاء الاصطناعي هي BERT من Google وGPT من OpenAI. تساهم هذه النماذج، المجهزة بوظائف متعددة التخصصات ومليارات المعلمات، بشكل كبير في تحسين روبوت الدردشة وجعله ذكيًا حقًا. من خلال إجراء اختبار تدفق المحادثة واختبار دقة النوايا، يمكنك التأكد من أن برنامج الدردشة الآلي الخاص بك لا يفهم نوايا المستخدم فحسب، بل يحافظ أيضًا على محادثات ذات معنى. تساعد هذه الاختبارات في تحديد مجالات التحسين والضبط لتحسين تجربة المستخدم بشكل عام.

عادةً ما يتم تصحيح هذه المشكلة بسرعة عن طريق إضافة المزيد من العبارات إلى الهدف ذي الصلة في إعداد البرمجة اللغوية العصبية. تطورت Chatbots لتصبح واحدة من الاتجاهات الحالية للتجارة الإلكترونية. ولكن البيانات التي "تُغذيها" لبرنامج الدردشة الآلي الخاص بك هي التي ستُنشئ أو تكسر تمثيلك الافتراضي في مواجهة العملاء. بمجرد نشر برنامج الدردشة الآلي، تذكر أن المهمة لم تكتمل إلا للنصف. لا يزال يتعين عليك العمل على التطوير ذي الصلة الذي سيسمح لك بتحسين تجربة المستخدم الشاملة.

بالنسبة للعقل البشري، يبدو كل هذا بسيطًا للغاية، حيث أننا نمونا وتطورنا في ظل كل هذه التعديلات والقواعد الكلامية. ومع ذلك، فإن عملية تدريب روبوت الدردشة المدعم بالذكاء الاصطناعي تشبه عملية تدريب الإنسان الدردشة ص محاولة تعلم لغة جديدة تمامًا من الصفر. يصعب على الآلة أو الخوارزمية معالجة المعاني المختلفة الموسومة بالتنغيم والسياق وتعديل الصوت وما إلى ذلك ومن ثم الاستجابة لها.

ج: إن برنامج البرمجة اللغوية العصبية (NLP) هو وكيل محادثة يستخدم معالجة اللغة الطبيعية لفهم مدخلات اللغة البشرية والاستجابة لها. ويستخدم خوارزميات التعلم الآلي لتحليل النص أو الكلام وإنشاء استجابات بطريقة تحاكي بيانات روبوت الدردشة محادثة بشرية. يمكن تصميم روبوتات الدردشة الخاصة بالبرمجة اللغوية العصبية لأداء مجموعة متنوعة من المهام، وقد أصبحت شائعة في صناعات مثل الرعاية الصحية والتمويل. نأمل أن تكون لديك الآن فكرة واضحة عن أفضل استراتيجيات وممارسات جمع البيانات.

سيضمن حل السؤال الأول أن يكون برنامج الدردشة الآلي الخاص بك ماهرًا ويجيد التحدث مع جمهورك. سوف يمثل برنامج الدردشة الآلي علامتك التجارية ويمنح العملاء التجربة التي يتوقعونها. سيكون الأمر أكثر جاذبية إذا كانت روبوتات الدردشة الخاصة بك تستخدم عناصر وسائط مختلفة للرد على استفسارات المستخدمين. لذلك، يمكنك برمجة برنامج الدردشة الآلي الخاص بك لإضافة مكونات تفاعلية، مثل البطاقات والأزرار وما إلى ذلك، لتقديم تجارب أكثر إقناعًا. علاوة على ذلك، يمكنك أيضًا إضافة عبارات تحث المستخدم على اتخاذ إجراء (CTA) أو اقتراحات المنتج لتسهيل عملية شراء منتجات معينة للعملاء. يدور تدريب Chatbot حول معرفة ما سيطلبه المستخدمون من برنامج الكمبيوتر الخاص بك.

الخطوة 3: المعالجة المسبقة للبيانات

سوف يقوم بتدريب برنامج الدردشة الآلي الخاص بك على الفهم والرد باللغة الإنجليزية الأصلية بطلاقة. يمكن أن يسبب مشاكل اعتمادًا على مكان تواجدك وفي أي أسواق. إن الإجابة على السؤال الثاني تعني أن برنامج الدردشة الآلي الخاص بك سوف يجيب بشكل فعال على المخاوف ويحل المشكلات. وهذا يوفر الوقت والمال ويمنح العديد من العملاء إمكانية الوصول إلى قناة الاتصال المفضلة لديهم. أفضل البيانات لتدريب روبوتات الدردشة هي البيانات التي تحتوي على الكثير من أنواع المحادثات المختلفة. سيساعد هذا برنامج الدردشة الآلي على تعلم كيفية الاستجابة في المواقف المختلفة.

أكثر من 400000 سطر من الأسئلة المحتملة يكرر أزواج الأسئلة. OpenBookQA، مستوحى من اختبارات الكتاب المفتوح لتقييم الفهم البشري للموضوع. الكتاب المفتوح الذي يرافق أسئلتنا عبارة عن مجموعة من 1329 حقيقة علمية للمستوى الابتدائي.

نحن نقوم بتحديث هذه الصفحة باستمرار، ونضيف المزيد من مجموعات البيانات لمساعدتك في العثور على أفضل بيانات التدريب التي تحتاجها لمشاريعك. في مشروع OPUS، يحاولون تحويل ومواءمة البيانات المجانية عبر الإنترنت، وإضافة تعليق توضيحي لغوي، وتزويد المجتمع بمجموعة موازية متاحة للعامة. إن الشعبية المتزايدة للذكاء الاصطناعي في العديد من الصناعات، مثل روبوتات الدردشة المصرفية، أو الصحة، أو التجارة الإلكترونية، تجعل روبوتات الدردشة المدعومة بالذكاء الاصطناعي أكثر جاذبية. إن ساعات العمل المنخفضة، والفريق الأكثر كفاءة، والمدخرات تشجع الشركات على الاستثمار في روبوتات الذكاء الاصطناعي. قد يكونون مهتمين بترتيب التدفقات حسب تصنيف ردود الفعل. يتحمل الراعي والمدير والمطور لبرنامج الدردشة الآلية مسؤولية المساعدة في تحديد التحليلات المطلوبة.

تعد تعليقات المستخدمين مصدرًا قيمًا لفهم مدى جودة أداء برنامج الدردشة الآلي الخاص بك وتحديد مجالات التحسين. في الفصل التالي، سنستكشف أهمية الصيانة والتحسين المستمر لضمان بقاء برنامج الدردشة الآلي الخاص بك فعالاً وملائمًا بمرور الوقت. تعرف على كيفية الاستفادة من Labelbox لتحسين برنامج الدردشة LLM الخاص بمهام محددة لتحسين الأمان والملاءمة وتعليقات المستخدمين.

على سبيل المثال، في برنامج الدردشة الآلي الخاص بخدمة توصيل البيتزا، يعد التعرف على "الطبقة العلوية" أو "الحجم" التي ذكرها المستخدم أمرًا بالغ الأهمية لتلبية طلبه بدقة. ستكون الخطوة التالية هي إنشاء وظيفة دردشة تسمح للمستخدم بالتفاعل مع برنامج الدردشة الآلي الخاص بنا. من المحتمل أننا نرغب في تضمين رسالة أولية إلى جانب تعليمات الخروج من الدردشة عند الانتهاء من استخدام برنامج الدردشة الآلي. نظرًا لأن هذه مهمة تصنيف، حيث سنقوم بتعيين فئة (هدف) لأي مدخلات معينة، فإن نموذج الشبكة العصبية المكون من طبقتين مخفيتين يكفي. لذلك، تعد روبوتات خدمة العملاء حلاً معقولاً للعلامات التجارية التي ترغب في توسيع نطاق خدمة العملاء أو تحسينها دون زيادة التكاليف وعدد الموظفين.

يمكنك في أي وقت تغيير موافقتك أو سحبها من إعلان ملفات تعريف الارتباط الموجود على موقعنا الإلكتروني. لتشغيل ملف وتثبيت الوحدة، استخدم الأمر "python3.9" و"pip3.9" على التوالي إذا كان لديك أكثر من إصدار واحد من python لأغراض التطوير. "PyAudio" هي وحدة مزعجة أخرى وتحتاج إلى البحث يدويًا في Google والعثور على ملف ".whl" الصحيح لإصدار Python الخاص بك وتثبيته باستخدام النقطة. قم بمزامنة بياناتك غير المنظمة تلقائيًا وتخطي البرامج النصية اللاصقة مع الدعم الأصلي لـ S3 (AWS) وGCS (GCP) وBlob Storage (Azure).

الكلمة الأولى التي قد تواجهها عند تدريب برنامج الدردشة الآلية هي الكلام. في الفصول التالية، سنتعمق في استراتيجيات النشر لجعل برنامج الدردشة الآلي الخاص بك في متناول المستخدمين وأهمية الصيانة والتحسين المستمر لتحقيق النجاح على المدى الطويل. يتضمن التعرف على الكيان تحديد أجزاء معينة من المعلومات ضمن رسالة المستخدم.

chatbot data

في هذا الفصل، سنستكشف استراتيجيات النشر المختلفة ونوفر مقتطفات من التعليمات البرمجية لمساعدتك في إعداد برنامج الدردشة الآلي الخاص بك وتشغيله في بيئة الإنتاج. يتعمق هذا الفصل في الخطوات الأساسية لجمع وإعداد مجموعات البيانات المخصصة لتدريب روبوتات الدردشة. NQ عبارة عن مجموعة كبيرة تتكون من 300000 سؤال من أصل طبيعي، بالإضافة إلى إجابات مشروحة من قبل الإنسان من صفحات ويكيبيديا، لاستخدامها في التدريب على أنظمة ضمان الجودة. بالإضافة إلى ذلك، قمنا بتضمين 16000 مثال حيث يتم تقديم الإجابات (على نفس الأسئلة) بواسطة 5 تعليقات توضيحية مختلفة، وهو أمر مفيد لتقييم أداء أنظمة ضمان الجودة المستفادة. الاستراحة عبارة عن مجموعة من البيانات لفهم المشكلات، تهدف إلى تدريب النماذج على التفكير في المشكلات المعقدة.

للحفاظ على تحديث برنامج chatbot الخاص بك واستجابته، تحتاج إلى التعامل مع البيانات الجديدة بفعالية. قد تتضمن البيانات الجديدة تحديثات للمنتجات أو الخدمات، أو تغييرات في تفضيلات المستخدم، أو تعديلات على سياق المحادثة. يتضمن اختبار تدفق المحادثة تقييم مدى جودة برنامج الدردشة الآلي الخاص بك https://chat.openai.com/ يتعامل مع المحادثات متعددة المنعطفات. فهو يضمن أن يحافظ برنامج chatbot على السياق ويوفر استجابات متماسكة عبر تفاعلات متعددة. يعد الاختبار والتحقق من الصحة خطوات أساسية لضمان أداء برنامج الدردشة الآلي المدرب خصيصًا على النحو الأمثل ويلبي توقعات المستخدم.

بالنسبة لحالة الاستخدام المحددة أدناه، أردنا تدريب برنامج الدردشة الآلي الخاص بنا على تحديد أسئلة العملاء المحددة والإجابة عليها بالإجابة المناسبة. يمكنك الاستفادة من إمكانات أقوى نماذج اللغة، مثل ChatGPT وBERT وما إلى ذلك، وتخصيصها لتناسب تطبيق الأعمال الفريد الخاص بك. ستحتاج روبوتات الدردشة الخاصة بالمجال إلى التدريب على البيانات المشروحة عالية الجودة والتي تتعلق بحالة الاستخدام المحددة الخاصة بك. مجموعة بيانات SGD (الحوار الموجه بالمخطط)، تحتوي على أكثر من 16 ألفًا من المحادثات متعددة المجالات التي تغطي 16 مجالًا. تتجاوز مجموعة البيانات لدينا حجم مجموعات الحوار الحالية الموجهة نحو المهام، مع تسليط الضوء على تحديات إنشاء معالجات افتراضية واسعة النطاق. وهو يوفر منصة اختبار صعبة لعدد من المهام، بما في ذلك فهم اللغة، وملء الفتحات، ومراقبة حالة الحوار، وتوليد الاستجابة.

سيكون من الأفضل البحث عن سجلات دردشة العميل وأرشيفات البريد الإلكتروني ومحتوى موقع الويب والبيانات الأخرى ذات الصلة التي ستمكن روبوتات الدردشة من حل طلبات المستخدم بشكل فعال. قد يكون لدى معظم المؤسسات الصغيرة والمتوسطة في عملية جمع البيانات مطورين وآخرين يعملون في مشاريع تطوير برامج الدردشة الآلية الخاصة بهم. ومع ذلك، فإنها قد تتضمن مصطلحات أو كلمات قد لا يستخدمها المستخدم النهائي.

في هذا الفصل، سنستكشف طرق الاختبار المختلفة وتقنيات التحقق من الصحة، ونوفر مقتطفات من التعليمات البرمجية لتوضيح هذه المفاهيم. TyDi QA عبارة عن مجموعة من بيانات الإجابة على الأسئلة التي تغطي 11 لغة متنوعة نمطيًا مع 204 ألف زوج من الأسئلة والأجوبة. يحتوي على ظواهر لغوية لا يمكن العثور عليها في النصوص المكتوبة باللغة الإنجليزية فقط. مع وجود أكثر من 100000 زوج من الأسئلة والأجوبة في أكثر من 500 مقالة، تعد SQuAD أكبر بكثير من مجموعات بيانات فهم القراءة السابقة. يجمع SQuAD2.0 بين 100000 سؤال من SQuAD1.1 وأكثر من 50000 سؤال جديد بدون إجابة مكتوبة بطريقة متناقضة من قبل العاملين في الحشود لتبدو وكأنها أسئلة تمت الإجابة عليها.

chatbot data

الهدف من مجموعة بيانات NewsQA هو مساعدة مجتمع البحث على بناء خوارزميات قادرة على الإجابة على الأسئلة التي تتطلب فهمًا ومهارات تفكير على المستوى البشري. استنادًا إلى مقالات CNN من قاعدة بيانات DeepMind للأسئلة والأجوبة، قمنا بإعداد مجموعة بيانات القراءة والفهم المكونة من 120000 زوج من الأسئلة والأجوبة. CoQA عبارة عن مجموعة بيانات واسعة النطاق لبناء أنظمة الإجابة على أسئلة المحادثة. يحتوي CoQA على 127000 سؤال مع إجابات، تم الحصول عليها من 8000 محادثة تتضمن مقاطع نصية من سبعة مجالات مختلفة. ومع ذلك، أصبحت إدارة خدمة العملاء الفعالة عبر قنوات البيع المتعددة أمرًا صعبًا بشكل متزايد بسبب انخفاض صبر المستهلكين. يتوقع العملاء أن تستجيب العلامات التجارية لاستفسارات المبيعات الخاصة بهم على الفور؛ يمكن لروبوتات الدردشة والمساعدين الافتراضيين المساعدة في تحقيق هذا الهدف.

الخطوة 13: تصنيف الأسئلة الواردة لروبوت الدردشة

يتيح ذلك للنموذج الوصول إلى الكلمات ذات المعنى بشكل أسرع وسيؤدي بدوره إلى تنبؤات أكثر دقة. الآن، لدينا مجموعة من الأغراض وسيكون هدف برنامج الدردشة الآلي الخاص بنا هو تلقي رسالة ومعرفة الهدف من وراءها. اعتمادًا على كمية البيانات التي تقوم بتصنيفها، يمكن أن تكون هذه الخطوة صعبة بشكل خاص وتستغرق وقتًا طويلاً. ومع ذلك، يمكن تسريع ذلك بشكل كبير باستخدام خدمة وضع العلامات، مثل Labelbox Boost. تواصل مع الزائرين بشكل استباقي باستخدام تحيات chatbot المخصصة. قم بإشراك الزائرين من خلال استجابات ChatBot السريعة وتحياتهم الشخصية، التي تغذيها بياناتك.

chatbot data

لكن الروبوت إما سيسيء الفهم ويرد بشكل غير صحيح أو سيتعثر تمامًا. ستذهب بيانات Chatbot التي تم جمعها من مواردك إلى أبعد مدى في تطوير المشروع ونشره بسرعة. تأكد من جمع البيانات من أدوات عملك، مثل قالب اقتراح الاستشارة PandaDoc المملوء.

اختر قالبًا جاهزًا للاستخدام لـ chatbot وقم بتخصيصه وفقًا لاحتياجاتك. يمكنك معالجة كمية كبيرة من البيانات غير المنظمة في وقت سريع باستخدام العديد من الحلول. سيكون تنفيذ ترحيل Databricks Hadoop وسيلة فعالة بالنسبة لك للاستفادة من هذه الكميات الكبيرة من البيانات. إذا كنت تريد إبقاء العملية بسيطة وسلسة، فمن الأفضل التخطيط وتحديد أهداف معقولة. فكر في المعلومات التي تريد جمعها قبل تصميم الروبوت الخاص بك. علاوة على ذلك، يمكنك أيضًا تحديد المجالات أو المواضيع المشتركة التي قد يسأل عنها معظم المستخدمين.

ومع ذلك، من الناحية العملية، يشارك المطورون والمستخدمون المتميزون في تنفيذ التحليلات المخصصة أكثر من مراقبتها. يجب ربط التحليلات المخصصة بمحرك اختبار A/B داخل منصة بناء chatbot. بالطبع، داخل منصة الروبوت نفسها، ليس من المهم فقط أن تكون قادرًا على إنشاء تحليلات مخصصة ووضع علامات عليها، ولكن أيضًا تحديد اختبارات A/B ضمن تدفق المحادثة.

إذا اخترت استخدام الخيارات الأخرى لجمع البيانات لتطوير روبوت الدردشة الخاص بك، فتأكد من أن لديك خطة مناسبة. في نهاية المطاف، لن يقدم برنامج الدردشة الآلي الخاص بك قيمة العمل التي تتوقعها إلا إذا كان يعرف كيفية التعامل مع المستخدمين في العالم الحقيقي. عند إنشاء روبوت الدردشة، أول وأهم شيء هو تدريبه على معالجة استفسارات العميل عن طريق إضافة البيانات ذات الصلة. يعد هذا مكونًا أساسيًا لتطوير برنامج الدردشة الآلي لأنه سيساعدك على فهم برنامج الكمبيوتر هذا لفهم اللغة البشرية والرد على استفسارات المستخدم وفقًا لذلك. ستمنحك هذه المقالة فكرة شاملة عن استراتيجيات جمع البيانات التي يمكنك استخدامها لروبوتات الدردشة الخاصة بك. ولكن قبل ذلك، دعونا نفهم الغرض من برامج الدردشة الآلية ولماذا تحتاج إلى بيانات تدريبية لها.

على غرار طبقات الإدخال المخفية، سنحتاج إلى تحديد طبقة الإخراج لدينا. سوف نستخدم وظيفة تفعيل softmax، والتي تسمح لنا باستخراج الاحتمالات لكل مخرجات. في هذه الخطوة، سنستخدم TFLearn وسنبدأ بإعادة تعيين بيانات الرسم البياني الافتراضية للتخلص من إعدادات الرسم البياني السابقة. يتم تشفير حقيبة الكلمات بشكل ساخن (تمثيلات فئوية للمتجهات الثنائية) ويتم استخراجها من النص لاستخدامها في النمذجة.

أخيرًا، سنتحدث عن الأدوات التي تحتاجها لإنشاء روبوت محادثة مثل ALEXA أو Siri. ستكون الخطوة التالية في بناء برنامج الدردشة الآلي الخاص بنا هي تكرار البيانات عن طريق إنشاء قوائم بالنوايا والأسئلة وإجاباتها. إذا تم تدريب روبوت الدردشة على التعلم الآلي غير الخاضع للرقابة، فقد يخطئ في تصنيف النية ويمكن أن ينتهي به الأمر إلى قول أشياء لا معنى لها. نظرًا لأننا نعمل مع مجموعات البيانات المشروحة، فإننا نقوم بترميز المخرجات بشكل ثابت، حتى نتمكن من التأكد من أن برنامج الدردشة الآلي الخاص بالبرمجة اللغوية العصبية الخاص بنا يرد دائمًا باستجابة معقولة. بالنسبة لجميع السيناريوهات غير المتوقعة، يمكن أن يكون لديك نية تقول شيئًا على غرار "لا أفهم، يرجى المحاولة مرة أخرى". في هذا الدليل، سنرشدك إلى كيفية استخدام Labelbox لإنشاء برنامج chatbot وتدريبه.

ومع ذلك، فإن العائق الرئيسي أمام تطوير روبوت الدردشة هو الحصول على بيانات حوار واقعية وموجهة نحو المهام لتدريب هذه الأنظمة القائمة على التعلم الآلي. على الرغم من أنها مفيدة ومجانية، إلا أن مجموعات ضخمة من بيانات تدريب Chatbot ستكون عامة. وبالمثل، مع صوت العلامة التجارية، لن يتم تصميمها بما يتناسب مع طبيعة عملك ومنتجاتك وعملائك. ومع ذلك، فإن هذه الطرق غير مجدية إذا لم تساعدك في العثور على بيانات دقيقة لبرنامج الدردشة الآلي الخاص بك. لن يحصل العملاء على ردود سريعة ولن تتمكن برامج الدردشة الآلية من تقديم إجابات دقيقة لاستفساراتهم. لذلك، تلعب استراتيجيات جمع البيانات دورًا كبيرًا في مساعدتك على إنشاء روبوتات الدردشة ذات الصلة.

عندما تم إنشاء الأنظمة القليلة الأولى للتعرف على الكلام، كان IBM Shoebox أول من حقق نجاحًا لائقًا في فهم بعض الكلمات الإنجليزية المختارة والاستجابة لها. واليوم لدينا عدد من الأمثلة الناجحة التي تفهم عدداً لا يحصى من اللغات وتستجيب باللهجة واللغة الصحيحة التي يتفاعل بها الإنسان. بمجرد إنشاء نموذجنا، نكون مستعدين لتمرير بيانات التدريب الخاصة بنا إليه عن طريق استدعاء الدالة 'the.fit()'.

بعد كل الوظائف التي أضفناها إلى برنامج الدردشة الآلي الخاص بنا، يمكنه الآن استخدام تقنيات التعرف على الكلام للرد على إشارات الكلام والرد باستجابات محددة مسبقًا. ومع ذلك، لا يزال برنامج الدردشة الآلي الخاص بنا غير ذكي جدًا من حيث الاستجابة لأي شيء غير محدد أو محدد مسبقًا. في هذا الفصل، سنستكشف عملية التدريب بالتفصيل، بما في ذلك التعرف على النية، والتعرف على الكيان، والتعامل مع السياق. ومع ذلك، فإن الجانب السلبي لطريقة جمع البيانات هذه لتطوير روبوت الدردشة هو أنها ستؤدي إلى بيانات تدريب جزئية لن تمثل مدخلات وقت التشغيل. ستحتاج إلى نهج إصدار MVP سريع المتابعة إذا كنت تخطط لاستخدام مجموعة بيانات التدريب الخاصة بك لمشروع chatbot. هذا هو المكان الذي يصبح فيه برنامج الدردشة الآلي الذي يعمل بالذكاء الاصطناعي ذكيًا وليس مجرد روبوت مكتوب جاهزًا للتعامل مع أي اختبار يتم إجراؤه عليه.

الحزمة الرئيسية التي سنستخدمها في الكود الخاص بنا هنا هي حزمة Transformers المقدمة من HuggingFace، وهو مورد مشهور على نطاق واسع في برامج الدردشة الآلية التي تعمل بالذكاء الاصطناعي. تحظى هذه الأداة بشعبية كبيرة بين المطورين، بما في ذلك أولئك الذين يعملون في مشاريع chatbot المستندة إلى الذكاء الاصطناعي، لأنها تتيح نماذج وأدوات مدربة مسبقًا وجاهزة للعمل مع مهام البرمجة اللغوية العصبية المختلفة. في التعليمات البرمجية أدناه، استخدمنا على وجه التحديد برنامج الدردشة الآلي DialogGPT AI، الذي تم تدريبه وإنشاءه بواسطة Microsoft استنادًا إلى ملايين المحادثات والمحادثات المستمرة على منصة Reddit في وقت معين. يمثل تفسير الكلام البشري والرد عليه تحديات عديدة، كما تمت مناقشته في هذه المقالة. يستغرق البشر سنوات للتغلب على هذه التحديات عند تعلم لغة جديدة من الصفر.

  • يمكنك استخدامه لإنشاء نموذج أولي أو إثبات للمفهوم نظرًا لأنه ذو صلة سريعة ويتطلب آخر جهد وموارد.
  • نظرًا للاتجاهات الحالية التي اشتدت خلال الوباء وبعد الهوس الممتاز بالذكاء الاصطناعي، لن يكون هناك سوى المزيد من العملاء الذين يحتاجون إلى الدعم في المستقبل.
  • يستغرق البشر سنوات للتغلب على هذه التحديات عند تعلم لغة جديدة من الصفر.
  • تعد هذه خطوة مهمة في بناء برنامج الدردشة الآلي لأنها تضمن قدرة برنامج الدردشة الآلي على التعرف على الرموز المميزة ذات المعنى.
  • يجمع SQuAD2.0 بين 100000 سؤال من SQuAD1.1 وأكثر من 50000 سؤال جديد بدون إجابة مكتوبة بطريقة متناقضة من قبل العاملين في الحشود لتبدو وكأنها أسئلة تمت الإجابة عليها.

إذا سأل العميل عن وثائق Apache Kudu، فمن المحتمل أن يرغب في أن يتم تعقبه سريعًا إلى ملف PDF أو مستند تقني لحل التخزين العمودي. لن يكون برنامج الدردشة الآلي الخاص بك على علم بهذه العبارات وسيرى البيانات المطابقة كنقاط بيانات منفصلة. يجب على فريق تطوير المشروع الخاص بك تحديد هذه العبارات وتخطيطها لتجنب النشر المؤلم. سيساعد القيام بذلك في تعزيز أهمية وفعالية أي عملية تدريب لروبوتات الدردشة. الغالبية العظمى من بيانات chatbot مفتوحة المصدر متاحة باللغة الإنجليزية فقط.

تشمل حالات الاستخدام الشائعة تحسين مقاييس دعم العملاء، وإنشاء تجارب عملاء مبهجة، والحفاظ على هوية العلامة التجارية والولاء. تم تصميم روبوتات الدردشة المدعمة بالذكاء الاصطناعي، كما يوحي اسمها، لتقليد السمات والاستجابات الشبيهة بالبشر. يمكنك العثور على معلومات إضافية حول خدمة العملاء منظمة العفو الدولية والذكاء الاصطناعي والبرمجة اللغوية العصبية. تلعب البرمجة اللغوية العصبية (معالجة اللغات الطبيعية) دورًا مهمًا في تمكين روبوتات الدردشة هذه من فهم الفروق الدقيقة والدقيقة في المحادثة البشرية. تجد روبوتات الدردشة المدعمة بالذكاء الاصطناعي تطبيقات في منصات مختلفة، بما في ذلك دعم الدردشة الآلي والمساعدين الافتراضيين المصممين للمساعدة في مهام مثل التوصية بالأغاني أو المطاعم.

لا تنسى مشاركة هذا المقال!
FacebookTwitterMessengerLinkedIn

مقالات ذات صلة

قم بإدارة عملك بنجاح مع Firmao