تقييم أنظمة التوصية: اختيار الأفضل لعملك

جنبًا إلى جنب مع التوسع الذي لا نهاية له في التجارة الإلكترونية والوسائط عبر الإنترنت في السنوات الأخيرة ، أصبح هناك المزيد والمزيد من أنظمة مزودي البرمجيات (SaaS) التي أصبحت متاحة اليوم. على عكس ما كان عليه الحال قبل 5 سنوات ، عند استخدام RSs كان امتيازًا لشركات كبيرة في بناء RS خاصة بهم ، وإنفاق ميزانية ضخمة على فريق من علماء البيانات ، فإن شعبية حلول SaaS الحالية تجعل من السهل استخدام التوصية حتى للشركات الصغيرة والمتوسطة الشركات ذات الحجم الكبير. والسؤال الذي تواجهه مديري الإدارات في هذه الشركات عند البحث عن SaaS RS المناسب هو: ما الحل الأفضل؟ على افتراض أنك لا تزال لا تملك RS ، أو أنك غير راض عن RS الحالي ، فما الحل الذي يجب عليك اختياره؟

في هذه المقالة ، سأغطي طريقتين:

  • التقييم في وضع عدم الاتصال بالإنترنت في العالم الأكاديمي (بالإضافة إلى جائزة Netflix) ، والبحث عن أخطاء تنبؤ منخفضة (RMSE / MAE) وتغطية عالية للتذكير / الفهرس. TLDR. فقط تعرف أن هذه التدابير موجودة وربما لا تريد استخدامها. لكنني ما زلت أقدم ملخصًا موجزًا ​​عنها في حال كنت مهتمًا.
  • التقييم عبر الإنترنت في عالم الأعمال ، والبحث عن قيم حياة العملاء المرتفعة (CLV) ، والاطلاع على اختبارات A / B و CTR و CR و ROI و QA. يجب عليك قراءة هذا القسم إذا كنت تفكر جديا في توصيات تعزز عملك.

العالم غير المتصل = كيف يفعلها الأكاديميون؟

وقد تم التحقيق RSs منذ عقود في البحوث الأكاديمية. هناك الكثير من الأوراق البحثية التي تقدم خوارزميات مختلفة ، ولجعل الخوارزميات قابلة للمقارنة ، تستخدم التدابير الأكاديمية. نحن ندعو هذه التدابير التدابير حاليا. لا تضع أي شيء قيد الإنتاج ، بل تلعب فقط مع الخوارزميات الموجودة في صندوق رملك وتضبطها وفقًا لهذه التدابير. لقد قمت شخصياً بالبحث في هذه المقاييس كثيرًا ، لكن من وجهة نظري الحالية ، فهي عصور ما قبل التاريخ. ولكن حتى في العصور الوسطى من عام 2006 في جائزة Netflix الشهيرة ، تم استخدام مقياس أكاديمي بحت يسمى RMSE (خطأ الجذر التربيعي الوسطي).

فقط لشرح كيفية عملها لفترة وجيزة ، فإنه يفترض أن يقوم المستخدمون لديك بتقييم منتجاتك بشكل صريح مع عدد قل من النجوم (1 = كراهية قوية ، 5 = مثل قوي) ، ولديك مجموعة من هذه التصنيفات (السجلات التي تفيد بأن المستخدم عنصر مقيم X مع نجوم Y) من الماضي. يتم استخدام تقنية تسمى التحقق من الانقسام: تأخذ فقط مجموعة فرعية من هذه التصنيفات ، ويقول 80 ٪ (تسمى مجموعة القطار) ، وبناء RS عليها ، ثم اطلب من RS أن تتوقع التصنيفات على 20 ٪ كنت مخفي (مجموعة الاختبار). وبالتالي قد يحدث أن قام مستخدم اختبار بتقييم بعض العناصر مع 4 نجوم ، ولكن يتنبأ نموذجك بـ 3.5 ، ومن ثم فقد حصل على خطأ قدره 0.5 في هذا التقييم ، وهذا هو بالضبط مصدر RMSE. ثم تقوم بحساب متوسط ​​الأخطاء من مجموعة الاختبار بأكملها باستخدام صيغة والحصول على النتيجة النهائية عند 0.71623. BINGO! هذا هو مدى جودة (أو ، بشكل أكثر دقة ، سيئة) RS الخاص بك هو. أو يمكنك أيضًا استخدام صيغة مختلفة والحصول على MAE (يعني الخطأ المطلق) ، الذي لا يعاقب على الأخطاء الضخمة (صحيح 4 نجوم ، توقعت نجمة واحدة) كثيرًا ، لذا قد تحصل على 0.6134 فقط.

أحد العيوب الصغيرة هنا هو أن مثل هذه البيانات غير موجودة تقريبًا في العالم الواقعي ، أو على الأقل يوجد القليل منها.

المستخدمين كسول جدًا ولن يصنفوا أي شيء. إنهم يفتحون صفحة ويب فقط ، وإذا أحبوا ما يرونه ، فقد يشترونه / يستهلكونه ؛ إذا تمتص ، فإنها تغادر بأسرع وقت. وبالتالي ليس لديك سوى ما يسمى بالتصنيفات الضمنية في سجل خادم الويب أو قاعدة بيانات لعمليات الشراء ، ولا يمكنك قياس خطأ عدد النجوم عليها ، ببساطة لأنه لا توجد نجوم. لديك +1 فقط = شاهد المستخدم التفاصيل أو اشترى منتجًا ، وعادةً ما لا شيء آخر. في بعض الأحيان تسمى هذه التصنيفات الأحادية ، التي تعرفها من زر "أعجبني" على Facebook: التقييم إما إيجابي أو غير معروف (المستخدم قد لا يعرف المحتوى موجودًا).

لا يزال بإمكانك استخدام التحقق من صحة تقسيم على هذه البيانات ، حتى بالنسبة للمقارنة الخاصة بك حاليا من توصي SaaS. لنفترض أنك تأخذ ، على سبيل المثال ، قاعدة بيانات المشتريات الخاصة بك ، أرسل محفوظات 80٪ من المستخدمين إلى جمهورية صربسكا ، ثم ، بالنسبة لكل مستخدم اختبار ، أرسل عددًا قليلاً من المشتريات واطلب من RS توقع الباقي. ربما تكون قد قمت بإخفاء 4 عناصر تم شراؤها واطلب من RS 10 عناصر. قد تحصل على دقة 0٪ أو 25٪ أو 50٪ أو 75٪ أو 100٪ لذلك المستخدم ، اعتمادًا على عدد العناصر المخفية 4 التي ظهرت في 10 الموصى بها. وتسمى هذه الدقة Recall. يمكنك متوسط ​​ذلك على مجموعة الاختبار بأكملها و TADAAA! النتيجة هي 31.4159 ٪ ، وهذا هو مدى جودة RS الخاص بك.

الآن بصراحة ، على الرغم من أن Recall أكثر عقلانية من RMSE ، إلا أنه لا يزال يسبب الكثير من الألم. لنفترض أن مستخدمًا تجريبيًا شاهد 20 حلقة من المسلسل التلفزيوني نفسه ، ويمكنك قياس الاستدعاء عليها. لذا ، يمكنك إخفاء الحلقات # 18–20 واطلب من جمهورية صربسكا التنبؤ بها من # 1-17. إنها مهمة سهلة للغاية حيث أن الحلقات متصلة بقوة ، بحيث تحصل على استدعاء 100٪. الآن ، هل اكتشف المستخدم شيئًا جديدًا؟ هل تريد أن توصي بها مثل هذا المحتوى على الإطلاق؟ وما الذي يجلب لك أعلى قيمة أعمال على أي حال؟ قل في متجر على الإنترنت ، هل ترغب في التوصية بالبدائل ، أو الملحقات؟ يجب أن تشعر أنك تحصل على جليد رقيق للغاية مع التذكير.

وسأخبركم بسر أكثر: في بعض الحالات (ليس دائمًا ، يعتمد ذلك على عملك!) ، إنها استراتيجية عادلة أن أوصي فقط بالعناصر الأكثر شهرة عالميًا (مثل الأكثر مبيعًا) لتحقيق استرجاع معقول. حتى هنا يأتي تغطية كتالوج. هل ترغب في أن يواصل المستخدمون اكتشاف محتوى جديد وجديد لتظلوا مخلصين؟ ثم قد ترغب في التوصية بأكبر عدد ممكن من العناصر المختلفة. في أبسط الحالات ، لحساب تغطية الكتالوج ، فقط اصطحب مستخدمي الاختبار ، واطلب التوصية لكل واحد منهم ، وجمع كل العناصر الموصى بها معًا. يمكنك الحصول على مجموعة كبيرة من العناصر المختلفة. قسّم حجم هذه المجموعة على إجمالي عدد العناصر في الكتالوج بالكامل ، وستحصل على ... 42.125٪! هذا هو الجزء من العناصر التي تستطيع RS التوصية بها.

الآن النظر في نموذج الأكثر مبيعا. قد يكون هناك استدعاء جيد للغاية ، ولكن تغطية تقريبية تقريبًا (5 عناصر ثوابت؟). واتخاذ توصية عشوائية. لديها ما يقرب من الصفر وتذكر تغطية 100 ٪. قد تشعر أنك تريد بعض التنازلات.

الصورة أعلاه تأتي من بحثي الأصلي (القديم جدًا). يمكنك رؤية حوالي 1000 من طرازات RS المختلفة المرسومة في الطائرة Recall-Coverage. العبقري غريب الأطوار ، أليس كذلك؟ :) قد تشعر بالدوار عند اختيار الأفضل ، لكن آمل أن تشعر أن اختيار البعض من الجزء العلوي الأيمن ("Pareto-optimal front") يمكن أن يكون اختيارًا جيدًا.

لجعل التقدير في وضع عدم الاتصال لديك أكثر قوة ، يمكنك استخدام التحقق من الصحة التبادلي (Xval) بدلاً من التحقق من الصحة. ما عليك سوى تقسيم المستخدمين إلى 10 أضعاف والدخول في حلقة: قم دائمًا بأخذ 9 أضعاف لإنشاء النموذج ، واستخدم أضعاف 1 المتبقية لإجراء عملية التحقق. متوسط ​​النتائج خلال هذه 10 أشواط.

الآن يمكنك القول: ماذا عن عملي؟ قد يكون قياس الاستدعاء والتغطية على ما يرام ، ولكن كيف ترتبط ببيانات مؤشرات الأداء الرئيسية الخاصة بي؟

وأنت على حق. لوضع SaaS RS على المحور X و $$$ على المحور Y ، علينا أن نترك العالم غير المتصل بالإنترنت ونذهب إلى الإنتاج!

العالم على الإنترنت: اتبع أمثلة CTOs الذكية

كان القسم أعلاه يتعلق بقياس جودة RS قبل بدء الإنتاج ، والآن حان الوقت للحديث عن مؤشرات الأداء الرئيسية للأعمال.

بينما في التقييم غير المتصل بالإنترنت ، نستخدم عادةً التحقق من الانقسام ، في التقييم عبر الإنترنت ، يعد اختبار A / B (أو الاختبار متعدد المتغيرات) هو النهج الأبرز اليوم. يمكنك دمج عدد قليل من RSs المختلفة ، وتقسيم المستخدمين إلى مجموعات ووضع RS في المعركة. مكلف بعض الشيء ، لأنه يستهلك موارد التطوير الخاصة بك ، بحيث يمكنك استخدام الصعوبة المقدرة للتكامل وتكاليف التخصيصات / التعديلات المستقبلية كواحد من التدابير الخاصة بك ، والتي قد تقلل أولاً من مجموعة المرشحين.

لنفترض الآن أن لديك التكامل جاهزًا وقادرًا على تقسيم المستخدمين عبر الإنترنت إلى مجموعات اختبار A / B. يمكنك إما استخدام التجزئة الخاص لملفات تعريف الارتباط الخاصة بـ UID ، أو استخدام بعض الأدوات لذلك (على سبيل المثال ، VWO ، Optimizely ، أو حتى GAs ، على الرغم من أن الخيار الأخير مؤلم قليلاً). للقيام بالتجربة ، يجب عليك تحديد مكان واحد جيد على موقع الويب / التطبيق الخاص بك حيث يمكنك اختبار التوصيات ، لأنك متأكدًا من أنك لا ترغب في القيام بالتكامل الكامل لجميع وحدات خدمة العملاء المرشحة في وقت مبكر من المرحلة التجريبية ، أليس كذلك؟ إذا كانت لديك حركة مرور صغيرة ، ضع في اعتبارك أن المكان المحدد يجب أن يكون مرئيًا بما يكفي لجمع نتائج مهمة. في الحالة المعاكسة ، إذا كان لديك حركة مرور كبيرة ، يمكنك اختيار استراتيجية متحفظة ، على سبيل المثال ، لإطلاق سراح 20 ٪ فقط من زياراتك للاختبار ، والحفاظ على نفسك والمستخدمين الباقيين بنسبة 80 ٪ في أمان في حالة قيام بعض RSs المرشح تكون مكسورة تماما والتوصية بأشياء غريبة.

لنفترض أن الأمر برمته قيد التشغيل. ما لقياس؟ أسهل التدابير هي نسبة النقر إلى الظهور (CTR) ومعدل التحويل (CR) للتوصيات.

تم عرض مجموعة من التوصيات N 20 مرة ، منها 3 مرات نقر المستخدم على واحد على الأقل من العناصر الموصى بها؟ ثم نسبة النقر إلى الظهور هي 15٪. في الواقع ، يعد النقر جميلًا ، لكن من المحتمل أن يؤدي ذلك إلى قيام المستخدم بصفحة تفصيلية وقد ترغب في معرفة ما حدث بعد ذلك. هل وجد المستخدم حقًا المحتوى ممتعًا؟ هل شاهدت الفيديو بأكمله ، واستمعت إلى الأغنية بأكملها ، وقرأت المقال بالكامل ، وأجبت على عرض الوظيفة ، ووضعت المنتج في العربة وطلبت فعلاً ذلك؟ هذا هو معدل التحويل = عدد التوصيات التي جعلت كل من أنت والمستخدم سعيدًا.

على سبيل المثال: Recombee KPI console

قد توفر لك نسبة النقر إلى الظهور (CTR) و (CR) تقديرًا جيدًا لأداء الموصى به ، لكن يجب عليك أن تكون حذرًا وتواصل التفكير في منتجك. ربما تشغل بوابة أخبار ، تضع الأخبار العاجلة على الصفحة الرئيسية. قد لا يجلب لك هذا أعلى نسبة نقر إلى ظهور ممكنة ، لكنه يحافظ على الجودة والشعور الذي تشعر به أنت والمستخدمون بشأن خدمتك. الآن يمكنك وضع RS هناك وقد تبدأ في عرض محتوى مختلف ، مثل مقالات الصحافة الصفراء أو مقالات مضحكة عن "الكلاب السريعة جدًا التي تعمل بسرعات عالية لا تصدق". قد يؤدي ذلك إلى زيادة نسبة النقر إلى الظهور الفورية بنسبة 5 مرات ، ولكنها ستلحق الضرر بالصور الخاصة بك وقد تفقد المستخدمين على المدى الطويل.

هنا يأتي التقييم التجريبي لل RSs. ما عليك سوى بدء جلسة جديدة مع ملفات تعريف الارتباط الفارغة ، ومحاكاة سلوك المستخدم والتحقق من صحة التوصيات. إذا كان لديك فريق لضمان الجودة ، فاخرجهم إلى الوظيفة! التقييم التجريبي معقد وسهل في آن واحد. إنه أمر معقد ، لأنه لا ينتج أي أرقام يمكن تقديمها على لوحة المنتج. لكن الأمر سهل أيضًا ، لأنه بفضل الحدس الإنساني الخاص بك ، ستتعرف ببساطة على التوصيات الجيدة وأيها سيئة. إذا اخترت توصية تعمل بشكل غريب ، فأنت تضع نفسك في الكثير من المشاكل في المستقبل حتى لو كانت نسبة النقر إلى الظهور / السجل التجاري مرتفعة في الوقت الحالي.

لكن بالطبع ، إلى جانب الجودة ، يجب أن تهتم بعائد الاستثمار (ROI).

ببساطة ، ربما تكون قد حددت أن أضعاف اختبار A / B التي تم اختبارها تؤدي إلى زيادة X٪ في معدل التحويل على طية خط الأساس # 0 (الحل الحالي) ، وأن الهامش الخاص بك كان $ Y لمتوسط ​​العنصر الموصى به بنجاح ، و أنها تتطلب طلبات توصية Z لتحقيق ذلك. اعمل الرياضيات ، اعرض المصروفات / المداخيل في حالة وضع RS على 100٪ من حركة المرور الخاصة بك ، مع دمجها أيضًا في أقسام أخرى من موقع الويب / التطبيق.

تحذير واحد حول حساب العائد على الاستثمار: إنه غامض للغاية ويعتمد على عدد كبير من المجهولين: هل سيكون السجل التجاري هو نفسه في أماكن أخرى على موقعي / تطبيقي؟ (إجابة بسيطة = لا ، لن يكون هناك أماكن مختلفة لنسبة النقر إلى الظهور (CR / CR)). كيف سيتغير CR إذا وضعت التوصيات على موقف أكثر أو أقل جاذبية؟ (إجابة بسيطة = الكثير). كيف سيتطور السجل التجاري في الوقت المناسب؟ هل سيتعلم المستخدمون استخدام التوصية والثقة بها ، أم أن السجل التجاري سينخفض؟

يؤدي هذا إلى التدبير الأكثر صعوبة حتى الآن: قيمة حياة العميل (CLV). كنت تبحث عن وضع مربح للجانبين. تريد أن يحب المستخدمون خدمتك ، وأن يشعروا بالراحة والسعادة والاستعداد للعودة. جنبًا إلى جنب مع ذلك ، فأنت تريد أن تقوم RS بتحسين UX ، ومساعدة المستخدمين في العثور على محتوى / منتجات مثيرة للاهتمام كما يحلو لهم. كيفية الوصول إلى ارتفاع CLV باستخدام RS؟

حسنًا ، لا نصيحة بسيطة هنا. يجب عليك البحث عن توصيات لطيفة ذات جودة تجريبية وعائد استثمار إيجابي بشكل معقول. وفقًا لتجربتي ، فإن دقة التوصيات تتوافق عادةً مع قيمة الأعمال ، ستمنعك من نشر شكاوى من فريق ضمان الجودة / الرئيس التنفيذي. وإذا لاحظت أن حالة العمل إيجابية ، فقد وجدت ما كنت تبحث عنه :)

خاتمة

لقد حاولت تغطية الجوانب الأكثر أهمية لتقييم RS. ربما تكون قد رأيت أنها ليست مهمة سهلة وهناك الكثير مما يجب مراعاته ، لكنني آمل على الأقل أن أعطيك بعض الأدلة لتجد طريقك في المنطقة. يمكنك اختبار RSs دون اتصال حتى قبل الدخول في الإنتاج ، أو القيام باختبار A / B للإنتاج بتقدير CTR / CR و ROI. قم دائمًا بتضمين بعض ضمان الجودة ، لأن CTR / CR / ROI وحدها قد تكون مضللة ولا تضمن التوافق مع رؤية منتجك.

لقد تم حذف الكثير لمجرد الحفاظ على النص لفترة طويلة. إلى جانب CTR / CR / ROI / جودة التوصيات ، يجب إلقاء نظرة سريعة على القدرات الكلية لجمهورية صربيا. قد ترغب في تضمين توصيات في حملات البريد الإلكتروني في المستقبل. هل ستعمل؟ هل لديها إمكانات لتدوير التوصيات بحيث لا يتلقى مستخدم معين نفس مجموعة التوصيات في كل بريد إلكتروني؟ هل يمكنك تلبية جميع متطلبات عملك ، هل يمكنك التأثير على التوصيات ، وتعزيز نوع ما من المحتوى ، وتصفيته وفقًا لمعايير مختلفة؟ هذه مواضيع لم تتم تغطيتها ولكنك قد تشعر أنك تريد أيضًا النظر فيها.

المؤلف هو مؤسس مشارك في Recombee ، محرك توصيات SaaS المتطور.