نظریه‌ی تقلب‌های موبایلی: قسمت ۳

آخرین به‌روزرسانی: ۱۹ فروردین ۱۴۰۳
نظریه‌ی تقلب‌های موبایلی: قسمت ۳
نظریه‌ی تقلب‌های موبایلی: قسمت ۳

یکی از مواردی که همواره بهینه سازی اپلیکیشن و اپ مارکتینگ شما را تحت تاثیر قرار می گذارد، دست بردن در تعداد نصب و ایجاد تقلب موبایلی در نصب اپلیکیشن هاست. در مقاله های قبلی پیرامون مفهوم تقلب موبایلی صحبت کرده ایم و در این مقاله توضیحات دو مقاله قبلی ادتریس را پیرامون تقلب در تبلیغات موبایلی تکمیل می کنیم.

یادگیری ماشین در جلوگیری از تقلب در تبلیغات موبایلی 

در این که یادگیری ماشین تأثیر بسیار بزرگی روی شناسایی تقلب‌های موبایلی خواهد گذاشت شکی نیست، در واقع در حال حاضر هم شاهد قدم‌­های بزرگی برای استفاده­‌ی از آن هستیم. اما راه طولانی برای حذف کردن خطا از آن داریم و نقاط ضعف بسیاری هست که می‌توانند این تکنولوژی را به بن‌بست برسانند.

ما هنوز در قدم‌های ابتدایی استفاده از این تکنولوژی هستیم و باید در نظر بگیریم که اگر استفاده‌­ی از این تکنولوژی در شناسایی تقلب‌ موبایلی شکست بخورد شاهد اتفاقات بدی در حوزه‏‌ی انتساب و جلوگیری از تقلب‌های موبایلی خواهیم بود.

در بخش سوم نظریه‌ی تقلب‌های موبایلی ما به این موضوع می‌پردازیم که چرا یادگیری ماشین هنوز آماده­‌ی ورود به بازار نیست و ما برای استفاده­‌ی از آن در وضعیت کنونی باید چکار کنیم تا هم از قدرت آن استفاده کنیم و هم باعث نشویم با عملکرد بد در مراحل ابتدایی ورود به بازار، از بازار حذف شود. اگر قسمت اول این مقاله را نخوانده‌اید روی این لینک بزنید تا اطلاعات جامع تری راجع به تقلب موبایلی دریابید.

تئوری را از پیاده‌سازی آن جدا بدانید

یادگیری ماشین یک مشکل بنیادین در تئوری خود  و حل تقلب در تبلیغات موبایلی دارد. بیایید آن را با یک مثال توضیح دهیم:

فرض کنید که شما می‌خواهید از آب یک رود بخورید اما آب رود به ‌وسیله‌ی منابع مختلف به شدت آلوده شده است. مشکل اصلی هم اینجاست که علائمی که نشان دهنده‌ی آلودگی آب هستند قابل مشاهده نیستند. پس در قدم اول شما نیاز دارید تا بفهمید آب آلوده است یا نه و بعد از آن دنبال راهی برای از بین بردن منبع آلودگی باشید. این یعنی علاوه بر این که باید دنبال شناسایی منابع آلودگی باشید، باید دنبال راهی برای تصفیه کردن آن­ها هم بگردید.

با دشواری زیاد شما یک ماشین پیشرفته می‌سازید که می‌تواند به خودش یاد بدهد که چطور دنبال نشانه‌های آلودگی باشد و این نشانه‌ها مربوط به کدام نوع آلودگی است.

فرض می‌کنیم ماشین شما در تشخیص اینکه چه نوع آلودگی وجود دارد عالی عمل می‌کند. به خصوص با دیدن موارد جدید بهتر و بهتر می‌شود.

آیا می‌شود نتیجه گرفت که ماشین ما می‌تواند هر نوع آلودگی را تشخیص دهد؟ می‌توان به آن اعتماد کرد که بدون حذف کردن آب سالم جلوی آلودگی را خواهد گرفت؟ آیا به تنهایی میتوانید برای تقلب در تبلیغات موبایلی و منشا آن بدان اتکا کنید؟ قطعا خیر.

مشکل یادگیری ماشین و تقلب در تبلیغات موبایلی در چیست؟

استفاده از یادگیری ماشین تلاشی است برای فیلتر کردن و از بین بردن یک‌جای همه­ ی انواع تقلب‌ موبایلی به جای استفاده از راه مشخص و متمایز برای هر کدام. در واقع یادگیری ماشین باید کاربران تقلبی را از میان کاربران واقعی جدا کند در حالی که موارد زیادی هستند که در میانه‌ی این دسته بندی قرار می‌گیرند.

علاوه بر این متقلبان می‌توانند رفتار کاربران واقعی را در میان تقلب‌های خود جاسازی کنند. که این مورد شامل هر اتریبیوشن (Attribution) با هر SDK می‌شود. در این بین متقلبانی هم خواهند بود که اشتباه می‌کنند و با ساختن کاربرهای تقلبی که به راحتی شناسایی می‌شوند به ارتقاء ماشین کمک خواهند کرد. اما هر بار که دست آنها رو می‌شود تلاش بعدیشان پیچیده‌تر و پیشرفته‌تر خواهد بود. و بدین ترتیب دست از ایجاد نصب تقلبی برنخواهند داشت.

برای مثال از جایی که یادگیری ماشین گیر می‌افتد فرض کنید یکی از متقلبان از اطلاعات واقعی یکی از کاربران موجود برای تقلب استفاده کند. (مثل ورژن OS یا IDFA یا تنظیمات محلی گوشی) در این صورت تشخیص تقلب برای یادگیری ماشین سخت خواهد شد زیرا اساس الگوریتم آن وابسته به اطلاعات تاریخی کاربران است.

علاوه بر این ممکن است فعالیت‌های کاربران واقعی، توسط یادگیری ماشین به عنوان نصب تقلبی دسته بندی شود. زیرا مشخص کردن نقطه داده‌های اصیل و غیر اصیل برای برنامه‌های سیستم عصبی کار بسیار دشواری محسوب می‌شود. در واقع متقلبانی با ساختار بی‌نقص داده وجود دارند که شناسایی آنها به عنوان متقلب حتی بعد از گذشت مدت زیادی از مشاهده رفتار آنها هم کار سختی خواهد بود.

علاوه بر تمام این‌ها یادگیری ماشین زمانی که با تقلب‌هایی با روش‌های جدید روبه‌رو می‌شود عملکرد خوبی ندارد. همان طور که در قسمت بعد در مورد آن صحبت خواهیم کرد این باعث می‌شود این سیستم در واقعیت قابل اعتماد نباشد.

اعتماد، اصلی مهم در اتریبیوشن ادتریس (Attribution)

برای اینکه شبکه‌های عصبی به عنوان مبنای شناسایی تقلب شناخته شوند نیاز است که زمانی تصمیم به رد یا قبول یک اتریبیوشن یا انتساب بگیرند که زمان کمی از آن انتساب گذشته. این به معنای این است که در آن زمان ما اطلاعات بسیار کمی از کاربر داریم.

برای رسیدن به این هدف و تشخیص اصالت کاربر، یادگیری ماشین تلاش خواهد کرد تا از الگوهایی با جزئیات بیشتر استفاده کند که شامل ویژگی‌های مبهمی از کاربر می‌شود.

حالا اگر بخواهید تا از این الگوهای بکار رفته توسط شبکه‌ی عصبی باخبر شوید با الگوهای پیچیده و تو در تو مواجه‌ می‌شوید. الگوهایی که صفات نامرتبط را به هم ارتباط می‌دهد و علاوه بر این که فهمیدن آن کار سختی است، غیر منطقی هم به نظر می‌رسد.

به خاطر همین موضوع مخاطبانی که برای تشخیص تقلبشان به طور گسترده از یادگیری ماشین استفاده می‌کنند ممکن است علت تشخیص تقلب را پنهان کنند یا اصطلاحاً آن را در جعبه‌ی سیاه بگذارند. علت این کار این است که توضیح دادن این فرایند کار آسانی نیست.

البته این مشکل ممکن است برای آینده‌ی صنعت اتریبیوشن مشکل اساسی باشد. نکته ای که در این بین وجود دارد و  به طور کلی اتریبیوشن بر پایه آن است، این است که شما بایستی از یک ترکر، تمام تبلیغات و ورودی های خود را رصد کنید، تا به درستی اتریبیوشن و یا همان انتساب رو صورت پذیرد.

چرا جعبه‌ی سیاه ایده‌ی در تقلب موبایلی خوبی نیست؟

آیا ایده­ ی جعبه‌ی سیاه در تقلب موبایلی واقعا بد است؟ بگذارید یک مثال بزنیم:

تصور کنید یکی از مخاطبان در مورد انتساب‌های رد شده در کمپین اخیر با شبکه‌ی تشخیص تقلب اختلاف نظر دارد. در صورت استفاده از یادگیری ماشین شبکه به دلیل اینکه داده‌ی منطقی برای اثبات تقلب ندارد، باید ادعای مشتری را قبول کند. در حالی که این اتفاق باید برعکس باشد. یعنی این مشتری است که از خدمات شبکه استفاده می‌کند تا از وقوع تقلب مطمئن باشد.

در این مثال شاید در ترافیک‌های محدود مشکل جدی پیش نیاید اما با افزایش حجم ترافیک و اضافه شدن تعداد این اختلاف نظرها، مشکل جدی در اعتماد به این شبکه به وجود خواهد آمد.

زمانی که یک پلتفرم تشخیص تقلب قدرت اثبات تقلب را از دست می‌دهد به معنی این است که صرفا در مورد وقوع تقلب نظر می‌دهد. نظرات قابل نقد و بررسی هستند و ممکن است از طرف مشتری مورد قبول نباشند. وقتی یک پلتفرم شخص ثالث به این مرحله برسد یعنی کم کم اعتماد مشتری را از دست می‌دهد. بعد آن هر فیلتری که استفاده کند این اعتماد برگردانده نخواهد شد و صرفاً قضاوت پلتفرم شخص ثالث به یک نظر تنزل پیدا می‌کند.

بنابراین اگر چه یادگیری ماشین وسیله‌ی فوق‌العاده‌ای برای تشخیص تقلب است اما هنوز نباید به عنوان منبعی برای رد کردن انتساب از آن استفاده کرد. در وضعیت کنونی اول اینکه موارد بینابینی نادیده گرفته می‌شوند.

دلیل دوم

دوم اینکه منطق پشت تصمیم گیری یادگیری ماشین شفاف نیست و ممکن است به عنوان یک نظر، مورد قبول نباشد. هنوز راه سختی برای ساختن فیلتری داریم که قابل اعتماد باشد و موارد اصیل را حذف نکند.

به مثال اولی که زدیم برگردیم. با استفاده از یادگیری ماشین شما می‌توانید از وجود آلودگی در آب مطمئن باشید اما به این معنی نیست که با استفاده از آن می‌توان آب را تصفیه کرد.

چه کار باید کرد؟ با سرمایه گذاری بیشتر روی این علم و توسعه‌ی آن شما می‌توانید بفهمید منبع این آلودگی چیست و از همانجا جلوی آن را بگیرید.

آیا هر اختلافی در اتریبیوشن و تعداد نصب اپلیکیشن، تقلب موبایلی محسوب می شود؟

جواب قطعا منفی است. بسیاری از دفعات، این اختلاف در خواندن تعداد نصب ها ریشه در تقلب در تبلیغات موبایلی دارد. اما در پاره ای از اوقات نیز این اختلاف  به دلیل تعاریف مختلف پلتفرم های تبلیغاتی مشابه گوگل ادز و کافه بازار از تعریف نصب اپلیکیشن است.

 در ادتریس ما از یادگیری ماشین به عنوان عاملی کمکی بهره می‌گیریم و با توسعه خود پلتفرم تشخیص تقلب ادتریس امکان ارسال جزئیات تقلب و نوع آن را هم در Call-Back برای مشتری و شبکه تبلیغاتی فراهم آورده‌ایم.