یکی از مواردی که همواره بهینه سازی اپلیکیشن و اپ مارکتینگ شما را تحت تاثیر قرار می گذارد، دست بردن در تعداد نصب و ایجاد تقلب موبایلی در نصب اپلیکیشن هاست. در مقاله های قبلی پیرامون مفهوم تقلب موبایلی صحبت کرده ایم و در این مقاله توضیحات دو مقاله قبلی ادتریس را پیرامون تقلب در تبلیغات موبایلی تکمیل می کنیم.
یادگیری ماشین در جلوگیری از تقلب در تبلیغات موبایلی
در این که یادگیری ماشین تأثیر بسیار بزرگی روی شناسایی تقلبهای موبایلی خواهد گذاشت شکی نیست، در واقع در حال حاضر هم شاهد قدمهای بزرگی برای استفادهی از آن هستیم. اما راه طولانی برای حذف کردن خطا از آن داریم و نقاط ضعف بسیاری هست که میتوانند این تکنولوژی را به بنبست برسانند.
ما هنوز در قدمهای ابتدایی استفاده از این تکنولوژی هستیم و باید در نظر بگیریم که اگر استفادهی از این تکنولوژی در شناسایی تقلب موبایلی شکست بخورد شاهد اتفاقات بدی در حوزهی انتساب و جلوگیری از تقلبهای موبایلی خواهیم بود.
در بخش سوم نظریهی تقلبهای موبایلی ما به این موضوع میپردازیم که چرا یادگیری ماشین هنوز آمادهی ورود به بازار نیست و ما برای استفادهی از آن در وضعیت کنونی باید چکار کنیم تا هم از قدرت آن استفاده کنیم و هم باعث نشویم با عملکرد بد در مراحل ابتدایی ورود به بازار، از بازار حذف شود. اگر قسمت اول این مقاله را نخواندهاید روی این لینک بزنید تا اطلاعات جامع تری راجع به تقلب موبایلی دریابید.
تئوری را از پیادهسازی آن جدا بدانید
یادگیری ماشین یک مشکل بنیادین در تئوری خود و حل تقلب در تبلیغات موبایلی دارد. بیایید آن را با یک مثال توضیح دهیم:
فرض کنید که شما میخواهید از آب یک رود بخورید اما آب رود به وسیلهی منابع مختلف به شدت آلوده شده است. مشکل اصلی هم اینجاست که علائمی که نشان دهندهی آلودگی آب هستند قابل مشاهده نیستند. پس در قدم اول شما نیاز دارید تا بفهمید آب آلوده است یا نه و بعد از آن دنبال راهی برای از بین بردن منبع آلودگی باشید. این یعنی علاوه بر این که باید دنبال شناسایی منابع آلودگی باشید، باید دنبال راهی برای تصفیه کردن آنها هم بگردید.
با دشواری زیاد شما یک ماشین پیشرفته میسازید که میتواند به خودش یاد بدهد که چطور دنبال نشانههای آلودگی باشد و این نشانهها مربوط به کدام نوع آلودگی است.
فرض میکنیم ماشین شما در تشخیص اینکه چه نوع آلودگی وجود دارد عالی عمل میکند. به خصوص با دیدن موارد جدید بهتر و بهتر میشود.
آیا میشود نتیجه گرفت که ماشین ما میتواند هر نوع آلودگی را تشخیص دهد؟ میتوان به آن اعتماد کرد که بدون حذف کردن آب سالم جلوی آلودگی را خواهد گرفت؟ آیا به تنهایی میتوانید برای تقلب در تبلیغات موبایلی و منشا آن بدان اتکا کنید؟ قطعا خیر.
مشکل یادگیری ماشین و تقلب در تبلیغات موبایلی در چیست؟
استفاده از یادگیری ماشین تلاشی است برای فیلتر کردن و از بین بردن یکجای همه ی انواع تقلب موبایلی به جای استفاده از راه مشخص و متمایز برای هر کدام. در واقع یادگیری ماشین باید کاربران تقلبی را از میان کاربران واقعی جدا کند در حالی که موارد زیادی هستند که در میانهی این دسته بندی قرار میگیرند.
علاوه بر این متقلبان میتوانند رفتار کاربران واقعی را در میان تقلبهای خود جاسازی کنند. که این مورد شامل هر اتریبیوشن (Attribution) با هر SDK میشود. در این بین متقلبانی هم خواهند بود که اشتباه میکنند و با ساختن کاربرهای تقلبی که به راحتی شناسایی میشوند به ارتقاء ماشین کمک خواهند کرد. اما هر بار که دست آنها رو میشود تلاش بعدیشان پیچیدهتر و پیشرفتهتر خواهد بود. و بدین ترتیب دست از ایجاد نصب تقلبی برنخواهند داشت.
برای مثال از جایی که یادگیری ماشین گیر میافتد فرض کنید یکی از متقلبان از اطلاعات واقعی یکی از کاربران موجود برای تقلب استفاده کند. (مثل ورژن OS یا IDFA یا تنظیمات محلی گوشی) در این صورت تشخیص تقلب برای یادگیری ماشین سخت خواهد شد زیرا اساس الگوریتم آن وابسته به اطلاعات تاریخی کاربران است.
علاوه بر این ممکن است فعالیتهای کاربران واقعی، توسط یادگیری ماشین به عنوان نصب تقلبی دسته بندی شود. زیرا مشخص کردن نقطه دادههای اصیل و غیر اصیل برای برنامههای سیستم عصبی کار بسیار دشواری محسوب میشود. در واقع متقلبانی با ساختار بینقص داده وجود دارند که شناسایی آنها به عنوان متقلب حتی بعد از گذشت مدت زیادی از مشاهده رفتار آنها هم کار سختی خواهد بود.
علاوه بر تمام اینها یادگیری ماشین زمانی که با تقلبهایی با روشهای جدید روبهرو میشود عملکرد خوبی ندارد. همان طور که در قسمت بعد در مورد آن صحبت خواهیم کرد این باعث میشود این سیستم در واقعیت قابل اعتماد نباشد.
اعتماد، اصلی مهم در اتریبیوشن ادتریس (Attribution)
برای اینکه شبکههای عصبی به عنوان مبنای شناسایی تقلب شناخته شوند نیاز است که زمانی تصمیم به رد یا قبول یک اتریبیوشن یا انتساب بگیرند که زمان کمی از آن انتساب گذشته. این به معنای این است که در آن زمان ما اطلاعات بسیار کمی از کاربر داریم.
برای رسیدن به این هدف و تشخیص اصالت کاربر، یادگیری ماشین تلاش خواهد کرد تا از الگوهایی با جزئیات بیشتر استفاده کند که شامل ویژگیهای مبهمی از کاربر میشود.
حالا اگر بخواهید تا از این الگوهای بکار رفته توسط شبکهی عصبی باخبر شوید با الگوهای پیچیده و تو در تو مواجه میشوید. الگوهایی که صفات نامرتبط را به هم ارتباط میدهد و علاوه بر این که فهمیدن آن کار سختی است، غیر منطقی هم به نظر میرسد.
به خاطر همین موضوع مخاطبانی که برای تشخیص تقلبشان به طور گسترده از یادگیری ماشین استفاده میکنند ممکن است علت تشخیص تقلب را پنهان کنند یا اصطلاحاً آن را در جعبهی سیاه بگذارند. علت این کار این است که توضیح دادن این فرایند کار آسانی نیست.
البته این مشکل ممکن است برای آیندهی صنعت اتریبیوشن مشکل اساسی باشد. نکته ای که در این بین وجود دارد و به طور کلی اتریبیوشن بر پایه آن است، این است که شما بایستی از یک ترکر، تمام تبلیغات و ورودی های خود را رصد کنید، تا به درستی اتریبیوشن و یا همان انتساب رو صورت پذیرد.
چرا جعبهی سیاه ایدهی در تقلب موبایلی خوبی نیست؟
آیا ایده ی جعبهی سیاه در تقلب موبایلی واقعا بد است؟ بگذارید یک مثال بزنیم:
تصور کنید یکی از مخاطبان در مورد انتسابهای رد شده در کمپین اخیر با شبکهی تشخیص تقلب اختلاف نظر دارد. در صورت استفاده از یادگیری ماشین شبکه به دلیل اینکه دادهی منطقی برای اثبات تقلب ندارد، باید ادعای مشتری را قبول کند. در حالی که این اتفاق باید برعکس باشد. یعنی این مشتری است که از خدمات شبکه استفاده میکند تا از وقوع تقلب مطمئن باشد.
در این مثال شاید در ترافیکهای محدود مشکل جدی پیش نیاید اما با افزایش حجم ترافیک و اضافه شدن تعداد این اختلاف نظرها، مشکل جدی در اعتماد به این شبکه به وجود خواهد آمد.
زمانی که یک پلتفرم تشخیص تقلب قدرت اثبات تقلب را از دست میدهد به معنی این است که صرفا در مورد وقوع تقلب نظر میدهد. نظرات قابل نقد و بررسی هستند و ممکن است از طرف مشتری مورد قبول نباشند. وقتی یک پلتفرم شخص ثالث به این مرحله برسد یعنی کم کم اعتماد مشتری را از دست میدهد. بعد آن هر فیلتری که استفاده کند این اعتماد برگردانده نخواهد شد و صرفاً قضاوت پلتفرم شخص ثالث به یک نظر تنزل پیدا میکند.
بنابراین اگر چه یادگیری ماشین وسیلهی فوقالعادهای برای تشخیص تقلب است اما هنوز نباید به عنوان منبعی برای رد کردن انتساب از آن استفاده کرد. در وضعیت کنونی اول اینکه موارد بینابینی نادیده گرفته میشوند.
دلیل دوم
دوم اینکه منطق پشت تصمیم گیری یادگیری ماشین شفاف نیست و ممکن است به عنوان یک نظر، مورد قبول نباشد. هنوز راه سختی برای ساختن فیلتری داریم که قابل اعتماد باشد و موارد اصیل را حذف نکند.
به مثال اولی که زدیم برگردیم. با استفاده از یادگیری ماشین شما میتوانید از وجود آلودگی در آب مطمئن باشید اما به این معنی نیست که با استفاده از آن میتوان آب را تصفیه کرد.
چه کار باید کرد؟ با سرمایه گذاری بیشتر روی این علم و توسعهی آن شما میتوانید بفهمید منبع این آلودگی چیست و از همانجا جلوی آن را بگیرید.
آیا هر اختلافی در اتریبیوشن و تعداد نصب اپلیکیشن، تقلب موبایلی محسوب می شود؟
جواب قطعا منفی است. بسیاری از دفعات، این اختلاف در خواندن تعداد نصب ها ریشه در تقلب در تبلیغات موبایلی دارد. اما در پاره ای از اوقات نیز این اختلاف به دلیل تعاریف مختلف پلتفرم های تبلیغاتی مشابه گوگل ادز و کافه بازار از تعریف نصب اپلیکیشن است.
در ادتریس ما از یادگیری ماشین به عنوان عاملی کمکی بهره میگیریم و با توسعه خود پلتفرم تشخیص تقلب ادتریس امکان ارسال جزئیات تقلب و نوع آن را هم در Call-Back برای مشتری و شبکه تبلیغاتی فراهم آوردهایم.