دیتاماینینگ چیست و چه کاربردی دارد

در این بلاگ هیچ چیز آکادمیک و تمام کپی از کتاب ها نیست.این مقاله صرفا حاصل تجربه و تحقیقات من برای افراد غیر متخصص و کنجکاو می باشد.اگر به مقالات آکادمیک پر از چیز های تخصصی علاقه دارید مقالاتی برای ترکاندن مغز شما در اینترنت موجود هستند 😀

آه مبحث مورد علاقه ی من ! از قبل از اینکه با کامپیوتر هم تخصصی کار کنم روحیه دیتاماینر گونه داشتم.امروز میخوام شمارو با دیتاماینیگ آشنا کنم.اگر شما یک دانشجو یا فرد متخصص هستید که علاقه زیادی به به چالش کشیدن دیگران با دانسته های فوق تخصصی خودتان دارید لطفا همین الان این سایت را ترک کنید در غیر این صورت بسیار خوشحالم که مقاله ام را میخونید 🙂

این مقاله روی توضیح عملکرد و کار تخصصی دیتاماینینگ تمرکز نداره و تمرکزش روی اینه که چه چیز هایی میشه با این روش بدست آورد و یک تصور از کار یک دیتاماینر رو منتقل کنه

دیتاماینینگ یا استخراج داده چیست؟

فرض کنید یک لیست از همه جاهایی که یک نفر در طول یک ماه رفته دارید.این اطلاعات شاید بی ارزش به نظر بیان ولی خیلی با ارزشن.چرا؟شما میتونید از این لیست علایق یک شخص رو در بیارید.همونطور که پیش خودتون فکر کردید با دیدن جاهایی که یک فرد زیاد به اون ها رفته.مثلا اگر زیاد به تئاتر رفته شما می فهمید این فرد یک علاقه مند به هنر و تئاتر هست.دیتاماینیگ همینه.

دیتاماینینگ یعنی استخراج داده های مفید و کاربردی از داده های خام و معمولا بزرگ

اما صبر کنید به همین سادگی ها هم نیست.به مثالمون بر می گردیم.عموما دیتاماینینگ با کامپیوتر و با استفاده از هوش مصنوعی صورت میگیره.ما اگر لیست مورد ذکرمون رو بدیم به کامپیوتر فکر می کنید نتایج اول چیا بدست میاد؟همونطور که گفتم دیتای اولیه ی ما خام هست.یعنی شامل خونه محل کار/مدرسه/دانشگاه هم میشه.و با این حساب نتایج اول بر اساس تعداد بار های حضور در یک مکان به این ها صورت میگیره.و شاید در نگاه اول مشکلی نباشه چون به راحتی اونو نادیده میگیرم.اما مشکل زمانی پیدا میشه که فرایند تمام اتوماتیک هست و هزاران لیست در حال پردازش و ارتباط به هم هست و کسی نیست که اونو نادیده بگیره.

پس یکی از مراحل و پیچیدگی های دیتاماینینگ حذف حالات نامطلوبه

اما من به شخصه علاقه ای به حذف چیزی ندارم مگر اینکه واقعا به درد نخور باشه.پس بیاید یکم مثالمون رو گسترش بدیم و علاوه بر مکان ها،زمان حضور در اون ها رو هم بهش اضافه کنیم.

اینطوری خیلی بهتر شد.حالا ما میتونیم دیتا های خیلی با ارزش تری بدست بیاریم.بر گردیم به مثالمون.حالا ما میتونیم بر اساس زمان و مدت حضور شخص در یک مکان با یاد دادن به هوش مصنوعیمون تشخیص بدیم کدام مکان خونه یا مدرسه یا دانشگاه یا محل کار شخصه.حالا که اینو میدونیم میشه یکم اطلاعات جالب تری به دست آورد.ما میتونیم ببینیم شخص معمولا بعد از کار اگر به جایی جز خونه میره اونجا کجاست.مثلا به کافه کنار شرکت میره.پس ما میدونیم شخص بعد از کار معمولا برای رفع خستگی سری به کافه میزنه.یا میتونیم ببینیم عصر جمعه ها کجا ها میره.کافه؟سینما؟یا بهتر هم میشه.چه زمان هایی به کافه میره.چه ساعاتی به پارک.و در واقع یک برنامه زندگی ازش داریم.

ارتباط دیتا ها با هم

یکی از مباحث جالب و کاربرد های دیتاماینینگ پیدا کردن روابط بین افراد هست.شاید براتون جالب باشه فیسبوک از طریق جی پی اس گوشیتون تشخیص میده اگر کسی در موقعیت خیلی نزدیک به شما باشه(مثلا در یک مهمانی) در یک زمان،و اکانت فیسبوک داشته باشه به زودی اون فرد رو به شما پیشنهاد میکنه برای دوست شدن در فیسبوک!باور ندارید؟امتحان کنید!اگر درست انجام دهید در اکثر مواقع جواب میده.

و اما مبحث ما.مسلما ما فقط لیست یک نفر رو بررسی نمیکنیم.حالا فرض کنید میخوایم ببینیم آیا این شخص با شخص دیگه ای در دیتاییس ما ارتباط داره؟فقط با مکان و زمان حضورش.خب اگر هم خونه ای اون شخص در دیتابیس ما باشه به سرعت تشخیص داده میشه چون این فرد در زمان زیاد در یک زمان مشترک در یک مکان اون شخص بوده.و با یاد دادن به هوش مصنوعیمون میشه مثلا بر اساس اینکه دو نفر چه زمان هایی رو در کنار هم بودن تشخیص داد هم خونه ای هستن یا نه؟چطور؟فرض کنید شخص مورد نظر ما اول صبح میره و نصف شب به خونه بر میگرده.در این صورت نمیشه با تعداد ساعات هم خونه ای بودن رو تشخیص داد اما اگر هوش مصنوعی ما قادر به درک این باشه که این دو نفر هر شب در یک مکان میخوابن و در واقع ساعت نصف شب رو کنار هم هستن میتونه بفهمه این دو نفر هم خونه ای هستن.مثال های اینجوری خیلی زیاده و من بیشتر از این ادامه نمیدم.

این همه گفتیم حالا کاربرد دیتاماینینگ چیه؟

عموما تبلیغات.احمقانه به نظر میاد نه؟این دقیقا پیچیدگی مبحث تبلیغات رو میرسونه.مثلا با توجه به مثالمون ما میدونیم که شخص مورد نظرمون بین ساعت ۴ تا ۹ بعد از ظهر کافه های شهر رو میگرده جدا از کافه ای که معمولا میره.ما میتونیم بر اساس این داده ها با یک نوتیفیکیشن روی گوشی کاربر بهش یک کافه که تا حالا نرفته رو پیشنهاد کنیم.

جدا از تبلیغات خیلی از شرکت ها برای بهبود کارشون دیتاماینینگ میکنن.مثلا بازخورد های کاربرانشون یا با مطالعه رو اینکه کاربر ها روی کدوم اپ ها بیشتر خرج میکنن.یا با کدوم شیوه پرداخت راحت ترن.

کاربرد های دیگه ای هم هست که اکثرا به شرکت ها مربوط میشه.

اما اینا تنها کاربرد اون نیست.کاربرد دیگه ای هم هست.کاربردی که مورد استفاده من هست.حکومت ها نیاز به دونستن رفتار شهروندانشون دارن.البته فقط حکومت ها نیستن و افراد دیوانه ی کنجکاوی مثل منم هستن.برای درک حساسیت این موضوع یک مثال جدید طرح میکنم که تقریبا ریشه در واقعیت یکی از پروژه هام داره.

فرض کنید یک فرد ۱۶ ساله یک اکانت توییتر و اینستاگرام داره.در این حالت بستگی داره شما به همه اطلاعات دسترسی داشته باشید یعنی اطلاعاتی که فقط خود شرکت میدونه یا اطلاعاتی عمومی و شبه عمومی.ما فرض میکنیم که طرف دوم هستیم.ما میدونیم اون فرد در شیراز زندگی میکنه و استعداد خوبی داره.چطور؟هوش مصنوعی ما در هنگام گشت و گذار در اینترنت به یک صفحه بر میخوره که اسامی رتبه های برتر همون سال های المپیاد های شیراز رو داره.اسم سوژه ما در این صفحات دیده شده.از طرفی تا حالا سه بار رتبه برتر در آزمون مثلا قلمچی شده و قلمچی بدون در نظر گرفتن پرایویسی اون فرد اسم اونو در سایتش گذاشته.از طرفی با بررسی بورسیه ها و ادامه تحصیلی های خروجی از دانشگاه شیراز میفهمیم مثلا کانادا رتبه اوله.و بر اساس افرادی که سوژه ما فالو میکنه میفهمیم به کامپیوتر علاقه منده.و با مطالعه کانکشن هاش در شبکه های اجتماعی دوستاش هم پیدا میکنیم و رصد میکنیم.وقتی فرد به ۱۸ سالگی میرسه تغییر رفتار هایی در اکانت توییترش ایجاد میشه و اخیرا توییت هایی با مفهوم آزادی هم جنس گرایان رو نه فالو و فقط لایک میکنه.اما چون لایک های اشخاص در توییتر رو میشه دید ما هم متوجه میشیم.اون وارد دانشگاه شیراز میشه و دوستان جدیدی پیدا میکنه تا دو سال بعد که ۵ نفر از دوستانش به کانادا میرن برای ادامه تحصیل.تا همینجا کافیه.هوش مصنوعی همیشه دقیق نیست ولی با درصد خوبی حدس میزنه.من با همین اطلاعات میتونم به شما بگم فرد با تموم کردم لیسانسش در رشته کامپیوتر به کانادا میره و به فلان شهر و فلان محله که نزدیک دوستانش و دانشگاهش هست میره.این همش نیست.با توجه به رشد فعالیتش درباره آزادی همجنسگرایان احتمالا در کانادا میمونه و هر سال در راهپیمایی اونا شرکت میکنه.و البته با استفاده از دیتا های حضور و جمع شدن دوستانش در کانادا در یک کافه در ۵ سال قبل تا الان میدونم هر هفته به اونجا میره.و البته با آنالیز بعضی از دوستانش میدونم اونا در ایران میمونن و با توجه به علاقه سوژه به دوستاش میدونم به ایران میاد.

و من همه اینا رو از چند سال قبل با درصد بالا حدس میزنم و شاید براتون جالب باشه همچین سوژه ای وجود داره…

شاید برای شما اطلاعات مهمی نباشه اما به سه نکته دقت کنید.اول اینکه اینا همش نیست.دوم اینکه من این اطلاعاتو فقط با بررسی اکانت هاش در فضای مجازی به دست آوردم و سوم اینکه اینا برای خیلی ها کافیه.برای یک گروه افراطی برای ترورش کافیه.برای یک حکومت برای بازداشتش یا نگه داشتنش کافیه.برای یک دیوانه ای مثل من هم برای صرفا فهمیدنش کافیه.

همونطور که گفتم میخواستم یک تصور از دیتاماینینگ به شما بدم.البته اینو در نظر داشته باشید مثال ها خیلی محدود بود و دیتاماینینگ گسترده تره.امیدوارم لذت برده باشید.

خدانگهدار !

1 دیدگاه در “دیتاماینینگ چیست و چه کاربردی دارد

  1. سلام. به نظر من مطلب چون با مثال انتزاعی همراه شده بود خیلی عالی به دل مخاطب می شینه و قابل درک میشه. باتشکر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *