بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی

انجام پایان نامه کامپیوتر

دانشگاه آزاد اسلامی

واحد علوم و تحقیقات سمنان

 

پایان نامه کارشناسی ارشد رشته: مهندسی کامپیوتر گرایش:

نرم‌افزار

 

عنوان پایان­ نامه

بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب

 

شکر و سپاس خدای راست که بزرگترین امید و یاور در همه لحظات زندگیست.

 

سپاسگزار کسانی هستم که سرآغاز تولد من هستند. از یکی زاده می شوم و از دیگری جاودانه. پدر و مادری که تار مویی از آنها به پای من سیاه نماند و معلمان و اساتیدی که از کودکی تا به حال، سپیدی را بر تخته سیاه زندگیم نگاشتند.

 

سپاس ویژه از اساتید محترم:

استاد راهنما: جناب آقای دکتر محمد کریم سهرابی

استاد مشاور: جناب آقای دکتر فرزین یغمایی

استاد داور: جناب آقای محمد جواد فدایی اسلام

 

امیدوارم به لطف خداوند بتوانم از عهده سپاس این الطاف، به شایستگی برآیم.

 

 

 

تعهدنامه اصالت پایان نامه

اینجانب مرضیه ذوالفقاری دانش آموخته مقطع کارشناسی ارشد ناپیوسته رشته مهندسی کامپیوتر که در تاریخ  / /۹۳ از پایان نامه خود تحت عنوان:

بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب

با کسب نمره    و درجه     دفاع نموده ام بدینوسیله متعهد می شوم:

  • این پایان نامه حاصل تحقیق و پژوهش انجام شده توسط اینجانب بوده و در مواردی که از دستاوردهای علمی و پژوهشی دیگران (اعم از پایان نامه، کتاب، مقاله و…) استفاده نموده ام و مطابق ضوابط و رویه موجود، نام منبع مورد استفاده و سایر مشخصات آن را در فهرست مربوطه ذکر و درج کرده ام.
  • این پایان نامه قبلاً برای دریافت هیچ مدرک تحصیلی (هم سطح، پایین تر یا بالاتر) در سایر دانشگاه­ها و موسسات آموزش عالی ارائه نشده است.
  • چنانچه بعد از فراغت از تحصیل، قصد استفاده و هرگونه بهره برداری اعم از چاپ کتاب، ثبت اختراع و… از این پایان نامه داشته باشم، از حوزه معاونت پژوهشی، مجوزهای مربوطه را اخذ نمایم.
  • چنانچه در هر مقطع زمانی بر خلاف موارد فوق ثابت شود، عواقب ناشی از آن را می پذیرم و واحد دانشگاهی مجاز است با اینجانب مطابق ضوابط و مقررات رفتار نموده و در صورت ابطال مدرک تحصیلی ام هیچگونه ادعایی نخواهم داشت.

 

 

 

فهرست مطالب

عنوان                                                                صفحه

چکیده…………………………………………………………………………………………………………………. ۱

فصل اول………………………………………………………………………………………… ۲

۱-۱-مقدمه………………………………………………………………………………………………………… ۳

۱-۲-تعریف مسئله……………………………………………………………………………………………. ۴

۱-۳-اهمیت و ضرورت تحقیق…………………………………………………………………………… ۵

۱-۴-شیوه پژوهش……………………………………………………………………………………………… ۸

۱-۵-چارچوب پایان‏نامه………………………………………………………………………………… ۸

مراجع……………………………………………………………………………………………………………….. ۱۰

فصل دوم:…………………………………………………………………………………….. ۱۱

۲-۱-مقدمه………………………………………………………………………………………………………. ۱۲

۲-۲-مروی بر کارهای انجام شده……………………………………………………………… ۱۲

مراجع……………………………………………………………………………………………………………….. ۲۱

فصل سوم:…………………………………………………………………………………….. ۲۴

۳-۱-مقدمه………………………………………………………………………………………………………. ۲۵

۳-۲-مراحل وب کاوي……………………………………………………………………………………… ۲۶

۳-۲-۱-انواع وب‌کاوی………………………………………………………………………………. ۲۷

۳-۳-شخصی‌سازی وب…………………………………………………………………………………………. ۲۸

۳-۳-۱-دلایل نیاز به شخصی‌سازی وب……………………………………………………. ۲۸

۳-۳-۲-مراحل شخصی سازی وب…………………………………………………………………. ۲۹

۳-۳-۲-۱-جمع‌آوری داده……………………………………………………………………… ۳۰

۳-۳-۲-۲-پردازش داده………………………………………………………………………… ۳۱

۳-۳-۲-۳-کشف الگو………………………………………………………………………………. ۳۱

۳-۳-۲-۴-تحلیل دانش………………………………………………………………………….. ۳۱

۳-۳-۳-تکنیک های مدل­سازی کاربر در شخصی‌سازی وب…………………….. ۳۱

۳-۳-۳-۱-تکنیک tf-idf……………………………………………………………………………. 32

۳-۳-۳-۲-تکنیک متا مدل و ابزار OLAP………………………………………. 32

۳-۳-۳-۳-تکنیک براساس محتوای وب……………………………………………….. ۳۳

۳-۳-۳-۴-تکنیک براساس فراهم کردن داده‌های موثر (ODP)…… 34

۳-۳-۳-۵-شخصی­سازی وب با استفاده از روش­های ترکیبی………….. ۳۴

۳-۳-۳-۶-شخصی­سازی وب براساس الگوریتم استقرایی و تکنولوژی tf-idf      ۳۵

۳-۳-۳-۷-شخصی­سازی وب با استفاده از کندوکاو الگوی ترتیبی و درخت الگو ۳۵

۳-۴-خوشه‌بندی برای شخصی‌سازی وب…………………………………………………………… ۳۵

۳-۴-۱-خوشه­بندی فازی……………………………………………………………………………. ۳۶

۳-۴-۱-۱-الگوریتم پایه‌ای خوشه‌بندی فازی………………………………… ۳۶

۳-۴-۱-۲-الگوریتم فازی کا-مینز………………………………………………….. ۳۶

۳-۴-۱-۳-خوشه­بندی صفحات وب با استفاده از خوشه­بندی فازی k-means      ۳۷

۳-۴-۲-الگوریتم ژنتیک………………………………………………………………………….. ۳۹

۳-۴-۲-۱-بهینه‌سازی خوشه‌بندی فازی با استفاده از الگوریتم ژنتیک    ۴۰

۳-۴-۳-روش پیشنهادی در این تحقیق…………………………………………………. ۴۲

۳-۴-۴-شمای کلی سیستم پیشنهادی……………………………………………………… ۴۲

۳-۴-۵-مثالی از سیستم پیشنهادی……………………………………………………… ۴۳

۳-۴-۶-شبه کد روش پیشنهادی………………………………………………………………. ۵۰

۳-۵-جمع­بندی………………………………………………………………………………………………….. ۵۱

مراجع……………………………………………………………………………………………………………….. ۵۳

فصل چهارم:………………………………………………………………………………… ۵۵

۴-۱-مقدمه………………………………………………………………………………………………………. ۵۶

۴-۲-مجموعه داده­ها…………………………………………………………………………………….. ۵۶

۴-۲-۱-دیتاست YANDEX…………………………………………………………………………… 57

۴-۲-۱-۱-پیش پردازش انجام شده با مجموعه داده­های خام قبل از انتشار      ۵۷

۴-۳-پارامترهای ارزیابی………………………………………………………………………….. ۶۰

۴-۴-آزمایشات انجام شده………………………………………………………………………….. ۶۱

۴-۴-۱-سخت افزار مورد استفاده………………………………………………………… ۶۲

۴-۴-۲-نتایج آزمایشات………………………………………………………………………….. ۶۲

۴-۵-جمع­بندی………………………………………………………………………………………………….. ۶۴

مراجع:…………………………………………………………………………………………………………….. ۶۵

فصل پنجم:…………………………………………………………………………………… ۶۶

۵-۱-مقدمه………………………………………………………………………………………………………. ۶۷

۵-۲-نتایج و دستاوردهای پروژه……………………………………………………………… ۶۸

۵-۳-پیشنهادات……………………………………………………………………………………………… ۶۸

مراجع……………………………………………………………………………………………………………….. ۷۰

 

 

 

 

 

 

فهرست اشکال

 

شکل ۳- ۱: فرآیند شخصی‌سازی وب.. ۲۹

شکل ۳-۲: مجموعه داده پروانه‌ای… ۳۸

شکل ۳-۳:خوشه بندی فازی داده… ۳۹

شکل ۳-۴:  مراحل اصلی الگوریتم ژنتیک… ۴۰

شکل ۳-۵: شمای کلی سیستم پیشنهادی.. ۴۲

شکل ۳-۶: خوشه­بندی داده­های آموزشی.. ۴۷

شکل ۳-۷: خوشه­بندی داده­های تست.. ۴۹

شکل ۴-۸: مقایسه روش‌های پیشنهادی با روش ارائه شده در (Varghese, & John, 2012).   ۶۴

 

 

 

 

 

 

 

 

 

فهرست جداول

 

جدول۴-۱: نتایج آزمایشات انجام شده بر روی ۱۰۰ جلسه‌ی تصادفی.. ۶۲

جدول۴-۲: مقایسه نتایج سیستم پیشنهادی با سایر روش‌ها.. ۶۲

جدول ۴-۳: مقایسه نتایج سیستم پیشنهادی با روش ارائه شده در (Varghese, & John, 2012)… 63

 

 

 

 

 

چکیده

گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار می­رود. برای مقابله با این مشکل، سیستم‌های شخصی­سازی وب ارائه شده­اند که محتوا و سرویس­های یک وب­سایت را با افراد براساس علایق و رفتار گردشی آن­ها سازگار می­کنند. یک مؤلفه­ی اساسی در هر سیستم شخصی­سازی وب، مدل کاربر آن است. هدف از شخصی سازی وب، مهیا ساختن محتوا و سرویس­های مورد نیاز کاربران به وسیله دانش به دست آمده از تعاملات قبلی کاربران در صفحات وب است. در حال حاضر، برای شخصی­سازی وب چندین متد خوشه­بندی در دسترس است. روش­هایی که تاکنون ارائه شده­اند، در مواردی دارای اشکالاتی بودند. البته تکنیک­های جدیدی در رفع این مشکلات و بهبود آنها ارائه شده است. اما در بیشتر این تکنیک­ها، مسائل افزونگی داده و مقیاس­بندی بالا وجود دارد. با توجه به اینکه افزایش کاربران وب منجر به افزایش اندازه‌ی خوشه می‌گرد، نیاز به بهینه‌سازی خوشه‌ها اجتناب‌ناپذیر خواهد بود. در تحقیق، یک متدولوژی بهینه­سازی خوشه بر اساس سیستم فازی ارائه شده است. به منظور افزایش دقت نهایی خوشه­بندی، برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده شده است. نتایج حاصل از شبیه‌سازی نشان می‌دهد که روش پیشنهادی دقت خوشه­بندی صفحات وب را تا حد قابل توجهی افزایش می­دهد.

کلید واژه­ها: شخصی­سازی صفحات وب- خوشه­بندی- کاربرد وب­کاوی- الگوریتم فازی سی مینز- پایگاه داده یاندکس.

 

 

                                    فصل اول

کلیات تحقیق:

 

 

 

 

۱-۱- مقدمه

با توسعه سيستم‌هاي اطلاعاتي، داده به يکي از منابع پراهميت سازمان‌ها مبدل گشته است. بنابراين روش‌ها و تکنيک‌هايي براي دستيابي کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از اين اطلاعات، مورد نياز مي‌باشد. با ايجاد و گسترش وب و افزايش چشمگير حجم اطلاعات، نياز به اين روش‌ها و تکنيک‌ها بيش از پيش احساس مي‌شود. وب، محيطي وسيع، متنوع و پويا است که کاربران متعدد اسناد خود را در آن منتشر مي‌کنند. در حال حاضر بيش از دو بيليون صفحه در وب موجود است و اين تعداد با نرخ ۷٫۳ ميليون صفحه در روز افزايش مي‌يابد. با توجه به حجم وسيع اطلاعات در وب، مديريت آن با ابزارهاي سنتي تقريباً غير ممکن است و ابزارها و روش­هايي نو براي مديريت آن مورد نياز است. به طور کلي کاربران وب در استفاده از آن با مشکلات زير روبرو هستند:

  1. يافتن اطلاعات مرتبط: يافتن اطلاعات مورد نياز در وب دشوار مي‌باشد. روش‌هاي سنتي بازيابي اطلاعات که براي جستجوي اطلاعات در پايگاه داده‌ها به کار مي‌روند، قابل استفاده در وب نمي‌باشند و کاربران معمولاً از موتورهاي جستجو که مهم­ترين و رايج ترين ابزار براي يافتن اطلاعات در وب مي باشند، استفاده مي‌کنند. اين موتورها، يک پرس و جوي مبتني بر کلمات کليدي از کاربر دريافت کرده و در پاسخ ليستي از اسناد مرتبط با پرس و جوي وي را که بر اساس ميزان ارتباط با اين پرس و جو مرتب شده اند، به وي ارائه مي­کنند. اما موتورهاي جستجو داراي دو مشکل اصلي هستند (Baeza-Yates, 2004). اولاً دقت موتورهاي جستجو پايين است، چراکه اين موتورها در پاسخ به يک پرس و جوي کاربر صدها يا هزاران سند را بازيابي مي‌کنند، در حالي که بسياري از اسناد بازيابي شده توسط آنها با نياز اطلاعاتي کاربر مرتبط نمي‌باشند (Bharat, and et. al., 2001). ثانیاً ميزان فراخوان اين موتورها کم مي‌باشد، به آن معني که قادر به بازيابي کليه اسناد مرتبط با نياز اطلاعاتي کاربر نيستند. چرا که حجم اسناد در وب بسيار زياد است و موتورهاي جستجو قادر به نگهداري اطلاعات کليه اسناد وب، در پايگاه داده‌هاي خود نمي‌باشند (Chakrabarti, and et. al., 1999).
  2. ايجاد دانش جديد با استفاده از اطلاعات موجود در وب: در حال حاضر اين سوال مطرح است که چگونه مي‌توان داده‌هاي فراوان موجود در وب را به دانشي قابل استفاده تبديل کرد، به طوري که يافتن اطلاعات مورد نياز در آن به سادگي صورت بگيرد. همچنين چگونه مي‌توان با استفاده از داده‌هاي وب به اطلاعات و دانشي جديد دست يافت.
  3. خصوصي سازي اطلاعات: از آن جا که کاربران متفاوت هر يک درباره نوع و نحوه­ی بازنمايي اطلاعات سليقه خاصي دارند، اين مسئله بايد توسط تأمين­کنندگان اطلاعات در وب مورد توجه قرار بگيرد. براي اين منظور با توجه به خواسته‌ها و تمايلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها بايد سفارشي گردد.

تکنيک‌هاي وب کاوي قادر به حل اين مشکلات مي‌باشند (Chakrabarti, 2000).

۱-۲- تعریف مسئله

وب به یک بخش تسلیم نشدنی جهان تبدیل شده است و گشت و گذار وب، یک فعالیت مهم برای مشتریانی که خرید آنلاین دارند، به شمار می­آید (Varghese, 2012). همانطور که گفته شد، با توجه به حجم وسيع اطلاعات در وب، مديريت آن با ابزارهاي سنتي تقريباً غير ممکن است و ابزارها و روش­هايي نو براي مديريت آن مورد نياز است. یکی از این روش­ها وب­کاوی است. به طور کلی وب­کاوی را می­توان داده کاوی بر روی داده­های محتوا، ساختار و کاربرد وب به حساب آورد. هدف وب­کاوی کشف مدل­ها و الگوهای نهفته در منابع وب می­باشد. هدف وب کاوی کاربرد وب به طور خاص کشف الگوهای رفتاری کاربران وب می­باشد. کشف چنین الگوهایی از حجم عظیمی از داده­های تولید شده توسط وب سرورها کاربردهای مهمی دارد (Anand, and Mobasher, 2005). از جمله­ی آن­ها می­توان به سیستم­هایی که میزان مؤثر بودن یک سایت را در برآوردن انتظارات کاربر ارزیابی می­کنند، تکنیک­هایی برای متعادل کردن پویای بار و بهینه­سازی وب سرورها برای دستیابی مؤثرتر کاربران و کاربردهای مربوط به ساختاردهی مجدد و تطبیق یک سایت براساس نیازهای پیش بینی شده­ی کاربر اشاره کرد.

کشف استخراج اطلاعات مفید از داده­ی وب یا فایل­های وبلاگ، بهبود کارایی اطلاعات وب و فراهم کردن تکنولوژی برای کاربردهای وب به عنوان مثال، شخصی­سازی و غیره از جمله اهداف دیگر وب­کاوی می­باشد. برای مدیریت تصمیم­گیری، نتیجه کاوش کاربرد وب می­تواند برای تبلیغات، بهبود طراحی وب، بهبود رضایت مشتری، هدایت استراتژی تصمیم آنالیز بازار و سازمان مورد استفاده قرار گیرد (Naveena Devi et al., 2012).

در سال های اخیر تکنیک‌های وب­کاوی کاربرد وب به عنوان رویکردی دیگر که مبتنی بر کاربر است در شخصی­سازی وب ارائه شده است که برخی از مشکلات مربوط به فیلترکردن جمعی را کاهش می­دهد. به طور خاص وب کاوی کاربرد وب برای افزایش گسترش‌پذیری سیستم­های شخصی­سازی شده­ی سنتی که برمبنای تکنیک­های فیلترکردن جمعی می­باشند استفاده شده است.

شخصی­سازی صفحه وب شامل خوشه­بندی صفحات مختلف وبی است که الگوی مشابهی دارند. شخصی­سازی وب از تکنیک کاربرد وب­کاوی برای سفارشی کردن صفحات وب برای یک کاربر خاص استفاده می­کند. این مسئله شامل استخراج جلسات کاربر از فایل­های ورود به سیستم می­شود. یک جلسه کاربر، دنباله­ی صفحات وبی که توسط کاربر در یک دوره زمانی خاص مورد دسترسی قرار گرفته، می­باشد.

۱-۳- اهمیت و ضرورت تحقیق

با رشد ناگهانی اندازه وب و استفاده از وب گسترده جهانی، برای کاربران بسیار مشکل شد که بتوانند به طور مؤثر به اطلاعات مرتبط و مورد علاقه خود دسترسی پیدا کنند. نیاز به پیش­بینی نیازهای کاربر به منظور بهبود قابلیت استفاده و حفظ کاربر سایت، آشکار است و می­تواند با استفاده از شخصی­سازی آدرس­دهی شود. شخصی‌سازی وب، پردازشی از یک سایت برای بر طرف کردن نیاز یک کاربر خاص یا مجموعه­ای از کاربران با استفاده از دانش به دست آمده از طریق تحلیل رفتار گشت و گذار کاربر است. هدف از سیستم شخصی سازی وب، مهیا ساختن اطلاعات و نیازهای کاربران، بدون این که صریحاً از آنها سوالی پرسیده شود.

هر اقدامی که اطلاعات یا سرویس­های فراهم شده توسط یک وب­سایت با نیازهای یک کاربر یا گروه خاصی از کاربران با به کارگیری دانش بدست آمده از رفتار گردشی کاربر و علایق خاص او به صورت ترکیب با محتوا و ساختار وب­سایت سازگار می­کند شخصی­سازی وب نامیده می­شود (Eirinaki, 2003).

بطور کلی اهداف شخصی­سازی وب عبارتند از:

  • شخصی­سازی سرویس­های ارائه شده توسط یک وب­سایت نقش مهمی در کاهش گرانبار شدن اطلاعات ایفا می­کند و وب­سایت را به یک محیط کاربر پسندتر برای افراد تبدیل می­کند.
  • با فراهم کردن اطلاعات دلخواه کاربر به روش مناسب و در زمان مناسب، باعث بهبود گردش کاربر در وب­ سایت می­شود.
  • در تجارت الکترونیکی مکانیزیمی برای درک بهتر نیازهای مشتری، شناسایی تمایلات آینده­ی او و در نهایت افزایش پابرجایی مشتری به سرویس ارائه شده فراهم می­کند.

در سال های اخیر تکنیک‌های وب­کاوی کاربرد وب به عنوان رویکردی دیگر که مبتنی بر کاربر است در شخصی­سازی وب ارائه شده­ است که برخی از مشکلات مربوط به فیلترکردن جمعی را کاهش می­دهند. به طور خاص وب کاوی کاربرد وب برای افزایش گسترش پذیری سیستم­های شخصی­سازی شده­ی سنتی که برمبنای تکنیک­های فیلترکردن جمعی می­باشند استفاده شده است.

به طور نمونه شخصی سازی برروی پردازش شناسایی کاربر وب، جمع آوری اطلاعات از طریق اولویت یا علاقه­مندی های کاربر، تمرکز دارد. به طور مختصر شخصی­سازی وب می­تواند برای مهیا ساختن سرویس با کیفیت­تر استفاده شود و برنامه کاربردی از وب را برای کاربران در طول گشت و گذار آنها در وب مهیا سازد. این فعالیت­ها می­تواند با مشخص کردن لینک­ها و لینک­های جدید مورد علاقه کاربر به صورت اتوماتیک و ایجاد صفحات ایندکس جدید، ساخته شود.

رویکرد تنها مبتنی بر کاربرد در شخصی­سازی وب یک عیب مهم دارد و آن این است که فرآیند توصیه به کاربر تنها براساس داده­های تراکنشی موجود او صورت می­گیرد و از این رو اقلام یا صفحاتی که اخیراً به سایت اضافه شده­اند نمی­توانند به او توصیه شوند. این مشکل عموماً مشکل قلم جدید نامیده می­شود. از سوی دیگر اگرچه الگوهای کشف شده­ی مربوط به کاربرد منابع وب از طریق وب­کاوی کاربرد وب در کشف ارتباطات اقلام با یکدیگر یا کاربران با یکدیگر و نیز تعیین شباهت در جلسات کاربر مفیدند اما بدون استفاده از دانش عمیق­تری از دامنه­ی وب سایت مورد نظر چنین الگوهایی درک اندکی از دلایل آن که چرا اقلام یا کاربران در گروه­هایی با هم قرار می­گیرند در اختیار ما قرار می­دهند. یک رویکرد معمول برای حل این مشکل در فیلتر کردن جمعی آن است که مشخصات محتوای صفحات را با رتبه­بندی­ها و قضاوت­های کاربر ادغام کنیم. به طور کلی در این رویکردها کلمات کلیدی از محتوای وب­سایت استخراج می­شوند و برای اندیس­گذاری صفحات براساس محتوا یا طبقه­بندی آن­ها به دسته­های مختلف مورد استفاده قرار می‌گیرند. در حوزه­ی شخصی­سازی وب این رویکرد به سیستم اجازه می­دهد تا صفحات را نه تنها براساس افراد مشابه بلکه براساس شباهت محتوایی آن­ها به صفحاتی که کاربر اخیراً بازدید کرده است به او توصیه کند.

یک ضعف عمده در بیشتر رویکردهای موجود که از محتوای وب برای بهبود مدل کاربر استفاده می‌کنند این است که این روش­ها معمولاً از بردار عبارات برای نمایش علایق کاربر استفاده می­کنند و ارتباطات معنایی بین این عبارات را نادیده می­گیرند. در صورتی که می­توان با استفاده از معنا این روش نمایش را بهبود داد.

روش­هایی که تاکنون ارائه شده­اند، در مواردی دارای اشکالاتی بودند. البته تکنیک‌های جدیدی در رفع این مشکلات و بهبود آنها ارائه شده است. اما در بیشتر این تکنیک‌ها، مسائل افزونگی داده و مقیاس‌بندی بالا وجود دارد. الگوریتم­های خوشه­بندی متعددی براساس تکنیک­های مختلف وجود دارد. بیشتر این الگوریتم­ها، اشکالات متعددی دارند. همان­طور که اندازه خوشه در طی افزایش کاربران وب افزایش می‌یابد، نیاز به بهینه‌سازی خوشه­ها اجتناب ناپذیر خواهد بود. در این پایان‌نامه قصد بر آنست تا یک متدولوژی بهینه‌سازی خوشه بر اساس سیستم فازی و الگوریتم ژنتیک ارائه شود.

۱-۴- شیوه پژوهش

در این پایان‌نامه پس از گردآوری مراجع منتشر شده در پایگاههای اطلاعاتی معتبر در زمینه وب‌کاوی و بهینه‌سازی خوشه و کلیه زمینه­های مرتبط با آن، این منابع مطالعه و مورد تحلیل و بررسی قرار گرفته است. با شناسایی دقیق چالش­ها و مشکلات موجود، بررسی شد که هر یک از فن­آوری­های شناخته شده­ی حوزه علوم کامپیوتر چه نقشی در مرتفع کردن این موانع و چالش‌ها داشته­اند که حاصل آن، در قالب چارچوب­هایی تحلیلی ارائه شده است. این چارچوب­های تحلیلی بستر را برای ارائه رویکردی سودمند در جهت رفع چالش­های موجود فراهم می­کنند.

در ادامه‏ی پژوهش، با ارائه رویکرد پیشنهادی مبتنی بر بهینه سازی خوشه با استفاده از منطق فازی و الگوریتم­های تکاملی برای شخصی­سازی وب، سعی در برطرف کردن چالش­های موجود در این حوزه شده است.

۱-۵- چارچوب پایان‏نامه

در فصل اول، مقدمه­ای بر وب­کاوی و کاربردهای آن و حوزه شخصی­سازی وب ارائه می‌شود. در ادامه اهداف انجام تحقیق و روش انجام آن بیان می‌شود.

در فصل دوم به مروری بر تحقیقات انجام شده در حوزه بهینه‌سازی خوشه و شخصی‌سازی وب پرداخته شده است.

در فصل سوم، فرضیه های مربوط به شیوه های تحقیق ارائه می­شود. ابتدا به توضیح سیستم استنتاج فازی پرداخته می­شود. همچنین نحوه استفاده از این سیستم در الگوریتم پیشنهادی شرح داده می‌شود و پس از شرح سیستم استنتاج فازی، به الگوریتم ژنتیک پرداخته خواهد شد.

فصل چهارم این پایان‌نامه مربوط به رویکرد پیشنهادی بهینه‌سازی خوشه با استفاده از منطق فازی و الگوریتم‌های تکاملی برای شخصی سازی وب است. در این فصل، ابتدا شمای کلی سیستم را بیان می‏شود و سپس به جزئیات رویکرد پیشنهادی پرداخته شده و یک متدولوژی بهینه سازی خوشه براساس سیستم فازی ارائه می‌شود. از آنجا که در سیستم استنتاج فازی تعیین پارامترهای توابع عضویت، تاثیر مهمی در دقت نهایی خوشه‌بندی دارد. بنابراین در این سیستم برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده می‌شود. همچنین برای این که در خوشه­بندی تا حد امکان افزونگی نداشته باشد، قصد بر آنست تا در بخش قوانین فازی نیز از الگوریتم ژنتیک استفاده شود تا افزونگی صفحات وب خوشه‌بندی شده تا حد امکان کاهش یابد. با این کار، دقت خوشه بندی صفحات وب نیز تا حد زیادی افزایش خواهد یافت.

در فصل پنجم، به جمع‌بندی تحقیق و نتایج حاصل از انجام آن پرداخته شده و در نهایت پیشنهاداتی برای کارهای آتی ارائه خواهد شد.

 

 

 

مراجع

 

[۱].    Anand, S. S., & Mobasher, B. (2003, August). Intelligent techniques for web personalization. In Proceedings of the 2003 international conference on Intelligent Techniques for Web Personalization (pp. 1-36). Springer-Verlag.

 

[۲].    Baeza-Yates, R. (2004, January). Web mining in search engines. In Proceedings of the 27th Australasian conference on Computer science-Volume 26 (pp. 3-4). Australian Computer Society, Inc..

 

[۳].    Bharat, K., Chang, B. W., Henzinger, M., & Ruhl, M. (2001). Who links to whom: Mining linkage between web sites. In Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on (pp. 51-58). IEEE.

 

[۴].    Chakrabarti, S. (2000). Data mining for hypertext: A tutorial survey. ACM SIGKDD Explorations Newsletter, 1(2), 1-11.

 

[۵].    Chakrabarti, S., Dom, B. E., Kumar, S. R., Raghavan, P., Rajagopalan, S., Tomkins, A., & Kleinberg, J. (1999). Mining the Web’s link structure. Computer, 32(8), 60-67.

 

[۶].    Devi, B. N., Devi, Y. R., Rani, B. P., & Rao, R. R. (2012). Design and Implementation of Web Usage Mining Intelligent System in the Field of e-commerce. Procedia Engineering, 30, 20-27.

 

[۷].    Eirinaki, M., & Vazirgiannis, M. (2003). Web mining for web personalization. ACM Transactions on Internet Technology (TOIT), 3(1), 1-27.

 

[۸].    Varghese, N. M., & John, J. (2012, October). Cluster optimization for enhanced web usage mining using fuzzy logic. In Information and Communication Technologies (WICT), 2012 World Congress on (pp. 948-952). IEEE.

 

 

 

                                           فصل دوم:

پیشینه تحقیق

 

۲-۱- مقدمه

در این فصل، به بررسی اجمالی منابع منتشر شده در پایگاه­های اطلاعاتی دنیا پرداخته شده است. تأکید بیشتر این تحقیق بر روی شخصی­سازی وب می‌باشد.

۲-۲-  مروی بر کارهای انجام شده

در پانزده سال گذشته، رشد تعداد وب سایت­ها و مراجعه­کنندگان به این سایت­ها به صورت نمایی افزایش یافته است. تعداد کل کاربران تا ۳۰ ژوئن سال ۲۰۱۰، ۸۱۶/۵۱۴/۹۶۶/۱ نفر بوده است که حدود ۷/۲۸% تعداد کل جمعیت جهان است[۱]. تعداد کل وب­سایت­های فعال تا ۱۳ دسامبر سال ۲۰۱۰، ۲۵۹/۵۲۲/۱۲۵ بوده است[۲]. به دلیل این رشد فزاینده، تعداد عظیمی از داده­های وب تولید شده است. به منظور استخراج داده­های مورد نظر از این دریای وسیع، می­توان از تکنیک داده­کاوی بهره گرفت. اما از آنجایی که داده­های وب بدون ساختار یا نیمه ساختاری هستند، نمی­توان به طور مستقیم تکنیک داده­کاوی را به کار گرفت. بنابراین از یک روش دیگر بنام وب­کاوی باید بهره جست. وب­کاوی به منظور اکتشاف الگوهای جالب که می­تواند برای بسیاری از مسائل دنیای واقعی همچون وب­سایت­های ارتقاء یافته، رفتار­شناسی بهتر کاربران، توصیه محصول و غیره به کار گرفته شود، مورد استفاده قرار می­گیرد (Pani, & et. al., 2011).

تحقیق در مورد وب­کاوی قسمتی از چندین تحقیق را شامل می­شود، مانند پایگاه داده، اطلاعات، زبان ماشین و فرآیند زبان طبیعی. اگرچه وب­کاوی ارتباط قوی با داده­کاوی دارد ولی با داده­کاوی یکسان نیست. فرآیندهای کاوش داده در وب، در طبقات و فرمت­های گوناگون رخ می­دهد. وب­کاوی استفاده از تکنیک­های داده­کاوی برای کشف اتوماتیک و استخراج اطلاعات از سرویس­ها و اسناد وب می‌باشد. مطابق با داده­ی وب استفاده شده به عنوان ورودی در فرآینده داده­کاوی، سه شاخه اصلی در وب­کاوی شامل ساختار کاوی وب، محتوا کاوی وب و وب‌کاوی کاربرد وب می­باشد (Kosala, & Blockeel, 2000; Markov, & Larosee, 2007).

پیش­بینی رفتار کاربر یکی از بحث‌های مهم در کندوکاو کاربرد وب است. به منظور دستیابی به این هدف لازم است تا رفتار مروری کاربر را از طریق تحلیل داده‌های وب یا لاگ‌های وب، تحلیل شود. پیش‌بینی نیازهای بعدی کاربر، به رفتار مشابه قبلی کاربر بستگی دارد. پیش‌بینی رفتار کاربر مزیت‌های زیادی دارد، برای مثال، شخصی‌سازی، ساخت یک وب سایت مناسب، بهبود استراتژی بازاریابی و غیره. لی و همکارش (Leacock, & Chodorow, 1998) دو سطح از مدل پیش‌بینی را ارائه کردند. روش آنها دو سطح از چارچوب کلی برای پیش‌بینی را کاهش می‌دهد. دو سطح از مدل پیش‌بینی با ترکیب مدل مارکوف و قضیه بیزی، طراحی می‌شود. در دو سطح از چارچوب مدل پیش‌بینی، ماتریس انتقال، با استفاده از تحلیل رفتار گشت و گذار کاربر و قضیه بیزی ایجاد می‌شود. نتایج آزمایشات از این مدل، برای پیش‌بینی دسته‌بندی صفحات قابل توجه است. کندوکاو وب برای صفحات وب اجرا می‌شود و سرویس‌های اینترنت به منظور پیدا کردن و استخراج کردن دانش‌های قابل دسترس اجرا می‌شود.

آقای Nina و همکارانش (Nina, & et. al., 2009) یک ایده کامل برای کشف الگوی وب­کاوی کاربرد وب معرفی کرده‌اند. سازندگان سایت­های وب باید دانش واضح و روشنی از مشخصات کاربر و نیاز سایت داشته و همچنین اطلاعات مؤکدی از رویکرد کاربران برای جستجو در وب سایت داشته باشند. سازندگان وب می­توانند رفتار بازدید کنندگان را با استفاده از تحلیل وب و تشخیص الگوهای رفتاری کاربران، تجزیه و تحلیل کنند. تحلیل وب شامل تحول و تفسیر سوابق ورود به وب برای شناسایی اطلاعات پنهان یا الگوی تخمین با استفاده از داده­کاوی و فرآیند کشف دانش است. همچنین به منظور پیش­بینی مؤثر آنلاین، شینده و همکارش (Shinde, & Kulkarni, 2008) یک معماری برای توصیه آنلاین برای پیش­بینی در سیستم وب­کاوی کاربرد فراهم ساخته است. این روش به منظور افزایش صحت دسته­بندی از طریق تعامل بین دسته­بندی، ارزیابی و فعالیت­های کاربر حاضر و مشخصات کاربر در فاز آنلاین این معماری معرفی شده است.

از رویکردهایی که می‌توان در وب‌کاوی از آنها بهره جست می‌توان به رویکرد بر مبنای کلمات کلیدی، رویکرد معنایی اشاره کرد. بسیاری از منابع علایق کاربر را به صورت مدل‌هایی در می­آورند که از ویژگی‌های کلمات مانند تعداد تکرار آن‌ها یا همپوشانی آن­ها با کلمات دیگر در مستندات وب دیده­شده توسط کاربر بهره می­برند. از جمله­ی آن­ها می­توان به کارهای صورت گرفته در (Minio, & Tasso, 1996)، (Lieberman, & et. al., 1999)، (Miranda, & et. al., 1999) و (Mobasher, & et. al., 2000a) اشاره کرد. در این روش­ها معمولاً به کلمات موجود در وب­سایت، براساس tf-idf وزن داده می­شود و پس از حذف کلمات با وزن کمتر از یک حد آستانه، هر سند وب به صورت برداری از عبارات باقیمانده (یا کلمات کلیدی) در نظر گرفته می­شود.

در سال های اخیر کوشش شده است که تکنیک‌های معنایی را که در ذخیره و بازیابی اطلاعات به کار می‌روند، جهت بهبود رویکرد بردار عبارات به کار ببرند. دو روش آماری و مبتنی بر سلسله مراتب برای این منظور ایجاد شده­اند. تکنیک­های آماری به دنبال ارتباطات نهفته بین اشیای هم­رخداد می­گردند. معروف‌ترین آن­ها روش LSA است. از جمله کارهای صورت گرفته بر اساس این روش در زمینه­ی مدل­سازی کاربر می­توان به (Zhang, & et. al., 2005) اشاره کرد. در این کار در سه مرحله‌ی تشخیص داده­های کاربردی، خوشه‌بندی جلسات کاربران و ساخت پروفایل، پروفایل کاربران ساخته می­شود. لازم به ذکر است که در مرحله­ی دوم با استفاده از الگوریتم جدیدی به نام Latent Usage Information (LUI) که بر مبنای الگوریتم k-means می­باشد، جلسات کاربران خوشه­بندی می­شوند. برای این کار، پس از SVD بر روی ماتریس SP، برای هر جلسه­ی si برداری در فضای با بعد کمتر یعنی si` بدست می­آید. معیار شباهت الگوریتم خوشه­بندی با استفاده از شباهت کسینوسی بین دو بردار با ابعاد کمتر حاصل از si و sj محاسبه می­شود. سپس الگوریتم بر روی آن اعمال می­شود. همچنین در مرحله سوم، مرکز هر خوشه از طریق بردار میانگین آن محاسبه می­شود و در نهایت پروفایل کاربر به صورت برداری از مشاهده­ صفحات و وزن آن­ها نشان داده می‌شود.

بهرنگ مسعوديفر (مسعودیفر، ۱۳۸۵) در پايان‌ نامه خود سعي در حل مشكل مربوط به كاربر جديد در سيستم­هاي توصيه كننده تحت وب با استفاده از روش­هاي آماري نموده است، كاربر جديد يعني كاربري كه از او داده‌ها و سوابق تعاملات كاري كمي در دسترس است. با این حال، در این کار تلاشی برای بهبود مدل کاربر جهت بهبود فرآیند شخصی­سازی وب انجام نشده است.

روش­های مبتنی بر سلسله مراتب معمولاً با استفاده از یک واژگان شناختی یا رده بندی مانند WordNet سعی در بهبود مدل فضای برداری دارند. در بیشتر این روش­ها، جهت نگاشت داده‌های کاربرد به اشیاء، از معیارهای ارتباط معنایی استفاده می­شود. در (Nasraoui, & et. al., 2000) ادعا شده است که روش‌های یادگیری بدون ناظر مانند خوشه‌بندی، برای تحلیل داده­های کاربران ایده­آل می­باشند و بر این اساس یک روش جدید برای خوشه­بندی فازی به نام [۳]CARD جلسات کاربران ارائه شده است. در این مقاله به هر URL یک عدد یکتا نسبت داده می­شود و جلسه­ی کاربر نیز به صورت یک بردار دودویی نسبت داده می­شود که حضور یا عدم حضور یک URL را در یک جلسه نشان می­دهد. این مقاله بیان می­کند که در غیاب هر گونه دانشی در مورد داده‌های کاربران، دو نوع خوشه­بندی می­توان به کار برد. نوع اول روش­هایی هستند که با داده­های شیئی (یا بردار ویژگی­ها) کار می­کنند و نوع دوم روش­هایی که با داده­های رابطه­ای کار می­کنند. در این مقاله ادعا شده که روش­های نوع دوم برای داده­های کاربرد وب مناسب­تر هستند و از این رو برای تبدیل داده­های جلسات کاربران به شکل رابطه­ای نیازمند محاسبه­ی شباهت بین هر دو جلسه می­باشد. در نتیجه معیار شباهت جدیدی در این مقاله ارائه می­شود که هم URL صفحات و هم ساختار وب­سایت در آن لحاظ می‌شود. از آنجا که مهم­ترین دستاورد این کار، الگوریتم خوشه­بندی و معیار شباهت آن است، لذا از فاصله­ی بین خوشه­ها و فاصله­ی درون خوشه‌ها برای ارزیابی استفاده شده است. در این مقاله از محتوای صفحات، تنها در حد URL آن­ها استفاده می­شود و نمی­توان آن را به صورت دقیق، یک روش محتوایی به شمار آورد.

در سیستم SiteIF ارائه شده در (Magnini, & Strapparava, 2004) از WordNetDomains به عنوان رده­بندی استفاده شده است. WordNetDomains یک نسخه­ی گسترش یافته و چند زبانی از WordNet است و در آن هر synset با حداقل یک برچسب دامنه حاشیه­نویسی شده است. این مقاله سعی در نمایش مستندات وب براساس synset ها می‌کند و برای این کار از رفع ابهام دامنه­ی کلمه (WDD) استفاده می‌کند. استدلال این مقاله برای استفاده از دامنه این است که باعث کاهش پیچیدگی در رفع ابهام معنای کلمه می­شود. WDD یک فرآیند دو مرحله­ای برای رفع ابهام معنای کلمه است که در مرحله­ی اول، دامنه­ی کلمه در متن را با استفاده از WordNetDomains مشخص می­کند و در مرحله دوم با استفاده از آن مناسب­ترین معنای آن کلمه در آن مستند را پیدا می­کند.

همچنین در سیستم SEWeP ارائه شده در (Eirinaki, & et. al., 2003) از یک رده­بندی دست­ساخته برای وب‌سایت و نیز از WordNet به عنوان فرهنگ جامع استفاده شده است. در این کار، برای مدل کردن کاربر از ثبت‌های انتزاعی معروف به C-log استفاده شده است.

برای دانش استخراج کردن، قابل فهم کردن و استفاده کردن، نیاز به تکنیک­های داده­کاوی خبره می­باشد. تاکنون تحقیقات زیادی در حوزه­‌های مختلفی مانند مدل­سازی کاربر و وب­کاوی کاربرد وب به منظور استفاده از رفتار کاربر در وب به منظور ایجاد مدلی از علایق وی به صورت ضمنی انجام گرفته است. در زمینه‌ی شخصی­سازی وب، مدل کاربر را هم می­توان فقط بر مبنای داده­های کاربرد وب ساخت، مانند کار (Mobasher, & et. al., 2000b) که درکی سطحی از الگوها می­دهد و هم می­توان از محتوای صفحات برای ایجاد مدل بهتر استفاده کرد. در (Dai, & Mobasher, 2002) یک چارچوب شخصی­سازی وب معرفی شده است که پروفایل‌های کاربرد یک سیستم فیلترکردن جمعی را با استفاده از واژگان­شناختی می‌سازد. این پروفایل­ها از طریق نمایش هر صفحه با یک مجموعه از اشیای واژگان شناختی به پروفایل های تجمعی سطح دامنه تبدیل می‌شوند. در این کار فرض شده است که نگاشت هر ویژگی محتوایی به اشیای واژگان شناختی، یا به صورت دستی و یا با استفاده از روش­های یادگیری با ناظر انجام می­شود. واژگان شناختی تعریف شده، شامل کلاس‌ها و نمونه­های آن­ها می‌باشد، از این رو تجمع از طریق گروه­بندی نمونه­های مختلفی که به یک کلاس تعلق دارند انجام می­شود. در (Acharyya, & Ghosh 2003) یک چارچوب شخصی­سازی وب برمبنای مدل­سازی مفهومی از رفتار گردشی کاربر ارائه شده است. متدولوژی ارائه شده شامل نگاشت هر صفحه­ی ملاقات شده به یک عنوان یا مفهوم، اعمال یک سلسله­مراتب درختی (رده­بندی) بر روی این عنوان­ها و سپس تخمین پارامترهای یک فرآیند نیمه­مارکف بر روی این درخت بر مبنای مسیرهای مشاهده شده­ی کاربر می­باشد. در این کار مبتنی بر مدل مارکف، تعیین مشخصات معنایی وب‌سایت به صورت دستی انجام می­شود. علاوه بر این، از هیچ معیار شباهت معنایی برای بهبود فرآیند پیش‌بینی استفاده نمی­شود و این امر فقط در تعمیم یا تخصیص عبارات واژگان شناختی استفاده می­شود.

معمولاً لازم است تا رفتار دسترسی کاربر مدل شود تا سرویس­های آنلاین شخصی­سازی شده هوشمند، مانند پیشنهادات وب مهیا شود. یکی از این روش­ها، کندوکاو استفاده از وب است که لاگ­های وب را برای پیشنهاد به کاربر کندوکاو می­کند. برخلاف اکثر سیستم­های پیشنهادی وب که بیشتر براساس خوشه­بندی است، گانگ و همکارانش، یک سیستم شخصی­سازی وب پیشنهاد کردند که از کندکاو الگوی دسترسی ترتیبی استفاده می‌کند. در سیستم پیشنهادی آنها الگوریتم کندوکاو الگوی ترتیبی مؤثر، برای تشخیص الگوهای دسترسی وب پیشنهاد شده است. الگوهای دسترسی در یک ساختار درخت فشرده ذخیره می­شود که به آن درخت الگو گفته می­شود، و سپس برای تطبیق و تولید لینک­های وب برای پیشنهادات استفاده می­شود (Gang, & Yue, 2009).

پینگ و همکارانش یک مدل پیشنهادی شخصی­سازی برای منابع مورد نظر کاربر، براساس لاگ دسترسی وب کاربر ارائه کردند. این مدل براساس الگوریتم اولویت و تکنولوژی tf-idf ساخته شده است که شامل سه قسمت است: توصیف منابع، استخراج اولویت کاربر و پیشنهادات شخصی­سازی. سپس مدل آنها بردار فضای متنی منابع را با استفاده از تحلیل اطلاعات منابع دستیابی شده به وسیله لاگ دسترسی کاربر تولید می­کند. سپس مجموعه­ی مورد نظر کاربر را با استفاده از الگوریتم اولویت به دست می­آوردند. سرانجام منابع ذخیره شده و فیلتر شده برای کاربر را براساس مدل پیشنهادی، ارائه می­دهند (Peng, & et. al., 2008).

در (Banerjee, & Pedersen, 2003) یک روش وب‌کاوی جدید برای شخص­‌سازی وب ارائه شده است. روش پیشنهادی ابتدا یک مدل رفتار کاربر را با استفاده از مفهوم فرمال فازی شکل می­دهد. براساس این روش، اکثر منابعی که در طول یک دوره زمانی مورد علاقه کاربر است، می­تواند بدست آورده شود.

شیری و همکارانش (Suryavanshi, & et. al., 2006) روش­های خوشه‌بندی فازی را برای کشف پروفایل­های مناسب که مدل رفتار دسترسی کاربر را روی وب سایت نشان می‌دهد، به کار گرفته­اند. در این تحقیق، تحلیل آزمایشی از یک روش فازی برای کندوکاو کردن پروفایل­ها ارائه شده است. آنها در مورد استراتژی الگوریتم خود پارامترهای ورودی مورد نیاز، توانایی اداره کردن نویز، قابلیت مقیاس‌پذیری برای دیتاست­های بزرگ و وجود تشابه در ناحیه­ها بحث کرده‌اند.

در Baraglia, & Palmerini, 2010)) یک سیستم وب­کاوی کاربرد وب (WUM) تحت عنوان SUGGEST معرفی شده است که بطور مداوم اتصالات پیشنهادی به صفحات وب مهمِ احتمالی برای کاربر را ایجاد می‌کند. سیستم SUGGEST به منظور ترکیب مؤثر فرآیند WUM با عملکردهای سرور وب منظم پیشنهاد شده است. این سیستم می­تواند داده­های با ارزش را به منظور ایجاد هر چه ساده­تر ناوبری وب کاربر و بهبود کارایی سرور وب حاصل نماید. در (Baritos, & et. al., 2007) یک الگوریتم هوشمند پیش‌پردازش داده در وب­کاوی کاربرد را ارائه کرده است. الگوریتمی بنام «USIA» پیشنهاد داده شده است و نقاط ضعف و قوت ان بررسی شده است. ارزیابی تجربی USIA نشان دهندۀ بهره­وری بهتر آن است. همچنین این روش، کاربر و جلسه واقعی را تعیین می­کند.

در (Rahmani, & Chawman, 2010) سیستمی بنام WebPUM معرفی شده است، که به پیشگوی آنلاین با استفاده از WUM می­پردازد و روش جدیدی را برای کلاس­بندی الگوهای حرکتی کاربر پیشنهاد می­نماید که از این روش در پیشگویی رفتار آینده کاربر استفاده می­نماید. در این روش الگوریتم جدید تقسیم­بندی گراف برای مدل­سازی الگوی حرکتی کاربر و الگوریتم بزرگترین زیر دنباله مشترک برای کلاس‌بندی فعالیت­های کاربر استفاده شده است. در (Zhao, & Bhowmick., 2003) روش دیگری مبتنی بر خوشه­بندی در Web-Canvas ارائه شده است. در این روش کاربرانی با الگوی حرکتی مشابه در یک خوشه قرار می­گیرد. به دلیل تعیین خوشه­ها و انتساب صفحاتی به این خوشه­ها به صورت ایستا و تعیین شده از قبل، سبب ایجاد محدودیت برای ارتقای وب سایت در آینده می­شود.

علي اكبري (اکبری، ۱۳۸۴) در پايان‌نامه خود با استفاده از تكنيك­هاي خوشه­بندي، روشي را جهت انطباق صفحات وب از طريق تغيير و انطباق پيوندهاي موجود در صفحات جهت پيمايش صفحات به صوررت آسان­تر و منطبق بر كاربر ارائه نموده است. در (Masseglia, & et. al., 2000) با استفاده از کاوش کاربردی وب، روابط میان صفحات وب و مشاهده آنها در جلسات کاربر از طریق قوانین همبستگی کشف می­شود. این روابط معمولاً برای شخصی­سازی به کار می­رود. همچنین می­توان ارتباط میان کاربران را از طریق مجموعه آیتم­های آنها به دست آورد. برای بهبود این روش از الگوریتم k-means استفاده می­شود که در آن تراکنش‌های کاربران خوشه­بندی می‌شود. یک خوشه از تراکنش نشان­دهنده کارایی با رفتار مشابه است. استفاده از این روش در داده­هایی با مقیاس زیاد مناسب نیست.

اطمینانی و همکارانش (Etminani, & et. al., 2009) از الگوریتم خوشه­بندی مورچگان برای لاگ­های پیش­پردازش شده به منظور استخراج مکرر الگوها برای کشف الگو بهره گرفته و سپس آن را در یک فرمت تفسیری نمایش می­دهد. در (Sujatha, & et. al., Iyakutty, 2010) یک چارچوب جدید برای بهبود کیفیت خوشه جلسات وب از طریق خوشه­بندی k-means با استفاده از الگوریتم ژنتیک (GA) ارائه کرده است. در ابتدا یک الگوریتم k-means بهبود یافته برای خوشه­بندی جلسات کاربران به کار گرفته می­شود. شرایط اولیه تصحیح­شده اجازه می­دهد تا الگوریتم تکرار شونده به بهترین مینیمم محلی همگرا شود. در مرحله­ی ثانویه، این مرجع به منظور بهبود کیفیت خوشه­بندی، یک الگوریتم تصحیح­گرا بر مبنای GA پیشنهاد داده است.

آقابزرگی و همکارش (Aghabozorgi, & Wah, 2009) استفاده از خوشه­بندی فازی افزایشی را برای وب‌کاوی کاربرد پیشنهاد داده است. در این مرجع یک روش جدید برای تولید مدل دینامیک از مدل آفلاینِ تولید شده توسط خوشه­بندی فازی معرفی کرده است. در این روش، برای اصلاح مدل آفلاین، تراکنش­های کاربر به صورت دوره­ای مورد استفاده قرار می­گیرد. بدین منظور، یک روش بهبود یافته از خوشه­بندی رهبر همراه با روش­های ایستا استفاده می­شود تا خوشه­ها در یک سبک افزایشی ایجاد شوند.

در (Maratae, & Petrosino, 2009) به منظور بررسی شخصی­سازی وب، یک روش هوش اکثریت ابتکاری طراحی کرده است که بدون دردسر، در تغییر الگوهای پیمایشی تنظیم می­شود. این روش پیشنهادی، از رفتار انسان در یک محیط ناشناس به هنگامی که چندین افراد بطوری موازی در حال کار هستند، تقلید کرده و از توانایی پیش­بینی با بهترین صحت و به صورت زمان واقعی برخوردار است.

در نهایت در (Varghese, & John, 2012) که به عنوان مقاله بیس این تحقیق می‌باشد، یک متد بهینه‌سازی خوشه‌بندی مبتنی بر منطق فازی ارائه شده است. در این تحقیق برای خوشه‌بندی صفحات وب از الگوریتم خوشه‌بندی فازی C-Means استفاده شده است. . الگوریتم خوشه- تعقیب فازی برای بهینه­سازی خوشه ارائه شده است تا خوشه­های صفحه وب کاربران نهایی شخصی­سازی کن

 

مراجع

[۱].   Acharyya, S., & Ghosh, J. (2003, August). Context-sensitive modeling of web-surfing behaviour using concept trees. In Proc. of the WebKDD Workshop on Web Mining and Web Usage Analysis (pp. 1-8).

 

[۲].   Aghabozorgi, S. R., & Wah, T. Y. (2009, December). Using incremental fuzzy clustering to web usage mining. In Soft Computing and Pattern Recognition, 2009. SOCPAR’09. International Conference of (pp. 653-658). IEEE.

 

[۳].   Baraglia, R., & Palmerini, P. (2002, April). Suggest: A web usage mining system. In Information Technology: Coding and Computing, 2002. Proceedings. International Conference on (pp. 282-287). IEEE.Britos, P., Martinelli, D., Merlino, H., & García-Martínez, R. (2007). Web usage mining using self organized maps. IJCSNS۷(۶), ۴۵٫

 

[۴].   Banerjee, S., & Pedersen, T. (2003, August). Extended gloss overlaps as a measure of semantic relatedness. In IJCAI (Vol. 3, pp. 805-810).

 

[۵].   Dai, H. K., & Mobasher, B. (2002). Using ontologies to discover domain-level web usage profiles. Semantic Web Mining, 35.

 

[۶].   Eirinaki, M., Vazirgiannis, M., & Varlamis, I. (2003, August). SEWeP: using site semantics and a taxonomy to enhance the Web personalization process. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 99-108). ACM.

 

[۷].   Etminani, K., Akbarzadeh-Totonchi, M. R., & Yanehsari, N. R. (2009). Web Usage Mining: users’ navigational patterns extraction from web logs using ant-based clustering method. In IFSA/EUSFLAT Conf. (pp. 396-401).

 

[۸].   Kosala, R., & Blockeel, H. (2000). Web mining research: A survey. ACM Sigkdd Explorations Newsletter۲(۱), ۱-۱۵٫

 

[۹].   Leacock, C., & Chodorow, M. (1998). Combining local context and WordNet similarity for word sense identification. WordNet: An electronic lexical database۴۹(۲), ۲۶۵-۲۸۳٫

 

[۱۰]. Lieberman, H., Van Dyke, N., & Vivacqua, A. (1999). Let’s browse: a collaborative browsing agent. Knowledge-Based Systems۱۲(۸), ۴۲۷-۴۳۱٫

 

[۱۱]. Magnini, B., & Strapparava, C. (2004). User modelling for news web sites with word sense based techniques. User Modeling and User-Adapted Interaction,14(2-3), 239-257.

 

[۱۲]. Maratea, A., & Petrosino, A. (2009, November). An heuristic approach to page recommendation in web usage mining. In Intelligent Systems Design and Applications, 2009. ISDA’09. Ninth International Conference on (pp. 1043-1048). IEEE.

[۱۳]. Markov, Z., & Larose, D. T. (2007). Data mining the Web: uncovering patterns in Web content, structure, and usage. John Wiley & Sons.

 

[۱۴]. Masseglia, F., Poncelet, P., & Cicchetti, R. (2000). An efficient algorithm for web usage mining. Networking and Information Systems Journal۲(۵/۶), ۵۷۱-۶۰۴٫

 

[۱۵]. Minio, M., & Tasso, C. (1996, January). User modeling for information filtering on internet services: Exploiting an extended version of the umt shell. In UM96 Workshop on User Modeling for Information Filtering on the WWW (pp. 2-5).

 

[۱۶]. Miranda, T., Claypool, M., Gokhale, A., Mir, T., Murnikov, P., Netes, D., & Sartin, M. (1999). Combining content-based and collaborative filters in an online newspaper. In In Proceedings of ACM SIGIR Workshop on Recommender Systems.

 

[۱۷]. Mobasher, B., Cooley, R., & Srivastava, J. (2000). Automatic personalization based on Web usage mining. Communications of the ACM۴۳(۸), ۱۴۲-۱۵۱٫

 

[۱۸]. Mobasher, B., Dai, H., Luo, T., Sun, Y., & Zhu, J. (2000). Integrating web usage and content mining for more effective personalization. In Electronic commerce and web technologies (pp. 165-176). Springer Berlin Heidelberg.

 

[۱۹]. Nasraoui, O., Frigui, H., Krishnapuram, R., & Joshi, A. (2000). Extracting web user profiles using relational competitive fuzzy clustering. International Journal on Artificial Intelligence Tools۹(۰۴), ۵۰۹-۵۲۶٫

 

[۲۰]. Nina, S. P., Rahman, M., Bhuiyan, K. I., & Ahmed, K. E. U. (2009, November). Pattern discovery of web usage mining. In Computer Technology and Development, 2009. ICCTD’09. International Conference on (Vol. 1, pp. 499-503). IEEE.

 

[۲۱]. Pamnani, R., & Chawan, P. (2010). Web Usage Mining: A research area in Web mining. Proceedings of ISCET, 73-77.

 

[۲۲]. Pani, S. K., Panigrahy, L., Sankar, V. H., Ratha, B. K., Mandal, A. K., & Padhi, S. K. (2011). Web usage mining: a survey on pattern extraction from web logs. International Journal of Instrumentation, Control & Automation (IJICA)۱(۱), ۱۵-۲۳٫

 

[۲۳].  Peng, X., Cao, Y., & Niu, Z. (2008, December). Mining Web Access Log for the Personalization Recommendation. In MultiMedia and Information Technology, 2008. MMIT’08. International Conference on (pp. 172-175). IEEE.

 

[۲۴]. Shinde, S. K., & Kulkarni, U. V. (2008, December). A new approach for on line recommender system in web usage mining. In Advanced Computer Theory and Engineering, 2008. ICACTE’08. International Conference on (pp. 973-977). IEEE.

 

[۲۵]. Sujatha, N., & Iyakutty, K. (2010). Refinement of Web usage Data Clustering from K-means with Genetic Algorithm. European Journal of Scientific Research۴۲(۳), ۴۷۸-۴۹۰٫

 

[۲۶]. Suryavanshi, B. S., Shiri, N., & Mudur, S. P. (2006, June). Analysis of Fuzzy Clustering Techniques Used for Web Personalization. In Fuzzy Information Processing Society, 2006. NAFIPS 2006. Annual meeting of the North American (pp. 335-340). IEEE.

 

[۲۷]. Varghese, N. M., & John, J. (2012, October). Cluster optimization for enhanced web usage mining using fuzzy logic. In Information and Communication Technologies (WICT), 2012 World Congress on (pp. 948-952). IEEE.

 

[۲۸].  Xiao-Gang, W., & Yue, L. (2009, August). Web mining based on user access patterns for web personalization. In Computing, Communication, Control, and Management, 2009. CCCM 2009. ISECS International Colloquium on (Vol. 1, pp. 194-197). IEEE.

 

[۲۹]. Zhang, Y., Xu, G., & Zhou, X. (2005). A latent usage approach for clustering web transaction and building user profile. In Advanced Data Mining and Applications (pp. 31-42). Springer Berlin Heidelberg.

 

[۳۰]. Zhao, Q., & Bhowmick, S. S. (2003). Sequential pattern mining: A survey.ITechnical Report CAIS Nayang Technological University Singapore, 1-26.

 

[۳۱].    بهرنگ مسعوديفر، “ارائه روشهايي براي حل مشكل كاربر جديد در سيستمهاي توصيه كننده همكارانه بر مبناي حافظه”، دانشگاه صنعتي امير كبير، دانشكده مهندسي كامپيوتر و فناوري اطلاعات، ۱۳۸۵٫

 

 

 

 

 

 

                             فصل سوم:

مبانی نظری و روش انجام تحقیق

 

 

 

 

 

 

 

 

 

۳-۱- مقدمه

وب گسترده جهانی به‌عنوان محیط بزرگ برای توزیع اطلاعات است که دارای منابع اطلاعاتی گوناگون است. از این­رو وب یک مجموعه بزرگی از منابع اطلاعاتی ساخت­یافته و نیمه‌ساخت یافته است که تعداد صفحات آن به سرعت در حال افزایش است. مشکل در سرریز شدن اطلاعات به هنگام انجام جستجویی توسط مرورگر انجام می‌شود. وب، محيطي وسيع، متنوع و پويا است که کاربران متعدد اسناد خود را در آن منتشر مي‌کنند. در حال حاضر بيش از دو بيليون صفحه در وب موجود است و اين تعداد با نرخ ۷٫۳ ميليون صفحه در روز افزايش مي‌يابد. با توجه به حجم وسيع اطلاعات در وب، مديريت آن با ابزارهاي سنتي تقريباً غير ممکن است و ابزارها و روش‌هايي نو براي مديريت آن مورد نياز است. به طور کلي کاربران وب در استفاده از آن با مشکلات زير روبرو هستند:

  • يافتن اطلاعات مرتبط
  • ايجاد دانش جديد با استفاده از اطلاعات موجود در وب
  • خصوصي سازي اطلاعات

تکنيک‌هاي وب کاوي  قادر به حل اين مشکلات مي‌باشند. در (Kosala, & Blockeel, 2000) وب‌کاوي به صورت زير تعريف شده است:

<<وب کاوي به کارگيري تکنيک هاي داده کاوي  براي کشف و استخراج خودکار اطلاعات از اسناد و سرويس‌هاي وب مي‌باشد>>.

البته تکنيک‌هاي وب‌کاوي تنها ابزار موجود براي حل اين مشکلات نيستند. بلکه تکنيک‌هاي مختلفي از ساير زمينه‌هاي تحقيقاتي همچون پايگاه داده‌ها، بازيابي اطلاعات، پردازش زبان طبيعي و غیره قابل استفاده در اين زمينه مي‌باشند. همچنين تکنيک‌هاي وب‌کاوي مي‌توانند به صورت مستقيم يا غير مستقيم براي حل اين مشکلات به کار روند. منظور از رويکرد مستقيم آن است که کاربرد تکنيک‌هاي وب‌کاوي به صورت مستقيم مشکلات مطرح شده را حل مي‌نمايد. يک عامل گروه خبري که مرتبط بودن يک خبر به يک کاربر را تعيين مي‌کند، مثالي از اين رويکرد مي‌باشد. اما در رويکرد غير مستقيم، تکنيک‌هاي وب‌کاوي به عنوان بخشي از يک روش جامع‌تر که به حل اين مشکلات مي پردازد، مورد استفاده قرار مي‌گيرند.

۳-۲- مراحل وب کاوي

وب کاوي شامل چهار مرحله اصلي مي باشد:

  1. پيدا کردن منبع: اين مرحله شامل بازيابي اسناد وب مورد نظر مي‌باشد.
  2. انتخاب اطلاعات و پيش‌پردازش: در اين مرحله به صورت خودکار اطلاعات خاصي از اسناد بازيابي شده، انتخاب و پيش‌پردازش مي‌شوند.
  3. تعميم : در اين مرحله به صورت خودکار الگوهاي عام در يک يا چندين سايت وب کشف مي‌شود.
  4. تحليل: در اين مرحله الگوهاي به دست آمده در مرحله قبل اعتبار سنجي و تفسير مي‌شوند.

در مرحله اول داده‌ها از منابع موجود در وب مانند خبرنامه‌هاي الکترونيکي، گروه‌هاي خبري، اسناد HTML، پايگاه داده‌هاي متني و غیره بازيابي مي‌شوند. مرحله انتخاب و پيش پردازش شامل هر گونه فرآيند تبديل داده‌هاي بازيابي شده در مرحله قبل مي‌باشد. اين پيش‌پردازش مي‌تواند کاهش کلمات به ريشه آنها، حذف کلمات زائد، پيدا کردن عبارات موجود در متن و تبديل بازنمايي داده‌ها به قالب رابطه‌اي يا منطق مرتبه اول باشد. در مرحله سوم، از تکنيک‌هاي داده‌کاوي و يادگيري ماشين براي تعميم استفاده می‌شود. همچنين بايد توجه داشت که کاربران نقش مهمي در فرآيند استخراج اطلاعات و دانش از وب ايفا مي‌کنند. اين نکته به ويژه در مرحله چهارم از اهميت بسزايي برخوردار است.

به اين ترتيب وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده‌هاي وب مي‌باشد. اين فرآيند به طور ضمني شامل فرآيند کشف دانش در پايگاه داده‌ها (KDD) نيز مي‌شود. در واقع وب‌کاوي گونه­ی توسعه يافته KDD است که بر روي داده‌هاي وب عمل مي‌کند.

۳-۲-۱-انواع وب‌کاوی

روش‌هاي وب‌کاوي بر اساس آن که چه نوع داده‌اي را مورد کاوش قرار مي‌دهند، به سه دسته تقسيم مي‌شوند:

  1. کاوش محتواي وب: کاوش محتواي وب فرآيند استخراج اطلاعات مفيد از محتواي مستندات وب است. محتواي يک سند وب متناظر با مفاهيمي است که آن سند در صدد انتقال آن به کاربران است. اين محتوا مي‌تواند شامل متن، تصوير، ويدئو، صدا و يا رکوردهاي ساخت يافته مانند ليست‌ها و جداول باشد. در اين ميان کاوش متن بيش از ساير زمينه‌ها مورد تحقيق قرار گرفته است. از جمله اين تحقيقات مي‌توان به تشخيص موضوع، استخراج الگوهاي ارتباط ، خوشه‌بندي و طبقه‌بندي اسناد وب اشاره کرد. روش‌ها و تکنيک‌هاي موجود در اين گروه، از تکنيک‌هاي بازيابي اطلاعات و پردازش زبان طبيعي نيز استفاده مي‌کنند.
  2. کاوش ساختار وب : وب را مي‌توان به صورت گرافي که گره‌هاي آن اسناد و يال‌هاي آن پيوندهاي بين اسناد است، بازنمايي کرد. کاوش ساختار وب، فرآيند استخراج اطلاعات ساختاري از وب مي‌باشد.
  3. کاوش استفاده از وب : کاوش استفاده از وب، کاربرد تکنيک‌هاي داده‌کاوي براي کشف الگوهاي استفاده از وب، به منظور درک و برآوردن بهتر نيازهاي کاربران مي‌باشد. اين نوع از وب‌کاوي، داده‌هاي مربوط به استفاده کاربران از وب را مورد کاوش قرار مي‌دهد.

بايد توجه داشت که مرز مشخصي ميان سه گروه وب کاوي وجود ندارد. به عنوان مثال تکنيک‌هاي کاوش محتواي وب مي‌توانند علاوه بر به کارگيري متن مستندات، از اطلاعات کاربران هم استفاده کنند. همچنين مي‌توان از ترکيب تکنيک‌هاي فوق براي حاصل شدن نتايج بهتر استفاده کرد.

۳-۳- شخصی‌سازی وب

هر اقدامی که اطلاعات یا سرویس‌های فراهم شده توسط یک وب‌سایت را با نیازهای یک کاربر یا گروه خاصی از کاربران با به کارگیری دانش بدست آمده از رفتار گردشی کاربر و علایق خاص او به صورت ترکیب با محتوا و ساختار وب‌سایت سازگار می‌کند، شخصی‌سازی وب نامیده می‌شود (Eirinaki, 2003).

هدف یک سیستم شخصی‌سازی وب عبارت است از فراهم کردن اطلاعات دلخواه یا مورد نیاز کاربران بدون درخواست صریح آن‌ها.

با شخصی‌سازی وب، دسترسی به محتویات از صفحات وب و یا اصلاح محتویات وب، بهتر و با توجه به خواسته هر کاربر می‌تواند انجام شود. این امر ممکن است شامل ایجاد صفحات وب جدید باشد که هر کاربر با درخواست خود می‌تواند اسنادی از وب را بازیابی کند. شخصی‌سازی می‌تواند به‌عنوان نوعی از خوشه‌بندی، دسته‌بندی و یا حتی پیش‌بینی دیده شود. در دسته‌بندی، خواسته‌های کاربر براساس کلاس‌ها تعیین می‌شود. از طریق خوشه‌بندی، خواسته‌های تعیین شده براساس کاربرانی که خواسته‌های مشابه دارند، تعیین می‌شود. در نهایت، پیش‌بینی برای این مورد که کاربران چه چیزی واقعاً می‌خواهند ببینند، به کار می‌رود.

۳-۳-۱-دلایل نیاز به شخصی‌سازی وب

دلایل نیاز به شخصی‌سازی وب را می‌توان بصورت زیر بیان کرد:

  1. گرانبار شدن اطلاعات: وب جهانی منبعی عظيم از اطلاعات را فراهم آورده است. در بررسی‌های گوناگون انجام شده در زمينه‌ی گسترش وب تخمين زده شده است که روزانه بیش از يک ميليون صفحه به وب اضافه می‌شود و بيش از ۶۰۰ گيگابايت از صفحات در هر ماه تغيير می‌کنند (Nasraoui, & et. Al., 2008) و (Achananuparp, & et. al., 2007). اين پديده که گرانبار شدن اطلاعات ناميده می‌شود مشکلاتی را برای کاربران وب بوجود آورده است.از مهم‌ترين اين مشکلات عدم دسترسی آسان به اطلاعات مورد نياز می‌باشد.
  2. نیاز به جذب مشتری پابر‌جای برای وب‌سایت: ظهور سرویس‌های مبتنی بر وب مانند تجارت الکترونیکی، یادگیری تحت وب و بانکداری الکترونیکی موجب تغییرات اساسی در روش استفاده از اینترنت شده است و وب‌سایت ها را به محیطی برای تجارت تبدیل کرده است و موجب افزایش رقابت بین آن‌ها شده است. با وجود رقبایی که تنها یک کلیک از وب‌سایت مورد نظر فاصله دارند نیاز به افزودن خدمات اضافی به سرویس‌های وب به عنوان لازمه‌ی ایجاد مشتری پابرجای به وضوح احساس می‌شود. این خدمات اضافی تنها با تمرکز بر نیازها و علایق فردی مشتریان و فراهم کردن سرویس‌ها و محصولات متناسب با آن‌ها امکان‌پذیر است.

۳-۳-۲-مراحل شخصی­سازی وب

در سیستم شخصی‌سازی وب، انواع مختلفی از کارها می‌تواند اجرا شود. این تابع‌ها یا کارها تعدادی از نیازها را در سیستم شخصی سازی وب برآورده می‌کند که هدفش توسعه سیستم قدرتمند و انعطاف‌پذیر است ( شکل ۲-۱). در ادامه لیستی از نیازهای کلی برای شخصی سازی وب ارائه می‌شود.

شکل ۳- ۱: فرآیند شخصی سازی وب

۳-۳-۲-۱-    جمع‌آوری داده

اولین مرحله در پروسه شخصی‌سازی وب، جمع‌آوری داده‌های مرتبط از طریق وب است که برای آماده کردن اطلاعات مفید از رفتار کاربران تحلیل می‌شود. دو منبع اصلی از داده برای کندوکاو وب وجود دارد: داده‌های روی وب سرور و داده‌های طرف کاربر. در وب سرور، داده‌ها جمع‌آوری می‌شوند و در فایل‌های لاگ ذخیره می‌شوند. این داده‌ها شامل انواع مختلفی از لاگ‌های تولید شده با استفاده از وب سرور است. این لاگ‌ها، صفحات وب ملاقات شده بوسیله کاربران را ثبت می‌کند. اکثر وب سرور‌ها به‌عنوان یک گزینه پیش‌فرض از فرمت فایل لاگ نگهداری می‌شود که شامل اطلاعاتی درباره آدرس IP مشتری که درخواست داده، نام میزبان، نام کاربری، زمان درخواست کاربر، اسم فایلی که درخواست کرده و اندازه فایل است.

ابزارهای وب کاوی از فایل‌های لاگ وب سرور به‌عنوان منبع اصلی داده برای کشف الگوهای مفید استفاده می‌کند. اما فایل‌های لاگ نمی‌تواند همیشه منبع قابل اعتماد از اطلاعات، درباره یک سایت باشد. داده‌های خوب و مفید یک مسئله جدی و مهم در شخصی‌سازی وب است که برای شناسایی کاربران به منظور کشف نیازها و علاقه‌مندی‌های آنها مورد استفاده قرار می‌گیرد.

داده طرف کاربر از هاست یا میزبان که در وب سایت قابل دسترس است، جمع‌آوری می‌شود. یکی از روش‌های رایج برای بدست آوردن داده‌های طرف کاربر، فرستادن یک مأمور یا عامل اطلاعاتی از راه دور است، که با جاوا یا جاوا اسکریپت پیاده‌سازی می‌شود. این عامل اطلاعاتی در صفحات وب جاسازی می‌شود. جاوا برای جمع‌آوری اطلاعات به طور مستقیم از سمت کاربر مورد استفاده می‌شود، برای مثال زمان که کاربر به صفحه وب دسترسی پیدا می‌کند یا صفحه وب را ترک می‌کند، لیستی از سایت‌های ملاقات شده قبل و بعد از سایت جاری و تاریخچه گشت و گذار کاربران جمع‌آوری و ذخیره می‌شوند. داده‌های طرف کاربر قابل اعتمادتر از داده‌های طرف سرور هستند.

۳-۳-۲-۲-    پردازش داده

پیش‌پردازش داده‌ها یک پروسه پیچیده در داده‌کاوی است. پیش‌پردازش داده‌ها شامل از بین بردن و کاهش داده‌های نامرتبط، حذف نویز ، تبدیل و رمزگذاری داده‌ها و رفع هر گونه ناسازگاری است. تبدیل داده و رمزگذاری داده‌ها، مهمترین عامل در داده‌کاوی موفق است. در شخصی‌سازی وب، این مرحله شامل، فیلتر کردن داده، شناسایی کاربران و جلسات کاربر است که مراحلی مهم در کشف الگو است.

۳-۳-۲-۳-    کشف الگو

در این پردازش، دانش با استفاده از یادگیری ماشین و روش‌های آماری مانند خوشه‌بندی، دسته‌بندی و کشف الگوهای ترتیبی کشف می‌شود. برخلاف ابزارهای پیش‌پردازش داده، روش‌های کشف الگو مستقل از دامنه هستند که می‌توانند برای تعداد زیادی از دامنه‌های مختلف اجرا شوند بدون این که به محتویات صفحات وب دسترسی وجود داشته باشد.

۳-۳-۲-۴-    تحلیل دانش

در مرحله آخر، دانش استخراج شده ارزیابی شده و برای کاربر نهایی در شکلی که گزارش یا کلمات کلیدی پیشنهاد شده یا لینک‌ها ارائه می‌شود. برای شخصی‌سازی وب، دانش استخراج شده در یک مدل شخصی‌سازی به منظور آسان کردن عملکرد شخصی‌سازی ترکیب می‌شوند.

۳-۳-۳-تکنیک­های مدل­سازی کاربر در شخصی‌سازی وب

در این بخش تکنیک­های مورد استفاده در کارهای انجام گرفته در زمینه مدل­سازی کاربر در حوزه­ی شخصی­سازی وب با استفاده از محتوای صفحات مورد بررسی قرار می‌گیرند. مهم­ترین آن­ها عبارتند از تکنیک tf-idf برای تعیین وزن کلمات کلیدی، تکنیک تحلیل معنایی پنهان برای کاهش ابعاد بردار عبارات و یافتن ارتباطات نهفته بین آن­ها و تکنیک­های محاسبه­ی ارتباط معنایی بین دو کلمه در ساختارهای سلسله مراتبی. در ادامه در مورد هریک توضیح داده خواهد شد.

۳-۳-۳-۱-    تکنیک tf-idf

فرض کنید D مجموعه مستندات وب باشد. به ازای تمام مستندات مانند j در D ابتدا تمامی عبارات آن­ها استخراج می­شوند و سپس وزن هر عبارت i در سند j  به‌صورت زیر محاسبه می­شود:

(۳-۱)

که در آن  برابر است با تعداد دفعات وقوع i در سند j  و

(۳-۲)

که در آن |D| برابر است با تعداد اعضای مجموعه­ی D و  برابر است با تعداد مستنداتی که شامل عبارت i می­باشند.

۳-۳-۳-۲-    تکنیک متا مدل و ابزار OLAP

فایل‌های لاگ وب یک سایت از میلیون ها ورودی که شامل اطلاعات زیادی درباره فعل و انفعالات کاربر در آن سایت است، تشکیل شده است. این فایل‌ها برای تحلیل داده‌های مورد کاربرد وب به منظور پشتیبانی از چندین کار برای مثال: بهبود گشت و گذار، مدیریت ترافیک وب، تجارت الکترونیک، مفید است.

داده ها معمولاً در فایل های لاگ وب با استفاده از فرمت‌های مختلف براساس متن، مانند فرمت لاگ رایج NCSA یا فرمت فایل لاگ W3C ذخیره می‌شود. به‌علاوه، هر فرمت می‌تواند برای اهداف خاص وابسته به داده‌ها تغییر کند. به منظور بهبود تحلیل مورد استفاده وب، چندین روش از فرمت طراحی داده‌ها حمایت می‌کنند. دادهای ذخیره شده در فایل‌های لاگ وب مرتبط با استفاده وب سایت است. تحلیل این داده‌ها به منظور بهبود گشت و گذار کاربر است. اما معمولاً دادههای لاگ وب در یک فایل یکنواخت در فرمت‌های مختلف ذخیره می‌شوند که مانع تحلیل‌شان می‌شود، بنابراین الزامی است تا از ابزارهای مخصوص تحلیل لاگ وب استفاده شود. پائول و همکارانش روش‌هایی برای ساخت داده‌های لاگ وب برای تحلیل بهتر ارائه کردند. برای این هدف، آنها یک روش متا مدل برای داده لاگ وب به منظور یکی کردن ویژگی‌ها از هر فرمت ارائه کردند. این متا مدل طرحی از مدل‌های لاگ وب، صرف‌نظر از فرمت فایل‌های لاگ وب را پشتیبانی می‌کند. مجموعه‌ای از راهنما برای تعریف شمای چند بعدی از یک انبار داده از مدل لاگ وب با استفاده از ابزارهای تحلیل پیشرفته مانند OLAP یا ابزارهای داده‌کاوی، به منظور بهبود تحلیل وب با استفاده از لاگ وب پیشنهاد می‌شود (Dumais, et. al., 1998).

۳-۳-۳-۳-   تکنیک براساس محتوای وب

روش‌های داده‌کاوی ابزاری برای کمک به مدیریت وب در بهبود کار است. اما برخی از ابزارها نتایج مفیدی برای بهبود وب سایت تولید نمی‌کند. بحث دیگری که می‌تواند در تکنیک‌های وب‌کاوی مشاهده شود، این است که ارتباط معنایی بین مستندات وب که برای تحلیل استفاده می شود، در نظر گرفته نمی‌شود. یک روش برای حل این مسئله، استفاده از هستی‌شناسی برای تحلیل معنایی است. اما هزینه­ی توسعه­ دامنه­ی هستی‌شناسی، برای یک وب سایت با اندازه کوچک، به سختی تصدیق می­شود.

استاندارد کندوکاو کاربرد وب، اطلاعات معنایی از مستندات وب که ممکن است موجب اشتباهاتی شود را پردازش می‌کند. برخی سیستم‌ها برای مهیا ساختن نتایج خوب در رفتار گشت وگذار وب، توسعه یافته است. روش‌های جدیدی از کندوکاو وجود دارد که شامل ارتباط معنایی از محتویات وب است. وقتی با وب سایت‌های کوچک کار می‌شود، معمولاً کاربران احساسی خوبی دارند از این که چیزهایی که می‌خواهند را بدست می‌آوردند و می‌تواند پیش‌بینی شود. اما اکثر ابزارها بر کشف اتوماتیک از دانش بدون دانش‌های قبلی از وب سایت یا پردازش کندوکاو، تمرکز دارند. این ابزارها تعداد زیادی الگو که می‌بایست با تحلیل در بهبود وب سایت ترجمه و تفسیر شوند، تولید می‌کنند. در برخی موارد، تحلیل و فهمیدن الگوها خیلی پیچیده است.

امروزه روش‌های کندوکاو کاربرد وب اجازه می‌دهد تا پردازش کندوکاو را براساس لیستی از کلمه و جلسه‌های کاربر انجام دهد. استخراج تغییرات مفید از محتویات سایت برای بدست آوردن آن، سخت است. بنابراین به روشی برای بهبود پردازش کندوکاو کاربرد وب نیاز داریم تا اجازه دهد نتایج، نزدیک به اولویت‌های واقعی کاربر باشد. پردازش کندوکاو کاربرد وب معنایی توسعه یافته بود و از روشی براساس محتوای برای اضافه کردن محتوا به پردازش کندوکاو استفاده کردند. راه‌حل پیشنهاد شده ژوان و همکارانش برای یک وب سایت واقعی اجرا می‌شود تا ساختار و محتویات را بهبود دهد. این روش با چهار روش مختلف کندوکاو کاربرد وب مقایسه می‌شود. بعد از آن کیفیت بهبود با ۱۰۰ موضوع مروری ارزیابی می‌شود و کارایی این روش را به اثبات می‌رساند (Rada, et. al., 1989).

۳-۳-۳-۴-     تکنیک براساس فراهم کردن داده‌های مؤثر (ODP)

در این روش پروفایل کاربران با استفاده از مجموعه‌ای از سلسله مراتب ODP مشخص می‌شود. پروفایل‌های کاربر به دسته‌هایی از مسیرها که به طور معمول برای شخصی‌ساری وب استفاده می‌شود، متصل می‌شود. شخصی‌سازی مسیرهای وب اساساً با استفاده از سرویس‌هایی مانند یاهو ارائه می‌شوند که انتخاب مورد علاقه کاربر را پشتیبانی می‌کند. یک روش ابتدایی برای اتوماتیک کردن این روش، سیستم مونتاژ است که برای ایجاد پورتال‌های شخصی سازی از لینک‌هایی برای صفحات وب که یک کاربر ملاقات می‌کند، استفاده می‌شود. سپس این لینک‌ها به یک دسته بندی مطابق با مسیر ODP سازماندهی می‌شوند. در (Eirinaki, et. al., 2003; Eirinaki et. al., 2005) از روش دسته‌بندی ODP برای خوشه‌بندی استفاده می‌شود، سپس این خوشه‌ها برای پیشنهاد مسیرهای کوتاه وب مورد بهره‌برداری قرار می‌گیرند.

۳-۳-۳-۵-    شخصی­سازی وب با استفاده از روش­های ترکیبی

سیستم­های شخصی­سازی وب براساس وب­کاوی سعی می­کند تا الگوهای رفتاری کاربر را از لاگ­های دسترسی وب و سایت متا دیتا، استخراج کند. صفحات پیشنهاد شده برای کاربر آنلاین، به وسیله تطبیق رفتار مرورگر کاربر با الگوهای رفتاری کاربر قبلی انجام می­شود. روش­های پیشنهاد شده در کارهای قبلی، هنوز نمی­تواند کاربر را در وب‌سایت‌های بزرگ و دینامیک خشنود نگه دارد. در (Bergmann, & Stahl, 1998) روشی برای شخصی­سازی براساس وب ارائه شده است که داده­های وب را با محتوای وب ترکیب می­کند. نتایج آزمایشات این تحقیق نشان می­دهد که روش آنها می­تواند دقت را بهبود داده و پیشنهادهایی را برای کاربران ایجاد کند.

۳-۳-۳-۶-    شخصی­سازی وب براساس الگوریتم استقرایی و تکنولوژی tf-idf

اکسپینگ و همکارانش یک مدل شخصی‌سازی برای پیشنهاد منابع مورد علاقه کاربر براساس لاگ‌های قابل دسترسی وب کاربر ارائه کرده‌اند. این مدل براساس الگوریتم استقرایی و تکنولوژی tf-idf ساخته می‌شود که شامل سه قسمت است: شرح منابع، استخراج اولویت‌های کاربر و پیشنهاد شخصی‌سازی. ابتدا، مدل آنها فضای متنی منابع را تولید می‌کند که با استفاده از تحلیل اطلاعات منابع بدست آورده شده از لاگ‌های دسترسی وب کاربر بدست می‌آید. سپس مجموعه­ی مورد علاقه یا مورد نظر، برای الگوریتم‌های اولویت استفاده می‌شود. سرانجام پیشنهادها فیلتر می‌شود و منابع برای کاربران براساس مدل پیشنهادی ذخیره می‌شوند (Gabrilovich, & Markovitch, 2007).

۳-۳-۳-۷-    شخصی­سازی وب با استفاده از کندوکاو الگوی ترتیبی و درخت الگو

معمولاً برای دسترسی به رفتار وب مدل کاربر، لازم است تا سرویس‌های آنلاین شخصی‌سازی هوشمند مانند پیشنهادهای وب، تهیه شود. یکی از روش‌های امید‌بخش، کندوکاو کاربرد وب‌کاوی است که لاگ‌های وب را برای مدل‌های کاربر و پیشنهادات، کندوکاو می‌کند. برعکس سیستم‌های پیشنهاد کننده که اکثراً براساس خوشه‌بندی و قانون‌های انجمنی است، مینیو و همکارش یک سیستم شخصی سازی وب را پیشنهاد کرده‌اند که از کندوکاو الگوی دسترسی ترتیبی استفاده می‌کند. در سیستم پیشنهادی آنها یک الگوریتم کندوکاو الگوی ترتیبی موثر، برای شناسایی الگوهای دسترسی ترتیبی وب استفاده می‌شود. الگوهای دسترسی در یک ساختار درختی فشرده ذخیره می‌شود که درخت الگو نام دارد و سپس برای تطبیق و ایجاد لینک های وب برای پیشنهاد، استفاده می‌شود (Minio, & Tasso, 1996).

۳-۴- خوشه‌بندی برای شخصی‌سازی وب

شخصی‌سازی صفحه وب شامل خوشه‌بندی صفحات مختلف وبی است که الگوی مشابهی دارند. شخصی‌سازی وب از تکنیک کاربرد وب­کاوی برای سفارشی کردن صفحات وب برای یک کاربر خاص استفاده می­کند. این مسئله شامل استخراج جلسات کاربر از فایل­های ورود به سیستم می­شود. یک جلسه کاربر، دنباله صفحات وبی که توسط کاربر در یک دوره زمانی خاص مورد دسترسی قرار گرفته، می­باشد. در حال حاضر، برای شخصی سازی وب چندین متد خوشه­بندی در دسترس هستند.

الگوریتم­های خوشه­بندی متعددی براساس تکنیک­های مختلف وجود دارد. بیشتر این الگوریتم‌ها، اشکالات متعددی دارند. در ادامه به معرفی این الگوریتم‌ها پرداخته خواهد شد.

۳-۴-۱-خوشه­بندی فازی

خوشه­بندی فازی را می‌توان بخشی از تحلیل داده فازی دانست که دارای دو بخش است: یکی تحلیل داده­های فازی و دیگری تحلیل داده­های قطعی با استفاده از تکنیک­های فازی. ایده بنیادین در خوشه­بندی فازی به این ترتیب است که فرض شود هر خوشه مجموعه­ای از عناصر است. سپس با تغییر در تعریف عضویت عناصر در این مجموعه از حالتی که یک عنصر فقط بتواند عضو یک خوشه باشد، به حالتی که هر عنصر می­تواند با درجه عضویت­های مختلف داخل چندین خوشه قرار بگیرد، دسته­بندی­هایی را انجام می­دهد (Suryavanshi, et. al., 2006).

۳-۴-۱-۱-    الگوریتم پایه‌ای خوشه‌بندی فازی

الگوریتم‌های پایه‌ای در زمینه خوشه‌بندی فازی محدود به Fuzzy C-Means و Possibilistic  C-Means است که از Hard C-Means که در ادبیات موضوع با عنوان الگوریتم K-Menas معرفی شده است، استخراج شده‌اند. هر دو این الگوریتم‌های ارائه شده در این بخش مبتنی بر تابع هدف هستند که خوب بودن خوشه‌بندی را می‌سنجند (Castellano, & et. al., 2007).

۳-۴-۱-۲-    الگوریتم فازی کا-مینز[۴]

این الگوریتم ابرهای کروی از نقاط را در یک فضای p بعدی شناسایی می­کند. این خوشه­ها به طور مفروض تقریباً هم اندازه هستند. هر خوشه با مرکزش نمایش داده می­شود. این نحوه نمایش خوشه­ها، مدل یا نمونه نیز نامیده می­شود. زیرا اغلب به عنوان نماینده همه داده­های تخصیص داده شده به خوشه، انگاشته می­شود. برای فاصله، فاصله اقلیدسی بین یک نقطه و یک نمونه مورد استفاده قرار می­گیرد. در انتخاب مرکز خوشه، مقدار میانگین مورد استفاده قرار می­گیرد. برای محاسبه مرکز خوشه مجموع درجات عضویت هر عنصر به توان M در خودش به حاصلضرب توان M درجه عضویت‌ها تقسیم می­شود. M  یک عدد حقیقی بزرگتر است که در اکثر موارد مقدار دو برای این پارامتر در نظر می­گیرند. در این پایان‌نامه برای M مقدار دو در نظر گرفته شده است. از مزایای آن، کاهش زمان محاسباتی است و با تکرار کم می­توان به حلی تقریباً نهایی رسید (Singh, et. al., 2011).

۳-۴-۱-۳-    خوشه­بندی صفحات وب با استفاده از خوشه­بندی فازی k-means

برای درک بهترخوشه­بندی فازی و الگوریتم­های مختلف آن لازم است تا ابتدا با مفهوم مجموعه­های فازی و تفاوت آنها با مجموعه­های کلاسیک بیان شود. در مجموعه­های کلاسیک یک عضو از مجموعه مرجع یا عضوی از مجموعه A است یا عضو مجموعه A نیست. مثلاً مجموعه مرجع اعداد حقیقی را در نظر بگیرید. عدد ۲٫۵ عضو مجموعه اعداد صحیح نمی­باشد حال آن که عدد ۲ عضو این مجموعه است. به زبان دیگر تعلق[۵] عدد ۲٫۵ به مجموعه اعداد صحیح صفر است و تعلق عدد ۲ به این مجموعه یک است. در واقع می­توان برای هر مجموعه یکh  تابع تعلق تعریف کرد که مقدار این تابع تعلق برای اعضای مجموعه  یک می­باشد و برای بقیه صفر. در مجموعه­های کلاسیک مقدار این تابع تعلق یا صفر است یا یک. حال مجموعه انسان­های جوان و پیر را در نظر بگیرید. سؤالی که در اینجا مطرح می­شود این است که آیا فردی با سن ۲۵ جزء این مجموعه است یا خیر؟ سن ۳۰ چطور ۳۵ همان­طور که حدس زدید نمی­توان به طور قطع و یقین مرزی برای انسان­های جوان و پیر در نظر گرفت. دلیل آن هم این است که اگر فرضاً ۳۵ جوان محسوب شود ۳۶ نیز می­تواند جوان باشد و همین­طور ۳۷ و ۳۸ و غیره . در واقع در اینجا با مفهوم عدم قطعیت[۶] مواجه هستیم. ما خودمان نیز از عدم قطعیت در زندگی روزمره بارها استفاده کرده­ایم مثلاً هوای سرد، آب داغ و غیره. در واقع تمامی مثال­های بالا مثال­هایی از مجموعه­های فازی می­باشند. تفاوت اصلی مجموعه­های فازی و مجموعه­های کلاسیک در این است که تابع تعلق مجموعه­های فازی دو مقداری نیست (۰ یا ۱) بلکه می­تواند هر مقداری بین ۰ تا ۱ را اختیار کند. حال مجموعه انسان­های جوان و پیر را در نظر بگیرید اگر ۲۵ سال را سن جوانی در نظر بگیریم می­توانیم به ۲۵ تعلق ۱ بدهیم و مثلاً به ۳۰ تعلق ۰٫۸ و به ۳۵ تعلق ۰٫۷۵ و به ۹۰ تعلق ۰٫۱ را بدهیم. اگر اعضای یک مجموعه فازی تنها دارای تابع تعلق ۰ و ۱ باشند این مجموعه فازی یک مجموعه کلاسیک خواهد بود. نکته جالب توجه این است که مثلا سن ۵۰ می تواند با تعلق ۰٫۵ عضو مجموعه جوان باشد و با تعلق ۰٫۵ عضو مجموعه پیر یعنی یک عضو مجموعه مرجع می­تواند با درجه­های تعلق مختلف عضو مجموعه­های فازی تعریف شده روی مجموعه مرجع باشد.

در خوشه­بندی کلاسیک هر نمونه ورودی متعلق به یک و فقط یک خوشه می­باشد و نمی­تواند عضو دو خوشه و یا بیشتر باشد. حال حالتی را در نظر بگیرید که میزان تشابه یک نمونه با دو خوشه و یا بیشتر یکسان باشد در خوشه بندی کلاسیک باید تصمیم گیری شود که این نمونه متعلق به کدام خوشه است. تفاوت اصلی خوشه­بندی کلاسیک و خوشه­بندی فازی در این است که یک نمونه می­تواند متعلق به بیش از یک خوشه باشد. برای روشن شدن مطلب شکل ۳-۲ را در نظر بگیرید:

شکل ۳-۲: مجموعه داده پروانه‌ای.

منبع: (Castellano, & et. al., 2007)

اگر نمونه­های ورودی مطابق شکل فوق باشند مشخص است که می­توان داده­ها را به دو خوشه تقسیم کرد اما مشکلی که پیش می­آید این است که داده مشخص شده در وسط می­تواند عضو هر دو خوشه باشد. بنابراین باید تصمیم گرفت که داده مورد نظر متعلق به کدام خوشه است، خوشه سمت راست یا خوشه سمت چپ. اما اگر از خوشه­بندی فازی استفاده شود، داده مورد نظر با تعلق ۰٫۵ عضو خوشه سمت راست و با تعلق مشابه عضو خوشه سمت چپ است. تفاوت دیگر در این است که مثلاً نمونه­های ورودی در سمت راست شکل ۳-۳ می­توانند با یک درجه تعلق خیلی کم عضو خوشه سمت چپ نیز باشند که همین موضوع برای نمونه­های سمت چپ نیز صادق است.

به عنوان یک مثال دیگر شکل ۳-۳ را در نظر بگیرید. در این شکل نمونه­هایی که با علامت بعلاوه مشخص شده­اند به بیش از یک خوشه تعلق دارند.

شکل ۳-۳: خوشه بندی فازی داده.

منبع: (Singth, & et. al., 2011)

۳-۴-۲-الگوریتم ژنتیک

الگوريتم­هاي ژنتيكي براساس تئوري تكاملي داروين مي­باشند و جواب مساله­اي كه از طريق الگوريتم ژنتيك حل مي­شود مرتباً بهبود مي­يابد. الگوريتم ژنتيك با يك مجموعه از جواب­ها كه از طريق كرموزوم‌ها نشان داده مي­شوند، شروع مي­شود. اين مجموعه جواب­ها جمعيت اوليه نام دارند. در اين الگوريتم جواب­هاي حاصل از يك جمعيت براي توليد جمعيت بعدي استفاده مي­شوند. در اين فرآيند اميد است كه جمعيت جديد نسبت به جمعيت قبلي بهتر باشد. انتخاب بعضي از جواب­ها از ميان كل جواب­ها والدين به منظور ايجاد جواب­هاي جديد يا همان فرزندان Offspring براساس ميزان مطلوبيت آنها مي‌باشد. طبيعي است كه جواب­هاي مناسب­تر شانس بيشتري براي توليد مجدد داشته باشند. اين فرآيند تا برقراري شرطي كه از پيش تعيين شده است، ادامه مي­يابد (Abraham, & Ramos, 2003).

مراحل اصلی الگوریتم ژنتیک در شکل ۳-۴، نمایش داده شده است.

شکل ۳-۴:  مراحل اصلی الگوریتم ژنتیک.

منبع: (Gonzales, & et. al., 2010)

۳-۴-۲-۱-    بهینه‌سازی خوشه‌بندی فازی با استفاده از الگوریتم ژنتیک

علم ژنتیک براساس منطق زيستي استوار است و چیزی به عنوان عملگر تصادفی وجود ندارد، یکی از مشکلات اصلی در سیستم فازی، تنظیم صحیح مقادیر پارامترهای این الگوریتم است؛ از همین رو در اکثر مواقع تنظیم مقادیر این پارامترها فرآیند بسیار وقت­گیر و مشکل خواهد بود.

پارامترهای ژنتیک برای تعیین اکثر پارامترهای کنترلر فازی، به عنوان نمونه، متغیرهای ورودی و تابع عضویت به کار برده می‌شود. این پارامترها داخل کروموزوم­ها قرار می‌گیرند. این روش، وقتی دانش کنترلی قبلی در دسترس باشد، خیلی قدرتمند است. به عبارت دیگر زمانی که پارامترهای میزان­سازی تابع عضویت برای بهبود کارایی کنترلرها استفاده شود، این روش کارایی بالایی دارد (Tang, & Qin, 2010).

طول کروموزوم­ها مطابق با تعداد ویژگی ها می باشد. که در این پایان نامه، منظور از ویژگی ها، ویژگی­های صفحات وب نظیر رنگ پس­زمینه یا نوشته­های صفحات وب و …. می باشد. طول کروموزوم‌ها با عملیات کراس اور[۷] ممکن است تغییر کند. عملیات دیگر ژنتیک مانند selection و reproduction برای همه کروموزوم‌ها در جمعیت اجرا می­شود. سرانجام عملیات کراس اور انجام می­شود. نقاط کراس اور در کروموزوم پدر و مادر می­تواند متفاوت باشد، طول کوروموزوم­ها برای زادو ولد از پدر و مادرشان متفاوت است.

برای تعیین پارامترهای مناسب برای توابع عضویت با استفاده از الگوریتم ژنتیک، ابتدا باید نوع بازنمایی کروموزوم­ها تعیین گردند. شایان ذکر است که هر کروموزوم (انفردای) یک جواب برای مسئله خواهد بود، بدین معنی که هر کروموزوم شامل پارامترهای توابع عضویت برای تمامی ویژگی­ها خواهد بود. به دلیل این که پارامترهای توابع عضویت می­توانند اعداد اعشاری باشند، در نتیجه بازنمایی هر کروموزوم به صورت آرایه­ای از اعداد اعشاری در نظر گرفته شد. از آنجایی که میانگین (µ) و انحراف معیار (σ) برای توابع عضویت گوسین، و مقادیر ابتدا و انتهای شیب (a، b) برای توابع S شکل و Z شکل، به عنوان پارامترهای این توابع می­باشند. در ادامه باید دامنه مقادیر هر یک از توابع عضویت تعیین گردد. برای این منظور با بررسی پایگاه­های تصویری متفاوت و مقادیر مختلف ویژگی­ها ، دامنه هر یک از توابع عضویت تعیین گردید. حال می­توان آماده سازی الگوریتم ژنتیک را آغاز نمود.

پس از تعیین نوع بازنمایی و طول هر کروموزوم، نوبت به ایجاد جمعیت اولیه برای الگوریتم ژنتیک می‌رسد. الگوریتم تولید جمعیت اولیه بدین گونه طراحی شد که هر پارامتر به صورت تصادفی در بازه­ی مربوط به آن پارامتر مقداردهی می­شود. یکی از موارد مهم در تولید جمعیت اولیه، عدم ایجاد تَکال­های (کروموزوم­های) ناصحیح است، بدین معنی که تکال ایجاد شده که به عنوان یک کاندید برای جواب مسئله می­باشد باید شرایط یک جواب صحیح برای مسئله را داشته باشد. برای رسیدگی به این موضوع شرایطی در الگوریتم تولید جمعیت اولیه درنظر گرفته شد تا در نتیجه پارامترهای توابع عضویت به گونه‌ای انتخاب گردند که برای یک مقدار از ویژگی، دو تابع عضویت درجه تعلق “یک” را گزارش ننمایند. البته از ایجاد پارامترهایی که باعث توی هم­رفتگی بیش از حد توابع عضویت می­شوند نیز جلوگیری می­شود.

۳-۴-۳-روش پیشنهادی در این تحقیق

همان­طور که اندازه خوشه در طی افزایش کاربران وب افزایش می­یابد، نیاز به بهینه­سازی خوشه­ها اجتناب ناپذیر خواهد بود. در این بخش یک متدولوژی بهینه­سازی خوشه بر اساس خوشه­بندی فازی K-Means ارائه خواهد شد. از آنجا که در سیستم استنتاج فازی تعیین پارامترهای توابع عضویت، تأثیر مهمی در دقت نهایی خوشه­بندی دارد. بنابراین در این سیستم برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده می‌شود. با این کار، دقت خوشه­بندی صفحات وب نیز تا حد زیادی افزایش خواهد یافت.

۳-۴-۴-شمای کلی سیستم پیشنهادی

با توجه به توضیحات بیان شده در بخش‌ ‏۳-۴-، شمای کلی سیستم پیشنهادی شخصی­سازی صفحات وب در شکل ۳-۵ نشان داده شده است.

 

 

 

 

 

شکل ۳-۵: شمای کلی سیستم پیشنهادی

 

۳-۴-۵-مثالی از سیستم پیشنهادی

در این پایان نامه همان­طور که در بخش قبلی گفته شد از روش خوشه­بندی فازی- سی­مینز برای خوشه­بندی صفحات وب استفاده می­شود. همچنین الگوریتم ژنتیک را برای بهینه کردن پارامترهای توابع عضویت به کار برده می­شود. برای درک بهتر ،روش پیشنهادی بر روی مثال زیر اجرا می شود.

ابتدا داده های آموزشی وارد مرحله خوشه بندی فازی می شوند. یک مثال از داده آموزشی در زیر آورده شده است:

۱۰۰۰۰۰۰ ۱۵ ۲۸ ۱۰۰ ۳۴۵۷۳۶۳۰
۱۰۵۰۹۸۱۳ ۰ ۲۰ ۰ ۳۴۵۷۳۶۳۰
۳۴۱۷۵۲۶۷ ۰ ۳۱ ۶ ۳۴۵۷۳۶۳۰
۲۳۳۸۸۲۳ ۱ ۴۰ ۲۵۰ ۳۴۵۷۳۶۳۰
۱۰۰۰۰۰۰ ۲۲ ۲۹ ۱۰۰ ۳۴۵۷۳۶۳۴
۳۵۳۵۵۲ ۰ ۴۰ ۰ ۳۴۵۷۳۶۳۴

 

  • ستون اول از سمت چپ شماره نشست­های مختلف می­باشد.
  • ستون دوم مدت زمان سپری شده از شروع جلسه است.
  • ستون سوم نوع فعالیت کاربر را نشان می­دهد. مثلاً اینکه کلیک اتفاق افتاده یا فعالیت کاربر پرس و جو است.
  • ستون چهارم یک شناسه منحصر به فرد از موتور جستجویی که صفحه وب مورد نظر را پیدا کرده نشان می­دهد.
  • ستون پنجم یک شناسه منحصر به فرد از کاربر را نشان می­دهد.

در این پایان نامه قصد داریم تا بر اساس شماره نشست صفحات وب را خوشه ­بندی نماییم.

فاکتور اصلی در انتخاب روش خوشه بندی، مقیاس پذیری روش در برابر دیتاست­های بزرگ است. برای اکثر روش های مدل­سازی، زمان مورد نیاز برای کامپایل داده­ها در یک مدل می­تواند، زیاد باشد. بنابراین باید مستقل از پارامترهای کنترل کاربر باشد. علاوه بر این تکنیک مدل­های مطلوب باید در برابر نویز مقاوم باشد. رفتار کاربر در وب نامعین است، هر کاربر ممکن است صفحات­های مشابه­ای را برای اهداف مختلف ملاقات کند و هر زمانی که کاربر به سایت دسترسی دارد، او ممکن است اهداف مختلفی داشته باشد. علاوه بر این کاربر مشابه در یک دوره مشابه ممکن است اهداف مختلف داشته باشد. در نتیجه الگوریتم­های خوشه­بندی فازی برای حل این مسائل و کندوکاو مناسب است. بنابراین ما در این تحقیق برروی روش خوشه بندی فازی تمرکز داریم. بنابراین برای خوشه­بندی این داده ها با استفاده از الگوریتم فازی- سی مینز می­پردازیم.

در مرحله تعیین  تابع عضویت فازی، از الگوریتم ژنتیک برای بهینه­سازی پارامترها و ورودی­ها  استفاده می­کنیم. الگوریتم ژنتیک ،یک نوع الگوریتم جستجو و بهینه­سازی با مزیت هوش مصنوعی و خودیادگیری می­باشد که فرآیند تکاملی بیولوژیکی را شبیه­سازی می­کند(Ya-ling Tang & Feng Qin,2010). جمعیت اولیه ژنتیک به طور تصادفی انتخاب می­شود .سپس تابع شایستگی با استفاده از جمعیت اولیه و پارامترهای ورودی تابع عضویت محاسبه می­شود. به منظور حل هر مسئله با استفاده از الگوريتم‏هاي ژنتيكي, ابتدا بايد يك تابع شایستگی براي آن مسئله ابداع شود. براي هر كروموزوم, اين تابع عددي غير منفي را برمي‏گرداند كه نشان دهنده شايستگي يا توانايي فردي آن كروموزوم است.در این پایان­نامه،تابع شایستگی، KNN Classify می­باشد.

در الگوريتم‏هاي ژنتيكي, در طي مرحله توليد­مثل[۸] ازعملگرهاي ژنتيكي استفاده مي‏شود. با تأثير اين عملگرها بر روي يك جمعيت, نسل[۹] بعدي آن جمعيت توليد مي‏شود. عملگرهاي انتخاب[۱۰] , آميزش[۱۱]  و جهش[۱۲] معمولاً بيشترين كاربرد را در الگوريتم‏هاي ژنتيكي دارند.

 

پس از مرحله تعیین شایستگی هر کروموزوم، با استفاده از عملگر انتخاب، از بين كروموزوم‏هاي موجود در يك جمعيت, تعدادي كروموزوم را براي  توليد مثل انتخاب مي­كند. Elitist Selectionروشی است که برای انتخاب در نظر گرفته شده است. در این روش، مناسب‌ترین عضو هر اجتماع انتخاب می‌شود. با توجه به مقدار شایستگی که از تابع شایستگی دریافت کرده است.

عملگر بعدی، کراس اور است که این عملگر به صورت اتفاقی بخش­هایی از کروموزوم را با یکدیگر تعویض می­کند.این عملگر باعث می­شود که فرزند ترکیبی از خصوصیات والدین خود را داشته باشد .در این تحقیق از کراس اور چهار نقطه­ای استفاده می­شود، یعنی در این مرحله کروموزوم­ها به چهار گروه تقسیم می­شوند و در هر مرحله این عملیات ادامه می یابد.

در مرحله بعد عملگرجهش انجام می­شود و دوباره تابع شایستگی برروی داده­های مرحله قبل اجرا می­شود. در عملیات جهش، عملگر جهش به صورت تصادفی کروموزومی را از فرزندان انتخاب می­کند و شکل آن را تغییر می­دهد. وجود این عملگر به منظور اجتناب از نقاط بهینه­ی محلی ضروري است. از جمله روش­هاي جهش می­توان به دو روش تبادلی و تصادفی اشاره کرد. در جهش تبادلی، دو ژن[۱۳] از یک کروموزوم انتخاب و با هم جابه جا می­شوند. در جهش تصادفی مقدار ژن انتخابی با مقداري تصادفی جایگزین می­گردد(Gonzales & Mabu & Taboada & Hirasawa,2010).

از آنجا که الگوریتم ژنتیک یک روش جستجوي تصادفی است، نمی­توان از رسیدن به بهترین جواب مطمئن بود . لذا، وجود شرایطی براي توقف الگوریتم ضروري است. بنابراین شرط توقف الگوریتم ژنتیک به  صورت زیر است:

If       ۱/iteration_fitness(i)  <  ۰٫۰۰۰۰۰۱
break;
end

یعنی اگر مقدار تابع شایستگی  که در هر مرحله محاسبه می­شود از مقدار ۰٫۰۰۰۰۰۱ کمتر باشد، الگوریتم متوقف می­شود. در نهایت یک جمعیت نهایی در خروجی دست می آید که این همان مقادیر بهینه برای ورودی تابع عضویت است. در مرحله بعد ادامه الگوریتم خوشه­بندی فازی ادامه می­یابد، تا خوشه­ها مشخص شوند. در این مرحله خوشه­های مشخص شده در یک جدول به نام جدول ایندکس نگه داشته می­شود.

با توجه به این مثال جدول ایندکس داده های آموزشی به صورت زیر به دست می آید:

 

خوشه ۱

 

۱۰۵۰۹۸۱۳ ۰ ۲۰ ۰ ۳۴۵۷۳۶۳۰
۳۴۱۷۵۲۶۷ ۰ ۳۱ ۶ ۳۴۵۷۳۶۳۰
۲۳۳۸۸۲۳ ۱ ۴۰ ۲۵۰ ۳۴۵۷۳۶۳۰
۱۰۰۰۰۰۰ ۲۲ ۲۹ ۱۰۰ ۳۴۵۷۳۶۳۴

 

 

خوشه ۲

 

۱۰۰۰۰۰۰ ۱۵ ۲۸ ۱۰۰ ۳۴۵۷۳۶۳۰
۳۵۳۵۵۲ ۰ ۴۰ ۰ ۳۴۵۷۳۶۳۴

 

با توجه به توضیحات داده شده، در شکل ۳-۶  مراحل روش پیشنهادی بر روی داده­های آموزشی نشان داده شده است.

 

 

 

 

 

 

داده های آموزشی

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

شکل ۳-۶: خوشه­بندی داده­های آموزشی

 

 

در مرحله­ی تست یک نمونه آزمایشی از صفحات وب که بر اساس شماره­ی نشست مرتب شده است،  وارد سیستم می­شود. یک مثال از داده آزمایشی در زیر آورده شده است:

 

۱۰۰۰۰۰۰ ۱۵ ۲۸ ۱۰۰ ۳۴۵۷۳۶۳۰
۱۰۵۰۹۸۱۳ ۰ ۲۰ ۰ ۳۴۵۷۳۶۳۰
۳۴۱۷۵۲۶۷ ۰ ۳۱ ۶ ۳۴۵۷۳۶۳۰
۱۰۰۰۰۰۰ ۰ ۴۰ ۱ ۳۴۵۷۳۶۳۴

 

سپس تمام مراحلی که برای داده های آموزشی انجام می­شود، بر روی داده­های آزمایشی نیز تکرار می­شود تا این داده ها نیز خوشه­بندی شوند. با توجه به این مثال جدول ایندکس داده­های آزمایشی به صورت زیر به دست می آید:

 

خوشه ۱
۱۰۰۰۰۰۰ ۱۵ ۲۸ ۱۰۰ ۳۴۵۷۳۶۳۰
۱۰۵۰۹۸۱۳ ۰ ۲۰ ۰ ۳۴۵۷۳۶۳۰
۳۴۱۷۵۲۶۷ ۰ ۳۱ ۶ ۳۴۵۷۳۶۳۰

 

 

 

خوشه ۲
۱۰۰۰۰۰۰ ۰ ۴۰ ۱ ۳۴۵۷۳۶۳۴

 

در مرحله آخر با توجه به نمونه تست و خوشه­های به دست آمده در مرحله آموزش، خوشه پیش بینی شده  و در نهایت صفحات پیش­بینی شده مشخص می­شود. همچنین دقت خوشه­بندی (درصد شباهت خوشه بندی داده های آزمایشی نسبت به خوشه بندی داده­های آموزشی) مشخص می­شود.

در شکل ۳-۷  خوشه­بندی داده­های تست نشان داده شده است.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

شکل ۳-۷: خوشه­بندی داده­های تست

 

 

 

۳-۴-۶-شبه کد روش پیشنهادی

شبه کد روش پیشنهادی که ترکیبی از الگوریتم ژنتیک و فازی سی-مینز می­باشد،به شرح زیر است:

%Fuzzy C-Means and GA

Begin

%  load Dataset

load yandex.txt;

data = yandex;

%  Clustering of web pages using Fuzzy C-Means  and GA.

ndata = size(data, 1)       % number of data

ndim = size(data, 2)        % number of dimension

%Determine the parameters of membership functions using GA

%Create  Initial  Population

population(pop,j) =round(rand);

% CrossOver

childs= Crossover_N_Point(population(:,1:gen_no-1), 4, Pc);

% Mutation

childs= Mutation_Inversion_Permutation(population(:,1:gen_no-1), Pm);

% Create fitness

child(:,gen_no) =Fitness(DataSet_Y,child(:,1:gen_no-1),DataSet);

% Fuzzy Clustring With  Membership_matrix

Fuzzy-Cmeans(Membership_matrix,…);

ndata = size(U, 1);

disc = mahaldist(centroid, centroid, W)+eye(nclass).*1/eps;

% calculate confusion index

CI = confusion(nclass,data1,U);

% perform fuzzy linear discriminant analysis

scaling=2;

[F,WC,BC,wilks,V,e,vexp,z,zc]=flda(data1,nclass,U,centroid,phi,scaling);

% To test the allocate function

% to allocate say new data into existing centroid

[U, dist, obj] = fuzall(data1,phi,centroid,distype,W);

END.

 

۳-۵- جمع­بندی

در این فصل مهم­ترین کارهای انجام گرفته در زمینه­ی بهبود مدل­سازی کاربر در شخصی‌سازی وب بررسی شدند. کارهای انجام گرفته براساس رویکرد معنایی که مبتنی بر رده­بندی هستند را به دو دسته­ی کلی می­توان تقسیم کرد. دسته­ی اول کارهایی هستند که از یک واژگان­شناختی عمومی مانند WordNet استفاده کرده­اند. نقطه­ی ضعف این کارها پوشش کم از مفاهیم خاص دامنه و موجودیت­های نامدار است که باعث انتخاب مفاهیم کلی به‌عنوان علایق کاربر می­شود. دسته­ی دوم کارهایی هستند که از یک واژگان شناختی دست­ساخته بهره می­برند. علی­رغم دقت خوب این روش­ها، تمامی آن­ها برای دامنه­های بسیار محدود (مثلاً یک وب­سایت فروش فیلم) ارائه شده­اند و فرض اساسی آن­ها وجود رده­بندی از وب­سایت است. یک وب­سایت خبری گسترده و چندزبانه را در نظر بگیرید که قصد دارد سرویس­های شخصی‌سازی شده ارائه دهد. هیچ یک از این گونه روش­ها را نمی­توان در این مورد به کار برد.

متاسفأنه دیده می­شود که هر یک از مقالات از معیار جداگانه ای برای ارزیابی استفاده می­کنند و در برخی مقالات هیچ­گونه ارزیابی دیده نمی­شود. به علاوه، به دلیل عدم وجود مجموعه داده­های استاندارد در این حوزه، امکان مقایسه­ی منصفانه­ای بین روش­ها وجود ندارد. همچنین به دلیل منحصر به فرد بودن محیط آزمایشگاهی هر مقاله، در بیشتر مقالات مقایسه­ای با کارهای دیگران به چشم نمی­خورد. این مشکلات، مهم­ترین موانع تحقیقاتی در این حوزه را تشکیل می­دهند که به اتخاذ تصمیمی جدی از سوی جامعه­ی تحقیقاتی این حوزه برای حل آن­ها نیاز دارند.

در ادامه فصل، به ارائه روش­های نوینی برای خوشه­بندی صفحات وب پرداخته شد که از ترکیب سیستم فازی و الگوریتم ژنتیک استفاده کرده‌اند. با ارائه رویکرد پیشنهادی مبتنی بر بهینه­سازی خوشه با استفاده از منطق فازی و الگوریتم­های تکاملی برای شخصی­سازی وب، سعی در برطرف کردن چالش های موجود در این حوزه شد.

همان­طور که اندازه خوشه در طی افزایش کاربران وب افزایش می­یابد، نیاز به بهینه­سازی خوشه­ها اجتناب ناپذیر خواهد بود. در این فصل سعی بر آن بود تا یک متدولوژی بهینه‌سازی خوشه براساس سیستم فازی ارائه شود. از آنجا که در سیستم استنتاج فازی تعیین پارامترهای توابع عضویت، تأثیر مهمی در دقت نهایی خوشه­بندی دارد، بنابراین در این سیستم برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده شد. با این کار، دقت خوشه­بندی صفحات وب نیز تا حد زیادی افزایش یافته است، بنابراین در این فصل سعی شد تا حد امکان مشکلات ذکر شده در روش­های قبلی برطرف شوند.

 

 

 

 

 

 

 

 

 

 

 

 

مراجع

[۱].      Abraham, A., & Ramos, V. (2003, December). Web usage mining using artificial ant colony clustering and linear genetic programming. In Evolutionary Computation, 2003. CEC’03. The 2003 Congress on (Vol. 2, pp. 1384-1391). IEEE.

 

[۲].      Bergmann, R., & Stahl, A. (1998). Similarity measures for object-oriented case representations (pp. 25-36). Springer Berlin Heidelberg.

 

[۳].      Castellano, G., Fanelli, A. M., Mencar, C., & Torsello, M. A. (2007, November). Similarity-based fuzzy clustering for user profiling. In Proceedings of the 2007 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology-Workshops (pp. 75-78). IEEE Computer Society.

 

[۴].      Castellano, G., Fanelli, A. M., Mencar, C., & Torsello, M. A. (2007, November). Similarity-based fuzzy clustering for user profiling. In Proceedings of the 2007 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology-Workshops (pp. 75-78). IEEE Computer Society.

 

[۵].      Dai, H. K., & Mobasher, B. (2002). Using ontologies to discover domain-level web usage profiles. Semantic Web Mining, 35.

 

[۶].      Dumais, S. T., Furnas, G. W., Landauer, T. K., Deerwester, S., & Harshman, R. (1988, May). Using latent semantic analysis to improve access to textual information. In Proceedings of the SIGCHI conference on Human factors in computing systems (pp. 281-285). ACM.

 

[۷].    Eirinaki, M., Mavroeidis, D., Tsatsaronis, G., & Vazirgiannis, M. (2006). Introducing semantics in web personalization: The role of ontologies. InSemantics, Web and Mining (pp. 147-162). Springer Berlin Heidelberg.

 

[۸].      Gabrilovich, E., & Markovitch, S. (2007, January). Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis. In IJCAI (Vol. 7, pp. 1606-1611).

 

[۹].      Gonzales, E., Mabu, S., Taboada, K., & Hirasawa, K. (2010, August). Web Mining using Genetic Relation Algorithm. In SICE Annual Conference 2010, Proceedings of (pp. 1622-1627). IEEE.

 

[۱۰].    Kosala, R., & Blockeel, H. (2000). Web mining research: A survey. ACM Sigkdd Explorations Newsletter۲(۱), ۱-۱۵٫

 

[۱۱].   M. Eirinaki, M. Vazirgiannis, I. Varlamis, “SEWeP: using site semantics and a taxonomy to enhance the Web personalization process”, Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, 2003.

 

[۱۲].    Minio, M., & Tasso, C. (1996, January). User modeling for information filtering on internet services: Exploiting an extended version of the umt shell. In UM96 Workshop on User Modeling for Information Filtering on the WWW (pp. 2-5).

 

[۱۳].    Nasraoui, O., Soliman, M., Saka, E., Badia, A., & Germain, R. (2008). A web usage mining framework for mining evolving user profiles in dynamic web sites.Knowledge and Data Engineering, IEEE Transactions on۲۰(۲), ۲۰۲-۲۱۵٫

 

[۱۴].    P. Achananuparp, H. Han, O. Nasraoui and R. Johnson, “Semantically Enhanced User Modeling”, Proceedings of the 2007 ACM Symposium on Applied Computing (Seoul, Korea, March 11 – 15, 2007). SAC ’07. ACM, New York, NY, 1335-1339.

 

[۱۵].    Rada, R., Mili, H., Bicknell, E., & Blettner, M. (1989). Development and application of a metric on semantic nets. Systems, Man and Cybernetics, IEEE Transactions on۱۹(۱), ۱۷-۳۰٫

 

[۱۶].    Singh, V. K., Tiwari, N., & Garg, S. (2011, October). Document clustering using k-means, heuristic k-means and fuzzy c-means. In Computational Intelligence and Communication Networks (CICN), 2011 International Conference on (pp. 297-301). IEEE.

 

[۱۷].    Suryavanshi, B. S., Shiri, N., & Mudur, S. P. (2006, June). Analysis of Fuzzy Clustering Techniques Used for Web Personalization. In Fuzzy Information Processing Society, 2006. NAFIPS 2006. Annual meeting of the North American (pp. 335-340). IEEE.

 

[۱۸].    Tang, Y. L., & Qin, F. (2010, July). Research on web association rules mining structure with genetic algorithm. In Intelligent Control and Automation (WCICA), 2010 8th World Congress on (pp. 3311-3314). IEEE.

 

 

 

 

 

 

 

 

فصل چهارم:

شبیه‌سازی­ و نتایج حاصل از آن

 

 

 

 

 

 

 

 

۴-۱- مقدمه

در این فصل جزئیات پیاده­سازی روش پیشنهادی شرح داده می­شود. هدف این فصل، درج شبه کد یا کد اصلی برنامه­ها نمی­باشد، بلکه معرفی محیط عملیاتی و ابزارهای به کار رفته، مورد توجه است. آشنایی با ابزارهای قدرتمند و مناسب در زمینه­های مختلف کار تحقیقاتی، در سرعت و دقت و اعتبار کار تأثیر زیادی دارد. ابزارهای به کار رفته در این پایان‌نامه، ابزارهایی هستند که در آزمایشگاه­های افراد معتبر این زمینه­ی تحقیقاتی توسعه یافته­اند و در پیاده‌سازی مقالات از آن­ها استفاده می­شود. نحوه­ی آشنایی با آن­ها نیز از طریق مقالات معتبر و صفحات وب نویسندگان آن­ها و آزمایشگاه­های تحقیقاتی آن­ها بوده است. همان‌طور که در فصل پیش گفته شد، در این پایان نامه فرض شده است که یک وب­سایت با تمامی صفحات و ثبت‌های کاربران آن در دسترس می­باشد. در ادامه، نکات مهم پیاده­سازی هر یک از مؤلفه­های سیستم شرح داده می­شود. همچنین در این فصل آزمایشات انجام شده برای ارزیابی روش پیشنهادی ارائه می­شوند. ابتدا مجموعه داده­های مورد استفاده و ویژگی‌های آن مورد بررسی قرار می­گیرد و سپس پارامترهای ارزیابی معرفی می­شوند. در ادامه، آزمایشات انجام شده و نتایج آن­ها گزارش می­شود. در پایان نیز نتایج آزمایشات مورد بررسی و تحلیل قرار می­گیرند.

۴-۲- مجموعه داده­ها

یکی از مشکلات بزرگ تحقیقاتی در حوزه­ی شخصی­سازی وب، کمبود مجموعه داده­های استاندارد می‌باشد. به دلیل مسأله­ی خصوصی بودن، معمولاً ثبت­های وب سرورها در دسترس عموم قرار نمی­گیرد. این مسأله خصوصاً موقعی حادتر می­شود که به اطلاعات محتوای سایت نیز نیاز باشد. تمامی مجموعه داده­های موجود، متعلق به چندین سال پیش می­باشند و صفحات ارجاع شده به آن­ها اگر هم موجود باشد، قطعاً بسیار تغییر یافته است و از این رو برای ارزیابی مناسب نمی­باشد از جمله  [Depaul CTI data] و [Perkowitz data] .

از سوی دیگر در تمامی مقالاتی که از محتوای صفحات وب برای بهبود مدل کاربر استفاده کرده­اند، داده­ها مربوط به وب­سایت دانشکده و دانشگاه نویسندگان مقالات و یا یک وب سایت تجارت الکترونیکی فروش محصولات به صورت برخط می­باشد که هیچ یک از این دو مورد در دسترس عموم قرار ندارد.

در این پایان­نامه از دیتاست YANDEX برای ارزیابی روش پیشنهادی استفاده می‌شود. این دیتاست دارای ویژگی­ها و مشخصاتی می­باشد که در ادامه  به شرح  آن پرداخته می‌شود.

۴-۲-۱-دیتاست YANDEX

این دیتاست شامل جلسات کاربر استخراج شده از لاگ­های یاندکس همراه با آیدی­های کاربر، پرس­و­جوها، اصطلاحات پرس­و­جو، دامنه­هایش، رتبه­بندی آدرس­ها و کلیک­ها می­باشد. برای کاهش حریم خصوصی کاربر، داده­ها به طور کامل ناشناخته خواهند ماند. تنها شناسه­های عددی بی­معنی کاربران، پرس­و­جوها، اصطلاحات پرس­­جو، جلسات و دامنه­هایشان منتشر می­شوند. پرس­و­جو­ها توسط جلسات، گروه­بندی می­شوند.

ویژگی های قابل توجه این دیتاست عبارتند از:

  • پرس­و­جوها­ی منحصر به فرد: ۲۱,۰۷۳,۵۶۹
  • آدرسURL ­های منحصر به فرد: ۷۰۳,۴۸۴,۲۶
  • کاربران منحصر به فرد : ۵,۷۳۶,۳۳۳
  • جلسات آموزش : ۳۴,۵۷۳,۶۳۰
  • جلسات تست : ۷۹۷,۸۶۷
  • کلیک در داده آموزش : ۶۴,۶۹۳,۰۵۴
  • مجموع رکوردها در این لاگ : ۱۶۷,۴۱۳,۰۳۹

۴-۲-۱-۱-    پیش پردازش انجام شده با مجموعه داده­های خام قبل از انتشار

لاگ­ها مربوط به دو سال قبل هستند و یک ماه فعالیت جستجو را نشان می­دهند.

پرس­و­جوها و کاربران تنها از یک منطقه (یک شهرستان بزرگ) نمونه­برداری شده­اند.

جلسات شامل پرس­و­جوهایی با هدف تجاری که به طور اختصاصی با دسته­بندی کننده یاندکس شناسایی شدند، حذف می­شوند.

جلسات با بیش از k  پرس­و­جومحبوب­تر، حذف می­شوند. همچنین K، اعلام نشده است.

دوره آموزشی با شرکت­کنندگان مربوط به ۲۷ روز فعالیت جستجو به اشتراک گذاشته شده است. سه روز بعدی مربوط به دوره تست می­باشد.

برای هر کاربر از دوره تست، تمام پرس­و­جوها از دوره تست با حداقل یک کلیک با زمان ماندگاری بیش از ۵۰ واحد زمانی توقف، دریافت شده است. (بنابراین، سند کلیک شده، بسیار مرتبط با تعریف مربوطه از ارتباط شخصی می­باشد.) از این مجموعه پرس­و­جوها، همه پرس­و­جوها با دو یا چند کلیک که در یک واحد زمان اجرا می­شوند، فیلتر شده است. سرانجام از مجموعه نتایج پرس­و­جوها، تنها یک پرس­و­جوها به طور یکنواخت نمونه­برداری شده و آن  به عنوان پرس­و­جوتست در نظر گرفته شده است.

اگر پرس­و­جو نمونه یک متن کوتاه مدت نداشته باشد (اولین پرس­و­جو در جلسه) و کاربری که این پرس و جو را درخواست می­کند، در دوره آموزش جلسات، جستجو نداشته باشد، این پرس­و­جو از مجموعه تست حذف می­شود (متن­های که نه کوتاه مدت باشند و نه بلند مدت برای شخصی­سازی مفید هستند). هیچ کدام از فعالیت­های کاربر که بعد از پرس­و­جوی تست انجام شده، اعلام نخواهد شد. اما، فعالیت­های کاربر انجام شده در همان جلسه، قبل از پرس­و­جوی تست فراهم می­شود.

لاگ، یک جریان از فعالیت­های کاربر را نمایش می­دهد که در آن هر خط یک فراداده جلسه، یک فعالیت پرس­و­جو، و یا یک فعالیت کلیک را نمایش می­دهد. هر خط شامل مقادیری است که با فاصله از هم جدا شده­اند و طبق فرمت زیر می­باشد:

فراداده جلسه (نوع رکورد=M)

SessionID     TypeOfRecord    Day    USERID

فعالیت پرس و جو (نوع رکورد=Q یا T)

 

SessionID   TimePassed   TypeOfRecord   SERPID   QueryID    ListOfTerms ListOfURLsAndDomains

فعالیت کلیک (نوع رکورد=C)

SessionID   TimePassed   TypeOfRecord   SERPID   URLID

SessionID یک شناسه منحصر به فرد از یک جلسه جستجو است.

Day شماره روز در داده­ها می­باشد.

TypeOfRecord نوع رکورد لاگ را نشان می­دهد. این یک پرس­و­جو (Q,T)، یک کلیک (C)، یا فرا داده را وارد نمایید.  حرف T، تنها برای پرس­و­جو­های تست به کار می رود.

UserID یک شناسه منحصر به فرد از یک کاربر را نشان می­دهد.

TimePassed، زمان سپری شده از شروع جلسه با SessionID در واحد زمان است. ما اعلام نکردیم که چند میلی ثانیه در واحد زمان قرار دارد.

QueryID، یک شناسه منحصر به فرد از یک پرس­و­جو است.

رکوردهای پرس و جو که با   T=TypeOfRecordبرچسب­دار شدند، پرس­و­جو­های تست هستند. رتبه‌بندی شخصی­سازی شده برای این پرس­و­جوها باید همان­طور که در بخش تکاملی شرح داده شده، ارائه شوند. برای راحتی، جلسات با پرس­و­جوهای تست در فایل جداگانه قرار می­گیرند.

ListOfTerms، یک لیست با کاما جداشده از عبارت پرس­و­جو است که به وسیله TermID هایش نمایش داده می­شود.

SERPID، یک شناسه منحصر به فرد از موتور جستجو است که یک صفحه را در سطح جلسه نتیجه می‌دهد.

TermId، یک شناسه منحصر به فرد از یک عبارت پرس­و­جو است.

URLID، یک شناسه منحصر به فرد از یک URL است.

ListOfURLsAndDomains، جفت URLID­ها با کاما از هم جداشده است و مطابق با DomainId می­باشد. این بخش با فاصله از هم جدا شده و مرتب شده از چپ به راست می­باشد و کاربر از بالا به پایین نمایش داده شده است.

مثال:

۷۴۴۸۹۹   M   ۲۳   ۱۲۳۱۲۳۱۲۳

۷۴۴۸۹۹   ۰   Q   ۰   ۱۹۲۹۰۲ ۴۸۵۷, ۳۸۴۷, ۲۹۳۹ ۶۳۲۴۲۸,۲۳۸۴ ۳۰۹۵۸۵,۲۸۳۷۴ ۳۱۹۵۶۷,۳۸۷۲۴,۶۵۴۷,۲۸۷۴ ,۲۰۲۶۴,۲۳۳۲ ۳۰۹۴۴۴۶,۳۴۵۳۵ ۹۰,۲۱ ۸۴۱,۲۳۱ ۸۳۴۴,۲۳۴۲ ۱۱۹۵۷۱,۴۵۷۶۷

۷۴۴۸۹۹   ۱۴۰۳  C  ۰   ۶۳۲۴۲۸

 

این رکوردها، جلسه (SessionID=744899) کاربر  با شماره­ی کاربری ۱۲۳۱۲۳۱۲۳ روز ۲۳ ام دیتاست شرح می­دهد. کاربر، پرس­و­جو با شماره پرس و جو ۱۹۲۹۰۲ که شامل عبارت­هایی با شماره­ی عبارت ۴۸۵۷,۳۸۴۷,۲۹۳۹  می­باشد. URL با شماره­ی ۶۳۲۴۲۸ روی حوزه DomainID ، ۲۳۸۴  در بالای نتایج روی SERP مربوطه قرار می­گیرد. ۱۴۰۳ واحد زمان پس از شروع جلسه که کاربر روی نتایج با شماره­ی URL ،۶۳۲۴۲۸ کلیک کرده است (ابتدا در این لیست مرتب شده است).

۴-۳- پارامترهای ارزیابی

در کارهای انجام شده­ی مربوط به این زمینه، از آنجا که هر مقاله داده­های خاص خود را دارد و واژگان‌شناختی مربوطه نیز به صورت دستی در هر یک ایجاد شده است، نمی­توان مقایسه­­ی مناسبی بین روش­ها انجام داد. از سوی دیگر ایجاد واژگان شناختی برای مجموعه داده مورد استفاده در این پایان­نامه به صورت دستی غیر ممکن بوده است و از این رو، روش ارزیابی مورد استفاده در این پایان­نامه همان است که در تمامی مقالات این حوزه انجام می­شود. در این پایان­نامه خروجی نهایی سیستم پیشنهادی یعنی همان بردار مفاهیم، مورد ارزیابی قرار می­گیرد. برای این منظور تعداد ۱۰۰ جلسه­ به صورت تصادفی انتخاب شده است. برای شبیه‌سازی رفتار انسان، تمامی مفاهیمی که وزن آن­ها کمتر از یک اختلاف ثابت (۲۰%) از مفهوم دارای بیشترین وزن در جلسه­ی کاربر بوده است، حذف شده­اند. از این رو کل عملکرد سیستم مورد ارزیابی قرار می­گیرد و نه تنها مؤلفه­ی نگاشت. دلیل نگاشت جلسات به صورت منفرد توسط سیستم، آن است که در مجموعه داده­ی مورد نظر، نمی­توان کاربران را به صورت یکتا شناسایی کرد و از سوی دیگر این امر خللی به کار وارد نمی­کند، چون همان­طور که اشاره شد، وزن مفاهیم از میانگین وزن آن­ها در کل جلسات کاربر به دست می­آیند؛ و از این رو اگر نگاشت جلسات به مفاهیم به درستی انجام شود، نتیجه­ی مطلوب حاصل شده است. به عبارت دیگر، آنچه مهم است نگاشت صحیح جلسات به مفاهیم است.

برای ارزیابی این پایان­نامه، از دقت خوشه­بندی برای شخصی­سازی صفحات وب استفاده می­شود. در اینصورت مقدار مورد نظر برای پارامتر دقت خوشه­بندی  به صورت زیر محاسبه می­شود:

دقت خوشه­بندی: عبارت است از نسبت تعداد خوشه­های درست طبقه­بندی شده به تعداد کل خوشه­ها:

(۴-۱)

که در رابطه بالا، منظور از R، تعداد خوشه­های درست طبقه­بندی شده و منظور از S، تعداد کل خوشه­ها  می­باشد.

۴-۴- آزمایشات انجام شده

دو آزمایش در این پایان­نامه انجام گرفته است. در هر دو از آزمایش از دیتاست  YANDEاستفاده شده است. آزمایش اول، مربوط به سیستم پیشنهادی با استفاده از روش خوشه­بندی فازی است. آزمایش دوم، مربوط به سیستم پیشنهادی با استفاده از روش خوشه­بندی فازی و الگوریتم ژنتیک است. در واقع مدل پیشنهادی در آزمایشات ۱ و ۲ ارزیابی می­شود و سپس نتایج آن ها با هم مقایسه می­شود. همان­طور که در فصل­های قبل بدان اشاره شد، استفاده از الگوریتم ژنتیک در تولید پارامترهای توابع عضویت منجر به افزایش دقت خوشه­بندی و در نهایت شخصی­سازی صفحات وب می­شود.

۴-۴-۱-سخت افزار مورد استفاده

اين آزمايشات با استفاده از يک پردازنده پنتيوم Dual-Core، حافظه دو گیگابايت و سيستم عامل ويندوز۷، انجام گرديده است. همچنین از نرم افزار MATLAB نسخه ۲۰۰۹a  استفاده شده است.

۴-۴-۲-نتایج آزمایشات

جدول ۴-۱، نتایج دو آزمایش انجام شده را نشان می­دهد. مقادیر متوسط دقت (Average Precision) پس از محاسبه­ی دقت، برای هر جلسه از ۱۰۰ جلسه­ی مورد ارزیابی و گرفتن میانگین بدست آمده­اند.

جدول۴-۱: نتایج آزمایشات انجام شده بر روی ۱۰۰ جلسه­­ی تصادفی

رویکرد میانگین دقت خوشه بندی
آزمایش۱: سیستم پیشنهادی با استفاده از خوشه­بندی فازی ۸۴%
آزمایش۲: سیستم پیشنهادی با استفاده از خوشه­بندی فازی و الگوریتم ژنتیک ۹۳%

 

 

همان­طور که از نتایج جدول ۴-۱، مشخص است، دقت سیستم پیشنهادی با استفاده از روش خوشه­بندی فازی و الگوریتم ژنتیک نسبت به سیستم پیشنهادی با استفاده از روش خوشه­بندی فازی بیشتر بوده است.

جدول۴-۲: مقایسه نتایج سیستم پیشنهادی با سایر روش­ها

رویکرد میانگین دقت خوشه بندی
شخصی­سازی وب مبتنی بر الگوهای دسترسی کاربر (Wang, & Yue, 2009) ۹۰%
شخصی­سازی وب مبتنی بر [۱۴]MWALRM

(Peng, & et. al., 2008)

۹۲%
شخصی­سازی وب مبتنی بر BVSM[15]

(Peng, & et. al., 2008)

۵۵%
سیستم پیشنهادی با استفاده از خوشه­بندی فازی ۸۴%
سیستم پیشنهادی با استفاده از خوشه­بندی فازی و الگوریتم ژنتیک ۹۳%

همان­طور که در جدول ۴-۲، مشاهده می­کنید، دقت سیستم پیشنهادی نسبت به سایر روش­ها بیشتر است.

در (Varghese, & John, 2012)، یک متد بهینه‌سازی خوشه‌بندی مبتنی بر منطق فازی ارائه شده است. آنها همچنین برای خوشه بندی صفحات وب از الگوریتم خوشه بندی فازی C-Means استفاده کردند.

ما در این پایان نامه، این مقاله را به عنوان مقاله پایه در نظر گرفته و در نهایت کار خود را با این روش مقایسه می کنیم.

جدول ۴-۳، نتایج سیستم پیشنهادی را با روش ارائه شده در (Varghese, & John, 2012) مقایسه می‌کند.

جدول ۴- ۳ مقایسه نتایج سیستم پیشنهادی با روش ارائه شده در (Varghese, & John, 2012).

رویکرد میانگین دقت خوشه بندی
شخصی­سازی وب با استفاده از الگوریتم Fuzzy cluster-chase (Varghese, & John, 2012) ۸۲%
سیستم پیشنهادی با استفاده از خوشه­بندی فازی ۸۴%
سیستم پیشنهادی با استفاده از خوشه­بندی فازی و الگوریتم ژنتیک ۹۳%

 

همانطور که در جدول ۴-۳ مشاهده می‌شود، روش پیشنهادی نسبت به روش ارائه شده در (Varghese, & John, 2012). بهتر توانسته صفحات وب را خوشه بندی نماید.

شکل۴-۱، روش‌های پیشنهادی شخصی­سازی وب با استفاده از منطق فازی را با روش ارائه شده در (Varghese, & John, 2012) را همراه با افزایش داده­های آموزشی مقایسه می­کند.

شکل ۴-۸: مقایسه روش های پیشنهادی با روش ارائه شده در (Varghese, & John, 2012).

۴-۵- جمع­بندی

پیاده­سازی، مرحله­ی مهمی در انجام کار تحقیقاتی به شمار می­رود و آن را برای محقق، به صورت قابل لمس در می­آورد. عدم آشنایی با ابزارهای مناسب و مورد قبول، از موانع مهمی می­باشد که می­تواند به شکست کار یا نتایج نامعتبر منجر شود. در این فصل ابزارهای به کار رفته در پیاده‌سازی این پایان‌نامه معرفی شدند. استفاده از این ابزارها باعث صرفه­جویی قابل توجهی در زمان و فعالیت لازم برای پیاده­سازی گردید. برای دسترسی به نسخه­های جدیدتر این ابزارها، خواننده می­تواند به مراجع یاد شده مراجعه کند.

در این فصل، مجموعه داده‌های مورد استفاده در آزمایشات انجام شده معرفی شد. سپس نتایج ارزیابی ارائه شد. در ابتدا دو روش پیشنهادی مورد ارزیابی واقع شد. همان­طور که گفته شد، در روش پیشنهادی با استفاده از خوشه­بندی فازی به دقت ۸۵% رسیدیم، در حالی که در روش پیشنهادی با استفاده از خوشه‌بندی فازی و الگوریتم ژنتیک به دقت ۹۳% رسیدیم. سپس به مقایسه روش­های پیشنهادی با سایر روش­ها پرداختیم. همان­طور که مطرح شد، دقت روش پیشنهادی با استفاده از خوشه­بندی فازی و الگوریتم ژنتیک قابل توجه بوده است.

مراجع

[۱]. Varghese, N. M., & John, J. (2012, October). Cluster optimization for enhanced web usage mining using fuzzy logic. In Information and Communication Technologies (WICT), 2012 World Congress on (pp. 948-952). IEEE.

 

[۲]. Peng, X., Cao, Y., & Niu, Z. (2008, December). Mining Web Access Log for the Personalization Recommendation. In MultiMedia and Information Technology, 2008. MMIT’08. International Conference on (pp. 172-175). IEEE.

 

[۳]. Xiao-Gang, W., & Yue, L. (2009, August). Web mining based on user access patterns for web personalization. In Computing, Communication, Control, and Management, 2009. CCCM 2009. ISECS International Colloquium on (Vol. 1, pp. 194-197). IEEE.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

فصل پنجم:

نتیجه‌گیری و پیشنهادات

 

 

 

 

 

 

 

 

۵-۱- مقدمه

در تحقیق حاضر، مسئله شخصی‌سازی وب مورد بررسی و تحلیل قرار گرفت. ابتدا به بیان مسئله اشاره گردید و سپس اهمیت موضوع و نوآوری آن همراه با روش تحقیق ذکر گردید. سپس به مروری بر کارهای انجام شده و منتشر شده در پایگاه­های اطلاعاتی معتبر دنیا در این خصوص پرداخته شد و کارهای مرتبط معرفی و بررسی گردیدند. در ادامه مراحل وب‌کاوی و انواع آن معرفی شد و سپس شخصی‌سازی وب مورد بررسی قرار گرفت و دلایل نیاز به آن بیان شد. همچنین مراحل اجرای شخصی سازی که به ترتیب عبارتند از: جمع‌آوری داده، پیش‌پردازش، کشف الگو، تحلیل دانش و شخصی‌سازی ذکر گردید. در ادامه نیز تکنیک‌های مدل­سازی کاربر در شخصی سازی وب بررسی شد. در نهایت خوشه‌بندی که مستلزم شخصی‌سازی وب است، معرفی شده و دو نوع خوشه‌بندی فازی و خوشه‌بندی با استفاده از الگوریتم ژنتیک و همچنین الگوریتم ترکیبی این دو روش معرفی و بررسی گردید و نقاط قوت و ضعف و همچنین دقت و صحت خوشه‌بندی این دو روش مورد مطالعه قرار گرفت و در نهایت به منظور بهینه‌سازی خوشه‌بندی در صفحات وب، یک روش جدید در این پایان‌نامه ارائه گردید. همان­طور که اندازه خوشه در طی افزایش کاربران وب افزایش می­یابد، نیاز به بهینه­سازی خوشه­ها اجتناب ناپذیر خواهد بود. مدل کاربر به عنوان یکی از اصلی ترین مؤلفه­های سیستم شخصی­سازی وب، اهمیت فراوانی دارد. چنان­چه هر چه این مدل به صورت بهتری ساخته شود، توصیه­هایی که بر مبنای آن انجام می­شود دقیق­تر و عمیق­تر خواهد بود. هدف از انجام این پروژه ارائه­ی روشی برای بهبود خوشه با استفاده از منطق فازی و الگوریتم ژنتیک برای شخصی سازی وب است. در این پایان‌نامه یک متدولوژی بهینه­سازی خوشه بر اساس خوشه­بندی فازی KMeans ارائه گردید. از آنجا که در سیستم استنتاج فازی تعیین پارامترهای توابع عضویت، تأثیر مهمی در دقت نهایی خوشه­بندی دارد. بنابراین در این سیستم برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده شد. با این کار، دقت خوشه­بندی صفحات وب نیز تا حد زیادی افزایش یافت.

با توجه به شبیه‌سازی‌های صورت گرفته در این تحقیق، نتایج مهمی حاصل گردید که در ادامه بدان اشاره می‌شود.

۵-۲- نتایج و دستاوردهای پروژه

با توجه به شبیه‌سازی‌های صورت گرفته، می‌توان به نتایج زیر رسید:

  • ارائه­ی یک سیستم جدید برای شخصی­سازی وب با استفاده از دیتاست YANDEX است.
  • مدل شخصی­سازی وب براساس کندوکاو لاگ­های دسترسی وب و با استفاده از تحلیل مدل از طریق آزمایشات انجام شده است.
  • روش پیشنهادی دقت و یادآوری بهتری نسبت به روش‌های دیگر همچون کار (Varghese, & John, 2012) دارد.
  • نتایج آزمایشات نشان می­دهد که روش پیشنهادی، شخصی­سازی وب مؤثر را با استفاده از اندازه‌گیری رضایت­مندی و قابلیت اجرایی بودن برای وضعیت­های از پیش تعریف شده بدست می‌آورد.
  • دقت سیستم پیشنهادی با استفاده از روش خوشه­بندی فازی و الگوریتم ژنتیک نسبت به سیستم پیشنهادی با استفاده از روش خوشه­بندی فازی بیشتر بوده است.
  • دقت سیستم پیشنهادی نسبت به روش‌های شخصی­سازی وب مبتنی بر الگوهای دسترسی کاربر (Wang, & Yue, 2009)، شخصی­سازی وب مبتنی بر [۱۶]MWALRM (Peng, & et. al., 2008)، شخصی‌سازی وب مبتنی بر BVSM[17] (Peng, & et. al., 2008) بیشتر است.

۵-۳- پیشنهادات

با توجه به کارهای انجام شده در منابع مختلف و همچنین روش پیشنهادی در این تحقیق و مقایسه این روش‌ها با هم، می‌توان پیشنهادات زیر را جهت انجام کارهای آتی ذکر کرد:

  • ترکيب اين روش با روش­هاي مدل­سازي StereoType

«Stereotype یکی از روش های توسعه‌پذیر در زبان مد‌‌لسازی است. یعنی با استفاده از  این روش می‌توان مفاهیم جدید به مدلسازی یا تشخیص مدل یا الگو اضافه کرد».

  • ترکيب اين روش با الگوريتم­هاي يادگيري و روش­هاي فيلترينگ

«در این روش از الگوریتم‌های یادگیری مانند درخت تصمیم، شبکه بیزین، ماشین بردار پشتیبان (svm) و غیره و الگوریتم‌های فیلترینگ مانند الگوریتم فیلترینگ همکاری، الگوریتم فیلترینگ براساس محتوی و غیره نیز استفاده شود».

  • استفاده از روش­های متاهیورستیک برای بهبود نتایج خوشه­بندی فازی

«در این روش از الگوریتم‌های متاهیورستیک دیگر مانند الگوریتم مورچگان، پرندگان، رقابت استعماری و غیره در بهینه‌سازی خوشه‌بندی خصوصاً در الگوریتم فازی استفاده شود».

  • استفاده از الگوریتم PSO به جای الگوریتم ژنتیک برای بهبود دقت خوشه بندی فازی
  • خوشه بندی صفحات وب با استفاده از الگوریتم جفت گیری زنبور عسل سلولی
  • استفاده از خوشه بندی هیبریدی مبتنی بر ازدحام ذرات و کرم شب تاب

 

 

 

 

 

 

 

 

 

 

مراجع

[۱]. Varghese, N. M., & John, J. (2012, October). Cluster optimization for enhanced web usage mining using fuzzy logic. In Information and Communication Technologies (WICT), 2012 World Congress on (pp. 948-952). IEEE.

 

[۲]. Peng, X., Cao, Y., & Niu, Z. (2008, December). Mining Web Access Log for the Personalization Recommendation. In MultiMedia and Information Technology, 2008. MMIT’08. International Conference on (pp. 172-175). IEEE.

 

[۳]. Xiao-Gang, W., & Yue, L. (2009, August). Web mining based on user access patterns for web personalization. In Computing, Communication, Control, and Management, 2009. CCCM 2009. ISECS International Colloquium on (Vol. 1, pp. 194-197). IEEE.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Abstract

 

Information overload is a major problem in the current web. To deal with this problem, web personalization systems are presented, which can adjust web’s services and contents according to the users’ interests and behavior. An essential element in any web personalization system is the user model. The aim of web Personalization is to retrieve services and contents for users, inferred from users’ past interactions. Currently, there are several available methods for clustering web personalization. These proposed methods have drawbacks in some cases. However, new techniques have been proposed to resolve these problems and improve them. However, in most of these techniques, there are issues of data redundancy and high scalability. As cluster size increases due to an increase in web users, the need for clusters optimization would be inevitable. In this thesis a cluster optimization methodology, which is based on fuzzy system is presented. Evaluations of experiments’ results show that the proposed method increases the accuracy of web pages clustering considerably.

 

Key words: Web Personalization, Clustering, Web Usage Mining, Fuzzy C-Means Algorithms, Yandex Dataset.

 

 

 

 

 

 

 

 

 

 

ISLAMIC AZAD UNIVERSITY

 

Science & Research Branch – Semnan

Thesis of: Computer engineering«M.Sc»

On: Software

Msc Thesis

 

Cluster Optimization Using Evolutionary Algorithms for Web Personalization

 

 

Advisor

Dr.Mohammad Karim Sohrabi

 

 

Supervisor

Dr.Farzin Yaghmaee

 

 

Author

Marziyeh Zolfaghari

 

 

 

Dec 2014

[۱]  http://www.internetworldstats.com

[۲] http://www.domaintools.com/internet-statistics/

[۳] Competitive Agglomeration for Relational Data

[۴] Fuzzy K-Means

[۵] Membership

[۶] Uncertainty

[۷] Crossover

[۸] Reproduction

[۹] Generation

[۱۰] Selection

[۱۱] Crossover

[۱۲] Mutation

[۱۳] Gen

[۱۴] Mining Web Access Log  Recommendation  Model

[۱۵] Basic user’s preference characteristics Vector Space  Model

[۱۶] Mining Web Access Log  Recommendation  Model

[۱۷] Basic user’s preference characteristics Vector Space  Model