پروژه : بررسي خوشه بند ي در داده کاوي
فرمت : word
تعداد صفحه : 53 قیمت : مبلغ ۸ هزار تومان
خوشه بندي داده، در فيلدهاي آمار، يادگيري ماشين و پايگاه داده با روشها و ديدگاههاي متفاوت مطالعه مي شود. روشهاي قبلي ارائه شده، بر پايه احتمال (بيشتر روشها در يادگيري ماشين) يا بر پايه فاصله (بيشتر روشها در آمار) مي باشند و به مساله بزرگ بودن مجموعه داده ها اهميت نداده اند. به ويژه در اين روشها مساله محدود بودن منابع (حافظه) و هزينه I/O مورد توجه نبوده است.
روشهاي برپايه احتمال: در اين روشها غالبا فرض بر اين است که توزيع احتمال بر روي ويژگيهاي مجزا بطور آماري و مستقل از هم مي باشد. البته اين فرض بسيار دور از واقعيت مي باشد. همبستگي بين ويژگيها وجود دارد و احتمال بهنگام سازي و ذخيره خوشه ها را بخصوص اگر ويژگيها داراي ارزشهاي متعدد باشند بسيار پرهزينه مي سازد. زيرا در اين حالت پيچيدگي، نه تنها بستگي به تعداد ويژگيها پيدا مي کند، بلکه به تعدد ارزش هر ويژگي نيز وابسته مي شود. از مسائل مورد توجه در اين روشها، درخت برپايه احتمال مي باشد که براي شناسايي خوشه هايي که high balanced نيستند ساخته مي شود و براي وروديهاي نامتقارت ممکن است باعث کاهش قابل توجهي در کارکرد شود.
روشهاي بر پايه فاصله: در اين روشها فرض بر اين است که تمام نقاط داده از قبل داده شده اند و مي توانند مکررا بررسي شوند. در اين روش از مساله متفاوت بودن اهميت مجموعه داده ها و اينکه نقاط داده نزديک به هم مي توانند بصورت يک مجموعه مورد بررسي قرار گيرند صرف نظر شده است. در اين روشها همواره بايد تمام نقاط، براي خوشه بندي بررسي شوند. بنابراين داراي مقياس پذيري خطي با زمان و کيفيت ثابت نمي باشند.
به عنوان مثال، با استفاده از روش شمارش، تقريبا KN/K! راه براي بخشبندي مجموعه نقاط N تايي به K زير مجموعه وجود دارد. روش بهينه سازي تکراري (IO) بايک بخش اوليه شروع مي شود. سپس در اين روش تمام نقاط قابل معاوضه از يک گروه به گروه ديگر براي بهبود ارزش تابع اندازه گيري آزمايش مي شوند. در اين روش، يافتن مينيمم محلي امکانپذير است اما کيفيت آن بر روي بخش انتخاب شده اوليه بسيار تاثيرگذار است و پيچيدگي زماني در اين روش نمايي است. در روش خوشه بندي سلسله مراتبي، بهترين خوشه ها شناسايي نمي شوند اما به مساله ادغام نزديکترين زوجها و جداسازي دورترين نقاط توجه شده است. اما پيچيدگي آن O(N2) مي باشد. بنابراين اين روش نيز با افزايش N کارا نمي باشد.
امروزه خوشه بندي، به عنوان روشي مفيد براي داده کاوي شناخته شده است. الگوريتم CLARANS بر پايه جستجوي تصادفي بوده و براي خوشه بندي آماري استفاده مي شود. در اين الگوريتم، هر خوشه با medoid مربوطه اش که داده اي است که بيش از بقيه به مرکز خوشه نزديک است ارائه مي شود. فرايند خوشه بندي بصورت جستجوي در گراف مي باشد. در اين گراف هر نود شامل k خوشه ( در واقع k ، medoid ) است. دو نود در صورتي همسايه اند که تنها در يک medoid متفاوت باشند. الگوريتم مربوطه با انتخاب يک نود به طور تصادفي شروع مي شود. و در آن شماره بزرگترين همسايه بررسي شده و اگر همسايه بهتر يافت شد به آن اضافه مي شود. در غير اين صورت نود جاري به عنوان مينيمم محلي ثبت مي شود و الگوريتم با انتخاب نود ديگري ادامه مي يابد. CLARANS پس از اينکه مينيمم محلي را يافت خاتمه مي يابد. CLARANS نيز مشکل روش IO را دارد. و ممکن است مينيمم محلي واقعي از طريق بيشرين همسايه يافته نشود. بعدها روشهايي براي بهبود کارايي CLARANS پيشنهاد شد اما آزمايشات نشان مي دهد که اين روشها زمان اجرا را بسيار ناچيز بهبود مي دهند............
امروزه، يافتن الگوهاي مفيد در مجموعه هاي داده بزرگ بسيار مورد توجه مي باشد و يکي از مسائل مهم و بسيار مورد توجه در آن شناسايي خوشه ها يا نواحي داراي جمعيت متراکم در مجموعه داده چند بعدي مي باشد. خوشه بند ي در داده کاوي براي کشف گروهها و شناسايي توزيع ها بسيار مفيد مي باشد.
در اين گزارش چهار روش مختلف براي خوشه بندي پايگاههاي داده بزرگ معرفي شده و با يکديگر و ديگر روشهاي موجود مقايسه مي شوند. به اين منظور در بخش دوم روش BIRCH شرح داده مي شود [ZRL96] و با روش پيش از خود (CLARANS [NH94]) مقايسه مي شود. اين روش، اولين الگوريتم خوشه بنديي است که نويز را نيز مديريت مي کند. سپس CURE معرفي شده [GRS98] و با الگوريتمهاي پيش از خود و BIRCH مقايسه مي شود. در بخش چهارم DBCLASD معرفي شده [XEK98] و با CLARANS و DBSCAN مقايسه مي شود. در بخش پنجم الگوريتمي موازي براي خوشه بندي سريع پايگاههاي داده بزرگ معرفي مي شود. اين الگوريتم PFDC ناميده مي شود [M02] و نسخه موازي الگوريتم FDC مي باشد. در نهايت نتايج کلي اين روشها بررسي مي شوند.
فهرست مطالب
1- مقدمه
2- BIRCH
2-1- خلاصه کارهاي انجام شده قبلي
2-1-1- مزاياي BIRCH
2-2- مفاهيم پايه
2-3-1- درخت CF
2-3-2- درج در درخت CF
2-4- الگوريتم خوشه بندي BIRCH
2-4-1- بررسي فاز
2-4-1-1- کاهش
2-4-1-2- مديريت نقاط دور افتاده
2-5- بررسي کارايي
2-5-1- آناليز
2-6- بررسي نتايج بدست آمده
3- CURE
3-1- بررسي کاستي هاي الگوريتمهاي خوشه بندي رايج
3-2- خصوصيات برجسته CURE
3-3- الگوريتم خوشه بندي سلسله مراتبي CURE
3-3-1- مرور کلي الگوريتم
3-3-2- بررسي جزئيات
3-3-3- پيچيدگي زمان و فضا
3-4- بهبود الگوريتم به منظور کار بر روي مجموعه داده بزرگ
3-4-1- نمونه برداري تصادفي
3-4-2- بخش بندي به منظور افزايش سرعت
3-4-3- برچسب دهي به داده در ديسک
3-4-4- مديريت نقاط دورافتاده
4- الگوريتم خوشه بندي توزيع شده به منظور کاوش در پايگاههاي داده بزرگ فضايي: DBCLASD
4-1- خوشه هاي برپايه توزيع فاصله
4-1-1- تعاريف
4-1-2- مدل آماري تعريف خوشه
4-1-3- محاسبه مساحت خوشه
4-2- الگوريتم DBCLASD
4-2-1- توليد کانديداها
4-2-2- تست کانديداها
4-2-3- الگوريتم ارائه شده
4-3- نتايج ارائه شده
5-1- کارهاي انجام شده قبلي قابل مقايسه با PFDC
5-1-1- خوشه بندي بر مبناي چگالي
5-1-2- DBSCAN
5-1-3-FDC
5-2- طراحي الگوريتم موازي
5-3- ساختار داده k-d Tree
5-3-1- Guard k-d Tree
5-3-2- طرح هاي موازي k-d Tree
5-3-2-1- طرح بر مبناي مرتب سازي اوليه
5-3-2-2- طرح بر مبناي مرتب سازي ساده
5-3-2-3- طرح بر مبناي ميانه
5-5- پياده سازي
5-5-1- توليد ورودي و فراخواني
5-5-3- خوشه بندي برگ
5-5-4-1- انجام موازي از طريق طرح بر مبناي مرتب سازي ساده
5-5-4-2- انجام موازي از طريق طرح بر مبناي مرتب سازي اوليه
5-5-5- توليد و ارائه خروجي
5-6- بررسي نتايج
6- خلاصه و نتايج
منابع
***************************************************************************************
در صورت تمایل
به دریافت فایل فوق در مدت 10 دقیقه ، لطفاً اینجا کلیک
کنید
***************************************************************************************
مشاوره ؛نگارش پایان نامه ؛ مقاله + شبیه سازی
در تمام مقاطع دانشگاهی پذیرفته می شود
در صورت
تمایل می توانید عنوان و جزئیات پروژه خود را در قسمت نظرات این پست
اعلام فرمایید. ضمنا می توانید اطلاعات درخواستی خود را به ایمیل یا تلگرام
نمایید
ایمیل :
com.dr@yahoo.com
درباره :
پایگاه داده , پایگاه داده , داده کاوی , داده کاوی ,
|