پشتیبانی: 09131253620
ارتباط با ما
تلگرام: 09131253620

برجسته ترین ها
گروه های مقاله ها
HyperLink


داده کاوی در تجارت الکترونیک بخش سوم تاریخ درج: ١٣٩٣/٠٩/٣٠

 داده كاوي و مفهوم  اكتشاف علوم    (K.D.D)

با حجم عظيم داده هاي ذخيره شده در فايلها، بانكهاي اطلاعاتي و ساير بانكهاي داده اي، توسعه ي ابزارهايي براي تحليل و شايد تفسير چنين داده هايي و براي استخراج علوم شگفت انگيزي كه مي توانند در تصميم گيري مفيد باشند، اگر نگوييم امري  واجب، امري بسيار مهم و ضروري است.
داده كاوي با عنوان كشف علوم در پايگاه هاي داده (KDD) شناخته مي‌شود. كشف علومي كه قبلا ناشناخته بوده‌اند و اطلاعاتي كه در بانكهاي اطلاعاتي موجود بوده و ذاتا بالقوه و مفيد هستند. با وجود آنكه داده كاوي و كشف علوم در پايگاه‌هاي داده مترادف همديگر هستند، ولي در اصل، داده كاوي ذاتاً بخشي و تنها قسمتي جزئي از فرآيند كشف علوم است. تصوير زير داده كاوي را بعنوان مرحله اي از فرآيند كشف علوم نشان مي‌دهد. فرآيند كشف علوم در بر گيرنده ي چندين مرحله مي باشد كه از اطلاعات خام، گونه هايي از علوم جديد را بدست مي دهد. اين مراحل به قرار زير است:
•   پاكسازي داده ها(data cleaning) : اين مرحله با عنوان پيرايش داده ها نيز شناخته مي شود. در اين فاز داده هاي اضافي و نامربوط از مجموعه ي داده هايمان حذف مي شوند. 
•   يكپارچگي داده ها(data integration) : در اين مرحله تصميم گيري بر روي داده ها متناسب با تحليل انجام شده و اين داده ها ازمجموعه داده ها بازيابي مي شوند. 
•   تبديل صورت داده ها(data transformation)  : اين مرحله با عنوان تثبيت داده نيز شناخته مي شود كه در اين فاز داده هاي انتخاب شده به صورتي متناسب جهت پروسه ي داده كاوي تبديل مي شوند.
•   داده كاوي(data mining) : اين مرحله بسيار مشكل بوده و در آن از تكنيكهاي هوشمند براي استخراج الگوهاي مفيد بالقوه، استفاده مي‌شود.
•   ارزشيابي الگوها(pattern evaluation) : در اين مرحله الگوهاي صريح ارائه دهنده ي علوم بر پايه ي مقياس هاي داده شده، شناسايي مي‌شوند.
•   ارائه‌ي علوم(knowledge discovery) : در اين مرحله ي نهايي، علوم كشف شده، بصورت بصري به كاربر ارائه مي‌شود. اين مرحله ي مهم از تكنيكهاي تجسمي براي كمك به كاربران در درك و تفسير نتايج داده‌كاوي، استفاده مي‌كند.
تركيب برخي از اين مراحل با هم بسيار رايج است. براي نمونه پاكسازي داده ها و يكپارچگي داده ها با هم مي‌توانند بعنوان يك فاز پيش از پردازش براي توليد انبار داده بكار روند. انتخاب داده ها و تبديل صورت داده‌ها نيز مي توانند با هم تركيب شده و تثبيت داده ها را بعنوان نتيجه ارائه نمايند.
فرآيند اكتشاف علوم(KDD) يك فرآيند تكرار شونده است. زمانيكه علوم كشف شده به كاربران ارائه شد، سنجشهايي جهت ارزشيابي انجام شده و امكان پالوده شدن مجدد داده كاوي با داده هاي جديد و يا تركيبي از منابع داده اي جديد وجود دارد و ارائه ي نتايج بهتري را به ارمغان ميآورد.

چه نوع داده‌هايي مي توانند مورد كاوش قرار گيرند؟
در اصل داده كاوي مختص يك رسانه يا داده‌ي خاص نيست و بايد از قابليت اجرا بر روي هر نوع داده اي برخوردار باشد، اگر چه الگوريتم‌ها و تلاشها ممكن است در مواجهه با گونه هاي متفاوت داده، تفاوت داشته باشند. داده‌كاوي براي پايگاههاي داده‌ي شي گرا، انبارهاي داده، پايگاههاي داده‌ي تراكنشي، منابع اطلاعاتي غيرساخت يافته مانند شبكه ي جهاني، پايگاه داده ي پيشرفته همچون پايگاه‌هاي داده اي سه بعدي، پايگاه‌هاي داده اي چند رسانه اي، پايگاه هاي داده‌اي سريالي و متني  و يا فايلهاي ساده مناسب است. در اينجا چند مثال آمده است:
 1-فايلهاي ساده (FLAT FILES): رايج ترين منبع براي الگوريتمهاي داده‌كاوي هستند، خصوصا در مرحله ي تحقيق، فايل هاي ساده، فايل هاي ساده ي متني يا با ساختار دودويي هستند و با ساختاري شناخته شده براي يك الگوريتم مشخص داده كاوي است كه روي آن پياده ميشود. داده هاي درون اين نوع فايلها مي توانند تراكنشها، داده هاي سريالي، اندازه گيري هاي‌ عملي و ... باشند.
 2-پايگاههاي داده اي رابطه اي(RDBMS): مختصرا، يك پايگاه داده ي رابطه اي متشكل از مجموعه‌اي از جداول است كه در بر گيرنده‌ي مقاديري براي صفات موجوديتها و يا مقاديري از روابط بين موجوديتها مي‌باشد. هر جدول داراي چندين سطر و ستون مي‌باشد كه ستونها ارائه كننده‌ي صفات خاصه و سطرها ارائه كننده‌ي ركوردهاي اطلاعاتي مي‌باشند. يك ركورد اطلاعاتي در بر گيرنده‌ي صفات خاصه‌ي يك شئ يا روايط بين اشيا است كه با يك كليد غير تكراري تعريف مي‌شود. الگوريتمهاي داده‌كاوي براي پايگاه‌هاي داده‌اي رابطه‌اي بسيار فراگيرتر و سريعتر از الگوريتمهاي داده‌كاوي روي فايل‌هاي ساده هستند. 
3- انبارهاي داده‌اي (DATAWARE HOUSING): يك انبار داده بعنوان يك انبار نگهداري، مجموعه اي از داده‌هاي جمع آوري شده از چندين مرجع يا منبع داده (كه معمولا ناهمگن هستند) ، با هدف آنكه بعنوان يك مجموعه تحت يك طرح و ساختار يكپارچه مورد استفاده قرار گيرد را شامل مي‌شود. انبار داده اين ويژگي را كه داده ‌ها از چندين منبع داده‌اي، تحت يك پوشش يكسان، تحليل و آناليز شوند را در اختيار قرار مي دهد. تصور كنيد كه يك فروشگاه عرضه‌ي محصولات ويدئويي، مركز اطلاعات خود را به كشور كانادا انتقال دهد. بسياري فروشگاه هاي پايين دست اين فروشگاه در كشورهاي مختلف و با ساختارها و بانك‌هاي اطلاعاتي متفاوت مشغول به فعاليت هستند. اگر يكي از مجريان يا مديران بخواهد به داده‌هاي تمامي فروشگاهها‌ي دنيا دسترسي پيدا كند، بسيار مناسبتر خواهد بود اگر اين داده‌ها در يك پايگاه متمركز و با ساختار همگن براي ارائه‌ي امكان تحليل ها و تجزيه‌هاي تعاملي جمع‌آوري شوند. بعبارت ديگر داده‌هاي فروشگاههاي پايين دست، در يك سايت متمركز بارگذاري و پاكسازي مي‌شوند. براي آسانتر شدن تصميم گيري و دريافت ديدهاي چند بعدي از داده ها، انبارهاي داده معمولا با ساختار چند بعدي ايجاد مي شوند. شكل زير نمونه‌اي از يك ساختار سه بعدي در رابطه با مثال ذكر شده را ارائه مي‌نمايد. 
اين تصوير جزئيات خلاصه شده‌ي اطلاعات را با دسته بندي بر اساس نوع فيلم و مدت زمان فيلم (بر حسب ربع ساعت) ارائه مي‌كند. مكعب داده‌ي ارائه شده، داده ها را بصورت سه بعدي و با سه متغير نوع فيلم، زمان فيلم، شهر دسته بندي كرده است. يك مكعب در بر گيرنده‌ي خانه هايي است كه اطلاعات مجموعه اي از مقادير را نگهداري مي كنند. 
ساختار هاي داده اي سه بعدي، بواسطه ي ساختارشان، و بواسطه‌ي نگهداري داده‌هاي خلاصه شده ي از پيش محاسبه شده، در دريافت تقاضاهاي سريع تعاملي از بانك اطلاعاتي و در تحليل داده ها در سطوح مفهومي متفاوت (OLAP – OnLine Analitical Process)  يا پردازش تحليلي روي خط، بسيار مناسب مي‌باشند. 
پردازش تحليلي روي خط، امكان حركت در ميان داده ها و مسيريابي داده‌ها در سطوح مختلف را همچون حركت در عمق داده ها و بخش بندي داده‌ها و ... فراهم ميكند.
چه نوع اطلاعاتي مناسب داده کاوی است؟
ما مقادير انبوهي از اطلاعات از داده‌هاي عددي ساده و سندهاي متني تا اطلاعات پيچيده اي همچون داده‌هاي چند بعدي، فايهاي چندرسانه‌اي و اسناد ابر متن را جمع‌آوري مي‌كنيم. در زير ليستي از گونه‌هاي مختلف جمع‌آوري شده در قالب فرمهاي ديجيتالي در پايگاههاي داده و فايل‌هاي ساده‌ي متني آمده است.
1- مبادلات و تراكنشهاي تجاري: معمولا تمامي مبادلات وتراكنشهاي صنعتي و تجاري  بصورت دائمي ذخيره و نگهداري مي‌شوند. چنين مبادلاتي معمولا وابسته به زمان بوده و شامل تعاملات بين‌التجار مثل خريدها، تعويضها، بانكداري، سهام و ... بوده و يا شامل كنش‌هاي متقابل تجاري مانند مديريت كالاها و وسايل خانه مي‌باشد. براي نمونه فروشگاههاي زنجيره‌اي بزرگ به لطف كاربرد فراگير باركد‌ها، روزانه ميليونها تراكنش را در قالب چندين ترابايت داده، ذخيره و نگهداري مي‌كنند. مشكل اصلي، فضاي ذخيره‌سازي اين حجم داده نيست، چرا كه قيمت رسانه‌هاي ذخيره‌سازي روز به روز در حال كاهش است. در واقع بكار‌گيري موثر اين قبيل داده‌هاي جمع‌‌آوري‌شده، آن هم در يك بازه‌ي زماني مناسب، براي تصميم گيري در بازار رقابتي امروز، مهمترين مشكل براي حل مشكلات تصميم گيري و نجات پيدا كردن از اين دنياي رقابتي مي‌باشد.
2- داده‌هاي علمي: چه در لابراتوار شمارش ذرات شتاب دهنده‌ي هسته‌اي در سوئيس، چه در مطالعه‌ي اطلاعات راديويي حاصله از قلاده‌هاي خرسهاي گريزلي در كانادا، چه در جمع‌آوري اطلاعات در مورد فعل و انفعالات اقيانوسي از كوههاي شناور در قطب جنوب و چه در روانشناسي روي انسانها در يك دانشگاه امريكايي، جامعه‌ي ما در حال جمع‌آوري مقادير بسيار زيادي اطلاعات علمي است كه نياز به پردازش و تجزيه و تحليل دارند، متاسفانه ميتوان اطلاعات بسيار مفيدي را از داده‌هاي كهنه شده‌اي كه هنوز كاملا جمع‌‌آوري نشده‌اند، استخراج و نگهداري كرد، بسيار سريعتر از آنكه بخواهيم داده‌هاي قديمي و منقضي شده اي را جمع‌آوري و سپس مورد تجزيه و تحليل قرار دهيم.
3- داده‌هاي بهداشتي و شخصي: از سرشماريهاي دولتي گرفته تا فايل‌هاي افراد و مشتريان، مجموعه‌هايي از اطلاعات بطور پيوسته در مورد اشخاص و گروهها در حال جمع‌آوري است. دولتها، كمپاني‌ها و سازمانهايي مثل بيمارستانها، مقادير بسيار مهمي از اطلاعات شخصي را براي كمك در مديريت منابع انساني جمع آوري و انبار مي‌كنند، همچنين براي درك بهتر از بازار و كمك و راهنمايي ساده‌تر مشتري، بدون توجه به سياستهاي صادره و گزارش شده، اينگونه داده‌ها اغلب فاش مي‌شوند و در موارد بسياري گسترش مي‌يابند. اينگونه داده‌ها زمانيكه بهمراه اطلاعات مهم ديگري گسترش يابند، ممكن است منجر به تغيير در سليقه و رفتار مشتري شوند که تحلیل آنها اطلاعات بسیار مناسبی را در اختیار قرار میدهد..
4- نظارت تصويري و ويدئويي: با افت قيمت شگفت انگيز دوربينهاي تصويربرداري، استفاده از آنها بسيار فراگير شده است. نوارهاي ويدئويي دوربينهاي امنيتي معمولا بازيابي شده و اطلاعات قديمي آنها از بين ميرود،اگر چه امروزه گرايش بيشتر به نگهداري نوارها و حتي ديجيتالي كردن آنهاست.
5- دریافتها و مشاهدات ماهواره ای: امروز تعداد غیر قابل شمارشی ماهواره گرداگرد جهان قرار دارد، که برخی از آنها ایستگاههای ناحیه ای بالای سطح زمین هستند و برخی دیگر در مداری گرد زمین می چرخند. به هر صورت تمامی آنها در حال ارسال جریان بدون وقفه ای از اطلاعات به سطح زمین هستند. NASA که کنترل تعداد زیادی از این ماهواره ها را در اختیار دارد، در هر ثانیه مقادیر زیادی از اطلاعات را، بیش از آنچه که تمامی مهندسین و محققین NASA می توانند جمع آوری کنند، دریافت می دارد. تعداد زیادی از تصاویر ماهواره ای و اطلاعات بمحض دریافت، پخش عمومی شده و در اختیار همگان قرار می گیرد، به امید آنکه سایر محققان بتوانند آنها را تجزیه و تحلیل نمایند.
6- بازیهای المپیک: جامعه ی ما مقادیر زیادی اطلاعات و آمارها در مورد بازیهای المپیک، بازیکنان و ورزشکاران جمع آوری می نماید، از امتیازات هاکی و پاسهای بازیهای بسکتبال و تعداد دورهای طی شده در یک مسابقه ی رالی اتومبیلرانی گرفته، تا رکورد های شناگران، ضربات بکسرها و موقعیت مهره ها در بازیهای شطرنج، همه ی اینگونه اطلاعات جمع آوری می شوند.مفسرین و خبرنگاران از این اطلاعات برای گزارش وقایع استفاده می کنند، اما مربیان این اطلاعات را در جهت افزایش توان و نیرو و درک بهتر حریفان و رقیبان بکار می گیرند.
7- رسانه ی دیجیتال: گسترش اسکنر های ارزان قیمت، دوربینهای ویدئویی رومیزی و دوربینهای دیجیتال، یکی از دلایل گسترش تولیدات این رسانه هاست.  بعلاوه بسیاری از ایستگاههای رادیویی، کانالهای تلویزیونی و استودیوهای فیلمسازی مشغول دیجیتال کردن مجموعه های ویدئویی و صوتی خود برای ارتقا در سطح مدیریت دارائی های چندرسانه ایشان میباشند. شرکتهایی همچون NHL و NBA فرآیند تبدیل مجموعه های عظیم بازی هایشان به فرمتهای دیجیتالی را آغاز کرده اند.
8- داده های مهندسی نرم افزار و طراحی بکمک کامپیوتر(CAD): سیستم های نرم افزاری متنوعی جهت  طراحی بکمک کامپیوتر و جهت طراحی ساختمانها یا برای مهندسان جهت درک بهتر اجزای سیستم  و مدارات وجود دارد. اینگونه سیستمها مقادیر نامتناهی داده تولید می کنند.  علاوه بر این مهندسی نرم افزار، منبع مشابه قابل توجهی از داده در قالب کد، توابع کتابخانه ای، اشیا و ... میباشد که به ابزارهای قوی برای مدیریت و نگهداری نیازمند می باشد.
9- دنیاهای مجازی: برنامه های کاربردی زیادی وجود دارند که از فضاهای مجازی سه بعدی استفاده می کنند. این فضاها و اشیایی که دارند با زبانهای ویژه ای همچون VRML تشریح می شوند. در حالت مطلوب این فضاهای مجازی به شیوه ای تشریح می شوند که میتوانند اشیا و فضاها را به اشتراک گذارند. در حال حاضر مقادیر قابل توجهی از اشیائ مجازی و فضاهای ساخته شده موجود می باشد. مدیریت این منابع جمع آوری شده مانند جستجوی بر اساس محتوا و بازیابی از این مجموعه ها در حال گسترش و رشد است.
10- گزارشات متنی و نامه های الکترونیکی: اکثر ارتباطات داخلی و بینابین شرکتها یا سازمانهای تحقیقاتی یا حتی اشخاص بر مبنای گزارشات و یادداشتهای در قالب متن بوده و اغلب این تبادلات با پست الکترونیکی انجام میشود. این پیغامها مرتبا در فرمها و قالبهای دیجیتالی برای کاربرد های آینده و همچنینی ایجاد منابع و کتابخانه های عظیم دیجیتالی، نگهداری می شوند.
11- منابع و اطلاعات موجود در شبکه ی جهانی وب: از زمان آغاز به کار شبکه ی جهانی وب در سال 1993، اسنادی از گونه ها و غالبهای مختلف، محتویات و جزئیات جمع آوری شده و مرتبط شده از داخل، با ابر پیوند ها آن را تبدیل به بزرگترین منبع داده ای کرده که تاکنون ساخته شده. بر خلاف طبیعت غیر ساخت یافته و دینامیک آن، خصوصیات نامتجانس، افزونگی و تناقضات زیاد موجود در آن، همچنین بدلیل تنوع وسیع آن و موضوعات پوشش داده شده، همچنین سهم بیکران آن از منابع و انتشارات، مهمترین مرجع داده ای است که تاکنون مورد استفاده عموم قرار گرفته. نظریات مختلف بر این اعتقادند که شبکه ی جهانی وب تالیفی از علوم بشر خواهد بود.

داده کاوی

نگاهي مختصر به دو نمونه از الگوريتمهاي داده كاوي
1- رگرسيون(regression) : از قديمي ترين و معروف ترين تكنيكهايي است كه در داده کاوی بكار مي‌رود. اساسا رگرسيون يك مجموعه اطلاعات و داده را در اختيار گرفته و يك فرمول رياضي متناسب با آن داده‌ها ايجاد مي‌كند و زمانيكه شما بخواهيد از نتايج داده هايتان آينده را پيش بيني كنيد، كافيست داده هاي جديد خود را به فرمول توليد شده توسط رگرسيون داده و نتايج حاصل كه همان پيش بيني هاي مورد نظر شماست را دريافت داريد. محدوديت اصلي اين تكنيك در آن است كه تنها با مقادير داده اي پيوسته همچون وزن سرعت و... بخوبي كار مي كند. در صورتي كه شما با مقادير داده اي گسسته همچون رنگ وجنسيت واسم و... سر و كار داريد، بهتر است تكنيك ديگري را براي اين كار انتخاب كنيد.
2-طبقه بندي  (classification): اگر شما با داده هاي طبقه بندي شده و يا تركيبي از داده هاي عددي و دسته‌بندي شده سروكار داريد، تحليل‌هاي طبقه بندي شده، نياز شما را مرتفع مي كند. اين تكنيك توانايي پردازش مجموعه هاي وسيعتري از داده ها را (نسبت به تكنيك رگرسيون)  داشته و در حال گسترش عمومي مي‌باشد. همچنين خروجي اي كه شما در اين حالت دريافت مي كنيد از لحاظ پيچيدگي بسيار ساده تر است و راحتتر تفسير مي‌شود. دراين روش شما بجاي دريافت فرمولهاي رياضي پيچيده، يك درخت تصميم گيري كه حاوي تعدادي تصميم مشخص دو حالته (binary)  مي باشد را دريافت مي كنيد.

کاربرد  علم آمار و روشهای آماری در داده کاوی
1- مقدمه و مقا یسه
آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد. این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه، این عامل نسبت به داده کاوی قدمت بیشتری دارد و جزء روشهای کلاسیک داده کاوی محسوب می شود، وجه اشتراک تکنیکهای آماری و داده کاوی بیشتر درتخمین و پیش بینی است. البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. در کل اگر تخمین و پیش بینی جزء وظایف داده کاوی در نظر گرفته شوند، تحلیل های آماری، داده کاوی را بیش از یک قرن اجرا کرده است. به عقیده بعضی داده کاوی ابتدا ازآمار و تحلیل های آماری شروع شد. می توان تحلیل های آماری از قبیل فاصله اطمینان، رگرسیون و... را مقدمه و پیش زمینه  داده کاوی دانست که بتدریج در زمینه های دیگر و متد های دیگر رشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی داده کاوی محسوب می شوند. در جایی اینگونه بحث می شود که با تعریف دقیق، آمار یا تکنیکهای آماری جزء داده کاوی نیستند. این روشها خیلی قبل تر از داده کاوی استفاده می شدند. با این وجود، تکنیکهای آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند. 
در جایی پایه و اساس داده کاوی به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند. فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند، بعنوان یک قانون کلی فرضها و تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است. در مقابل روشهای یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کنند و همین مورد باعث تفاوتهایی بین این دو روش می شود. به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنند که این مساله بطور خاص در شبکه عصبی دیده می شود. بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند. داده کاوی جایگاه جدید تری دارد که به هوش مصنوعی، یادگیری ماشین، سیستمهای اطلاعات مدیریت (MIS) و متدلوژی پایگاه داده مربوط می شود. روشهای آماری بیشتر زمانی که تعداد داده ها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند. به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود. بکار بردن این روشها مجموعه داده های زیاد، احتمال خطا در این روشها را زیاد می کند. چون در داده ها احتمالnoise  و خطا بیشتر می شود و نیز روشهای آماری معمولابه حذف  noise میپردازند، بنابراین خطای محاسبات در این حالت زیاد می شود. در بعضی از روشهای آماری نیاز داریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرد، با بکار بردن روش آماری می توان به نتایج خوبی رسید. روشهای آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت به دیگر روشهای Data mining  ارائه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است. رگرسيون و طبقه بندي دو مورد از پركاربردترين روشهاي طبقه بندي اطلاعات هستند، اما اين دو تنها تكه‌اي از يك مجموعه ي بزرگ هستند.

كاربردهاي روشهاي آماري:
داده کاوی معمولا  وظايف يا  به  عبارت بهتر استراتژیهاي زير را در داده ها  بكار  مي برد:
 توضيح و تفسير (description)
تخمينestimation
پيش بينيprediction
كلاس بنديclassification
خوشه سازي  (clustering)  
وابسته سازي وايجاد رابطه (association)

 البته بايد  گفت كه روشهاي داده کاوی  در تجارت الکترونیک تنها  به يك استراتژي خاص محدود  نمي شوند و نتايج يك همپوشاني بين روشها را نشان  مي دهد. براي مثال درخت تصميم ممكن است كه دركلاس بندي تخمين وپيش بيني كاربرد داشته باشد. بنابراين اين جدول را نبايد به عنوان تعريف تقسيم بندي از وظايف در نظرگرفته شود‏‎ بلكه به عنوان يك خروجي از آنچه كه ما به عنوان وظايف داده کاوی آشنايي پيدا كرديم در نظر گرفته مي شود.
 

تگها: استخراج علم   اکتشاف علم   تجارت الکترونیکی   داده کاوی   
 

HyperLink

ارسال نظر در مورد این مطلب
نام :  
آدرس ایمیل :  
متن پیام :  
کد امنیتی :  
   
   
نظری برای نمایش وجود ندارد
 
این مطلب را به اشتراک بگذارید: