پشتیبانی: 09131253620
ارتباط با ما
تلگرام: 09131253620

برجسته ترین ها
گروه های مقاله ها
HyperLink


داده کاوی بخش هفتم تاریخ درج: ١٣٩۴/٠۵/١٣

 

 ابزارهای داده كاوي 

فقط در سال 2000 ميزان ظرفيت نصب شده جهت ذخيره سازي اطلاعات از كل ظرفيت موجود در دهه 1990 بيشتر بوده است. حيات بازرگاني نوين مبتني بر داده هاست. در حال حاضر تقريبا حجم كل اطلاعات در كامپيوترها هر 5 سال دو برابر مي شود و با توجه به سرعت ايجاد برنامه هاي چند رسانه اي و بانكهاي اطلاعاتي پيش بيني مي شود كه شتاب رشد اطلاعات به دو برابر در سال برسد. توليد كنندگان اين اطلاعات موسسات و شركت هاي جديدي هستند كه امور خود را توسط كامپيوترها هدايت مي كنند. سيستم هاي توليد مكانيزه اي كه داده ها را جمع آوري نموده و به مصرف مي رسانند سيستم هايOLTP  ناميده مي شوند. اين سيستم ها توليد كنندگان واقعي داده ها هستند.

 

برنامه هاي كاربردي خادم و مخدوم بدو دسته تقسيم مي شوند:

  • " سيستم هاي پشتيباني تصميم گيري (DSS)
  • " سيستم هاي پردازش زنده (Online)  اطلاعات 
اين دو دسته هر يك راه هاي كاملا متفاوتي را جهت حل مسائل تجاري ارائه مي كنند. قبل از آنكه به ارزش انباره هاي داده پي ببريم لازم است تفاونهاي اين دو را بشناسيم. سيستم هاي OLTP  در كليه خدمات بازرگاني ديده مي شوند از جملع سيستم هاي رزرواسيون، دستگاه هاي فروش ، كنترل انبار، سهام و فروش و ... . اين سيستم ها غالبا به زمان پاسخي بين 1 تا 3 ثانيه در 100 در صد اوقات نياز دارند. 
تعداد كاربران آنها در ساعات مختلف روز ،  هفته و ماه مي تواند بشدت متغير باشد و درتمامي اين اوقات به همان زمان پاسخ قبلي نياز دارند. در اين گونه سيستم ها معمولا مخدومين بجاي ارتياط با بانكهاي اطلاعاتي(Database Servers) به خادمين تعاملي (Transaction Servers) متصل مي شوند. البته اين گونه ارتباط لازمه دستيابي به سرعت مورد نياز مخدومين (Clients) است.
OLTP  خود نيز به دو نوع عادي (Light) و قوي (Heavy) تقسيم مي گردد. خادمين عادي قادرند تعامل  را در غالب پردازش هاي ثبت شده در بانك اطلاعاتي (Stored Procedures) به اجرا بگذارند و خادمين قوي از (TP Monitor) براي اجراي دستورات استفاده ميكنند.در OLTP براي دستيابي به سرعت، سربار ارتباطي شبكه ها در حداقل ممكن نگاه داشته مي شود و غالبا ارتباطات در حد انتقال يك دستور ((SQL سيكوئل هستند.
امروزه حتي كوچكترين تجارتها هم قادرند بسرعت پايگاه هاي اطلاعاتي بزرگي يا با جمع آوري اطلاعات صندوق هاي فروش ايجاد كنند چه رسد به وب سرور ها كه مي توانند ظرف مدت بسيار كوتاهي چندين گيگا بايت اطلاعات جمع آوري نمايند.
زماني براي هر كار مكانيزه اي نياز به ميليونها پول و ده ها متخصص بود . اما امروزه هر كسي بسادگي با خريد چند كامپيوتر شخصي و استخدام يك برنامه نويس مي تواند از امكانات رايانه اي بهره مند گردد. بعبارت ديگر دسترسي به خدمات رايانه اي براي ايجاد پايگاه هاي خصوصي از داده ها براي همگان آسانتر شده است.
در مجموع داده هايي كه توسط سيستم هاي OLTP جمع آوري مي شود مستقيما مورد استفاده افراد ايجاد كننده آن قرار دارد. آنها دقيقا مي دانند اين داده ها چيستند و همچنين مي دانند چگونه نياز هاي اطلاعاتي لحظه اي خود را كه بطور روزمره بوجود مي آيد حل كنند.
سوالي كه مطرح است اينست كه اگر كسي خارج از مجموعه OLTP به اين اطلاعات نياز داشته باشد چه بايد كرد. اين افراد از كجا مي دانند چه داده اي  موجود است؟ كجا بايستي آنرا پيدا كرد و چگونه به آن دسترسي پيدا كنند؟ داده ها به چه شكلي (Format)  است ؟ چه معنايي دارد؟ آخرين چيزي كه افراد OLTP  به آن رضايت خواهند داد آنست كه اجازه دهند ديگران به اطلاعات گرانبهاي آنان دسترسي داشته باشند. كساني كه حتي نمي دانند چه مي خواهند، درخواستهاي سيكوئل زمانگيري را بر روي بانكهاي اطلاعاتي اجرا مي كنند كه سرعت و قابليت سيستم توليد كننده داده ها را پايين مي آورد.
در گذشته افراد بيرون از سيستم ، از همكاران MIS  خود مي خواستند با همكاران مشابه خود در سيستم مربوطه تعامل داشته و نهايتا اطلاعات مورد نظر را از سيستم استخراج نمايند. اما امروزه حتي مجموعهMIS  خود هم بدرستي نمي داند چه اطلاعاتي در سازمان موجود است. اطلاعات بشدت توزيع شده و پراكنده است و تقريبا روي هر كامپيوتري بخشي از اطلاعات سازمان وجود دارد.
يكي از ويژگيهاي كامپيوتر هاي شخصي و همچنين معماري خادم/مخدوم  موجب شده است كه افراد اكثرا به اطلاعات سازماني و كاربرد اطلاعات در سازمان علاقه اي نداشته و ترجيح مي دهند اطلاعات را تحت مالكيت شخصي اداره كنند  به اين ترتيب بين اطلاعات سازمان و شخصي (يا واحد هاي متشكله) شكاف وجود خواهد داشت. از طرف ديگر بين داده هاي سيستمي و اطلاعات استخراج شده نيز شكاف ديگري مشاهده مي شود. كساني كه از بيرون به اين اطلاعات نگاه مي كنند افرادي هستند كه بدنبال يافتن طرحها، روالها و تمايلات در داده ها هستند بطوريكه بتوانند تصميمات بهتري بگيرند. تنيدن حصار بدور اطلاعات بمعني تنيدن حصار در برابر تجارت ديگران است و خيلي زود همگان بازنده جنگ اين حصارها خواهند بود.
  • چگونه اطلاعات را در اختيار داريم اگر بديگران اجازه دسترسي به آنرا بدهيم. 
سولات زيادي مطرح هستند كه بايستي پاسخ داده شوند و از آن جمله اند:
  • چگونه مطمئن شويم كه عملكرد بيروني ها (غريبه ها) عملكرد سيستم ما را كند نمي كند؟
  • چه اطلاعاتي را بايستي در اختيار بيروني ها قرار دهيم؟
  • چه اطلاعاتي دروني و شخصي (فقط مربوط به سيستم توليد كننده داده) است؟
  • چه كسي مالك اطلاعات به اشتراك گذاشته شده است؟
  • چه كسي اين اطلاعات را بروز ميكند؟
  • آيا بايستي بگذاريم دسترسي به اطلاعات مستقيم باشد يا آنرا در بانك ديگري كپي كنيم؟
  • اطلاعات استخراج شده چگونه نگهداري شده و چگونه بروز مي شود؟
براي پاسخ به سوالات فوق بايستي نياز هاي استفاده كنندگان از اين اطلاعات را بشناسيم و تفاوتهاي ميان سيستمهاي پشتيبان تصميم گيري و OLTP را درك كنيم.
 

چه كساني از اين داده ها استفاده ميكنند؟

بياييد نامي براي اين دسته از افراد انتخاب كنيم. اين افراد مصزف كنندگان اطلاعات هستند( كساني هستند كه تصميمات استراتژيك مي گيرند) فعلا نام اين افراد را شكارچي اطلاعات مي گذاريم چون اين نام معرف  هر كسيست  كه به يكPC دسترسي دارد و نيازمند اطلاعات است. البته بازرگانان و صنعتگران اولين دسته از اين افراد هستند.

 

سيستم پشتيباني تصميم گيري 

يك سيستم كارآمد، ابزاريست براي تحليل داده ها ، يافتن ارتباط بين داده ها، توليد گزارش هاي كارآمد، دسترسي منعطف به داده ها،  راهكار هاي نمايش اطلاعات در انواع ممكن،   قابليت پاسخ به سوالات اگر ... چه ، چاپ اطلاعات،انتقال داده ها به صفحات گسترده .
در مقايسه با سيستم هاي توليد داده، اين ابزارها از انعطاف بيشتري در زمان پاسخگويي  برخوردار هستند. معمولا كنترل يكپارچگي در آنها رعايت نشده است و قابليت دسترسي همزمان كاربران به آن غالبا محدود است. جستجوي اطلاعات و يا بروز رساني اطلاعات غالبا بمعني پردازش روي تمامي اطلاعات خواهد بود. اين برنامه ها براي غير برنامه نويسان تهيه شده و بيشتر فعاليت ها در آن از طريق نشان بده و كليك كن (Point and Click) انجام مي شود.
 
 

سيستم هاي اطلاعات مديران اجرايي (Executive Information Systems)

اين دسته از برنامه ها از ابزارهاي DSS  قوي تر، ساده تر و كار آمدتر هستند. همچنين به يك زمينه تجاري خاص نزديكتر و طبيعتا گرانتر هم هستند. البته اختلاف بين DSS  و EIS  بتدريج كم رنگ شده است. ابزارهاي EIS  بتازگي دامنه عمل خو.د را گسترش داده و در سطح سازمان (Enterprise) خود را مطرح كرده اند بطوريكه مديران و تحليلگران نيز از اين ابزار ها استفاده مي كنند
ابزارهاي DSS/ESS   بطور خلاصه ابزارهاي (OLAP (Online Analytical Processing يا ابزارهاي(MDA  (Multidimensional Analysis ناميده مي شوند   و در لايه هاي بالاتر به آنها ابزارهاي داده كاوي (Data Mining) و كارآگاهان شخصي (Intelligent Agent)  گفته مي شود.

 

مقايسه سيستم هاي DSS  و OLTP

در جدول زير تفاوت هاي دو نوع سيستم DSS و OLTP را مي بينيم:
قابليت نياز بانك اطلاعاتي OLTP نياز بانك اطلاعاتي DSS
چه كسي از آن استفاده مي كند كاركنان سيستم توليد كننده اطلاعات شكارچي اطلاعات ارزش زماني اطلاعات به مقدار فعلي اطلاعات نياز دارد و گزارش ها قابل باز سازي نيستند به اطلاعات پايدار نياز دارد . اطلاعات هر از گاه به وقت مي شوند. گزارش ها قابل بازسازي هستند
تعداد دسترسي ها به اطلاعات پيوسته در طول روز كاري با نقاط پيك كاري هر از گاه 
شكل داده داده خام است. استخراج و تبديلي صورت نگرفته در چندين لايه تبديل صورت گرفته است. استخراج و فشرده سازي داده ها انجام شده
جمع آوري داده ها از يك برنامه از چندين محل داخلي و خارجي
آيا محل توليد داده مشخص است بلي بيشتر داده توسط يك برنامه توليد مي شود خير از برنامه هاي مختلف و بانك هاي اطلاعات  و وب مي آيد
آيا اطلاعات نگارش بندي شده هستند خير. داده ها پيوسته و در يك نگارش هستند بلي هر مجموعه از داده داراي تاريخ برداشت است
نوع دسترسي به داده چندين كاربر اطلاعات را به وقت مي كنند بيشتر اوقات يك كاربر
آيا داده قابل به وقت رساني است مقدار كنوني مدام در حال تغيير است فقط خواندنيست
انعطاف در دسترسي انعطاف ندارد. فقط از طريق برنامه ها ممكن است. منعطف از طريق يك توليد كننده درخواست و OLAP
راندمان سرعت پاسخ بالا مورد نياز است. فعاليت ها همگي مكانيزه و سريع نسبتا كند
نيازهاي اطلاعاتي بخوبي فهميده شده اند ناپايدار و نسبي. به مقدار زيادي كار كشف و تحقيق و جستجوي موضوعي نياز است. 
دامنه اطلاعات محدود. آن چيزي كه در بانك موجود است داده ها ممكن است از هر جايي بيايند
 ركورد هاي پردازش شده كمتر از 10 ركورد صدها / هزاران و ميليونها ركورد.
 
 

انباره داده (Data warehouse)

در محيط خادم/مخدوم انباره داده يعني انباره (Repository)   اطلاعات براي مصرف سيستم هاي پشتيباني تصميم گيري.انباره داده بك مخزن فعال و هوشمند از اطلاعات است كه قادر است اطلاعات را از محيط هاي گوناگون جمع آوري و مديريت كرده و نهايتا پخش نمايد و در صورت لزوم نيز سياست هاي تجاري را روي آنها اجرا نمايد.

 

عناصر انباره داري

انباره  يك محل است و انباره داري يك فرآيند.
اين فرآيند از عناصر زير تشكيل شده است :
1. مديريت انتشار اطلاعات انباره كه وظيفه نسخه برداري و توزيع اطلاعات را بر روي بانك هاي مختلف (آنگونه كه شكارچي اطلاعات تعريف مي كند) به عهده دارد. شكارچي اطلاعاتي را كه بايستي كپي شود، مبدا و مقصد اطلاعات،  تعداد بوقت رساني ها و تبديلات لازم روي اطلاعات را تعريف مي كند. اصطلاح تازه سازي (Refresh) بمفهوم كپي كامل آخرين وضعيت اطلاعات و اصطلاح بوقت رساني (Update) بمفهوم اعمال آخرين تغييرات بكار گرفته شده اند. همه كارها مي تواند بصورت خودكار و يا دستي انجام پذيرد. اطلاعات ممكن است از بانكهاي رابطه اي و غير رابطه اي تهيه شود. توجه كنيد كه كليه اطلاعات خارجي قبل از ورود به سيستم، تبديل شده و پاك سازي مي شوند.
2. بانك اطلاع رساني يك بانك اطلاعاتي رابطه ايست كه وظيفه سازماندهي و ذخيره نمودن يك نسخه از اطلاعات و همچنين تبديلات و جمع بندي و افزودن ارزش به  اطلاعات حاصله از منابع مختلف و با فرمت هاي مورد نظر بعهده دارد. نگهداري فراداده (اطلاعات در مورد اطلاعات) نيز به عهده اين بانك است . فراداده هاي سيستمي روابط بين جداول و ايندكس ها و غيره را بيان مي كنند و فراداده هاي محتوايي (semantic) ارزش اطلاعات را براي يك شكارچي اطلاعات روشن مي سازند.
3. راهنماي اطلاعات (Informational Directory) تركيبي از يك راهنماي فني و راهنماي تجاري و يك پويشگر اطلاعات است. هدف اصلي اين راهنما كمك به شكارچي براي دانستن محل وجود اطلاعات ،شكل آن و روش دسترسي به آن است
4. پشتيباني ابزارهاي DSS/EIS  از طريق انواع دستورات SQL انجام مي گيرد. بسياري از فروشندگان پروتكل ODBC و سايرين انواع ديگر  پروتكل ها را سرويس مي دهند.

 

سلسله مراتب انباره ها (غرفه هاي داده (Data Marts))

انواع كوچكتري از انباره هاي داده هستند. در عمل غرفه هاي داده دپارتماني و غرفه هاي داده همراه (mobile)   از ابتدا برنامه ريزي نمي شوند بلكه  ابتدائا بوجود آمده و در صورت موفقيت تكثير شده و در نهايت مدير بانك اطلاعاتي سازمان ممكن است بتواند يك فدراسيون آزاد ار اين غرفه ها تشكيل دهد و نهايتا يك انباره داده را پايه گذاري نمايد.
 
غرفه هاي داده Data Marts

 

ابزارهاي DSS/EIS از خواسته ها (Queries) تا تحليل زنده (OLAP) و تا داده كاوي    (Data Mining)

 

ابزارهاي گزارش گيري

ابزارهاي تحليل داده و خواسته پردازها بما اجازه ساختن يك دستور سيكوئل را مي دهند بدون آنكه مجبور باشيم برنامه اي بنويسيم يا سيكوئل ياد بگيريم. با چند نشانه و كليك عبارت هاي سيكوئل مناسب براي گرد آوري اطلاعات و نمايش آن بشكل يك گراف / جدول و يا گزارش آماده مي شود. ابزارهاي برجسته تر در اين زمينه امكان كنترل ميزان نتايج برگشته از يك خواسته را مي دهند و به اين ترتيب مي توان جلوي درخواستهايي را كه ممكن است ميليونها ركورد را برگردانند گرفت. در سال 1998 بيش از 150 نوع از اين ابزارها در بازار وجود داشته است كه Microsoft Access, Oracle Reports, Business Objects از آن جمله اند.

تگها: data mining   data warehouse   ابزارهای گزارشگیری   انباره داده   داده کاوی     

HyperLink

ارسال نظر در مورد این مطلب
نام :  
آدرس ایمیل :  
متن پیام :  
کد امنیتی :  
   
   
نظری برای نمایش وجود ندارد
 
این مطلب را به اشتراک بگذارید: