تحليل داده‌هاي بدون ساختار

 

داده‌ها در تمام صنايع، روزبه‌روز در حال تجميع‌اند، اما وقتي به مزيت‌ها و چالش‌هاي داده‌هاي بزرگ نگاه مي‌كنيم، بسادگي مي‌توان از يك عنصر غافل شد: بيشتر اطلاعات مرتبط با كسب و كار امروزه در ديتابيس‌هاي استاندارد رابطه‌اي نمي‌گنجد.طبق آمار، حدود 80 درصد داده‌هاي شغلي ساختاربندي ندارد، فايل‌هاي واژه‌پرداز، سندهاي صفحه گسترده و فايل‌هاي پاورپوينت، صوتي، تصويري و از سنسورها گرفته تا داده‌هايي همچون سياهه عملكرد و ورودي‌هاي خارجي.

بهره‌گيري از داده‌هاي بي‌ساختار

برخي سازمان‌ها نياز دارند داده‌هاي بي‌ساختار خود را تحليل و نتايجي از آنها استخراج كنند. برخي از ابزارهاي داده‌هاي بزرگ، بخصوص آنهايي كه مبتني بر Hadoop است، از ابتدا براي تحليل و مديريت اطلاعات بي‌ساختار طراحي شده‌ است. ديگران، بيشتر در لايه عملكرد فعاليت كرده و فناوري انباره داده‌هايشان خيلي براي تحليل‌ها مناسب نيست.عرضه‌كنندگان ابزارهاي انباره داده و هوش شغلي در حال اضافه كردن ابزارهاي مديريت داده‌هاي بي‌ساختار در سرويس‌هاي خود هستند و برخي سازمان‌هاي IT در تلاشند داده‌هاي بي‌ساختار را به روش‌هاي مختلف مديريت دانش به داده‌هاي ساخت‌يافته تبديل كنند، اما اين پروسه مي‌تواند از نظر هزينه زماني و مالي گران باشد.فراتر از اين موضوع، شركت‌هاي بزرگ مديريت دانش، امروزه براي تطابق با نيازهاي جديد آمادگي كافي ندارند و نياز به ابزارهاي جديد تحليلي و پشتيباني از انواع جديد اطلاعات احساس مي‌شود.علاوه بر تحليل سريع داده‌هاي بي‌ساختار و ساخت‌يافته، شركت‌ها به ابزاري نياز دارند تا بتوان چنين داده‌هاي حجيمي را با نهايت سرعت به سيستم مديريت دانش خود وارد كنند تا به پردازش و جستجوي داده‌ها بپردازند. در سازمان‌ها و شركت‌هايي كه به‌دنبال تحليل داده‌هاي زنده و تقريبا لحظه‌اي هستند، مشكل سريع‌نبودن تحليل داده‌هاي بي‌ساختار بيشتر به چشم مي‌آيد.نيك ميلمن، معاون ارشد موسسه AIMS، معتقد است: «با رشد استفاده از داده‌هاي بي‌ساختار، مساله تحليل آنها به يك مشكل بزرگ تبديل خواهد شد. داده‌هاي نرم‌افزارهاي مديريت اسناد، اطلاعات همكاري ميان كارمندان و مواردي از اين دست قابل دسته‌بندي و ساخت يافتگي نيست. به اينها مي‌توان دياگرام‌ها، اسناد، عكس‌ها و ويدئوها را نيز اضافه كرد. به‌طور كلي هم نمي‌توان داده‌هاي بي‌ساختار را فراموش كرد؛ چرا كه اين داده‌ها بهترين منبع براي تشخيص شيوه عملكرد شركت خواهد بود.

خطرها و دام‌هاي مديريت داده‌هاي بي‌ساختار

اشتباهي كه بيشتر شركت‌ها در ابتداي ورود به مقوله داده‌هاي بي‌ساختار مرتكب مي‌شوند، انتظار جواب گرفتن سريع است. يك شغل با چند چالش، از جمله كيفيت داده‌ها، طبقه‌بندي داده‌ها، تركيب داده‌هاي بي‌ساختار و ساخت يافته و حجم عظيمي از اطلاعات مواجه است.براي حل اين چالش‌ها بايد تغييراتي بنيادين در حوزه نرم‌افزاري به وجود آورد تا از ديتابيس‌ها و ابزارهاي تحليل جديد استفاده شود. انتقال به سيستمي كاملا نو براي پردازش داده‌هاي بي‌ساختار (كه مي‌تواند Cloud باشد) خود چالش بزرگي است؛ زيرا مي‌تواند مديريت را مجبور كند تا Hadoop يا MapReduce سفارشي شود. علاوه بر تمام اين موارد، بايد درك كافي از انواع اطلاعاتي كه سازمان به دنبال تحليل آنهاست، به وجود بيايد تا بتوان اطلاعاتي مفيد از داده‌هاي روي هم انباشته شده استخراج كرد.ميلمن همچنين معتقد است: «وقتي يك كار به سمت فضاي آنلاين مي‌رود، اتفاقات زيادي به‌طور بالقوه مي‌تواند رخ بدهد. مي‌توان در دنياي آنلاين تجربياتي به‌دست آورد كه در فضاي ديگر ممكن نيست.»اگر به كوئري‌هاي به‌كار رفته در ديتابيس‌ها بيشتر انديشيده شود، جستجوها بدقت انجام مي‌شود و نتايج استخراج شده از ديتابيس دقيق‌تر خواهد بود. اين قانون براي ديتابيس‌هاي ساخت‌يافته و بي‌ساختار صادق است.پردازش اطلاعات از طريق اينترنت، منابع رايانش ابري و استفاده از منابع داده‌اي آنلاين مجموعه جديدي از گزينه‌ها را پيش پاي تحليل داده‌هاي بي‌ساختار قرار مي‌دهد.امروزه سرويس‌هايي چون Firehose توييتر، توسط شركت‌هاي بسياري استفاده مي‌شود تا پخش و توزيع محصولات و همچنين استراتژي‌هاي لاجستيك را بخوبي درك و پياده كنند.





تاريخ : دو شنبه 24 مهر 1391برچسب:, | | نویسنده : مقدم |