چگونه می توان داده ها را به صورت موثر در اختیار کاربر قرار داد؟
هدف از مصور سازی داده ها برقراری ارتباط به صورت روشن و موثر با داده ها از طریق نمایش گرافیکی آن است. مصورسازی داده ها به صورت گسترده و بسیار زیاد دربرنامه های کاربردی متفاوت استفاده می شوند. گزارش دهی، مدیریت عملیات کسب و کار و پیگیری پیشرفت کار از آن جمله هستند.همچنین با کمک تکنیک های مصور سازی می توان روابطی را میان داده ها کشف کرد که به سادگی با نگاه به داده های اولیه این کار امکان پذیر نیست.
در این بخش به صورت خلاصه به معرفی مفاهیم پایه ای مصورسازی داده ها می پردازیم.
نمایش گرافیکی آمار توصیفی
نمایش گرافیکی آمار توصیفی شامل نمودارهای چندک، چندک چندک، هیستوگرام و نمودار پراکنشی و همبستگی داده ها می شود. چنین نمودارهایی برای بازبینی مصور داده ها سودمند و برای پیش پردازش داده ها نیز ارزشمند هستند. سه نمونه اول توزیع تک متغیره(داده های مربوط به یک صفت خاصه)را نشان می دهند، در حالیکه نمودارهای پراکنشی توزیع دو متغیره( داده های مربوط به دو صفت خاصه ) را بررسی می کند.
نمودار چندک
در نمودار چندک ابتدا کلیه داده های مربوط به یک صفت خاص نمایش داده می شود.سپس اطلاعات مربوط به چندک به نمودار اضافه می شود. هر داده مانند Xi همراه با یک صدک Fi بیان می شود.که مقادیر 0/25،0/50و 0/75 برای Fi به ترتیب متناظر با چارک Q1، میانه و چارک Q3 می باشد.
نمودار چندک-چندک
یک نمودار چندک – چندک یا نمودار q-q چندک های یک توزیع را در مقابل چندک های نظیر دیگری رسم می کند.این نمودار ابزار قدرتمند مصور سازی محسوب می شود، چرا که به کاربر این اجازه را می دهد تا در صورت وجود تغییر مسیری میان دو توزیع آن را مشاهده کند.به عنوان مثال قیمت های واحد اجناس فروخته شده در دو شعبه ی فروشگاه در یک بازه ی زمانی مشخص بررسی می شوند.
نمودار هیستوگرام
با این روش گرافیکی توزیع صفت خاصه ای مانند X خلاصه سازی می شود. چنانچه صفت خاصه ی X از نوع اسمی باشد، یک تیرک یا میله ی عمودی برای هر یک از مقادیر شناخته شده برای X رسم می شود.بلندی یا ارتفاع هر یک از این میله ها، فراوانی یک مقدار را نشان می دهد.گراف نتیجه معمولا با نام نمودار میله ای شناخته می شود.در صورتیکه X از نوع عددی باشد، بازه ی مقادیر X به بازه های کوچکتر، جدا و پشت سر هم افراز می شود.
نمودار پراکنشی و همبستگی داده ها
نمودار پراکنشی جهت نمایش رابطه، الگو و روند میان دو صفت خاصه ی عددی است. برای رسم این نمودار هر زوج مقدار همانند مختصات نقطه ها در صفحه ی دکارتی لحاظ می شود. نمودار پراکنشی روش مفیدی برای تشخیص خوشه ها، داده های پرت و همچنین مشاهده ی همبستگی احتمالی میان داده ها اس. دو صفت خاصه ی XوY هنگامی همبسته هستند که بتوان رابطه ای میان آنها پیدا کرد. ممکن است دو صفت خاصه دارای همبستگی نباشد و یا دارای همبیتگی مثبت و یا منفی باشد.همبستگی مثبت نشان می دهد که با افزایش X مقدار Y نیز افزایش می یابد و در همبستگی منفی افزایش X باعث کاهش مقدار Y می شود.
در مجموع این طور می توان بیان کرد که توصیف پایه ای داده ها ( برای مثال به کار بردن سنجه های مربوط به شاخص های مرکزی و پراکندگی) و نمایش آمارها به صورت گرافیکی ( مانند نمودارهای چندک، هیستوگرام و نمودارهای پراکنشی) شرایط ارزشمندی را برای بررسی رفتار داده ها فراهم می کنند. همچنین در شناسایی نویز و داده های پرت به ما کمک می کنند و بخصوص برای پالایش داده ها مفید هستند.
روش های مصور سازی داده های چند بعدی
الف)مصور سازی پیکسل گرا
یک روش ساده نمایش دیداری مقدار یک صفت خاصه از یک پیکسل است. رنگ پیکسل مقدار صفت خاص را نشان می دهد. در این روش برای داده هایی که دارای m بعد هستند، m پنجره برروی صفحه ایجاد می شود، برای هر بعد یک پنجره. مقدار هر رکورد به درون پیکسل هایی در موقعیت های مناسب و یکسان در پنجره ها نگاشت می شوند. همانطور که گفته شد رنگ های پیکسل ها به مقادیر اشاره می کنند. مقادیر داده ها در داجل هر پنجره بر اساس نضم خاصی که در تمام پنجره ها یکسان است، مرتب می شوند. این نضم می تواند با درخواست کاربر ویا با توجه به حوزه ی تحت مطالعه تعیین شود.
ب) تکنیک های تصویر کردن هندسی
یکی از معایب تکنیک های مصور سازی پیکسل گرا این است که این روش ها قادر نیستند در فهم توزیع داده ها در یک فضای چند بعدی به ما کمک کنند. برای مثال آنها نمی توانندیک منطقه متراکم در یک بخشی از فضای چند بعدی را نشان دهند. تکنیک های تصویر کردن هندسی به کاربران کمک می کند تا تصویر های جالبی از مجموعه داده های چند بعدی پیدا کنند. چالش اصلی این روش ها در این است که چگونه می توانند یک فضای چند بعدی را در فضای دو بعدی نمایش دهند.
(داده کاوی مفاهیم و تکنیک ها،دکتر مهدی اسماعیلی)

تکنیک قطعه بندی دایره
الف) نمایش یک رکورد در قطعات دایره. ب) پراکنده کردن پیکسل ها در قطعات دایره
یک نمودار پراکنش با کمک مختصات دکارتی، مجموعه داده ها را در یک فضای دو بعدی نمایش می دهد. با کمک رنگ ها یا شکل های متفاوت می توان بعد سوم رانیز اضافه کرد. شکل زیر که در آن CRP و SBP دو صفت خاص هستند و سومین بعد با کمک دایره های آبی و قرمز نشان داده شده است، مرد و یا زن بودن داده ها است. در این مثال می توانید مشاهده کنید نقاطی که با دایره های آبی و قرمز علامت گذاری
شده اند، کنار یکدیگر قرار گرفته اند.

نمایش یک مجموعه داده های دو بعدی با کمک یک نمودار پراکنش
نمودار های پراکنشی برای مجموعه داده هایی با بیش از چهار بعد معمولا موثر نیستند. تکنیک ماتریس نمودار پراکنشی تعمیم سودمندی از نمودار پراکنشی است. برای مجموعه داده هایی با n بعد، این تکنیک صفحه را به یک ماتریس n*n تقسیم و در هر قسمت یک نمودار پراکنش برای دو صفت خاص رسم می کند. شکل زیر مثالی از رسم این نمودار را نشان می دهد. مجموعه داده ها حاوی اطلاعاتی درباره ی 5 متغییر در روابط انسانی می شود که شامل: ارزش درک شده، اعتماد، رضایت، وفاداری و تبلیغات شفاهی است .

نمایش مجموعه داده ها با کمک ماتریس نمودار پراکنشی
تکنیک مختصات موازی
باافزایش تعداد ابعاد داده ها، تکنیک نمودار پراکنشی ماتریسی کارایی خود را از دست می دهد. تکنیک دیگری به نام مختصات موازی می تواند در چنین محیط هایی استفاده شود.جهت نمایش مجموعه داده های n بعدی در این تکنیک ابتدا تعداد n خط ( به تعداد ابعاد) موازی با یکی از محورهای مختصات رسم مس شود. برای رسم یک نمونه داده که از n مقدار تشکیل شده است، بروی هر یک از این خطوط موازی مقدار آن را مشخص و این مقادیر به یکدیگر متصل خواهند شد.
یکی از محدودیت های اصلی این تکنیک عدم کارآیی آن برای نمایش تعداد زیادی رکورد است. حتی برای مجموعه داده هایی با چندین هرار رکورد، خطوط رسم شده روی همدیگر قرار می گیرند و خوانا بودن آن کاهش می یابد. و کار را برای یافتن الگو سخت می کند.
تکنیک های مصورسازی مبتنی بر شمایل
این تکنیک برای نمایش مقادیر داده های چند بعدی از آیکن های کوچکی استفاده می کند. از تکنیک های معروف در این زمینه می توان به صورتک های چرنف و اندام چسبیده اشاره کرد. صورتک های چرنف در سال 1973 توسط آمارشناسی به نام هرمن چرنف معرفی شد.این تکنیک می تواند مجموعه داده هایی بالغ بر 18 بعد را با کمک اعضای صورت انسان به صورت کارتونی نشان دهد.صورتک های چرنف از این قابلیت استفاده میکنند که انسان تفاوت های کوچک در مشخصات صورت را به خاطر می سپارد و در یک لحظه ی سریع بسیاری از این خصوصیات را مقایسه می کند.
خصوصیاتی مانند شکل، اندازه، محل قرارگیری و جهت اعضاء موجود در صورت انسان (چشم، گوش ها، دهان و بینی) مؤلفه هایی هستند که با کمک آنها مقادیر داده ها نمایش داده می شوند.
تکنیک های سلسله مراتبی مصورسازی
همه تکنیک هایی که تا کنون بررسی شدند، تمرکزشان بروی مصور سازی چندین بعد به صورت همزمان بود. تکنیک های سلسله مراتبی مصورسازی کلیه ی ابعاد را به زیر مجموعه هایی افراز می کنند و یک روش سلسله مراتبی مصور سازی می شوند.
دنیای تو در تو
یکی از این روش ها دنیا های تو در توایت، که با نام n-VISION نیز شتاخته می شود. فرض کنید می خواهیم مجموعه داده هایی را با تعداد 6 بعد به نام های F,X1,…,X5 مصور سازی کنیم. می خواهیم چگونگی تغییر F را با توجه به تغییرات دیگر ابعاد مشاهده کنیم. در ابتدا مقادیر ابعاد X3,X4,X5 رابرابر با برخی از مقادیر منتخب مانند c3,c4,c5 تنظیم می کنیم. سپس با توجه به مقادیر سه بعدی دیگر یعنی F,X1,X2 یک گراف سه بعدی رسم می کنیم و آن را یک جهان می نامیم، موقعیت اصلی دنیای درونی در نقطه (c3,c4,c5) دنیای بیرونی است که خود گراف سه بعدی دیگری است که با کمک ابعاد X3,X4,X5 رسم شده است. یک کاربر می تواند محل دنیای درونی اصلی را که در دنیای بیرونی قرار دارد به صورت تعاملی تغییر دهد.بدین ترتیب کاربر می تواند نتایج تغییرات دنیای درونی را مشاهده کند.
نگاشت های درختی
نمونه دیگری از روش های سلسله مراتبی مصور سازی، نگاشت درختی نام دارد که در آن داده های سلسله مراتبی به صورت مجموعه ای از مستطیل های تو در تو نمایش داده می شوند.
مصور سازی داده ها و روابط پیچیده
در ابتدا تکنیک مصورسازی تنها مخصوص داده های عددی بودند. در سال های اخیر داده های عیر عددی مانند متن و شبکه های اجتماعی نیز در دسترس قرار گرفته اند و مصور سازی چنین داده هایی جذابیت های مخصوص به خود را به همراه دارد.برای مثال بسیاری از افراد در وب بر روی اشیاء مختلفی مانند تصاویر، مدخل های بلاگ و بازبینی محصول کلیک می زنند.
Latest News
Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod .
Our blog