(Weka) ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﻭﮐﺎ

دوشنبه ۰۲ بهمن ۹۶ | ۱۳:۵۲ ۳ بازديد

ماشين حساب
ايتدا قبل از اين كه بخواهيم در مورد اين نرم افزار توضيح دهيم ، به حوزه ي مورد استفاده ي آن اشاره اي مي كنيم و در مورد داده كاوي در اين نرم افزار توضيح مي دهيم.
داده كاوي يا ديتاماينينگ ، در هسته ي خود ، به معني تبديل مقدار زيادي از داده به قسمت هاي معني دار و با قواعد را مي گويند. به عبارت ديگر ، مي تواند به دو قسمت تقسيم بندي شود:
به شكل مستقيم و به شكل غير مستقيم . در داده كاوي به شكل مستقيم شما قصد داريد كه يك مقدار داده هاي يك نقطه ي مشخصي را پيش بيني كنيد .
مانند پيش بيني رشد قيمت خانه و پيش بيني براي خريد در زماني مشخص
در شكل غير مستقيم ، شما تعدادي گروه داده ايجاد مي كنيد يا تعدادي الگو در داده هاي موجود پيدا كنيد .
داده كاوي صرفا در حوزه شركت هاي بزرگ و نرم افزار هاي گران قيمت نيست . در واقع يك نوع نرم افزار وجود دارد كه بتواند تقريبا همه ي همان چيزهايي كه نرم افزار هاي گران انجام مي دهند ، انجام دهد . آن نرم افزار همان وكا است. وكا محصول و ساخته شده ي دانشگاه وايكاتو در نيوزلند است و در ابتدا در سال ۱۹۹۷ طراحي و توسعه داده شد.
وكا از الگوريتم هاي زيادي برخوردار است كه مي توان به شكل زيربه آنها اشاره كرد :
طبقه بندي : درخت تصميم ،‌ نزديك ترين نقطه ها ،‌الگوريتم كوتاه ترين مسير ، بيز ساده
پيش بيني كردن :‌ رگرسيون خطي و غير خطي ، الگوريتم ادراكي
روش هاي متا : الگوريتم كيسه ، الگوريتم افزايش
اين روش ها در قسمت هاي يادگيري ماشين با نظارت و بدون نطارت و همچنين تقويتي و خود تكميلي تقسيم مي شوند.
الگوريتم هاي زيادي در اين نرم افزار وجود دارند كه به اختصار به تعدادي از انها اشاره كرديم .
البته در مورد الگوريتم هاي ناشناخته تر ديگر نيز وكا يك باكسي فراهم كرده تا اطلاعات اوليه اي براي اشنايي با آن به شما بدهد اينگونه بتوانيد حداقل اطلاعات راجع به آن الگوريتم را داشته باشيد .
ﻭﮐﺎ ﺷﺎﻣﻞ ﻣﺠﻤﻮﻋﻪ ﺍﯼ ﺍﺯ ﺍﺑﺰﺍﺭ ﻫﺎﯼ ﺩﻳﺪﺍﺭﯼ ﺳﺎﺯﯼ ﻭ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﻳﯽ ﺑﺮﺍﯼ ﺁﻧﺎﻟﻴﺰ ﻭ ﺑﺮﺭﺳﯽ ﺩﺍﺩﻩ ﻫﺎ ﻭ ﭘﻴﺶ ﺑﻴﻨﯽ ﺁﻧﻬﺎ ﻣﯽ ﺑﺎﺷﺪ ﮐﻪ ﺭﺍﺑﻂ ﮐﺎﺭﺑﺮﯼ ﮔﺮﺍﻓﻴﮑﯽ ﺁﻥ ﮐﺎﺭ ﺑﺮﺍﯼ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﺍﻳﻦ ﺗﻮﺍﺑﻊ ﻭ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎ ﺭﺍ ﺁﺳﺎﻥ ﺗﺮ ﮐﺮﺩﻩ ﺍﺳﺖ. ﺩﺭ ﻣﺪﻝ ﻫﺎﯼ ﻗﺒﻠﯽ ﻭﮐﺎ ﺑﻪ ﺯﺑﺎﻥ ﻫﺎﯼ ﺩﻳﮕﺮ ﭘﻴﺎﺩﻩ ﺳﺎﺯﯼ ﺷﺪﻩ ﺑﻮﺩ ﻭ ﺍﺯ ﺍﻳﻦ ﺭﺍﺑﻂ ﮐﺎﺭﺑﺮﯼ ﺑﺮﺧﻮﺭﺩﺍﺭ ﻧﺒﻮﺩ. ﺁﺧﺮﻳﻦ ﻭﺭﮊﻥ ﺍﻳﻦ ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﻭﺭﮊﻥ ۳ ﺁﻥ ﻣﯽ ﺑﺎﺷﺪ ﮐﻪ ﺷﺎﻣﻞ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ ﺯﻳﺎﺩﯼ ﻣﯽ ﺑﺎﺷﺪ .
ﺑﺮﺍﯼ ﻓﺎﻳﺪﻩ ﻫﺎﯼ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺍﻳﻦ ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﻣﯽ ﺗﻮﺍﻥ ﺭﺍﻳﮕﺎﻥ ﺑﻮﺩﻥ ﺁﻥ ﺭﺍ ﻧﺎﻡ ﺑﺮﺩ ﻭ ﺍﻳﻦ ﮐﻪ ﺍﻳﻦ ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﭘﻠﺘﻔﺮﻡ ﺧﺎﺻﯽ ﻧﻴﺴﺖ ﻭ ﺑﺮ ﺭﻭﯼ ﺗﻤﺎﻡ ﭘﻠﺘﻔﺮﻡ ﻫﺎﯼ ﻣﺤﺎﺳﺒﺎﺗﯽ ﮐﻪ ﺟﺎﻭﺍ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﻗﺎﺑﻞ ﻧﺼﺐ ﻣﯽ ﺑﺎﺷﺪ.
ﻭﮐﺎ ﺍﺯ ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﻫﺎﯼ ﺯﻳﺎﺩﯼ ﺑﺮﺍﯼ ﺩﺍﺩﻩ ﮐﺎﻭﯼ ﺑﻪ ﺧﺼﻮﺹ پردازش كزدن ، كلاستر بندي ، طبقه بندي و رگرسيون برخوردار مي باشد. ﺑﺮﺧﻮﺭﺩﺍﺭﯼ ﺍﺯ ﺍﻳﻦ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻓﺎﻳﻞ ﻫﺎﯼ ﺩﺍﺩﻩ ﻫﺎ ﺍﻣﮑﺎﻥ ﭘﺬﻳﺮ ﻣﯽ ﺑﺎﺷﺪ . ﻭﮐﺎ ﺍﻣﮑﺎﻥ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﭘﺎﻳﮕﺎﻩ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﺎﺩﻩ ﺷﺪﻩ ﺑﺎ ﺯﻳﺎﻥ ﺍﺳﮑﻴﻮﻝ ﺭﺍ ﻧﻴﺰ ﻓﺮﺍﻫﻢ ﻣﯽ ﮐﻨﺪ ﻭ ﻣﯽ ﺗﻮﺍﻧﺪ ﻧﺘﺎﻳﺞ ﻣﻮﺭﺩ ﻧﻈﺮ ﺭﺍ ﺩﺭ ﻗﺎﻟﺐ ﻳﮏ ﭘﺮﺱ ﻭ ﺟﻮ ﺑﺎ ﭘﺎﻳﮕﺎﻩ ﺩﺍﺩﻩ ﻓﺮﺍﻫﻢ ﮐﻨﺪ.
رابط كاربري اصلي وكا ، اكسئلورر مي باشد اما از قسمت هاي ديگر نيز امكان دسترسي به توابع موجود مي باشد. قسمت هاي ديگر نرم افزار شامل يك آزمايشگر ، ﻳﮏ ﮔﺮﺍﻑ ﮐﻨﺘﺮﻝ ﺟﺮﻳﺎﻥ ﺩﺍﺩﻩ ﻫﺎ ﻭ ﻳﮏ ﺧﻂ ﻓﺮﻣﺎﻥ ﺳﺎﺩﻩ ﻣﯽ ﺑﺎﺷﺪ .
ﻗﺴﻤﺖ ﺍﮐﺴﭙﻠﻮﺭﺭ ﺩﺭ ﻭﮐﺎ ﭼﻨﺪ ﭘﻨﻞ ﺑﺮﺍﯼ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎ ﻭ ﻭﻳﮋﮔﯽ ﻫﺎ ﻓﺮﺍﻫﻢ ﮐﺮﺩﻩ ﺍﺳﺖ .
۱ – ﭘﻴﺶ ﭘﺮﺩﺍﺯﺵ : ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﺍﻣﮑﺎﻥ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺩﺍﺩﻩ ﻫﺎ ﺑﻪ ﺷﮑﻞ ﻓﺎﻳﻞ ﻭﺭﻭﺩﯼ ARFF ،csv ﻳﺎ ﺍﺭﺗﺒﺎﻁ ﺑﺎ ﭘﺎﻳﮕﺎﻩ ﺩﺍﺩﻩ ﻓﺮﺍﻫﻢ ﺷﺪﻩ ﺍﺳﺖ .
۲ – ﻃﺒﻘﻪ ﺑﻨﺪﯼ : ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﺍﻣﮑﺎﻥ ﺍﺿﺎﻓﻪ ﮐﺮﺩﻥ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﻃﺒﻘﻪ ﺑﻨﺪﯼ ﻳﺎ ﺭﮔﺮﺳﻴﻮﻥ ﻓﺮﺍﻫﻢ ﺷﺪﻩ ﺗﺎ ﮐﺎﺭﺑﺮ ﺑﻪ ﺳﺎﺩﮔﯽ ﺑﺘﻮﺍﻧﺪ ﺍﺯ ﺗﻌﺪﺍﺩ ﺯﻳﺎﺩﯼ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﻣﺮﺑﻮﻃﻪ ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ROC ، ﺩﺭﺧﺖ ﺗﺼﻤﻴﻢ ﻭ … ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﺪ.
۳ – ﻭﺍﺑﺴﺘﮕﯽ : ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﻳﮏ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﺑﺨﺶ ﻗﻮﺍﻧﻴﻦ ﻓﺮﺍﻫﻢ ﺷﺪﻩ ﺗﺎ ﺍﺭﺗﺒﺎﻁ ﻣﻴﺎﻥ ﺩﺍﺩﻩ ﻫﺎ ﻭ ﻗﻮﺍﻧﻴﻦ ﺩﻳﺪﻩ ﺷﻮﺩ.
۴ – ﮐﻼﺳﺘﺮ : ﺍﻳﻦ ﻗﺴﻤﺖ ﺍﻣﮑﺎﻥ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺗﮑﻨﻴﮏ ﻫﺎﯼ ﮐﻼﺳﺘﺮﻳﻨﮓ ﺭﺍ ﺑﺮﺍﯼ ﻣﺎ ﻓﺮﺍﻫﻢ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺍﻟﮕﻮﺭﻳﺘﻢ k-means ﺍﺷﺎﺭﻩ ﮐﺮﺩ. ﻫﻤﭽﻨﻴﻦ ﺩﺭ ﺍﻳﻦ ﺑﺨﺶ ﭘﻴﺎﺩﻩ ﺳﺎﺯﯼ ﻫﺎﯼ ﺩﻳﮕﺮﯼ ﺑﺮﺍﯼ ﺗﻮﺯﻳﻊ ﻫﺎﯼ ﻧﺮﻣﺎﻝ ﻧﻴﺰ ﻭﺟﻮﺩ ﺩﺍﺭﺩ.
۵ – ﻧﻤﺎﺩﻳﻨﻪ ﺳﺎﺯﯼ : ﺩﺭ ﺍﻳﻦ ﺑﺨﺶ ﻣﯽ ﺗﻮﺍﻥ ﻧﺘﻴﺠﻪ ﯼ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎ ﺑﺮ ﺭﻭﯼ ﺩﺍﺩﻩ ﻫﺎ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﭘﻼﺕ ﻭ ﻧﻤﻮﺩﺍﺭ ﻣﺸﺎﻫﺪ ﮐﺮﺩ.

ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﻭﮐﺎ
ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﺍﺑﺘﺪﺍ ﺑﻪ ﺗﻮﺿﻴﺢ ﺍﻟﮕﻮﺭﻳﺘﻢ ﺭﮔﺮﺳﻴﻮﻥ ﻭ ﮐﺎﺭﺑﺮﺩ ﺁﻥ ﺩﺭ ﻭﮐﺎ ﻣﯽ ﭘﺮﺩﺍﺯﻳﻢ :
ﺭﮔﺮﺳﻴﻮﻥ ﻳﮑﯽ ﺍﺯ ﺳﺎﺩﻩ ﺗﺮﻳﻦ ﺭﻭﺵ ﻫﺎ ﺑﺮﺍﯼ ﺍﺳﺘﻔﺎﺩﻩ ﺩﺭ ﻭﮐﺎ ﺍﺳﺖ ﺍﻣﺎ ﺑﻪ ﺗﻨﺎﺳﺐ ﺍﺯ ﻗﺪﺭﺕ ﮐﻤﺘﺮﯼ ﻧﻴﺰ ﺑﺮﺧﻮﺭﺩﺍﺭ ﺍﺳﺖ . ﺍﻳﻦ ﻣﺪﻝ ﺑﻪ ﺳﺎﺩﮔﯽ ﺍﻳﻦ ﺍﺳﺖ ﮐﻪ ﻣﯽ ﺗﻮﺍﻧﺪ ﻳﮏ ﻭﺭﻭﺩﯼ ﺑﮕﻴﺮﺩ ﻭ ﻳﮏ ﺧﺮﻭﺟﯽ ﺑﺪﻫﺪ . ﺍﻟﺒﺘﻪ ﻣﻘﺎﺩﻳﺮ ﭘﻴﭽﻴﺪﻩ ﺗﺮﯼ ﺍﺯ ﺍﻳﻦ ﻧﻴﺰ ﻣﯽ ﺗﻮﺍﻧﺪ ﺩﺭﻳﺎﻓﺖ ﮐﻨﺪ ﻭ ﺧﺮﻭﺟﯽ ﻫﺎﯼ ﻣﺘﻨﺎﺳﺒﯽ ﺑﺎ ﺁﻥ ﻧﻴﺰ ﺑﺪﻫﺪ.
ﺑﻪ ﺑﻴﺎﻧﯽ ﺩﻳﮕﺮ ﻣﯽ ﺗﻮﺍﻥ ﮔﻔﺖ ﮐﻪ ﺭﮔﺮﺳﻴﻮﻥ ﺣﻮﻝ ﺩﺍﺩﻩ ﻫﺎﻳﯽ ﺑﺎ ﻳﮏ ﻧﻮﻉ ﺍﻋﻤﺎﻝ ﻣﯽ ﺷﻮﻧﺪ. ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﻳﮏ ﺳﺮﯼ ﻣﺘﻐﻴﺮ ﻫﺎﯼ ﻣﺴﺘﻘﻞ ﻭﺟﻮﺩ ﺩﺍﺭﻧﺪ ﮐﻪ ﻫﻨﮕﺎﻣﯽ ﮐﻪ ﺑﺎ ﻫﻢ ﻣﺘﺼﻞ ﻣﯽ ﺷﻮﻧﺪ ﻳﮏ ﻧﺘﻴﺠﻪ ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﻫﻢ ﺭﺍ ﻣﯽ ﺳﺎﺯﻧﺪ.
ﻫﻤﭽﻨﻴﻦ ﺍﺯ ﺭﮔﺮﺳﻴﻮﻥ ﺑﺮﺍﯼ ﭘﻴﺶ ﺑﻴﻨﯽ ﮐﺮﺩﻥ ﻧﺘﻴﺠﻪ ﺍﺯ ﻳﮏ ﺳﺮﯼ ﻣﺘﻐﻴﺮ ﻫﺎﯼ ﻣﺴﺘﻘﻞ ﻧﺎﺷﻨﺎﺧﺘﻪ ﻧﻴﺰ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﺷﻮﺩ. ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺭﻭﺵ ﭘﻴﺶ ﺑﻴﻨﯽ ﻗﻴﻤﺖ ﺧﺎﻧﻪ ﺑﺎ ﺭﮔﺮﺳﻴﻮﻥ ﺍﺷﺎﺭﻩ ﮐﺮﺩ.
ﺣﺎﻝ ﺑﻪ ﻧﺤﻮﻩ ﯼ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﮔﺮﺳﻴﻮﻥ ﺩﺭ ﻭﮐﺎ ﻣﯽ ﭘﺮﺩﺍﺯﻳﻢ:
ﺍﺑﺘﺪﺍ ﻳﮏ ﻓﺎﻳﻞ ﺩﺍﺩﻩ ﺑﺎ ﻓﺮﻣﺖ ARFF ﺭﺍ ﺑﺎﺭﮔﺬﺍﺭﯼ ﻣﯽ ﮐﻨﻴﻢ . ﺩﺭ ﺻﻮﺭﺕ ﻣﻮﺟﻮﺩ ﻧﺒﻮﺩﻥ ﻣﯽ ﺗﻮﺍﻧﻴﻢ ﻳﮏ ﻓﺎﻳﻞ ﻧﻤﻮﻧﻪ ﺍﻳﺠﺎﺩ ﮐﻨﻴﻢ . ﺩﺭ ﺻﻔﺤﻪ ﯼ ﺑﻌﺪ ﻧﻤﻮﻧﻪ ﺍﯼ ﺍﺯ ﻳﮏ ﻓﺎﻳﻞ ﺩﺍﺩﻩ ﻣﺨﺼﻮﺹ ﻭﮐﺎ ﺁﻣﺪﻩ ﺍﺳﺖ .

RELATION house@
@ATTRIBUTE houseSize NUMERIC
@ATTRIBUTE lotSize NUMERIC
@ATTRIBUTE bedrooms NUMERIC
@ATTRIBUTE granite NUMERIC
@ATTRIBUTE bathroom NUMERIC
@ATTRIBUTE sellingPrice NUMERIC
@DATA
۳۵۲۹,۹۱۹۱,۶,۰,۰,۲۰۵۰۰۰
۳۲۴۷,۱۰۰۶۱,۵,۱,۱,۲۲۴۹۰۰
۴۰۳۲,۱۰۱۵۰,۵,۰,۱,۱۹۷۹۰۰
۲۳۹۷,۱۴۱۵۶,۴,۱,۰,۱۸۹۹۰۰
۲۲۰۰,۹۶۰۰,۴,۰,۱,۱۹۵۰۰۰
۳۵۳۶,۱۹۹۹۴,۶,۱,۱,۳۲۵۰۰۰
۲۹۸۳,۹۳۶۵,۵,۰,۱,۲۳۰۰۰۰
ﺍﻳﻦ ﻧﻤﻮﻧﻪ ﻓﺎﻳﻞ ﻧﻤﻮﻧﻪ ﺑﺮﺍﯼ ﭘﻴﺶ ﺑﻴﻨﯽ ﻗﻴﻤﺖ ﺧﺎﻧﻪ ﻣﯽ ﺑﺎﺷﺪ ﮐﻪ ﺗﺸﮑﻴﻞ ﺷﺪﻩ ﺍﺯ ﺳﻪ ﻗﺴﻤﺖ ﺍﺻﻠﯽ ﺑﻪ ﻧﺎﻡ ﺭﺍﺑﻄﻪ ، ﻭﻳﮋﮔﯽ ﻭ ﺩﺍﺩﻩ ﻣﯽ ﺑﺎﺷﺪ.ﻓﺎﻳﻞ ﻣﺮﺑﻮﻃﻪ ﺭﺍ ﺍﺯ ﭘﻨﻞ ﺑﺎﺯ ﮐﺮﺩﻥ ﻓﺎﻳﻞ ﺟﺪﻳﺪ ﺩﺭ ﻭﮐﺎ ﺑﺎﺭﮔﺬﺍﺭﯼ ﻣﻴﮑﻨﻴﻢ.
ﺣﺎﻝ ﻗﺼﺪ ﺩﺍﺭﻳﻢ ﻳﮏ ﻣﺪﻝ ﺟﺪﻳﺪ ﺭﮔﺮﺳﻴﻮﻥ ﺑﺴﺎﺯﻳﻢ . ﺑﺮﺍﯼ ﺍﻳﻦ ﮐﺎﺭ ﺩﺭ ﻧﻮﺍﺭ ﺑﺎﻻ ﮔﺰﻳﻨﻪ ﯼ classify ﺭﺍ ﮐﻠﻴﮏ ﻣﯽ ﮐﻨﻴﻢ . ﺣﺎﻝ ﺑﺎﻳﺪ ﻳﮏ ﺗﺎﺑﻊ ﺍﻧﺘﺨﺎﺏ ﮐﻨﻴﻢ . ﺗﺎﺑﻊ Linear Regression ﻳﺎ ﻫﻤﺎﻥ ﺭﮔﺮﺳﻴﻮﻥ ﺧﻄﯽ ﺭﺍ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﻴﻢ.

ﺣﺎﻝ ﺑﺮﺍﯼ ﺗﺴﺖ ﮔﺮﻓﺘﻦ ﺍﺯ ﻓﺎﻳﻞ ﺑﺎ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻣﻮﺭﺩ ﻧﻈﺮ ، ﮔﺰﻳﻨﻪ ﻫﺎﻳﯽ ﺩﺭ ﭘﻴﺶ ﺭﻭ ﺩﺍﺭﻳﻢ ﮐﻪ ﺑﻪ ﻣﺎ ﺍﺟﺎﺯﻩ ﻣﻴﺪﻫﺪ ﺗﺎ ﺩﺳﺘﻪ ﺑﻨﺪﯼ ﻫﺎ ﻭ ﻣﺪﻝ ﺍﻧﺠﺎﻡ ﺷﺪﻥ ﺍﻟﮕﻮﺭﻳﺘﻢ ﺭﺍ ﺗﻐﻴﻴﺮ ﺑﺪﻫﻴﻢ ﻣﺜﻼ cross-validation ﺍﺟﺎﺯﻩ ﻣﯽ ﺩﻫﺪ ﺗﺎ ﺑﻪ ﻣﺠﻤﻮﻋﻪ ﻫﺎﯼ ﮐﻮﭼﮑﺘﺮﯼ ﮐﺎﺭ ﺭﺍ ﺗﻘﺴﻴﻢ ﮐﻨﺪ ﻭ ﺩﺭ ﺁﺧﺮ ﺍﺯ ﻫﻤﻪ ﯼ ﺁﻧﻬﺎ ﻣﻴﺎﻧﮕﻴﻦ ﺑﮕﻴﺮﺩ ﻭ ﻳﺎ ﻣﺜﻼ Percentage split ﺍﻳﻦ ﺍﻣﮑﺎﻥ ﺭﺍ ﺑﻪ ﻣﺎ ﻣﯽ ﺩﻫﺪ ﮐﻪ ﺩﺭﺻﺪﯼ ﺍﺯ ﺩﺍﺩﻩ ﻫﺎ ﺭﺍﺑﮕﻴﺮﺩ ﺗﺎ ﺑﺘﻮﺍﻧﻴﻢ ﻣﺪﻝ ﻧﻬﺎﻳﯽ ﺭﺍ ﺑﺴﺎﺯﻳﻢ. ﻣﺎ ﺩﺭ ﺍﻳﻦ ﺟﺎ ﻣﺪﻝ ﺗﻤﺮﻳﻨﯽ ﺭﺍ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﻴﻢ.
ﺩﺭ ﻧﻬﺎﻳﺖ ﺳﺘﻮﻧﯽ ﮐﻪ ﻣﺎ ﻣﯽ ﺧﻮﺍﻫﻴﻢ ﭘﻴﺶ ﺑﻴﻨﯽ ﮐﻨﻴﻢ ﺭﺍ ﺑﺎﻳﺪ ﺍﻧﺘﺨﺎﺏ ﮐﻨﻴﻢ ﮐﻪ ﻃﺒﻴﻌﺘﺎ ﺑﺎﻳﺪ ﻗﻴﻤﺖ ﺧﺎﻧﻪ ﺑﺎﺷﺪ.
ﮐﻠﻴﺪ ﺍﺳﺘﺎﺭﺕ ﺭﺍ ﻣﯽ ﺯﻧﻴﻢ ﻭ ﻧﺘﻴﺠﻪ ﺭﺍ ﺩﺭ ﺻﻔﺤﻪ ﻣﯽ ﺑﻴﻨﻴﻢ.

ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﻗﺼﺪ ﺩﺍﺭﻳﻢ ﺗﺎ ﻣﺨﺘﺼﺮﯼ ﺩﺭ ﻣﻮﺭﺩ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﻃﺒﻘﻪ ﺑﻨﺪﯼ ﻭ ﮐﻼﺳﺘﺮﻳﻨﮓ ﻭ ﻫﻤﭽﻨﻴﻦ ﻧﺤﻮﻩ ﺍﺳﺘﻔﺎﺩﻩ ﺁﻧﻬﺎ ﺩﺭ ﻭﮐﺎ ﺭﺍ ﺗﻮﺿﻴﺢ ﺩﻫﻴﻢ .
ﻃﺒﻘﻪ ﺑﻨﺪﯼ ﻳﺎ ﻫﻤﺎﻥ ﮐﻼﺳﻴﻔﻴﮑﻴﺸﻦ ﺑﻪ ﻧﺎﻡ ﺩﻳﮕﺮ ﺩﺭﺧﺖ ﻃﺒﻘﻪ ﺑﻨﺪﯼ ﻳﺎ ﺩﺭﺧﺖ ﺗﺼﻤﻴﻢ ﻧﻴﺰ ﻣﺸﻬﻮﺭ ﺍﺳﺖ ﮐﻪ ﻳﮏ ﺍﻟﮕﻮﺭﻳﺘﻢ ﺩﺍﺩﻩ ﮐﺎﻭﯼ ﺍﺳﺖ ﮐﻪ ﻣﺮﺣﻠﻪ ﺑﻪ ﻣﺮﺟﻠﻪ ﺑﺮﺍﯼ ﺭﺳﻴﺪﻥ ﺑﻪ ﺧﺮﻭﺟﯽ ﺩﺍﺩﻩ ﻫﺎﯼ ﻣﺮﺑﻮﻁ ﺍﻋﻤﺎﻝ ﻣﯽ ﺷﻮﺩ.
ﺩﺭ ﺍﻳﻦ ﺩﺭﺧﺖ ﻫﺮ ﻧﻘﻄﻪ ﻳﮏ ﺗﺼﻤﻴﻤﯽ ﺭﺍ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ ﮐﻪ ﺑﺮﺍﺳﺎﺱ ﻭﺭﻭﺩﯼ ﺑﺎﻳﺪ ﺍﻳﺠﺎﺩ ﺷﻮﺩ ﺗﺎﺟﺎﻳﯽ ﮐﻪ ﺑﻪ ﺁﺧﺮﻳﻦ ﺑﺮﮒ ﺩﺭﺧﺖ ﺑﺮﺳﺪ ﻭ ﻳﮏ ﺭﻭﺵ ﭘﻴﺶ ﺑﻴﻨﯽ ﺷﻮﺩ. ﻣﺜﺎﻝ ﺳﺎﺩﻩ ﯼ ﺻﻔﺤﻪ ﯼ ﺑﻌﺪ ﻧﺸﺎﻥ ﺩﻫﻨﺪﻩ ﯼ ﺍﻳﻦ ﻣﻮﺿﻮﻉ ﺍﺳﺖ :
?Will You Read This Section
/
oN Yes
/
[Will You Understand It?] [Won’t Learn It]
/
oN Yes
/
Will Learn It Won’t Learn It
ﺍﻳﻦ ﺩﺭﺧﺖ ﺗﺼﻤﻴﻢ ﮔﻴﺮﯼ ﺳﺎﺩﻩ ﺑﻪ ﺷﻤﺎ ﮐﻤﮏ ﻣﯽ ﮐﻨﺪ ﺗﺎ ﺑﺘﻮﺍﻧﻴﺪ ﺗﺼﻤﻴﻢ ﮔﻴﺮﯼ ﺩﺭﺳﺖ ﺭﺍ ﺍﻧﺠﺎﻡ ﺩﻫﻴﺪ. ﻣﻌﻤﻮﻻ ﻧﻘﻄﻪ ﯼ ﺗﺼﻤﻴﻢ ﮔﻴﺮﯼ ﺑﺎ ﻳﮏ ﻣﺴﺘﻄﻴﻞ ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﻣﯽ ﺷﻮﺩ ﻭ ﻧﻘﺎﻁ ﭘﺎﻳﺎﻧﯽ ﻧﻴﺰ ﺑﺎ ﻣﺜﻠﺚ ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﻣﯽ ﺷﻮﺩ. ﻧﻘﺎﻁ ﻣﻴﺎﻧﯽ ﺗﺼﻤﻴﻢ ﮔﻴﺮﯼ ﻣﻴﺰ ﻣﻌﻤﻮﻻ ﺑﺎ ﺩﺍﻳﺮﻩ ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﻣﯽ ﺷﻮﻧﺪ.
ﺣﺎﻝ ﺑﻪ ﺑﺮﺭﺳﯽ ﻣﺜﺎﻝ ﺩﺭ ﻭﮐﺎ ﻣﯽ ﭘﺮﺩﺍﺯﻳﻢ.

ﺍﺯ ﭘﻨﻞ ﺑﺎﻻ ﮔﺰﻳﻨﻪ ﯼ ﮐﻠﺴﻴﻔﺎﯼ ﺭﺍ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﻴﻢ . ﺍﻟﮕﻮﺭﻳﺘﻢ ﺩﺭﺧﺖ ﺗﺼﻤﻴﻢ ﺭﺍ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﻴﻢ . ﻫﻤﺎﻧﻨﺪ ﺭﮔﺮﺳﻴﻮﻥ ﻳﮏ ﻓﺎﻳﻞ ﻧﺘﻴﺠﻪ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ ﻭ ﺑﻴﺎﻥ ﮔﺮ ﭘﻴﺶ ﺑﻴﻨﯽ ﺍﺯ ﺩﺍﺩﻩ ﻫﺎﯼ ﻣﻮﺭﺩ ﻧﻈﺮ ﻣﯽ ﺑﺎﺷﺪ .
ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﺩﺭﺑﺎﺭﻩ ﯼ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﮐﻼﺳﺘﺮﻳﻨﮓ ﺑﺤﺚ ﻣﯽ ﮐﻨﻴﻢ .
ﮐﻼﺳﺘﺮﻳﻨﮓ ﺩﺭ ﻭﺍﻗﻊ ﺑﻪ ﮐﺎﺭﺑﺮ ﺍﻳﻦ ﺍﻣﮑﺎﻥ ﺭﺍ ﻣﯽ ﺩﻫﺪ ﮐﻪ ﮔﺮﻭﻫﯽ ﺍﺯ ﺩﺍﺩﻩ ﻫﺎ ﺭﺍ ﭘﺮﺩﺍﺯﺵ ﮐﺮﺩﻩ ﻭ ﺍﻟﮕﻮ ﻫﺎﻳﯽ ﺭﺍ ﺍﺯ ﺍﻳﻦ ﺩﺍﺩﻩ ﻫﺎ ﺧﺎﺭﺝ ﮐﻨﺪ . ﺍﻳﻦ ﺭﻭﺵ ﺧﻮﺑﯽ ﻫﺎﻳﯽ ﺑﺮﺍﯼ ﺧﻮﺩ ﻧﻴﺰ ﺩﺍﺭﺩ . ﻫﻨﮕﺎﻣﯽ ﮐﻪ ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﻫﺎ ﺗﻌﺮﻳﻒ ﻣﯽ ﺷﻮﻧﺪ ﻭ ﻳﮏ ﺍﻟﮕﻮ ﯼ ﻣﺸﺨﺼﯽ ﻧﻴﺎﺯ ﺍﺳﺖ ﺗﺎ ﺍﺯ ﺍﻳﻦ ﺩﺍﺩﻩ ﻫﺎ ﻣﺸﺨﺺ ﺷﻮﺩ. ﻫﻤﭽﻨﻴﻦ ﺍﻳﻦ ﺍﻣﮑﺎﻥ ﺩﺍﺩﻩ ﻣﯽ ﺷﻮﺩ ﮐﻪ ﮔﺮﻭﻩ ﻫﺎﻳﯽ ﻣﺘﺸﮑﻞ ﺍﺯ ﺩﺍﺩﻩ ﻫﺎﯼ ﻣﺨﺘﻠﻒ ﺑﻪ ﺗﻨﺎﺳﺐ ﻧﻴﺎﺯ ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﻗﺮﺍﺭ ﺑﮕﻴﺮﻧﺪ.
ﺣﺎﺍﻝ ﺑﺎ ﻳﮏ ﻣﺜﺎﻝ ﺭﻭﺵ ﺍﻧﺠﺎﻡ ﺍﻳﻦ ﮐﺎﺭ ﻭ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺁﻥ ﺭﺍ ﺑﺮ ﺭﻭﯼ ﻭﮐﺎ ﺗﻮﺿﻴﺢ ﻣﯽ ﺩﻫﻴﻢ.
ﻳﮏ ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﻫﻤﺎﻧﻨﺪ ﻣﺜﺎﻝ ﻗﺒﻞ ﻓﺮﺍﻫﻢ ﻣﯽ ﮐﻨﻴﻢ . ﺩﺭ ﺍﻳﻦ ﺟﺎ ﻣﺎ ﻳﮏ ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﮐﻪ ﺷﺎﻣﻞ ﺧﺮﻳﺪ ﻭ ﻓﺮﻭ ﻫﺎﯼ ﻳﮏ ﺑﺮﻧﺪ ﻣﺎﺷﻴﻦ ﺍﺳﺖ ﺭﺍ ﺑﺮﺭﺳﯽ ﻣﯽ ﮐﻨﻴﻢ .
ﺩﺍﺩﻩ ﯼ ﻣﻮﺟﻮﺩ ﺭﺍ ﺍﺯ ﭘﻨﻞ ﺑﺎﺯ ﮐﺮﺩﻥ ﻓﺎﻳﻞ ﺟﺪﻳﺪ ،ﺑﺎﺭﮔﺬﺍﺭﯼ ﻣﯽ ﮐﻨﻴﻢ . ﺻﻔﺤﻪ ﯼ ﺳﻤﺖ ﭼﭗ ﺑﺎﺯ ﺷﺪﻩ ﺍﻣﮑﺎﻥ ﺩﻳﺪﻥ ﺳﺘﻮﻥ ﻫﺎﯼ ﺩﺍﺩﻩ ﻫﺎ ﺑﺮ ﺍﺳﺎﺱ ﭘﻴﮋﮔﯽ ﻫﺎﯼ ﻣﺨﺘﻠﻒ ﻣﻮﺟﻮﺩ ﻣﯽ ﺑﺎﺷﺪ.

ﺍﺯ ﻣﻨﻮﯼ ﺑﺎﻻ ، ﮔﺰﻳﻨﻪ ﯼ ﮐﻼﺳﺘﺮ ﺭﻭ ﮐﻠﻴﮏ ﻣﯽ ﮐﻨﻴﻢ . ﺍﺯ ﺩﮐﻤﻪ ﯼ ﺍﻧﺘﺨﺎﺏ ﺍﻟﮕﻮﺭﻳﺘﻢ ،ﺭﻭﺵ SIMPLE KMEANS ﺭﺍ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﻴﻢ . ﺩ ﺻﻔﺤﻪ ﯼ ﻣﻮﺟﻮﺩ ﻳﮏ ﮔﺰﻳﻨﻪ ﺑﺮﺍﯼ ﺗﻨﻈﻴﻤﺎﺕ ﺍﺿﺎﻓﯽ ﻣﻮﺟﻮﺩ ﺍﺳﺖ ﺑﻪ ﻧﺎﻡ numClustersﮐﻪ ﻣﺸﺨﺺ ﻣﯽ ﮐﻨﺪ ﻣﺎ ﻣﯽ ﺧﻮﺍﻫﻴﻢ ﭼﻨﺪ ﮐﻼﺳﺘﺮ ﺍﻳﺠﺎﺩ ﮐﻨﻴﻢ.

ﺩﺭ ﺍﻳﻨﺠﺎ ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﺣﺎﻟﺖ ﭘﻴﺶ ﻓﺮﺽ ۲ ﺭﺍ ﺑﻪ ۵ ﺗﻐﻴﻴﺮ ﻣﯽ ﺩﻫﻴﻢ .

ﺩﺭ ﺍﻳﻨﺠﺎ ﻣﺎ ﺁﻣﺎﺩﻩ ﯼ ﺍﻳﻦ ﻫﺴﺘﻴﻢ ﺗﺎ ﻧﺘﻴﺠﻪ ﯼ ﮐﻼﺳﺘﺮﻣﺎﻥ ﺭﻭ ﺑﺮﺭﺳﯽ ﮐﻨﻴﻢ . ﺗﻮﺟﻪ ﮐﻨﻴﺪ ﮐﻪ ﺣﺪﻭﺩﺍ ۰۰۱ ﺭﺩﻳﻒ ﺩﺍﺩﻩ ﺑﺎ ۵ ﮐﻼﺳﺘﺮ ﺗﻘﺮﻳﺒﺎ ﭼﻨﺪ ﺳﺎﻋﺖ ﺯﻣﺎﻥ ﺑﺮﺍﯼ ﻣﺤﺎﺳﺒﻪ ﻣﯽ ﺑﺮﻧﺪ ﺍﻣﺎ ﻭﮐﺎ ﺩﺭ ﭼﻨﺪ ﺛﺎﻧﻴﻪ ﺍﻳﻦ ﮐﺎﺭ ﺭﺍ ﺑﺮﺍﯼ ﮐﺎ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﺪ. ﺩﺭ ﺍﻳﻨﺠﺎ ﻳﮏ ﻧﻤﻮﻧﻪ ﺍﺯ ﺧﺮﻭﺟﯽ ﮐﻼﺳﺘﺮ ﺭﺍ ﻣﻴﺒﻴﻨﻴﻢ .

Cluster#۴ ۳ ۲ ۱ ۰ Full Data Attribute(۲۸) (۱۴) (۵) (۲۷) (۲۶) (۱۰۰)
===================================================================
===============۰ ۰٫۸۵۷۱ ۱ ۰٫۶۶۶۷ ۰٫۹۶۱۵ ۰٫۶ Dealership۱ ۰٫۵۷۱۴ ۰ ۰٫۶۶۶۷ ۰٫۶۹۲۳ ۰٫۷۲ Showroom۰٫۳۲۱۴ ۰٫۸۵۷۱ ۱ ۰ ۰٫۶۵۳۸ ۰٫۴۳ ComputerSearch۰ ۰٫۷۱۴۳ ۱ ۰٫۹۶۳ ۰٫۴۶۱۵ ۰٫۵۳ M5۱ ۰٫۰۷۱۴ ۰٫۸ ۰٫۴۴۴۴ ۰٫۳۸۴۶ ۰٫۵۵ ۳Series۰٫۶۷۸۶ ۰٫۵۷۱۴ ۰٫۸ ۰ ۰٫۵۳۸۵ ۰٫۴۵ Z4۰٫۵ ۱ ۰٫۸ ۰٫۶۲۹۶ ۰٫۴۶۱۵ ۰٫۶۱ Financing۰٫۳۲۱۴ ۱ ۰٫۴ ۰٫۵۱۸۵ ۰ ۰٫۳۹ Purchase
Clustered Instances
۰ ۲۶ ( ۲۶%)
۱ ۲۷ ( ۲۷%)
۲ ۵ ( ۵%)
۳ ۱۴ ( ۱۴%) (۴ ۲۸ ( ۲۸%

ﺩﺭ ﻗﺴﻤﺖ ﺩﮔﺮ ﭘﻨﻞ ﮔﺰﻳﻨﻪ ﻧﻤﺎﺩﻳﻨﻪ ﺳﺎﺯﯼ ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﮐﻪ ﺑﺎ ﮐﻠﻴﮏ ﮐﺮﺩﻥ ﺭﻭﯼ ﺁﻥ ﻣﯽ ﺗﻮﺍﻧﻴﻢ ﻧﺘﺎﻳﺞ ﺍﻳﻦ ﮐﻼﺗﺴﺮﻳﻨﮓ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﻧﻤﻮﺩﺍﺭﯼ ﻧﻴﺰ ﺑﺒﻴﻨﻴﻢ.

ﺩﺭ ﺻﻔﺤﻪ ﻫﺎﯼ ﻗﺒﻞ ﺑﺮﺭﺳﯽ ﺳﻪ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻣﻬﻢ ﺩﺭ ﻭﮐﺎ ﺭﺍ ﺩﻳﺪﻳﻢ.
ﻭﮐﺎ ﻧﺮﻡ ﺍﻓﺰﺍﺭﯼ ﺟﺎﻣﻊ ﺑﺮﺍﯼ ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ ﻧﻴﺴﺖ ﺍﻣﺎ ﺩﺭ ﻣﺤﺪﻭﺩﻩ ﯼ ﮐﻤﯽ ﺣﺮﻑ ﻫﺎﯼ ﺯﻳﺎﺩﯼ ﺑﺮﺍﯼ ﮔﻔﺘﻦ ﺩﺍﺭﺩ ﻭ ﻣﯽ ﺗﻮﺍﻧﺪ ﺑﻪ ﻋﻨﻮﺍﻥ ﻳﮏ ﮔﺰﻳﻨﻪ ﯼ ﺧﻮﺏ ﺑﺮﺍﯼ ﮐﺎﺭﻫﺎﯼ ﺍﺑﺘﺪﺍﻳﯽ ﺩﺍﺩﻩ ﮐﺎﻭﯼ ﻭ ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﻗﺮﺍﺭ ﮔﻴﺮﺩ.
ﺩﺭ ﺳﺎﻝ ﻫﺎﯼ ﺍﺧﻴﺮ ﺍﻳﻦ ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﭘﻴﺸﺮﻓﺖ ﻫﺎﯼ ﺯﻳﺎﺩﯼ ﺩﺍﺷﺘﻪ ﻭ ﺭﺍﺑﻂ ﮐﺎﺭﺑﺮﯼ ﺁﻥ ﻧﻴﺰ ﺗﻐﻴﻴﺮﺍﺕ ﭼﺸﻤﮕﻴﺮﯼ ﮐﺮﺩﻩ ﺍﺳﺖ . ﺷﺎﻳﺪ ﺩﺭ ﺳﺎﻝ ﻫﺎﯼ ﺁﺗﯽ ﺷﺎﻫﺪ ﺗﻐﻴﻴﺮﺍﺗﯽ ﮔﺴﺘﺮﺩﻩ ﺗﺮ ﺩﺭ ﻭﮐﺎ ﺑﺎﺷﻴﻢ ﻭ ﺍﺯ ﺁﻥ ﺑﻪ ﻋﻨﻮﺍﻥ ﻧﺮﻡ ﺍﻓﺰﺍﺭﯼ ﺟﺎﻣﻊ ﺗﺮ ﺑﺘﻮﺍﻧﻴﻢ ﻳﺎﺩ ﮐﻨﻴﻢ.

landika
۰ نظر

(Weka) ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﻭﮐﺎ

landika