دادهکاوی بهعنوان فنی برای شناسایی و تشخیص بیماریها و دستهبندی بیماران در مدیریت بیماری و پیدا کردن الگوهایی برای تشخیص سریعتر بیماران و جلوگیری از بروز عوارض در آنها میتواند کمک بسیار بزرگی باشد. افزایش دقت تشخیص، کاهش هزینهها و کاهش منابع انسانی بهعنوان مزایای معرفی دادهکاوی در تجزیهوتحلیل پزشکی توسط خواجوی و جایالاکشی ثابتشده است. در این مقاله به بررسی ارتباط بین عوارض مشاهدهشده در بیماران دیابتی نوع دو و برخی ویژگیهای آنها از قبیل میزان قند خون، فشارخون، سن و سابقه خانوادگی بیماران بر اساس روش درخت تصمیم پرداختهشده است. جامعه آماری این تحقیق و منبع اطلاعاتی شامل؛ اطلاعات این تحقیق از یک مرکز درمان دیابت در شمال ایران جمعآوریشده است. اطلاعات پروندهها مربوط به سال 1388 است.856 رکورد اولیه از بیماران وجود داشت که پس از پالایش و حذف رکوردهایی که اطلاعات اصلی آنها وجود نداشت به 254 رکورد نهایی شده است. روند انجام تحقیق در این مقاله شامل مراحل زیر است
1-شناسایی سیستم که شامل شناسایی مفاهیم دیابت و شناسایی انواع دیابت و عوارض آن است
2-شناخت دادهها و آمادهسازی دادهها که شامل؛ جمعآوری پروندهها و استخراج فیلدهای کلیدی، بررسی رابطه بین فیلدها، حذف رکوردهای ناقص، محاسبه شاخصها و نسبت فیلدها و تعیین شاخص برای دادههای پیوسته
3-فرایند مدلسازی که از روشهای الگوریتم درخت تصمیم (C5.0) و شبکه عصبی مصنوعی استفادهشده است و در آخر استخراج قوانین از درخت تصمیم (C5.0)
4-ارزیابی که شامل؛ ارزیابی مدلها، شناسایی مدل با بیشترین دقت، محاسبه شاخصهای شفافیت، حساسیت و دقت و صحت
5-کشف دانش با کمک متخصصین
6-توسعه که شامل بررسی نتایج چندین آزمایش متوالی، بررسی میزان کنترل قند خون و تأثیر عدم کنترل این ویژگیها
نتایج این بررسی نشان داده است که عوارض این بیماری را بر اساس دودسته میکروواسکولار و ماکروواسکولار دستهبندیشده است. بهترین نتایج از الگوریتم درخت C5.0 به دست آمد که دقت مدل آن برابر 06/89 درصد و صحت مدل 74/89 درصد است. با استفاده از قوانین ایجادشده، برای یک نمونه جدید با ویژگیهای مشخص، میتواند پیشبینی کرد که این فرد احتمالاً دچار چه نوع عارضهای خواهد شد. با کنترل عوامل تأثیرگذار بر بروز عارضه در هر بیمار، میتوان امیدوار بود از بروز عارضه تا حدی اجتناب کرد و یا آن را به تعویق انداخت.
با توجه به اهمیت کارکرد بهموقع دستگاههای صنعتی بخصوص در بخشهای مختلف صنعت، پیشبینی علل خرابی و زمانهای عدم کارکرد دستگاهها مهم است. این مقاله به دنبال بررسی علل خرابی یا زمانهای خرابی در دو دستگاه بویلر و آسیای زغالی در نیروگاه بخار در کشور استرالیا از طریق روشهای متنکاوی بوده است. بطوریکه که ابتدا دودسته اطلاعات مربوط به خرابی تحت گزارشهای خرابی برنامهریزیشده و تصادفی میباشد. این گزارشها طی سالهای 2007 الی 2014 از نیروگاه تهیهشده است. پس از تهیه گزارشها و گردآوری آن از طریق روش (TF-IDF) 10 کلمه کلیدی علل خرابی مربوط به دستگاههای بویلر و آسیای زغالی استخراجشده است. مبنای استخراج کلمات کلیدی در این روش با توجه به نسبت تعداد تکرار کلمات در تعداد کل کلمات است. بهعنوان نمونه بعضی از کلمات کلیدی استخراجشده علل خرابی دستگاه آسیای زغالی شامل؛ هوا، موتور، روغن و جریان بوده است و برخی از کلمات کلیدی که معرف علل خرابی دستگاه بویلر هستند شامل؛ تسمه، بازرسی، پمپ، موتور، خاکستر، جایگزین کردن و تعمیر کردن میباشد. البته استخراج کلمات کلیدی در دودستهی دادههای خرابی برنامهریزیشده و نشده انجام خواهد شد. سپس جهت پیشبینی زمانهای خرابی از دو روش ماشین بردار پشتیبان (SVM) و نایو بیز در دودسته دادههای تحقیق استفادهشده است. روشهای طبقهبندی کننده بر پایه سفارشهای کاری نیز در ادامه بر روی گزارشهای دوران عدم فعالیت اعمال شدند. پس از طبقهبندی هر یک از گزارشهای عدم فعالیت بهعنوان ازکارافتادگی یا عدم ازکارافتادگی، امکان مقایسه تکرر وقوع کلمات در هر یک از این دو وضعیت در سفارشهای کاری فراهم آمده و بهعنوان یک روش ساده برای تائید نتایج مورداستفاده قرار گرفت. ازآنجاییکه روش SVM توانست برای هر دو موردمطالعه ما، دقت بالاتری را در شناسایی موارد ازکارافتادگی از خود بهجای بگذارد، این موارد بر اساس روش SVM انتخابشدهاند. طبقهبندی کننده SVM بر روی اسناد مربوط به مدتزمان عدم فعالیت اعمال ده و هر یک از آنها را بهعنوان موارد ازکارافتادگی کامل یا عدم ازکارافتادگی کامل، برچسبگذاری کرد. مسلماً مقادیر پیشبینیشده را نمیتوان بهعنوان سندی دقیق برای تائید نتایج دانست زیرا هر یک از ازکارافتادگیهای واقعی را نمیتوان از طریق سوابق دادهها بهصورت مجزا و مستقل تائید کرد. پس از پیشبینیهای انجامشده کارشناسان و خبرگان بر اساس نتایج پیشبینی دستورالعملهای بهتری را در خصوص نگهداری و تعمیرات دو دستگاه بویلر و آسیای زغالی ارائه کردند.
نرمافزار RapidMiner یکی از پرکاربردترین نرمافزارهای دادهکاوی طی سالهای اخیر بوده است. متنباز بودن و استفاده از کتابخانههای آن برای برنامه نویسان به همراه امکان استفاده از محیط گرافیکی آن بدون استفاده از دانش برنامهنویسی باعث گشته طیف متنوعی از کاربران به سراغ این ابزار متمایل گردند. تنوع الگوریتمهای آمادهسازی و مدلسازی در این ابزار باعث شده تا بسیاری از پروژههای تحقیقاتی، دانشگاهی و همچنین پروژههای اجرایی حداقل بخشی از روند پیادهسازی مدلها را در این ابزار مورد آزمایش قرار دهند.
این محصول در سالهای ابتدایی عرضه یعنی سال ۲۰۰۱ بانام YALE Yet Another Learning Environment شناخته میشد. بهمرورزمان و همزمان با افزایش قابلیتها در سالهای متمادی نهایتاً در سال ۲۰۰۷ نام نرمافزار به نام کنونی آن یعنی RapidMiner تغییر پیدا کرد. این نرمافزار به جهت سادگی کارکرد آن در سالهای اخیر توجه بسیاری از محققین و دانشجویان را به خود جلب کرده است و از طرفی مدل توسعه متنباز این محصول نیز باعث شده است تا برنامه نویسان تمایل بیشتری به توسعه آن داشته باشند. این نرمافزار از الگوریتمهای مختلفی برای آمادهسازی و مدلسازی اطلاعات استفاده میکند که همین طیف گسترده گزینههای قابل انتخاب باعث شده است تا پروژههای دانشگاهی زیادی لااقل برای قسمتهایی از کارشان از این محصول قدرتمند استفاده کنند. محیط گرافیکی این برنامه بهصورت مطلوب و زیبایی طراحیشده و کاربران بدون دانش برنامهنویسی میتوانند بهراحتی با قسمتهای مختلف برنامه ارتباط برقرار کنند.
RapidMiner نرمافزاری توانمند در مباحث دادهکاوی، یادگیری ماشینی، تحلیل و پیشبینی و تحلیل کسبوکار است. این برنامه کاربردهای زیادی هم در امور تجاری و کسبوکار و هم در امور تحقیقاتی، آموزشی، یادگیری و … دارد. محققین و افراد علاقهمند به مباحث دادهکاوی و یادگیری ماشینی میتوانند با استفاده از این برنامه تمامی مراحل موردنیاز را از آمادهسازی اطلاعات اولیه گرفته تا بصری کردن نتایج، ارزیابی و اعتبار سنجی و بهینهسازی خروجی را در یک محیط یکپارچه و واحد انجام دهند. هسته اصلی این پلتفرم نرمافزاری بهصورت متنباز و رایگان عرضهشده است که بر اساس آن محصولات رایگان و تجاری زیادی نوشتهشده است.
این نرمافزار یک ابزار دادهکاوی متنباز است که با زبان جاوا نوشتهشده است و از سال 2001 تابهحال، توسعه دادهشده است. در این نرمافزار سعی گروه توسعهدهنده، بر آن بوده است که تا حد امکان تمامی الگوریتمهای رایج دادهکاوی و همچنین یادگیری ماشین پوشش داده شوند. بهگونهای که حتی این امکان برای نرمافزار فراهمشده است تا بتوان سایر ابزارهای متنباز دادهکاوی را نیز به آن الحاق نمود. رابط گرافیکی شکیل و کاربرپسند نرمافزار نیز آن را یک سر و گردن بالاتر از سایر ابزارهای رقیب قرار میدهد. از نقاط قوت نرمافزار میتوان به موارد زیر اشاره کرد.
ارائه گزارش و رونوشت از مراحل اجرای الگوریتم
ظاهر پرداخته و آراسته
نمای گرافیکی خوب
قابلیت تطابق با فایلهای خروجی بسیاری از نرمافزارها مانند Excel
امکان تصحیح و خطایابی بسیار سریع
وجود آموزشهای ویدیویی مناسب که برای این نرمافزار تهیهشده و در وب قرار دادهشده است
مستندات شامل راهنمای بسیاری از عملگرها در نرمافزار
امکان اجرای همزمان الگوریتمهای یادگیری متفاوت در نرمافزار و مقایسه آنها با یکدیگر در ابزار در نظر گرفتهشده است
امکانات ویژه در این ابزار:
به دلیل پیادهسازی و توسعه این نرمافزار با استفاده از زبان جاوا، امکان کار در سیستمهای عامل مختلف ازجمله ویندوز، لینوکس و سیستمهای مکینتاش برای این نرمافزار وجود دارد.
امکانات متنکاوی نیز در این نرمافزار پیشبینیشده است.
کلیه الگوریتمهای یادگیری مدل در نرمافزار دادهکاوی WEKA پس از به همگامسازی RapidMiner به نرمافزار اضافه خواهند شد.
لازم به ذکر است این نرمافزار بهعنوان پرکاربردترین نرمافزار دادهکاوی در سال ۲۰۱۴ شناختهشده است.