خلاصه مقاله استخراج دانش از داده های بیماران دیابتی با استفاده از روش درخت تصمیم(C5.0)

داده‌کاوی به‌عنوان فنی برای شناسایی و تشخیص بیماری‌ها و دسته‌بندی بیماران در مدیریت بیماری و پیدا کردن الگوهایی برای تشخیص سریع‌تر بیماران و جلوگیری از بروز عوارض در آن‌ها می‌تواند کمک بسیار بزرگی باشد. افزایش دقت تشخیص، کاهش هزینه‌ها و کاهش منابع انسانی به‌عنوان مزایای معرفی داده‌کاوی در تجزیه‌وتحلیل پزشکی توسط خواجوی و جایالاکشی ثابت‌شده است. در این مقاله به بررسی ارتباط بین عوارض مشاهده‌شده در بیماران دیابتی نوع دو و برخی ویژگی‌های آن‌ها از قبیل میزان قند خون، فشارخون، سن و سابقه خانوادگی بیماران بر اساس روش درخت تصمیم پرداخته‌شده است. جامعه آماری این تحقیق و منبع اطلاعاتی شامل؛ اطلاعات این تحقیق از یک مرکز درمان دیابت در شمال ایران جمع‌آوری‌شده است. اطلاعات پرونده‌ها مربوط به سال 1388 است.856 رکورد اولیه از بیماران وجود داشت که پس از پالایش و حذف رکوردهایی که اطلاعات اصلی آن‌ها وجود نداشت به 254 رکورد نهایی شده است. روند انجام تحقیق در این مقاله شامل مراحل زیر است

 1-شناسایی سیستم که شامل شناسایی مفاهیم دیابت و شناسایی انواع دیابت و عوارض آن است

 2-شناخت داده‌ها و آماده‌سازی داده‌ها که شامل؛ جمع‌آوری پرونده‌ها و استخراج فیلدهای کلیدی، بررسی رابطه بین فیلدها، حذف رکوردهای ناقص، محاسبه شاخص‌ها و نسبت فیلدها و تعیین شاخص برای داده‌های پیوسته

 3-فرایند مدل‌سازی که از روش‌های الگوریتم درخت تصمیم (C5.0) و شبکه عصبی مصنوعی استفاده‌شده است و در آخر استخراج قوانین از درخت تصمیم (C5.0)

 4-ارزیابی که شامل؛ ارزیابی مدل‌ها، شناسایی مدل با بیشترین دقت، محاسبه شاخص‌های شفافیت، حساسیت و دقت و صحت

 5-کشف دانش با کمک متخصصین

 6-توسعه که شامل بررسی نتایج چندین آزمایش متوالی، بررسی میزان کنترل قند خون و تأثیر عدم کنترل این ویژگی‌ها

 نتایج این بررسی نشان داده است که عوارض این بیماری را بر اساس دودسته میکروواسکولار و ماکروواسکولار دسته‌بندی‌شده است. بهترین نتایج از الگوریتم درخت C5.0 به دست آمد که دقت مدل آن برابر 06/89 درصد و صحت مدل 74/89 درصد است. با استفاده از قوانین ایجادشده، برای یک نمونه جدید با ویژگی‌های مشخص، می‌تواند پیش‌بینی کرد که این فرد احتمالاً دچار چه نوع عارضه‌ای خواهد شد. با کنترل عوامل تأثیرگذار بر بروز عارضه در هر بیمار، می‌توان امیدوار بود از بروز عارضه تا حدی اجتناب کرد و یا آن را به تعویق انداخت.

خلاصه مقاله برداشت داده‌های مربوط به زمان ازکارافتادگی از داده‌های تعمیر و نگهداری صنایع با استفاده از متن‌کاوی

با توجه به اهمیت کارکرد به‌موقع دستگاه‌های صنعتی بخصوص در بخش‌های مختلف صنعت، پیش‌بینی علل خرابی و زمان‌های عدم کارکرد دستگاه‌ها مهم است. این مقاله به دنبال بررسی علل خرابی یا زمان‌های خرابی در دو دستگاه بویلر و آسیای زغالی در نیروگاه بخار در کشور استرالیا از طریق روش‌های متن‌کاوی بوده است. بطوریکه که ابتدا دودسته اطلاعات مربوط به خرابی تحت گزارش‌های خرابی برنامه‌ریزی‌شده و تصادفی می‌باشد. این گزارش‌ها طی سال‌های 2007 الی 2014 از نیروگاه تهیه‌شده است. پس از تهیه گزارش‌ها و گردآوری آن از طریق روش (TF-IDF) 10 کلمه کلیدی علل خرابی مربوط به دستگاه‌های بویلر و آسیای زغالی استخراج‌شده است. مبنای استخراج کلمات کلیدی در این روش با توجه به نسبت تعداد تکرار کلمات در تعداد کل کلمات است. به‌عنوان نمونه بعضی از کلمات کلیدی استخراج‌شده علل خرابی دستگاه آسیای زغالی شامل؛ هوا، موتور، روغن و جریان بوده است و برخی از کلمات کلیدی که معرف علل خرابی دستگاه بویلر هستند شامل؛ تسمه، بازرسی، پمپ، موتور، خاکستر، جایگزین کردن و تعمیر کردن می‌باشد. البته استخراج کلمات کلیدی در دودسته‌ی داده‌های خرابی برنامه‌ریزی‌شده و نشده انجام خواهد شد. سپس جهت پیش‌بینی زمان‌های خرابی از دو روش ماشین بردار پشتیبان (SVM) و نایو بیز در دودسته داده‌های تحقیق استفاده‌شده است. روش‌های طبقه‌بندی کننده بر پایه سفارش‌های کاری نیز در ادامه بر روی گزارش‌های دوران عدم فعالیت اعمال شدند. پس از طبقه‌بندی هر یک از گزارش‌های عدم فعالیت به‌عنوان ازکارافتادگی یا عدم ازکارافتادگی، امکان مقایسه تکرر وقوع کلمات در هر یک از این دو وضعیت در سفارش‌های کاری فراهم آمده و به‌عنوان یک روش ساده برای تائید نتایج مورداستفاده قرار گرفت. ازآنجایی‌که روش SVM توانست برای هر دو موردمطالعه ما، دقت بالاتری را در شناسایی موارد ازکارافتادگی از خود به‌جای بگذارد، این موارد بر اساس روش SVM انتخاب‌شده‌اند. طبقه‌بندی کننده SVM بر روی اسناد مربوط به مدت‌زمان عدم فعالیت اعمال ده و هر یک از آن‌ها را به‌عنوان موارد ازکارافتادگی کامل یا عدم ازکارافتادگی کامل، برچسب‌گذاری کرد. مسلماً مقادیر پیش‌بینی‌شده را نمی‌توان به‌عنوان سندی دقیق برای تائید نتایج دانست زیرا هر یک از ازکارافتادگی‌های واقعی را نمی‌توان از طریق سوابق داده‌ها به‌صورت مجزا و مستقل تائید کرد. پس از پیش‌بینی‌های انجام‌شده کارشناسان و خبرگان بر اساس نتایج پیش‌بینی دستورالعمل‌های بهتری را در خصوص نگهداری و تعمیرات دو دستگاه بویلر و آسیای زغالی ارائه کردند.

معرفی نرم‌افزار (Rapid miner) معرفی نرم‌افزار و قابلیت‌های آن

نرم‌افزار RapidMiner یکی از پرکاربردترین نرم‌افزارهای داده‌کاوی طی سال‌های اخیر بوده است. متن‌باز بودن و استفاده از کتابخانه‌های آن برای برنامه نویسان به همراه امکان استفاده از محیط گرافیکی آن بدون استفاده از دانش برنامه‌نویسی باعث گشته طیف متنوعی از کاربران به سراغ این ابزار متمایل گردند. تنوع الگوریتم‌های آماده‌سازی و مدل‌سازی در این ابزار باعث شده تا بسیاری از پروژه‌های تحقیقاتی، دانشگاهی و همچنین پروژه‌های اجرایی حداقل بخشی از روند پیاده‌سازی مدل‌ها را در این ابزار مورد آزمایش قرار دهند.

این محصول در سال‌های ابتدایی عرضه یعنی سال ۲۰۰۱ بانام YALE Yet Another Learning Environment شناخته می‌شد. به‌مرورزمان و هم‌زمان با افزایش قابلیت‌ها در سال‌های متمادی نهایتاً در سال ۲۰۰۷ نام نرم‌افزار به نام کنونی آن یعنی RapidMiner تغییر پیدا کرد. این نرم‌افزار به جهت سادگی کارکرد آن در سال‌های اخیر توجه بسیاری از محققین و دانشجویان را به خود جلب کرده است و از طرفی مدل توسعه متن‌باز این محصول نیز باعث شده است تا برنامه نویسان تمایل بیشتری به توسعه آن داشته باشند. این نرم‌افزار از الگوریتم‌های مختلفی برای آماده‌سازی و مدل‌سازی اطلاعات استفاده می‌کند که همین طیف گسترده گزینه‌های قابل انتخاب باعث شده است تا پروژه‌های دانشگاهی زیادی لااقل برای قسمت‌هایی از کارشان از این محصول قدرتمند استفاده کنند. محیط گرافیکی این برنامه به‌صورت مطلوب و زیبایی طراحی‌شده و کاربران بدون دانش برنامه‌نویسی می‌توانند به‌راحتی با قسمت‌های مختلف برنامه ارتباط برقرار کنند.

RapidMiner نرم‌افزاری توانمند در مباحث داده‌کاوی، یادگیری ماشینی، تحلیل و پیش‌بینی و تحلیل کسب‌وکار است. این برنامه کاربردهای زیادی هم در امور تجاری و کسب‌وکار و هم در امور تحقیقاتی، آموزشی، یادگیری و دارد. محققین و افراد علاقه‌مند به مباحث داده‌کاوی و یادگیری ماشینی می‌توانند با استفاده از این برنامه تمامی مراحل موردنیاز را از آماده‌سازی اطلاعات اولیه گرفته تا بصری کردن نتایج، ارزیابی و اعتبار سنجی و بهینه‌سازی خروجی را در یک محیط یکپارچه و واحد انجام دهند. هسته اصلی این پلتفرم نرم‌افزاری به‌صورت متن‌باز و رایگان عرضه‌شده است که بر اساس آن محصولات رایگان و تجاری زیادی نوشته‌شده است.

این نرم‌افزار یک ابزار داده‌کاوی متن‌باز است که با زبان جاوا نوشته‌شده است و از سال 2001 تابه‌حال، توسعه داده‌شده است. در این نرم‌افزار سعی گروه توسعه‌دهنده، بر آن بوده است که تا حد امکان تمامی الگوریتم‌های رایج داده‌کاوی و هم‌چنین یادگیری ماشین پوشش داده شوند. به‌گونه‌ای که حتی این امکان برای نرم‌افزار فراهم‌شده است تا بتوان سایر ابزار‌های متن‌باز داده‌کاوی را نیز به آن الحاق نمود. رابط گرافیکی شکیل و کاربر‌پسند نرم‌افزار نیز آن را یک سر و گردن بالاتر از سایر ابزار‌های رقیب قرار می‌دهد. از نقاط قوت نرم‌افزار می‌توان به موارد زیر اشاره کرد.

 ارائه گزارش و رونوشت از مراحل اجرای الگوریتم

ظاهر پرداخته و آراسته

نمای گرافیکی خوب

قابلیت تطابق با فایل‌های خروجی بسیاری از نرم‌افزار‌ها مانند Excel

امکان تصحیح و خطایابی بسیار سریع

وجود آموزش‌های ویدیویی مناسب که برای این نرم‌افزار تهیه‌شده و در وب قرار داده‌شده است

 مستندات شامل راهنمای بسیاری از عملگر‌ها در نرم‌افزار

 امکان اجرای هم‌زمان الگوریتم‌های یادگیری متفاوت در نرم‌افزار و مقایسه آن‌ها با یکدیگر در ابزار در نظر گرفته‌شده است

امکانات ویژه در این ابزار:

 به دلیل پیاده‌سازی و توسعه این نرم‌افزار با استفاده از زبان جاوا، امکان کار در سیستم‌های عامل‌ مختلف ازجمله ویندوز، لینوکس و سیستم‌های مکینتاش برای این نرم‌افزار وجود دارد.

امکانات متن‌کاوی نیز در این نرم‌افزار پیش‌بینی‌شده است.

کلیه الگوریتم‌های یادگیری مدل در نرم‌افزار داده‌کاوی WEKA پس از به همگام‌سازی RapidMiner به نرم‌افزار اضافه خواهند شد.

لازم به ذکر است این نرم‌افزار به‌عنوان پرکاربردترین نرم‌افزار داده‌کاوی در سال ۲۰۱۴ شناخته‌شده است.