دادهکاوی بهعنوان فنی برای شناسایی و تشخیص بیماریها و دستهبندی بیماران در مدیریت بیماری و پیدا کردن الگوهایی برای تشخیص سریعتر بیماران و جلوگیری از بروز عوارض در آنها میتواند کمک بسیار بزرگی باشد. افزایش دقت تشخیص، کاهش هزینهها و کاهش منابع انسانی بهعنوان مزایای معرفی دادهکاوی در تجزیهوتحلیل پزشکی توسط خواجوی و جایالاکشی ثابتشده است. در این مقاله به بررسی ارتباط بین عوارض مشاهدهشده در بیماران دیابتی نوع دو و برخی ویژگیهای آنها از قبیل میزان قند خون، فشارخون، سن و سابقه خانوادگی بیماران بر اساس روش درخت تصمیم پرداختهشده است. جامعه آماری این تحقیق و منبع اطلاعاتی شامل؛ اطلاعات این تحقیق از یک مرکز درمان دیابت در شمال ایران جمعآوریشده است. اطلاعات پروندهها مربوط به سال 1388 است.856 رکورد اولیه از بیماران وجود داشت که پس از پالایش و حذف رکوردهایی که اطلاعات اصلی آنها وجود نداشت به 254 رکورد نهایی شده است. روند انجام تحقیق در این مقاله شامل مراحل زیر است
1-شناسایی سیستم که شامل شناسایی مفاهیم دیابت و شناسایی انواع دیابت و عوارض آن است
2-شناخت دادهها و آمادهسازی دادهها که شامل؛ جمعآوری پروندهها و استخراج فیلدهای کلیدی، بررسی رابطه بین فیلدها، حذف رکوردهای ناقص، محاسبه شاخصها و نسبت فیلدها و تعیین شاخص برای دادههای پیوسته
3-فرایند مدلسازی که از روشهای الگوریتم درخت تصمیم (C5.0) و شبکه عصبی مصنوعی استفادهشده است و در آخر استخراج قوانین از درخت تصمیم (C5.0)
4-ارزیابی که شامل؛ ارزیابی مدلها، شناسایی مدل با بیشترین دقت، محاسبه شاخصهای شفافیت، حساسیت و دقت و صحت
5-کشف دانش با کمک متخصصین
6-توسعه که شامل بررسی نتایج چندین آزمایش متوالی، بررسی میزان کنترل قند خون و تأثیر عدم کنترل این ویژگیها
نتایج این بررسی نشان داده است که عوارض این بیماری را بر اساس دودسته میکروواسکولار و ماکروواسکولار دستهبندیشده است. بهترین نتایج از الگوریتم درخت C5.0 به دست آمد که دقت مدل آن برابر 06/89 درصد و صحت مدل 74/89 درصد است. با استفاده از قوانین ایجادشده، برای یک نمونه جدید با ویژگیهای مشخص، میتواند پیشبینی کرد که این فرد احتمالاً دچار چه نوع عارضهای خواهد شد. با کنترل عوامل تأثیرگذار بر بروز عارضه در هر بیمار، میتوان امیدوار بود از بروز عارضه تا حدی اجتناب کرد و یا آن را به تعویق انداخت.
با توجه به اهمیت کارکرد بهموقع دستگاههای صنعتی بخصوص در بخشهای مختلف صنعت، پیشبینی علل خرابی و زمانهای عدم کارکرد دستگاهها مهم است. این مقاله به دنبال بررسی علل خرابی یا زمانهای خرابی در دو دستگاه بویلر و آسیای زغالی در نیروگاه بخار در کشور استرالیا از طریق روشهای متنکاوی بوده است. بطوریکه که ابتدا دودسته اطلاعات مربوط به خرابی تحت گزارشهای خرابی برنامهریزیشده و تصادفی میباشد. این گزارشها طی سالهای 2007 الی 2014 از نیروگاه تهیهشده است. پس از تهیه گزارشها و گردآوری آن از طریق روش (TF-IDF) 10 کلمه کلیدی علل خرابی مربوط به دستگاههای بویلر و آسیای زغالی استخراجشده است. مبنای استخراج کلمات کلیدی در این روش با توجه به نسبت تعداد تکرار کلمات در تعداد کل کلمات است. بهعنوان نمونه بعضی از کلمات کلیدی استخراجشده علل خرابی دستگاه آسیای زغالی شامل؛ هوا، موتور، روغن و جریان بوده است و برخی از کلمات کلیدی که معرف علل خرابی دستگاه بویلر هستند شامل؛ تسمه، بازرسی، پمپ، موتور، خاکستر، جایگزین کردن و تعمیر کردن میباشد. البته استخراج کلمات کلیدی در دودستهی دادههای خرابی برنامهریزیشده و نشده انجام خواهد شد. سپس جهت پیشبینی زمانهای خرابی از دو روش ماشین بردار پشتیبان (SVM) و نایو بیز در دودسته دادههای تحقیق استفادهشده است. روشهای طبقهبندی کننده بر پایه سفارشهای کاری نیز در ادامه بر روی گزارشهای دوران عدم فعالیت اعمال شدند. پس از طبقهبندی هر یک از گزارشهای عدم فعالیت بهعنوان ازکارافتادگی یا عدم ازکارافتادگی، امکان مقایسه تکرر وقوع کلمات در هر یک از این دو وضعیت در سفارشهای کاری فراهم آمده و بهعنوان یک روش ساده برای تائید نتایج مورداستفاده قرار گرفت. ازآنجاییکه روش SVM توانست برای هر دو موردمطالعه ما، دقت بالاتری را در شناسایی موارد ازکارافتادگی از خود بهجای بگذارد، این موارد بر اساس روش SVM انتخابشدهاند. طبقهبندی کننده SVM بر روی اسناد مربوط به مدتزمان عدم فعالیت اعمال ده و هر یک از آنها را بهعنوان موارد ازکارافتادگی کامل یا عدم ازکارافتادگی کامل، برچسبگذاری کرد. مسلماً مقادیر پیشبینیشده را نمیتوان بهعنوان سندی دقیق برای تائید نتایج دانست زیرا هر یک از ازکارافتادگیهای واقعی را نمیتوان از طریق سوابق دادهها بهصورت مجزا و مستقل تائید کرد. پس از پیشبینیهای انجامشده کارشناسان و خبرگان بر اساس نتایج پیشبینی دستورالعملهای بهتری را در خصوص نگهداری و تعمیرات دو دستگاه بویلر و آسیای زغالی ارائه کردند.
دانش نوین داده کاوی یکی از دانشهای در حال توسعه ای است که از فرایند کشف دانش پنهان درون داده ها با استفاده از انواع تکنیکهای مدلسازی و آنالیز داده برای کشف الگوها و ارتباطات در داده ها که ممکن است برای انجام برخی پیش بینی های دقیق مورد استفاده قرا رگیرد بهره می برد. در این پژوهش از روش داده کاوی برای پیش بینی مقدار مولیبدن موجود در خاک به جای نمونه برداری سنتی استفاده شده است. داده های جمع آوری شده معدن سرچشمه کرمان با استفاده از الگوریتم خوشه بندی و روش درخت های تصمیم گیری مورد بررسی قرار گرفته و پس از طی نمودن فرایند آماده سازی داده ها و ایجاد مجموعه داده مورد نظر مدلها با استفاده از ابزار Clementine تولید شدند.
هاجر باغچه بند - دانشجوی کارشناسی ارشد فناوری اطلاعات دانشگاه تحصیلات تکمیلی صنعتی کرمان
علی اکبر نیک نفس - استادیار دانشگاه باهنر کرمان بخش مهندسی کامپیوتر
https://www.civilica.com/Paper-ISCIT01-ISCIT01_035.html