TM:Text Mining

خلاصه مقاله استخراج دانش از داده های بیماران دیابتی با استفاده از روش درخت تصمیم(C5.0)

داده‌کاوی به‌عنوان فنی برای شناسایی و تشخیص بیماری‌ها و دسته‌بندی بیماران در مدیریت بیماری و پیدا کردن الگوهایی برای تشخیص سریع‌تر بیماران و جلوگیری از بروز عوارض در آن‌ها می‌تواند کمک بسیار بزرگی باشد. افزایش دقت تشخیص، کاهش هزینه‌ها و کاهش منابع انسانی به‌عنوان مزایای معرفی داده‌کاوی در تجزیه‌وتحلیل پزشکی توسط خواجوی و جایالاکشی ثابت‌شده است. در این مقاله به بررسی ارتباط بین عوارض مشاهده‌شده در بیماران دیابتی نوع دو و برخی ویژگی‌های آن‌ها از قبیل میزان قند خون، فشارخون، سن و سابقه خانوادگی بیماران بر اساس روش درخت تصمیم پرداخته‌شده است. جامعه آماری این تحقیق و منبع اطلاعاتی شامل؛ اطلاعات این تحقیق از یک مرکز درمان دیابت در شمال ایران جمع‌آوری‌شده است. اطلاعات پرونده‌ها مربوط به سال 1388 است.856 رکورد اولیه از بیماران وجود داشت که پس از پالایش و حذف رکوردهایی که اطلاعات اصلی آن‌ها وجود نداشت به 254 رکورد نهایی شده است. روند انجام تحقیق در این مقاله شامل مراحل زیر است

 1-شناسایی سیستم که شامل شناسایی مفاهیم دیابت و شناسایی انواع دیابت و عوارض آن است

 2-شناخت داده‌ها و آماده‌سازی داده‌ها که شامل؛ جمع‌آوری پرونده‌ها و استخراج فیلدهای کلیدی، بررسی رابطه بین فیلدها، حذف رکوردهای ناقص، محاسبه شاخص‌ها و نسبت فیلدها و تعیین شاخص برای داده‌های پیوسته

 3-فرایند مدل‌سازی که از روش‌های الگوریتم درخت تصمیم (C5.0) و شبکه عصبی مصنوعی استفاده‌شده است و در آخر استخراج قوانین از درخت تصمیم (C5.0)

 4-ارزیابی که شامل؛ ارزیابی مدل‌ها، شناسایی مدل با بیشترین دقت، محاسبه شاخص‌های شفافیت، حساسیت و دقت و صحت

 5-کشف دانش با کمک متخصصین

 6-توسعه که شامل بررسی نتایج چندین آزمایش متوالی، بررسی میزان کنترل قند خون و تأثیر عدم کنترل این ویژگی‌ها

 نتایج این بررسی نشان داده است که عوارض این بیماری را بر اساس دودسته میکروواسکولار و ماکروواسکولار دسته‌بندی‌شده است. بهترین نتایج از الگوریتم درخت C5.0 به دست آمد که دقت مدل آن برابر 06/89 درصد و صحت مدل 74/89 درصد است. با استفاده از قوانین ایجادشده، برای یک نمونه جدید با ویژگی‌های مشخص، می‌تواند پیش‌بینی کرد که این فرد احتمالاً دچار چه نوع عارضه‌ای خواهد شد. با کنترل عوامل تأثیرگذار بر بروز عارضه در هر بیمار، می‌توان امیدوار بود از بروز عارضه تا حدی اجتناب کرد و یا آن را به تعویق انداخت.

خلاصه مقاله برداشت داده‌های مربوط به زمان ازکارافتادگی از داده‌های تعمیر و نگهداری صنایع با استفاده از متن‌کاوی

با توجه به اهمیت کارکرد به‌موقع دستگاه‌های صنعتی بخصوص در بخش‌های مختلف صنعت، پیش‌بینی علل خرابی و زمان‌های عدم کارکرد دستگاه‌ها مهم است. این مقاله به دنبال بررسی علل خرابی یا زمان‌های خرابی در دو دستگاه بویلر و آسیای زغالی در نیروگاه بخار در کشور استرالیا از طریق روش‌های متن‌کاوی بوده است. بطوریکه که ابتدا دودسته اطلاعات مربوط به خرابی تحت گزارش‌های خرابی برنامه‌ریزی‌شده و تصادفی می‌باشد. این گزارش‌ها طی سال‌های 2007 الی 2014 از نیروگاه تهیه‌شده است. پس از تهیه گزارش‌ها و گردآوری آن از طریق روش (TF-IDF) 10 کلمه کلیدی علل خرابی مربوط به دستگاه‌های بویلر و آسیای زغالی استخراج‌شده است. مبنای استخراج کلمات کلیدی در این روش با توجه به نسبت تعداد تکرار کلمات در تعداد کل کلمات است. به‌عنوان نمونه بعضی از کلمات کلیدی استخراج‌شده علل خرابی دستگاه آسیای زغالی شامل؛ هوا، موتور، روغن و جریان بوده است و برخی از کلمات کلیدی که معرف علل خرابی دستگاه بویلر هستند شامل؛ تسمه، بازرسی، پمپ، موتور، خاکستر، جایگزین کردن و تعمیر کردن می‌باشد. البته استخراج کلمات کلیدی در دودسته‌ی داده‌های خرابی برنامه‌ریزی‌شده و نشده انجام خواهد شد. سپس جهت پیش‌بینی زمان‌های خرابی از دو روش ماشین بردار پشتیبان (SVM) و نایو بیز در دودسته داده‌های تحقیق استفاده‌شده است. روش‌های طبقه‌بندی کننده بر پایه سفارش‌های کاری نیز در ادامه بر روی گزارش‌های دوران عدم فعالیت اعمال شدند. پس از طبقه‌بندی هر یک از گزارش‌های عدم فعالیت به‌عنوان ازکارافتادگی یا عدم ازکارافتادگی، امکان مقایسه تکرر وقوع کلمات در هر یک از این دو وضعیت در سفارش‌های کاری فراهم آمده و به‌عنوان یک روش ساده برای تائید نتایج مورداستفاده قرار گرفت. ازآنجایی‌که روش SVM توانست برای هر دو موردمطالعه ما، دقت بالاتری را در شناسایی موارد ازکارافتادگی از خود به‌جای بگذارد، این موارد بر اساس روش SVM انتخاب‌شده‌اند. طبقه‌بندی کننده SVM بر روی اسناد مربوط به مدت‌زمان عدم فعالیت اعمال ده و هر یک از آن‌ها را به‌عنوان موارد ازکارافتادگی کامل یا عدم ازکارافتادگی کامل، برچسب‌گذاری کرد. مسلماً مقادیر پیش‌بینی‌شده را نمی‌توان به‌عنوان سندی دقیق برای تائید نتایج دانست زیرا هر یک از ازکارافتادگی‌های واقعی را نمی‌توان از طریق سوابق داده‌ها به‌صورت مجزا و مستقل تائید کرد. پس از پیش‌بینی‌های انجام‌شده کارشناسان و خبرگان بر اساس نتایج پیش‌بینی دستورالعمل‌های بهتری را در خصوص نگهداری و تعمیرات دو دستگاه بویلر و آسیای زغالی ارائه کردند.

پیش بینی مقدار مولیبدن در معادن با استفاده از ابزارهای داده کاوی

چکیده مقاله:

دانش نوین داده کاوی یکی از دانشهای در حال توسعه ای است که از فرایند کشف دانش پنهان درون داده ها با استفاده از انواع تکنیکهای مدلسازی و آنالیز داده برای کشف الگوها و ارتباطات در داده ها که ممکن است برای انجام برخی پیش بینی های دقیق مورد استفاده قرا رگیرد بهره می برد. در این پژوهش از روش داده کاوی برای پیش بینی مقدار مولیبدن موجود در خاک به جای نمونه برداری سنتی استفاده شده است. داده های جمع آوری شده معدن سرچشمه کرمان با استفاده از الگوریتم خوشه بندی و روش درخت های تصمیم گیری مورد بررسی قرار گرفته و پس از طی نمودن فرایند آماده سازی داده ها و ایجاد مجموعه داده مورد نظر مدلها با استفاده از ابزار Clementine تولید شدند.


مشخصات نویسندگان

هاجر باغچه بند - دانشجوی کارشناسی ارشد فناوری اطلاعات دانشگاه تحصیلات تکمیلی صنعتی کرمان

علی اکبر نیک نفس - استادیار دانشگاه باهنر کرمان بخش مهندسی کامپیوتر

کلیدواژه‌ها:

داده کاوی، خوشه بندی، درختهای تصمیم گیری، پیش بینی، کشف الگو، الگوریتم K-Mean

لینک ثابت به این مقاله

https://www.civilica.com/Paper-ISCIT01-ISCIT01_035.html