استفاده از داده کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی و ایجاد یک سیستم تشخیص، تصمیم و تجویز، مطالعه موردی: بیمارستان تخصصی کودکان حضرت فاطمه م
چکیده بیماری تنفسی که عموما در ارتباط با بیماری ریوی است، شامل گروهی از بیماریها هستند که از طریق درگیر کردن بخش یا قسمتهایی از دستگاه تنفس باعث اختلال در عملکرد ریهها میگردند. ریهها مهمترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافتهای مختلف بدن و دفع دیاکسیدکربن نقش دارند. بیماریهای ریوی در هر سال بسیاری از افراد جامعه را مبتلا میکنند که باعث کاهش سطح عملکرد فرد در فعالیتهای روزمره میگردند. بیماریهای دستگاه تنفسی در انگلستان شایعترین عامل مراجعه به پزشکان عمومی است. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماریهای ریوی میتوانند عفونت دستگاه تنفسی فوقانی، پنومونی و یا بیماری مزمن انسدادی ریه باشند. بیماریهای ریوی یکی از عوامل مهم مرگومیر افراد در سراسر جهان هستند. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماریها در همان ابتدای روزهای بستری است. تکنیکهای دادهکاوی میتوانند دانش نهفته در پایگاههای داده را استخراج و در پیشگیری، تشخیص و معالجهی این بیماریها به پزشک و بیمار کمک کنند. در این تحقیق، با مقایسهی سیستمهای ردهبندی متفاوت و مقایسهی روشهای یادگیری دادههای نامتوازن با الگوریتم پایه، در نهایت، سیستم ردهبندی ارائه شده که میتواند در تشخیص انواع بیماریهای تنفسی به پزشکان کمک کند. سرانجام، به شناسایی عوامل موثر در بروز بیماریهای تنفسی پرداخته شده است. کلمات کلیدی: داده کاوی پزشکی، رده بندی، تشخیص بیماریهای تنفسی، مجموعه داده های نامتوازن. فهرست مطالب عنوان صفحه فصل1: مقدمه............................................................................................................................1 1-1. موضوع تحقیق........................................................................................................2 1-2. اهمیت و ضرورت تحقیق........................................................................................3 1-3. قلمرو تحقیق...........................................................................................................4 1-4. فرضیههای تحقیق...................................................................................................4 1-5. سوالات تحقیق.......................................................................................................5 1-6. اهداف و کاربردهای تحقیق....................................................................................5 1-7. نوآوری در تحقیق..................................................................................................6 1-7-1. موضوع و دادههای استفاده شده در تحقیق.....................................................6 1-7-2. براساس مطالعه ادبیات و نحوه ارائه مطالب.....................................................6 1-8.. محدودیتهای تحقیق............................................................................................6 1-9. ساختار پایاننامه......................................................................................................7 فصل2: ادبیات تحقیق.................................................................................................................8 2-1. مقدمه.....................................................................................................................9 2-2. دادهکاوی...............................................................................................................9 2-2-1. مفهوم دادهکاوی...........................................................................................9 2-2-2. مراحل دادهکاوی........................................................................................10 2-2-3. پیشپردازش...............................................................................................10 2-2-3-1. پاکسازی داده.................................................................................11 2-2-3-2. یکپارچهسازی داده............................................................................11 2-2-3-3. تبدیل داده.........................................................................................11 2-2-3-4. کاهش داده.......................................................................................12 2-2-3-5. تصویرکردن برای کاهش بعد............................................................12 2-2-4. دادهکاوی...................................................................................................13 2-2-5. پسپردازش................................................................................................14 2-2-6. کاربردهای دادهکاوی.................................................................................14 2-3. دادهکاوی در پزشکی...........................................................................................14 2-4. بیماری تنفسی.......................................................................................................16 2-4-1. عفونت دستگاه تنفسی فوقانی......................................................................17 2-4-2. پنومونی......................................................................................................17 2-4-3. بیماری مزمن انسدادی ریه...........................................................................18 2-5. الگوریتمهای ردهبندی..........................................................................................18 2-5-1. درخت تصمیم............................................................................................19 2-5-1-1. CHAID........................................................................................20 2-5-1-2. ID3................................................................................................20 2-5-1-3. C5.0...............................................................................................21 2-5-2. ماشین بردار پشتیبان.....................................................................................21 2-5-3. شبکهی عصبی............................................................................................24 2-5-4. Bagging.................................................................................................25 2-5-5. AdaBoost.............................................................................................27 2-6. پیشینهی تحقیقات در بیماریهای تنفسی................................................................30 فصل3: دادههای نامتوازن.........................................................................................................32 3-1. مقدمه...................................................................................................................33 3-2. روشهای یادگیری در دادههای نامتوازن...............................................................33 3-2-1. نمونهبرداری................................................................................................33 3-2-1-1. بیشنمونهبرداری تصادفی..................................................................34 3-2-1-2. زیرنمونهبرداری تصادفی....................................................................34 3-2-1-3. نمونهبرداری آگاهانه.........................................................................34 3-2-1-3-1. EasyEnsemble................................................................35 3-2-1-3-2. ModifiedBagging..........................................................36 3-2-1-4. ترکیب نمونهبرداری و تولید داده.......................................................37 3-2-2. روشهای حساس به هزینه...........................................................................39 3-3. معیارهای ارزیابی ردهبند در دادههای نامتوازن.......................................................41 3-4. معیارهای ارزیابی ردهبند در دادههای نامتوازن و چند ردهای..................................44 3-4-1. میانگینگیری میکرو...................................................................................46 3-4-2. میانگینگیری ماکرو....................................................................................46 فصل4: پیشپردازش دادهها.....................................................................................................47 4-1. مقدمه...................................................................................................................48 4-2. جمعآوری دادهها.................................................................................................48 4-3. ویژگیهای دادهها................................................................................................48 4-4. نحوه توزیع دادهها براساس ویژگیها....................................................................51 4-4-1. نوع بیماری تنفسی.......................................................................................51 4-4-2. سن.............................................................................................................52 4-5. پیشپردازشهای انجام شده..................................................................................53 4-5-1. حذف ویژگیهای اضافی............................................................................53 4-5-2. حذف یا اصلاح رکورد...............................................................................53 4-5-3. یکپارچهسازی داده.....................................................................................54 4-5-4. تبدیل مقادیر ویژگی...................................................................................55 4-5-4-1. تفسیر آزمایشهای انجام شده روی بیماران........................................55 4-5-4-2. WBC (White Blood Cell)...................................................56 4-5-4-3. چه چیزهایی باعث کاهش WBC میشود؟......................................56 4-5-4-4. چه چیزهایی باعث افزایش WBC میشود؟......................................56 4-5-4-5. جدول گسستهسازی WBC..............................................................57 4-5-4-6. RBC(Red Blood Cell).........................................................57 4-5-4-7. چه چیزهایی باعث کاهش RBC میشود؟.......................................57 4-5-4-8. چه چیزهایی باعث افزایش RBC میشود؟.......................................58 4-5-4-9. جدول گسستهسازی RBC...............................................................58 4-5-4-10. Hb (Hemoglobin).................................................................58 4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین میشود؟...............................59 4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین میشود؟..............................59 4-5-4-13. جدول گسستهسازی هموگلوبین......................................................59 4-5-4-14. HCT (Hematocrit)................................................................59 4-5-4-15. چه چیزهایی باعث کاهش HCT میشود؟.....................................60 4-5-4-16. چه چیزهایی باعث افزایش HCT میشود؟.....................................60 4-5-4-17. جدول گسستهسازی HCT.............................................................60 4-5-4-18. Plt یا پلاکتها..............................................................................60 4-5-4-19. چه چیزهایی پلاکت را کاهش میدهد؟..........................................61 4-5-4-20. چه چیزهایی پلاکت را افزایش میدهد؟..........................................61 4-5-4-21. جدول گسستهسازی پلاکت............................................................61 4-5-4-22. اجزای دیگر آزمایش خون..............................................................61 4-5-4-23. جدول گسستهسازی MCV،MCH و MCHC..........................62 4-5-4-24. CRP (C-Reactive Protein)................................................63 4-5-4-25. در چه شرایطی CRP افزایش پیدا میکند؟.....................................63 4-5-4-26. در چه شرایطی CRP کاهش پیدا میکند؟.....................................63 4-5-4-27. جدول گسستهسازی CRP.............................................................63 4-5-4-28. ESR (Erythrocyte Sedimentation Rate).....................64 4-5-4-29. جدول گسستهسازی ESR..............................................................64 4-5-4-30. جدول گسستهسازی BS (Blood Suger)..................................64 4-5-5. ویژگی دادهها پس از پیشپردازش نهایی.....................................................64 4-6 نمونهبرداری..........................................................................................................67 فصل5: نتایج و یافتههای تحقیق................................................................................................69 5-1. مقدمه...................................................................................................................70 5-2. ردهبندی...............................................................................................................70 5-2-1. مقایسهی الگوریتمهای پایه..........................................................................70 5-2-2. مقایسهی روشهای یادگیری در دادههای نامتوازن.......................................74 فصل6: نتیجهگیری و پیشنهادات...............................................................................................79 6-1. مقدمه...................................................................................................................80 6-2. نتیجهگیری...........................................................................................................80 6-3. پیشنهادها..............................................................................................................82 6-3-1. مجموعهی داده...........................................................................................82 6-3-2. دادهکاوی...................................................................................................82 مراجع.....................................................................................................................................83 پیوست الف: واژهنامه انگلیسی به فارسی.................................................................................. 92
فهرست جدولها عنوان صفحه جدول3-1: ماتریس اغتشاش برای مسائل دودویی....................................................................41 جدول3-2: ماتریس اغتشاش برای مسائل چند ردهای...............................................................44 جدول4-1: ویژگیهای موجود در مجموعه داده اولیه..............................................................49 جدول4-2: اسامی ویژگیها پس از برخی از مراحل پیشپردازش.............................................54 جدول4-3: ردهبندی فیلد سن به گروه سنی..............................................................................55 جدول 4-4: ردهبندی فیلد آزمایش WBC.............................................................................57 جدول 4-5: ردهبندی فیلد آزمایش RBC...............................................................................58 جدول 4-6: ردهبندی فیلد آزمایش Hb...................................................................................59 جدول 4-7: ردهبندی فیلد آزمایش HCT...............................................................................60 جدول 4-8: ردهبندی فیلد آزمایش PLT................................................................................61 جدول 4-9: ردهبندی فیلد آزمایش MCV.............................................................................62 جدول 4-10: ردهبندی فیلد آزمایش MCH...........................................................................62 جدول 4-11: ردهبندی فیلد آزمایش MCHC.......................................................................62 جدول 4-12: ردهبندی فیلد آزمایش CRP.............................................................................63 جدول 4-13: ردهبندی فیلد آزمایش ESR.............................................................................64 جدول 4-14: ردهبندی فیلد آزمایش BS................................................................................64 جدول4-15: ویژگیهای مجموعه داده ثانویه پس از پیشپردازش نهایی...................................65 فهرست شکلها عنوان صفحه شکل2-1: نمونهای از یک درخت تصمیم................................................................................19 شکل2-2: یک مجموعهی آموزش دوبعدی که دادههای آن به صورت خطی قابل جداسازی است.......................................................................................................................................22 شکل2-3: دو خط جداساز با حاشیههای مختلف......................................................................23 شکل2-4: افزایش صحت مدل با استفاده از Bagging...........................................................25 شکل2-5: شبهکد الگوریتم Bagging...................................................................................26 شکل2-6: شبهکد الگوریتم AdaBoost................................................................................28 شکل3-1: شبهکد الگوریتم EasyEnsemble......................................................................36 شکل3-2: شبهکد الگوریتم ModifiedBagging...............................................................37 شکل3-3: (a) kتا از نزدیکترین همسایههای xi با فرض k=6 (b) تولید داده براساس فاصلهی اقلیدسی..................................................................38 شکل3-4: ماتریس هزینهی چندردهای.....................................................................................40 شکل4-1: توزیع دادهها براساس نوع بیماری تنفسی..................................................................52 شکل4-2: توزیع دادهها براساس سن........................................................................................52 شکل4-3: نمونهبرداری طبقهبندی شده....................................................................................68 شکل5-1: مقایسهی الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آزمون)..................71 شکل5-2: مقایسهی کارایی الگوریتمها در تشخیص ردههای مختلف.......................................72 شکل5-3: مقایسهی الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آموزش)................73 شکل5-4: مقایسهی نتایج حاصل از روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون.....................................................................................................................................75 شکل5-5: مقایسهی حساسیت روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها......................................................................................................................76 شکل5-6: مقایسهی دقت روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها........................................................................................................................76 شکل5-7: مقایسهی معیارF روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها.........................................................................................................................78
فهرست نشانهها و اختصارها (Abreviations)
World Health Organization (WHO) Magnetic Resonance Imaging (MRI) Customer Relationship Management (CRM) Chi-squared Automatic Interaction Detector (CHAID) Iterative Dichotomiser3 (ID3) Traditional Chinese Medicine (TCM) Synthetic Minority Oversampling Technique (SMOTE) White Blood Cell (WBC) Red Blood Cell (RBC) Hemoglobin (Hb) Mean Corpuscular Volume (MCV) Mean Corpuscular Hemoglobin (MCH) Mean Corpuscular Hemoglobin Concentration (MCHC) C-Reactive Protein (CRP) Erytherocyte Sedimentation Rate (ESR) فصل1: مقدمه بیماری تنفسی[1] که عموما در ارتباط با بیماری ریوی[2] است، شامل گروهی از بیماریها هستند که از طریق درگیر کردن بخش یا قسمتهایی از دستگاه تنفس[3] باعث اختلال در عملکرد ریه[4]ها میگردند. ریهها مهمترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافتهای مختلف بدن و دفع دیاکسیدکربن نقش دارند. بیماریهای ریوی در هر سال بسیاری از افراد جامعه را مبتلا میکنند که باعث کاهش سطح عملکرد فرد در فعالیتهای روزمره میگردند. بیماریهای دستگاه تنفسی در انگلستان شایعترین عامل مراجعه به پزشکان عمومی است[1]. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماریهای ریوی میتوانند عفونت دستگاه تنفسی فوقانی[5]، پنومونی[6] و یا بیماری مزمن انسدادی ریه[7] باشند. بیماریهای مزمن تنفسی از 10 مورد بیماریهای تهدید کننده حیات در جهان هستند[8]. مطابق آمار سازمان بهداشت جهانی[9]، صدها میلیون نفر از جمعیت جهان از بیماریهای مزمن تنفسی رنج میبرند. پیشبینی میشود تا سال 2030 میلادی به سومین عامل مرگومیر در جهان بعد از بیماریهای قلبیوعروقی و سرطانها تبدیل گردد[1]. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری در همان ابتدای روزهای بستری است. تکنیکهای دادهکاوی[10] علاوه بر اینکه میتوانند در تشخیص سریع این بیماریها موثر باشند، میتوانند از طریق شناسایی عوامل موثر در بروز انواع بیماریهای تنفسی، به پیشگیری از این بیماریها کمک کنند و به این ترتیب باعث ارتقای سلامت جامعه شده و از تحمیل هزینههای سنگین ناشی از تشخیص نادرست، بر بیماران جلوگیری کنند. بیماریهای مزمن تنفسی از 10 مورد بیماریهای تهدید کننده حیات در جهان هستند و پیشبینی میشود تا سال 2030 میلادی به سومین عامل مرگومیر در جهان بعد از بیماریهای قلبیوعروقی و سرطانها تبدیل گردد. گرچه، گسترش تکنولوژیهای پزشکی در دهه گذشته، موجب کاهش میزان مرگومیر ناشی از این بیماری شده است و بهدلیل تشخیص زودهنگام و درمان بهینه، میزان بهبودی افزایش یافته است. اما میزان بهبودی بیماران در این نوع بیماریها بستگی به نوع بیماری و وسعت آسیب وارده به دستگاه تنفسی دارد[11]. تشخیص زودهنگام نیز به یک روش تشخیص صحیح و قابل اعتماد نیاز دارد که به پزشکان اجازه میدهد که عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه را از هم شناسایی کنند. بنابراین یافتن یک متد تشخیص صحیح و موثر و همچنین عوامل خطر در بروز این بیماری، بسیار بااهمیت است. مشکلی که در این بیماری وجود دارد این است که در ابتدا ممکن است یک سرماخوردگی یا آنفولانزای ساده بهنظر آید. گاهی حتی به مدت زمان طولانی بیمار از این بیماری رنج میبرد. بدیهی است که در این مدت بیماری پیشرفت کرده و این تاخیر در تشخیص نوع بیماری، روند درمان را با مشکل مواجه خواهد کرد تا جایی که حتی ممکن است به مرگ بیمار منجر شود. بنابراین نیاز است تا از روشهای پیشرفتهتری برای تشخیص زودهنگام این نوع بیماریهای تنفسی استفاده شود. روشهای رایج برای تشخیص زودهنگام بیماریهای تنفسی عبارتند از: تستهای آزمایشگاهی، رادیوگرافی[12] قفسه سینه، اسکن هستهای ریه، امآرآی[13]، آسپیراسیون سوزنی[14] از طریق دیواره قفسه سینه. این روشها علاوه بر هزینهی بالایی که بر بیمار تحمیل میکنند، ممکن است مضراتی را برای بیمار در پی داشته باشند. به عنوان مثال: امآرآی پرهزینه و کار با آن مشکل است. موجب مشکلات برای بیماران که دارای اجسام فلزی در بدن خود میباشند، میشود. در ضمن بیمار در حین انجام امآرآی باید بیحرکت بوده و حرکات غیرقابل پیشگیری، مانند تنفس ضربان قلب اغلب تصویر را مخدوش میسازد. همچنین برای بیمارانی که مشکلات تنفسی و کسانی که از محیطهای بسته میترسند، عبور از تونل تنگ دستگاه امآیآر توصیه نمیشود. این در حالی است که امروزه استفاده از سیستمهای ردهبندی[15]، میتوانند به کاهش خطایی که ممکن است توسط کارشناسان کمتجربه اتفاق بیفتد، کمک کنند و همچنین امکان بررسی دادههای پزشکی را در زمان کوتاهتر و با جزئیات بیشتر فراهم میکنند. تکنیکهای دادهکاوی میتوانند دانش نهفته در پایگاه های داده را استخراج و در پیشگیری، تشخیص و معالجهی این بیماری به پزشک و بیمار کمک کنند. قلمرو مکانی: این دادهها مربوط به بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س) استان قم میباشد. قلمرو زمانی: دادهها بین سالهای 90 و 92 میباشد؛ یعنی قلمرو زمانی تحقیق به مدت 3 سال میباشد. فرضیههای تحقیق، شامل موارد زیر هستند:
سوالی که در این تحقیق قصد داریم به آن پاسخ دهیم، این است که آیا دادهکاوی میتواند به کشف الگوهای پنهان در بیماریهای تنفسی کودکان بپردازد؟ اگر پاسخ این سوال مثبت است، چه اطلاعاتی در تشخیص این بیماری به پزشکان خواهد داد؟ آیا میتوان با استفاده از روشهای دادهکاوی، عوامل موثر در بروز نوع بیماری تنفسی را شناسایی کرد؟ اگر این کار ممکن است، عوامل موثر در بروز نوع بیماری تنفسی کدامند؟ آیا میتوان بر اساس این دادهها، یک سیستم ردهبندی برای تشخیص بیماری تنفسی ارائه داد؟ آیا سیستم ردهبندی ارائه شده، از صحت کافی برخوردار است؟
مجموعهی دادهی مورد استفاده در این تحقیق، شامل اطلاعات افرادی است، که دارای عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه میباشند. در این تحقیق، مدلی برای تشخیص نوع بیماری ارائه شده است که برمبنای آن میتوان تشخیص داد که فرد بیمار به کدامیک از دستههای عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه تعلق دارد. به این ترتیب، سیستم ارائه شده میتواند در تشخیص بیماری به پزشک و بیمار کمک کند. همچنین در این تحقیق به بررسی ارتباطات موجود در مجموعه داده پرداخته شده و برخی از عوامل موثر در بروز این بیماریها شناسایی شده است. با شناسایی عوامل موثر در بروز بیماریهای تنفسی، میتوان با اطلاعرسانی صحیح به افراد جامعه، تا حدود زیادی از ابتلا به این بیماریها پیشگیری کرد. 1-7-1. موضوع و دادههای استفادهشده در تحقیق تاکنون هیچگونه مطالعه و تحقیقی در زمینه دادهکاوی و بیماریهای تنفسی کودکان در ایران صورت نگرفته است. به عبارتی دیگر میتوان گفت یک تحقیق منحصربهفرد در زمینهی بیماریهای تنفسی است که در نوع خود کمنظیر است. 1-7-2. بر اساس مطالعه ادبیات و نحوه ارائه مطالب پیش از انجام دادهکاوی در این زمینه با برگزاری جلسات مشترک با متخصصین پزشکی مقرر گردید متغیرهایی انتخاب شوند که مقادیر آنها تا حد امکان دقیق باشد، بهعبارت دیگر حاصل آزمایش باشند نه بیان شده توسط خود بیمار و متغیرهایی که دارای مقادیر غیر آزمایشگاهی بودند با نظر آنها از مجموعه متغیرهای مورد بررسی خارج گردید. بهعبارتی تمامی مطالب درج شده در این تحقیق به صورت یکپارچه در هیچ منبعی یافت نشده و آنچه در این تحقیق گردآوری شده بهصورت مجزا از دو بخش آزمایشگاهی و دادهکاوی بهدست آمده است. جهت کپی مطلب از ctrl+A استفاده نمایید نماید |