خوشه‌بندی داده‌های بیان‌ژنی توسط عدم تشابه جنگل تصادفی

فرهادی, زهره; شاهسونی, داود

مجله علوم پزشکی رازی

دانشگاه علوم پزشکی ایران

یکشنبه 19 مرداد 1404 | English [Archive]

جلد 22، شماره 136 - ( 7-1394 ) جلد 22 شماره 136 صفحات 118-109 | برگشت به فهرست نسخه ها

Mendeley

Zotero

RefWorks

Gene Expression Data Clustering with Random Forest Dissimilarity. RJMS 2015; 22 (136) :109-118
URL: http://rjms.iums.ac.ir/article-1-4097-fa.html

فرهادی زهره، شاهسونی داود. خوشه‌بندی داده‌های بیان‌ژنی توسط عدم تشابه جنگل تصادفی. مجله علوم پزشکی رازی. 1394; 22 (136) :109-118

URL: http://rjms.iums.ac.ir/article-1-4097-fa.html

خوشه‌بندی داده‌های بیان‌ژنی توسط عدم تشابه جنگل تصادفی

زهره فرهادی^*، داود شاهسونی

کارشناس ارشد آمار، دانشگاه شاهرود، شاهرود، ایران ، zohreh.farhadi87@gmail.com

چکیده: (5962 مشاهده)

زمینه و هدف: خوشه‌بندی داده‌های بیان‌ژنی در تشخیص و درمان سرطان، دارای اهمیت بسزایی است. مشخصه‌ی بارز این داده‌ها تعداد زیاد متغیرها (ژن‌ها) نسبت به تعداد داده‌ها (بیماران) است. بسیاری از روش‌های خوشه‌بندی بر پایه‌ی عدم تشابه داده‌ها که حاصل محاسبه‌ی یک تابع فاصله است‏، بنا شده‌اند و افزایش ‏بعد‏، کارآیی توابع فاصله را کاهش می‌دهد‏. در این تحقیق معیاری جدید برای محاسبه‌ی عدم تشابه در ابعاد بالا‏، بر اساس یک روش رده‌بندی به نام جنگل تصادفی معرفی شده و کارایی آن در تحلیل داده‌های بیان ژنی، مورد ارزیابی قرار گرفته است.

روش کار: در این مقاله خوشه‌بندی مجموعه داده‌ی چاودری و همکاران توسط عدم تشابه جنگل تصادفی مد نظر قرار گرفته ‌است. بدین منظور ابتدا مسئله‌ی خوشه‌بندی به مسئله‌ی رده‌بندی تبدیل شده و با انجام رده‌بندی جنگل تصادفی، عدم تشابه مربوطه محاسبه شده‌است. سر انجام داده‌ها توسط روش خوشه‌بندی افراز حول مدوید، خوشه‌بندی شده و نتیجه‌ی خوشهبندی توسط شاخص رند تعدیل یافته مورد ارزیابی قرار گرفته است. تمامی تحلیل‌ها با نرم افزار R انجام شده‌است.

یافته‌ها: مقدار شاخص رند تعدیل یافته (۰/۸۱۴۹)، نشان‌دهنده‌ی انطباق مطلوب خوشه‌های تخمینی با گروه‌های واقعی است. همچنین با استفاده از قابلیت تعیین اهمیت متغیرها در روش جنگل تصادفی، ژن شماره‌ی ۳۱ موثرترین ژن در این خوشه‌بندی شناخته شد و توانستیم خوشه‌های تخمینی را تنها بوسیله‌ی این ژن توصیف کنیم.

نتیجه‌گیری: عدم تشابه جنگل تصادفی، معیاری کارا برای سنجش عدم تشابه داده‌ها در خوشه‌بندی داده‌های بیان ژنی است. همچنین می‌توان با استفاده از قابلیت متحصر به‌فرد این روش، ژن‌های موثر در خوشه‌بندی را شناسایی نموده و خوشه‌های تخمینی را به‌وسیله‌ی آن‌ها توصیف نمود.

واژه‌های کلیدی: خوشه‌بندی، داده‌های بیان‌ژنی، عدم تشابه جنگل تصادفی، تعیین اهمیت متغیرها

متن کامل [PDF 1054 kb] (2679 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: نوزادان

ارسال پیام به نویسنده مسئول

کلیه حقوق این وب سایت متعلق به مجله علوم پزشکی رازی می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

Designed & Developed by : Yektaweb

نظر شما در مورد قالب جدید پایگاه چیست؟
	ضعیف
	متوسط
	خوب
	عالی

مجله علوم پزشکی رازی

دانشگاه علوم پزشکی ایران

پایگاه های مرتبط

کلمات کلیدی

نظرسنجی