زمینه و هدف: خوشهبندی دادههای بیانژنی در تشخیص و درمان سرطان، دارای اهمیت بسزایی است. مشخصهی بارز این دادهها تعداد زیاد متغیرها (ژنها) نسبت به تعداد دادهها (بیماران) است. بسیاری از روشهای خوشهبندی بر پایهی عدم تشابه دادهها که حاصل محاسبهی یک تابع فاصله است، بنا شدهاند و افزایش بعد، کارآیی توابع فاصله را کاهش میدهد. در این تحقیق معیاری جدید برای محاسبهی عدم تشابه در ابعاد بالا، بر اساس یک روش ردهبندی به نام جنگل تصادفی معرفی شده و کارایی آن در تحلیل دادههای بیان ژنی، مورد ارزیابی قرار گرفته است.
روش کار: در این مقاله خوشهبندی مجموعه دادهی چاودری و همکاران توسط عدم تشابه جنگل تصادفی مد نظر قرار گرفته است. بدین منظور ابتدا مسئلهی خوشهبندی به مسئلهی ردهبندی تبدیل شده و با انجام ردهبندی جنگل تصادفی، عدم تشابه مربوطه محاسبه شدهاست. سر انجام دادهها توسط روش خوشهبندی افراز حول مدوید، خوشهبندی شده و نتیجهی خوشهبندی توسط شاخص رند تعدیل یافته مورد ارزیابی قرار گرفته است. تمامی تحلیلها با نرم افزار R انجام شدهاست.
یافتهها: مقدار شاخص رند تعدیل یافته (۰/۸۱۴۹)، نشاندهندهی انطباق مطلوب خوشههای تخمینی با گروههای واقعی است. همچنین با استفاده از قابلیت تعیین اهمیت متغیرها در روش جنگل تصادفی، ژن شمارهی ۳۱ موثرترین ژن در این خوشهبندی شناخته شد و توانستیم خوشههای تخمینی را تنها بوسیلهی این ژن توصیف کنیم.
نتیجهگیری: عدم تشابه جنگل تصادفی، معیاری کارا برای سنجش عدم تشابه دادهها در خوشهبندی دادههای بیان ژنی است. همچنین میتوان با استفاده از قابلیت متحصر بهفرد این روش، ژنهای موثر در خوشهبندی را شناسایی نموده و خوشههای تخمینی را بهوسیلهی آنها توصیف نمود.
بازنشر اطلاعات | |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |