هوش مصنوعی، نیمه تاریک ژنوم انسان را شناسایی میکند

پژوهشگران آمریکایی با استفاده از یک سیستم مبتنی بر هوش مصنوعی، گروهی از پروتئینهای پنهانشده را در DNA انسان شناسایی کردهاند که میتوانند تاثیر قابل توجهی بر سلامت و بیماری داشته باشند.
عصر کانادا – پروتئینها تا جایی که میدانیم، زندگی را حفظ میکنند و نقشهای ساختاری و عملکردی مهمی را در سراسر بدن بر عهده دارند اما این مولکولهای بزرگ، سایه بلندی را بر زیرگروه کوچکتری از پروتئینها به نام میکروپروتئینها انداختهاند.
به نقل از فیز، میکروپروتئینها در ۹۹ درصد از DNA که به عنوان غیر رمزگذار نادیده گرفته میشود، گم شدهاند و در بخشهای وسیع و تاریکی از کد ژنتیکی ناشناخته پنهان ماندهاند اما با وجود کوچک و دستنیافتنی بودن میکروپروتئینها، تأثیر آنها ممکن است به اندازه پروتئینهای بزرگتر باشد.
دانشمندان «موسسه سالک»(Salk Institute) اکنون در جستوجوی میکروپروتئینها، جنبه تاریک و مرموز ژنوم را بررسی میکنند. آنها با سیستم جدید خود موسوم به «شورتاستاپ»(ShortStop) میتوانند پایگاههای داده ژنتیکی را مورد بررسی قرار دهند و امتدادهای DNA را که احتمالاً به رمزگذاری میکروپروتئینها میپردازند، در ژنوم شناسایی کنند.
نکته مهم این است که شورتاستاپ پیشبینی میکند کدام میکروپروتئینها به احتمال زیاد از نظر بیولوژیکی مرتبط هستند و بدین ترتیب، در زمان و هزینه جستوجوی میکروپروتئینهای دخیل در سلامت و بیماری صرفهجویی میکنند.
شورتاستاپ با تمرکز بر میکروپروتئینهایی که پیشتر یافتن آنها غیرممکن بود، نگاهی جدید به مجموعه دادههای موجود میاندازد. در واقع، دانشمندان موسسه سالک در حال حاضر از این سیستم برای تحلیل مجموعه دادههای سرطان ریه استفاده میکنند تا ۲۱۰ کاندیدای میکروپروتئین کاملاً جدید و یک میکروپروتئین معتبر برجسته را پیدا کنند که ممکن است در آینده اهداف درمانی خوبی باشند.
«آلن ساگاتلیان»(Alan Saghatelian) پژوهشگر ارشد این پروژه گفت: بیشتر پروتئینهای بدن ما به خوبی شناخته شدهاند اما اکتشافات اخیر نشان میدهند ما هزاران پروتئین کوچک و پنهان به نام میکروپروتئینها را که توسط مناطق نادیده گرفتهشده ژنوم ما رمزگذاری شدهاند، از دست دادهایم.
ساگاتلیان ادامه داد: دانشمندان برای مدتهای طولانی فقط مناطقی از DNA که پروتئینهای بزرگ را رمزگذاری میکردند، مورد بررسی قرار میدادند و بقیه را به عنوان DNA بیارزش نادیده میگرفتند اما ما اکنون دریافتهایم که این مناطق در واقع بسیار مهم هستند و میکروپروتئینهای تولیدشده توسط آنها میتوانند نقشهای حیاتی در تنظیم سلامت و بیماری داشته باشند.
تشخیص و فهرستبندی میکروپروتئینها عمدتاً به دلیل اندازه آنها دشوار است. در مقایسه با پروتئینهای استاندارد که میتوانند از صدها تا هزاران آمینواسید طول داشته باشند، میکروپروتئینها معمولاً حاوی کمتر از ۱۵۰ اسید آمینه هستند و همین امر تشخیص آنها را با استفاده از روشهای استاندارد تحلیل پروتئین دشوارتر میکند. بنابراین دانشمندان به جای جستوجوی خود میکروپروتئینها، مجموعه دادههای بزرگ و در دسترس عموم را برای یافتن توالیهای DNA سازنده آنها جستجو میکنند.
دانشمندان اکنون دریافتهاند که بخشهای خاصی از DNA به نام «smORF» ممکن است حاوی دستورالعملهایی برای ساخت میکروپروتئینها باشند. روشهای تجربی کنونی تاکنون هزاران smORF را فهرستبندی کردهاند اما این روشها زمانبر و پرهزینه هستند. علاوه بر این، ناتوانی روشهای کنونی در جداسازی میکروپروتئینهای بالقوه کاربردی از میکروپروتئینهای غیر کاربردی، روند کشف و توصیف آنها را متوقف کرده است.
همه انواع smORF به میکروپروتئینهای معنادار از نظر بیولوژیکی تبدیل نمیشوند. روشهای کنونی نمیتوانند بین smORF تولیدکننده میکروپروتئینهای عملکردی و غیر عملکردی تمایز قائل شوند. این بدان معناست که دانشمندان باید هر میکروپروتئین را به طور مستقل آزمایش کنند تا مشخص شود که آیا عملکردی است یا خیر.
شورتاستاپ، گردش کار را به طور اساسی تغییر میدهد و با مرتبسازی میکروپروتئینها به گروههای عملکردی و غیر عملکردی، روند کشف smORF را بهبود میبخشد. نکته کلیدی در مرتبسازی توسط شورتاستاپ، نحوه آموزش آن به عنوان یک سیستم یادگیری ماشینی است.
شورتاستاپ نمیتواند به طور قطعی بگوید که آیا یک smORF، میکروپروتئین مرتبط از نظر بیولوژیکی را کدگذاری میکند یا خیر اما این سیستم، مجموعه آزمایشها را به شدت محدود میکند. اکنون پژوهشگران میتوانند زمان کمتری را صرف مرتبسازی دستی مجموعه دادهها و شکست در آزمایش کنند.
وقتی پژوهشگران شورتاستاپ را روی مجموعه دادههای smORF که پیشتر منتشر شده بود اعمال کردند، توانستند هشت درصد را به عنوان میکروپروتئینهای عملکردی احتمالی شناسایی کنند و آنها را برای پیگیری هدفمند در اولویت قرار دهند.
شورتاستاپ با فیلتر کردن توالیهایی که بعید است ارتباط بیولوژیکی داشته باشند، به توصیف میکروپروتئینها سرعت میدهد. همچنین، شورتاستاپ میتواند میکروپروتئینهایی را که توسط سایر روشها نادیده گرفته شدهاند، شناسایی کند.
«برندن میلر»(Brendan Miller) از پژوهشگران این پروژه گفت: چیزی که شورتاستاپ را به طور ویژه قدرتمند نشان میدهد، این است که با انواع دادههای رایج مانند مجموعه دادههای توالییابی آرانآی مورد استفاده بسیاری از آزمایشگاهها کار میکند. این بدان معناست که اکنون میتوانیم میکروپروتئینها را در بافتهای سالم و بیمار در مقیاس بزرگ جستوجو کنیم. این کار، اطلاعات جدیدی را درباره زیستشناسی انسان آشکار میسازد و راههای جدیدی را برای تشخیص و درمان بیماریهایی مانند سرطان و آلزایمر باز میکند.
ساگاتلیان گفت: دادههای بسیاری وجود دارد که اکنون میتوانیم آنها را با شورتاستاپ پردازش کنیم تا میکروپروتئینهای جدید مرتبط با سلامت و بیماری را از آلزایمر گرفته تا چاقی و فراتر از آن بیابیم. گروه من در ایجاد روشها واقعاً خوب هستند و با دادههای بهدستآمده توسط سایر اعضای هیئت علمی موسسه سالک میتوانیم این روشها را ادغام کنیم و به علم سرعت بدهیم.
این پژوهش در مجله «BMC Methods» به چاپ رسید.