معلومة

أفضل طريقة لربط معرف Gene Entrez تلقائيًا برمز الجينات في TCGA

أفضل طريقة لربط معرف Gene Entrez تلقائيًا برمز الجينات في TCGA



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أحاول معرفة كيفية ربط معرف Gene Entrez مع Gene Symbol لمجموعة بيانات TCGA.

حتى الآن ، وجدت دليل بروتوكول نقل الملفات هذا مع تحديث معلومات الجين يوميًا.

لكن بالنسبة إلى Entrez ID 728661 ، وجدت تعيينين مختلفين:

  • هنا الرمز هو RP11-345P4.4 ؛
  • هنا ، وفي معلومات الجينات التي تم تنزيلها من بروتوكول نقل الملفات أعلاه ، يكون الرمز SLC35E2B بينما RP11-345P4.4 موجود في حقل "علامة المكان".

منذ أن كنت مبتدئًا ، فأنا مرتبك قليلاً بشأن هذا الشيء. وعلى الرغم من أنني أعتقد أنها يمكن أن تكون مرادفات ، فأنا بحاجة إلى معرفة ما إذا كانت هناك أفضل الممارسات لاستخدامها في هذه الحالة ، وما إذا كنت بحاجة إلى تنفيذ بعض البرامج النصية بنفسي للقيام بذلك تلقائيًا.

شكرا


IntPath - قاعدة بيانات متكاملة لعلاقة جينات المسار للكائنات الحية النموذجية ومسببات الأمراض المهمة

تعتبر بيانات المسار مهمة لفهم العلاقة بين الجينات والبروتينات والعديد من الجزيئات الأخرى في الكائنات الحية. تعد العلاقات بين جينات المسار معلومات مهمة للإرشاد والتنبؤ والمراجع والتقييم في الكيمياء الحيوية والبيولوجيا الحاسوبية والطب. تم تخصيص العديد من قواعد البيانات الراسخة - مثل KEGG و WikiPathways و BioCyc - لجمع بيانات المسار للوصول العام. ومع ذلك ، فإن فعالية قواعد البيانات هذه تعوقها قضايا مثل تنسيقات البيانات غير المتوافقة ، والتمثيلات الجزيئية غير المتسقة ، وتمثيلات العلاقات الجزيئية غير المتسقة ، والإحالات غير المتسقة إلى أسماء المسارات ، والبيانات غير الشاملة من قواعد البيانات المختلفة.

نتائج

في هذه الورقة ، تغلبنا على هذه المشكلات من خلال استخراج وتطبيع وتكامل بيانات المسار من عدة قواعد بيانات عامة رئيسية (KEGG ، WikiPathways ، BioCyc ، إلخ). نحن نبني قاعدة بيانات لا تستضيف فقط بيانات العلاقة الجينية للمسار المتكامل للوصول العام ، ولكنها تحافظ أيضًا على التحديثات الضرورية على المدى الطويل. تم تسمية هذا المستودع العام باسم IntPath (كثافة العمليات غاضب طريق طريقة قاعدة بيانات العلاقة الجينية للكائنات النموذجية ومسببات الأمراض المهمة). أربعة كائنات -S. cerevisiae ، M. السل H37Rv ، H. العاقل و M. العضلات- تم تضمينه في هذا الإصدار (V2.0) من IntPath. يستخدم IntPath أسلوب "التوحيد الكامل" لضمان عدم الحذف وعدم وجود ضوضاء مقدمة في هذه العملية. لذلك ، يحتوي IntPath على علاقات أزواج أكثر ثراءً بين الجينات والمسار والجينات وعدد أكبر بكثير من الجينات غير الزائدة عن الحاجة وأزواج الجينات من أي من قواعد البيانات أحادية المصدر. تكون العلاقات الجينية لكل جين (تقاس بمتوسط ​​درجة العقدة) لكل مسار أكثر ثراءً بشكل ملحوظ. العلاقات الجينية في كل مسار (مقاسة بمتوسط ​​عدد أزواج الجينات لكل مسار) هي أيضًا أكثر ثراءً في المسارات المتكاملة. يتم تضمين المعالجة اليدوية المعتدلة للتخلص من الأخطاء والضوضاء من بيانات المصدر (على سبيل المثال ، أخطاء معرف الجين في WikiPathways وأخطاء العلاقة في KEGG). نقوم بتحويل تنسيقات بيانات xml المعقدة وغير المتوافقة وتمثيلات علاقة الجينات والجينات غير المتسقة من قواعد بيانات المصدر المختلفة إلى علاقات أزواج مسار الجينات والمسار والجينات الموحدة والموحدة المسجلة بدقة في تنسيق نصي محدد بعلامات جدولة وجداول MySQL ، مما يسهل عملية الحساب التلقائي المريح والمراجع على نطاق واسع في العديد من الدراسات ذات الصلة. يمكن تنزيل بيانات IntPath بتنسيق نصي أو تفريغ MySQL. يمكن أيضًا استرداد بيانات IntPath وتحليلها بسهولة من خلال خدمة الويب عن طريق البرامج المحلية أو من خلال واجهة الويب عن طريق النقر بالماوس. يتم أيضًا توفير العديد من أدوات التحليل المفيدة في IntPath.

الاستنتاجات

لقد تغلبنا في IntPath على مشكلات التوافق والاتساق والشمولية التي غالبًا ما تعيق الاستخدام الفعال لقواعد بيانات المسار. لقد قمنا بتضمين أربعة كائنات في الإصدار الحالي من IntPath. يمكن تطبيق منهجيتنا وبرامجنا الموصوفة في هذا العمل بسهولة على الكائنات الحية الأخرى وسوف نقوم بتضمين المزيد من الكائنات الحية النموذجية ومسببات الأمراض المهمة في الإصدارات المستقبلية من IntPath. يحافظ IntPath على تحديثات منتظمة وهو متاح مجانًا على http://compbio.ddns.comp.nus.edu.sg:8080/IntPath.


يتغير الإصدار الحالي

هذه المراجعة الحالية الإصدار 2.4.1 مواصفات تنسيق التعليق التوضيحي (MAF).

تمت إضافة العناصر التالية في المواصفات أو تعديلها في الإصدار 2.4.1 من الإصدار 2.4:

رأس ملف MAF هو "# الإصدار 2.4.1"

"Somatic" و "None" هما القيمتان الوحيدتان المقبولتان لـ "Mutation_Status" لـ somatic.MAF (تسمى .somatic.maf). عندما تكون Mutation_Status غير صالحة ، يجب أن تكون Validation_Status غير صالحة.

تحتاج المراكز إلى التأكد من أن حالة الطفرات "لا شيء" لا تتضمن طفرة في السلالة الجرثومية.

بالنسبة إلى MAF الجسدي ، يجب استيفاء القواعد التالية:
صوماتك = (أ و (ب أو ج أو د)) أو (هـ و و)
أ: حالة_طفرة == "جسدي"
ب: Validation_Status == "صالح"
ج. حالة التحقق == "تم التحقق منه"
د. Variant_Classification ليس ، مما يعني أن Variant_Classification يمكن أن يكون فقط .
ه: Mutations_status == "بلا"
F: Validation_status == "غير صالح"

قواعد التحقق الإضافية: إذا كانت Validation_Status == صالحة أو غير صالحة ، فإن Validation_Method! = لا شيء (غير حساس لحالة الأحرف).


مراجع

فريق تطوير R. R: لغة وبيئة للحوسبة الإحصائية (مؤسسة R للحوسبة الإحصائية ، فيينا ، النمسا ، 2008) ISBN 3-900051-07-0.

جنتلمان ، آر سي. وآخرون. Bioconductor: تطوير البرمجيات المفتوحة للبيولوجيا الحاسوبية والمعلوماتية الحيوية. جينوم بيول. 5 (10): آر 80 (2004).

Kasprzyk، A. et al. Ensmart: نظام عام للوصول السريع والمرن إلى البيانات البيولوجية. الدقة الجينوم. 14 (1): 160–169 (2004).

هوبارد ، تي جيه. وآخرون. انسمبل 2009. الدقة الأحماض النووية. 37 (إصدار قاعدة البيانات): D690-D697 (2009).

روجرز ، إيه وآخرون. Wormbase 2007. الدقة الأحماض النووية. 36 (إصدار قاعدة البيانات): D612 - D617 (2008).

ماثيوز ، ل. وآخرون. Reactome Knowledge Base للمسارات والعمليات البيولوجية البشرية. الدقة الأحماض النووية. 37 (إصدار قاعدة البيانات): D619 - D622 (2009).

Durinck، S. et al. BioMart و Bioconductor: رابط قوي بين قواعد البيانات البيولوجية وتحليل بيانات المصفوفات الدقيقة. المعلوماتية الحيوية 21, 3439–3440 (2005).

Durinck، S. دمج موارد البيانات البيولوجية في R مع biomaRt. النشرة الإخبارية لمشروع R 6/5, 40–45 (2006).

م. بطرس وآخرون. تحليل شاشات RNAi المستندة إلى الخلايا. جينوم بيول. 7، R66 (2006).

وي ، ج. وآخرون. الجين الورمي MYCN هو هدف مباشر لـ miR-34a. الأورام 27 (39): 5204–5213 (2008).

Hahne، F. et al. دراسات حالة الموصل الحيوي. Springer Verlag ، نيويورك ، الولايات المتحدة الأمريكية (2008).

Pruitt ، K.D. ، Tatusova ، T. & amp Maglott ، D.R. التسلسل المرجعي لـ NCBI (RefSeq): قاعدة بيانات تسلسل منسقة غير زائدة عن الحاجة للجينومات والنصوص والبروتينات. الدقة الأحماض النووية. 35 (إصدار قاعدة البيانات): D61-D65 (2007).

بروفورد ، إ. وآخرون. قاعدة بيانات HGNC في عام 2008: مورد للجينوم البشري. الدقة الأحماض النووية. 36 (إصدار قاعدة البيانات): D445-D448 (2008).

أبدا م. وآخرون. مجموعة من خطوط خلايا سرطان الثدي لدراسة الأنواع الفرعية للسرطان المتميزة وظيفيًا. الخلايا السرطانية 10, 515–527 (2006).

باركنسون ، هـ وآخرون. تحديث Arrayexpress - من أرشيف تجارب الجينوميات الوظيفية إلى أطلس التعبير الجيني. الدقة الأحماض النووية. 37، D868-D872 (2009).

إيريزاري ، R.A. وآخرون. الاستكشاف والتطبيع والملخصات لبيانات مستوى مسبار صفيف قليل النوكليوتيد عالي الكثافة. الإحصاء الحيوي 4, 249–264 (2003).


نتائج

نظرة عامة على OncoLnc

يخزن OncoLnc أكثر من 400000 تحليل ، بما في ذلك نتائج انحدار كوكس وكذلك التعبير المتوسط ​​والمتوسط ​​لكل جين. بالنسبة لنتائج انحدار Cox ، بالإضافة إلى قيم p ، يقوم OncoLnc بتخزين رتبة الارتباط. تحتوي السرطانات المختلفة على توزيعات مختلفة جدًا للقيمة p (Anaya et al. ، 2016 Yang et al. ، 2014) ، وليس من الواضح ما الذي يسبب هذا الاختلاف. نتيجة لذلك ، لا يمكن استخدام حد واحد للقيمة p عبر السرطانات ، وترتيب الارتباط هو طريقة بسيطة لقياس القوة النسبية للارتباط. يتم احتساب الرتبة حسب نوع السرطان لكل نوع من البيانات. تحتوي الجداول من 1 إلى 3 على معلومات حول عدد الجينات لكل سرطان ولكل نوع بيانات.

معرفات mRNA و miRNA المستخدمة من قبل TCGA قديمة ، وقد تم تنسيق المعرفات في OncoLnc يدويًا باستخدام NCBI Gene: http://www.ncbi.nlm.nih.gov/gene ، وتعريفات miRBase الحديثة: http: / /www.mirbase.org/. تم تحديث أكثر من 2000 رمز mRNA ، وهي مدرجة في الجدول S4. الجينات التي تمت إزالة معرف Entrez Gene الخاص بها من NCBI Gene ، أو لا يمكن تعيينها بثقة لمعرف واحد ، لم يتم تضمينها في OncoLnc ولكنها لا تزال مدرجة في الجدول S1.

استخدام OncoLnc بسيط للغاية. الطريقة المفضلة لاستخدام OncoLnc هي إرسال الجين في الصفحة الرئيسية ، وهذا الإرسال ليس حساسًا لحالة الأحرف. إذا أرسل المستخدم جينًا غير موجود في قاعدة البيانات ، فسيتم إخطاره وتزويده بروابط لجميع الأسماء والمعرفات الجينية المحتملة. سيؤدي تقديم معرف جيني صالح إلى إرجاع نتائج الارتباط لما يصل إلى 21 نوعًا من السرطانات لـ mRNAs و miRNAs ، أو 18 نوعًا من السرطان لـ MiTranscriptome beta lncRNAs (الشكل 1). إذا كان الجين لا يفي بقطع التعبير للتحليل ، فلن يكون موجودًا في قاعدة البيانات ، وبالتالي قد يتلقى المستخدم أقل من الحد الأقصى لعدد النتائج الممكنة. بالنسبة للمستخدمين الذين يستخدمون OncoLnc على أجهزة أصغر ، من الممكن إجراء بحث واحد عن السرطان. يوجد رابط هذا البحث في الصفحة الرئيسية ، ويجب على المستخدم تقديم اختصار سرطان TCGA مع الجين المعني.

الشكل 1: مثال على نتائج بحث OncoLnc.

يوجد في صفحة النتائج رابط لإجراء تحليل كابلان ماير لكل سرطان (الشكل 1). سيُسأل المستخدم كيف يرغب في تقسيم المرضى. يمكن تقسيم المرضى إلى أي شرائح علوية وسفلية غير متداخلة ، على سبيل المثال أعلى بنسبة 25 في المائة وأقل بنسبة 25 في المائة. عند التقديم ، سيتم تزويد المستخدمين بمخطط PNG Kaplan-Meier ، وقيمة p logrank للتحليل ، ومربعات نصية بالبيانات التي تم رسمها (الشكل 2). إذا كان المستخدم يريد ببساطة جميع البيانات الخاصة بهذا السرطان وهذا الجين ، فيمكن للمستخدم إرسال 100 لـ "النسبة المئوية الأدنى" و 0 لـ "النسبة المئوية العليا".

الشكل 2: مثال على نتائج OncoLnc Kaplan-Meier.

بعد ذلك ، يكون لدى المستخدمين خيار الانتقال إلى ملف PDF لمخطط Kaplan-Meier ، أو تنزيل ملف CSV للبيانات المرسومة. في كلتا الحالتين ، سيكون اسم الملف هو السرطان ، ومعرف الجين ، والنسب المئوية الأدنى ، والنسبة المئوية العليا ، مفصولة بالشرطات السفلية. يجب استخدام معرف الجين بدلاً من اسم الجين نظرًا لوجود العديد من تعارضات رمز الجين HUGO بين TCGA Tier 3 mRNAs و MiTranscriptome beta ، وكذلك بين رموز الجين TCGA mRNA HUGO ورموز الجينات المحدثة mRNA HUGO. في حالة قيام المستخدم ببحث عن اسم به تعارض ، يقدم OncoLnc رسالة تحذير وتوجه المستخدم إلى كيفية المتابعة.

مرناس

يحتوي الجدول 1 على معلومات حول المرضى لكل دراسة من المستوى 3 mRNA مدرجة في OncoLnc ، وعدد تحليلات الجينات الموجودة في OncoLnc لكل دراسة. تم استخدام المستوى 3 RNASeqV2 لجميع أنواع السرطان الـ 21 ، وتم أخذ التعبير من ملفات "rsem.genes.normalized_results". نتيجة لذلك ، تكون بيانات التعبير في OncoLnc للمستوى 3 mRNAs في قيم RSEM الطبيعية. يحتوي الجدول 1 على أعداد مختلفة من الجينات لأنواع السرطان المختلفة لأنه تم استخدام قطع التعبير لتحديد ما إذا كان الجين سيتم تضمينه في التحليل. بالنسبة إلى mRNAs ، كان هذا القطع عبارة عن تعبير متوسط ​​أكبر من 1 RSEM ، وأقل من ربع المرضى الذين لديهم تعبير 0.

يتم تضمين نتائج كل انحدار Tier 3 mRNA Cox الذي تم إجراؤه في الجدول S1. تحتوي ملفات تعبير المستوى 3 على كل من رمز جين HUGO ومعرف Entrez Gene لكل جين ، لكن هذه المعرفات ورموز الجينات ليست حديثة. لتحديث رموز الجينات ، قمت بتنزيل كل جين بشري من NCBI Gene ، وقمت بتحديث أي رمز لا يزال معرف Entrez Gene الخاص به ساريًا. بالنسبة للجينات التي حذفت أو غيرت معرّفات Entrez Gene ، كان عليّ تنظيم معرفات الجينات ورموز الجينات يدويًا. لم يتم تضمين الجينات التي لم أتمكن من تعيينها بثقة لمعرف حديث في OncoLnc ، ولكنها لا تزال مدرجة في الجدول S1. يتضمن الجدول S1 معرفات ورموز TCGA الأصلية جنبًا إلى جنب مع الأسماء والرموز المحدثة ، ويسرد الجدول S4 الجينات التي تم تغيير الرمز أو المعرف. يسمح OncoLnc للمستخدمين بالبحث عن mRNAs باستخدام إما رمز جين HUGO المحدث أو معرف Entrez Gene.

ميرناس

يحتوي الجدول 2 على معلومات حول المرضى لكل دراسة من المستوى 3 miRNA مدرجة في OncoLnc ، وعدد تحليلات الجينات الموجودة في OncoLnc لكل دراسة. تم استخدام المستوى 3 miRNASeq لكل نوع من أنواع السرطان باستثناء GBM ، التي لا تتوفر إلا بيانات ميكروأري. يتم تضمين نتائج كل انحدار كوكس في الجدول S2. العديد من معرّفات miRBase ، أو أعداد القراءة المحتملة ، الموجودة في الجدول S2 و OncoLnc ستكون مختلفة عن المعرفات وتعدادات القراءة في ملفات بيانات TCGA ومتاحة في بوابات البيانات الأخرى لبيانات TCGA. هذا لأنني قمت بالاطلاع على كل ملف تعبير وقمت بتحديث المعرفات وأعداد القراءة.

تحتوي ملفات "isoform.quantification" على معرّفات miRBase بالإضافة إلى أرقام المدخلات. في هذه الملفات ، تتم الإشارة إلى ذراعي miRNAs 5p و 3p بنفس المعرف ، على سبيل المثال ، سيتم إدراج كل من hsa-let-7b-5p و hsa-let-7b-3p كـ hsa-let-7b. من أجل تحديث الأسماء وتعداد القراءة لـ Tier 3 miRNAs ، استخدمت أعداد القراءة المخصصة لكل رقم مُدخل للحصول على قراءات لكل مليون miRNAs المعينة لكل رقم مُدخل ، وقمت بتحديث المعرّف بمعرف miRBase الحالي. عندما لم يكن رقم الانضمام متاحًا ، استخدمت الإحداثيات الجينية المقدمة لتحديد رقم الانضمام ، وبالتالي المعرف. تم تحديث أسماء GBM باستخدام ملف "الأسماء المستعارة" من موقع miRBase FTP ، وإذا تعذر تحديد اسم مستعار بثقة ، لم يتم تضمين miRNA في OncoLnc ، ولكنه لا يزال موجودًا في الجدول S2.

نتيجة لذلك ، تتم قراءة جميع قيم التعبير في الجدول S2 وفي OncoLnc لكل مليون miRNA المعين لكل سرطان باستثناء GBM ، وهي قيم مصفوفة ميكروأري. تختلف أعداد miRNAs في الجدول 2 لأن miRNA قد لا يكون موجودًا في ملفات التعبير عن هذا السرطان ، أو ربما لم يفي بقطع التعبير. قطع تعبير بمتوسط ​​0.5 قراءة لكل مليون ميرنا معين ، وأقل من ربع المرضى الذين لديهم تعبير 0 تم استخدامه. يسمح OncoLnc للمستخدمين بالبحث عن miRNAs إما باستخدام رقم تعريف أو رقم وصول ناضج للإصدار 21 من miRBase.

LncRNAs

يحتوي الجدول 3 على معلومات حول المرضى لكل تحليل MiTranscriptome beta lncRNA ، إلى جانب عدد lncRNAs المضمنة في OncoLnc لكل سرطان. تم تنزيل تعداد lncRNA الطبيعي من http://mitranscriptome.org/ ، وتم تعيينها إلى الباركود الخاص بالمريض باستخدام معلومات المكتبة المتوفرة. يحتوي MiTranscriptome beta على أكثر من 8000 من lncRNAs الأكثر تعبيرًا تفاضليًا في مجموعة بيانات MiTranscriptome بأكملها ، لكن العدد الفعلي لـ lncRNAs في OncoLnc لكل سرطان أقل بكثير بسبب قطع التعبير المستخدم: وسيط 0.1 تعداد طبيعي ، وأقل من a رابع المرضى مع عدم وجود تعبير. يحتوي الجدول S3 على كل انحدار lncRNA Cox يتم إجراؤه ، ويتم تضمينها جميعًا في OncoLnc. يسمح OncoLnc للمستخدمين بالبحث عن MiTranscriptome beta lncRNAs باستخدام إما اسم أو معرف نسخة.


أساليب

الحصول على خلاصات نصية ومعالجتها

قمنا بتنزيل مجموعات البيانات النصية من المصادر المتاحة للجمهور. قمنا بتنزيل بيانات TCGA PanCanAtlas RNAseq المصححة على دفعات من معهد السرطان الوطني المشاع للبيانات الجينية (https://gdc.cancer.gov/about-data/publications/pancanatlas). تتألف هذه البيانات من 11،069 عينة مع 20،531 جينًا مُقاسًا كميًا باستخدام RSEM وتطبيعها مع تحويل السجل. قمنا بتحويل معرفات الجينات Hugo Symbol إلى معرفات جينية Entrez وتخلصنا من الجينات والجينات غير المشفرة للبروتين التي فشلت في التعيين. قمنا أيضًا بإزالة الأورام التي تم قياسها من مواقع متعددة. نتج عن ذلك مصفوفة التعبير الجيني TCGA PanCanAtlas النهائية مع 11060 عينة ، والتي تضمنت 33 نوعًا مختلفًا من السرطان ، و 16148 جينًا. يتم توفير تفاصيل عينات TCGA حسب نوع السرطان في الملف الإضافي 5.

قمنا بتنزيل بيانات GTEx RNAseq المعيارية TPM (الإصدار 7) من بوابة بيانات GTEx (https://gtexportal.org/home/datasets). كان هناك 11688 عينة و 56202 جينًا في مجموعة البيانات هذه. بعد اختيار جينات ترميز البروتين فقط وتحويل Hugo Symbols إلى معرفات جينية Entrez ، أخذنا في الاعتبار 18356 جينًا. هناك 53 نوعًا مختلفًا من الأنسجة التفصيلية في إصدار GTEx هذا. يتم توفير أنواع الأنسجة المتضمنة في هذه البيانات في ملف إضافي 5.

أخيرًا ، استرجعنا بيانات التعبير الجيني TARGET RNAseq من بوابة بيانات UCSC Xena [60]. تمت معالجة بيانات TARGET من خلال خط أنابيب FPKM UCSC Toil RNAseq وتم تطبيعها باستخدام RSEM وتحويل السجل [61]. تتكون المصفوفة الأصلية من 734 عينة و 60498 معرفًا جينيًا لمجموعة. قمنا بتحويل معرفات الجينات Ensembl إلى أسماء جينية Entrez واحتفظنا فقط بجينات ترميز البروتين. نتج عن هذا الإجراء ما مجموعه 18753 جينًا تم قياسها في TARGET. هناك 7 أنواع من السرطان تم وصفها في TARGET والتقسيم المحدد متاح في ملف إضافي 5. يمكن عرض جميع خطوات التنزيل والمعالجة المحددة وإعادة إنتاجها على https://github.com/greenelab/BioBombe/tree/master/0.expression -تحميل.

تدريب الشبكات العصبية غير الخاضعة للرقابة

أجهزة التشفير التلقائي (AE) هي شبكات عصبية غير خاضعة للإشراف تتعلم من خلال تقليل إعادة بناء بيانات الإدخال إلى الحد الأدنى بعد تمرير البيانات عبر طبقة واحدة أو عدة طبقات وسيطة [62]. عادةً ما تكون هذه الطبقات ذات أبعاد أقل من المدخلات ، لذلك يجب أن تضغط الخوارزميات على بيانات الإدخال. يؤدي تقليل الضوضاء التلقائية (DAE) إلى إضافة ضوضاء لطبقات الإدخال أثناء التدريب لتنظيم الحلول وتحسين قابلية التعميم [63]. تضيف أجهزة التشفير التلقائي المتغيرة (VAE) تنظيمًا من خلال فترة عقوبة إضافية مفروضة على الوظيفة الموضوعية [64 ، 65]. في VAE ، أبعاد الفضاء الكامنة (ك) مع عقوبة الاختلاف Kullback-Leibler (KL) التي تقيد توزيع العينات في الفضاء الكامن على توزيعات Gaussian. قمنا بتحسين كل نموذج AE بشكل مستقل عبر شبكة من مجموعات المعلمات الفائقة بما في ذلك ستة أبعاد كامنة تمثيلية (موصوفة في ملف إضافي 2 وملف إضافي 1: الشكل S2).

تدريب خوارزميات الضغط عبر الأبعاد الكامنة

بشكل مستقل لكل مجموعة بيانات (TCGA و GTEx و TARGET) ، قمنا بتنفيذ الإجراء التالي لتدريب خوارزميات الضغط. أولاً ، قمنا بتقسيم البيانات بشكل عشوائي إلى 90٪ تدريب و 10٪ أقسام اختبار. قمنا بموازنة كل قسم حسب نوع السرطان أو نوع الأنسجة ، مما يعني أن كل تقسيم يحتوي على تمثيل متساوٍ نسبيًا للأنسجة. قبل الإدخال في خوارزميات الضغط ، قمنا بتحويل قيم التعبير الجيني حسب الجين إلى النطاق [0 ، 1] بطرح الحد الأدنى للقيمة والقسمة على النطاق لكل جين محدد. قمنا بتطبيق هذا التحويل بشكل مستقل على أقسام الاختبار والتدريب. اخترنا هذا النطاق لأنه كان متوافقًا مع جميع الخوارزميات. استخدمنا مجموعة التدريب لتدريب كل خوارزمية ضغط. استخدمنا تطبيقات scikit-Learn لـ PCA و ICA و NMF وتطبيقات Tybalt لـ VAE و DAE [8 ، 66].

بعد تعلم نماذج الضغط المحسّنة باستخدام بيانات التدريب ، قمنا بتحويل بيانات الاختبار باستخدام هذه النماذج. قمنا بتقييم مقاييس الأداء باستخدام بيانات التدريب والاختبار لتقليل التحيز. بالإضافة إلى التدريب باستخدام البيانات الحقيقية ، قمنا أيضًا بتدريب جميع النماذج باستخدام بيانات مقلوبة عشوائيًا. لتبديل بيانات التدريب ، قمنا عشوائيًا بترتيب قيم التعبير الجيني لجميع الجينات بشكل مستقل. قمنا أيضًا بتحويل بيانات قسم الاختبار باستخدام نماذج تم تدريبها باستخدام بيانات تم تبديلها عشوائيًا. يؤدي التدريب باستخدام البيانات المخفية إلى إزالة البنية الارتباطية في البيانات ويمكن أن يساعد في تعيين خطوط أساس مقياس الأداء.

كان أحد أهدافنا هو تقييم الاختلافات في الأداء واكتشاف الإشارات البيولوجية عبر مجموعة من الأبعاد الكامنة (ك). تحقيقا لهذه الغاية ، قمنا بتدريب جميع الخوارزميات مع مختلف ك الأبعاد بما في ذلك ك = 2، 3، 4، 5، 6، 7، 8، 9، 10، 12، 14، 16، 18، 20، 25، 30، 35، 40، 45، 50، 60، 70، 80، 90، 100 و 125 و 150 و 200 لما مجموعه 28 بعدًا مختلفًا. تم تدريب كل هذه النماذج بشكل مستقل. أخيرًا ، لكل ك الأبعاد ، قمنا بتدريب خمسة نماذج مختلفة تمت تهيئتها بخمس بذور عشوائية مختلفة. في المجموع ، مع الأخذ في الاعتبار مجموعات البيانات الثلاث ، وخمس خوارزميات ، وبيانات التدريب التي تم تبديلها عشوائيًا ، كل 28 ك الأبعاد وخمس عمليات تهيئة ، قمنا بتدريب 4200 نموذج ضغط مختلف (ملف إضافي 2: الشكل S1). لذلك ، في المجموع ، قمنا بإنتاج 185100 خاصية ضغط مختلفة.

تقييم أداء خوارزمية الضغط

قمنا بتقييم جميع خوارزميات الضغط في ثلاث مهام رئيسية: إعادة البناء ، وترابط العينة ، واستقرار مصفوفة الوزن. أولاً ، قمنا بتقييم مدى جودة إعادة بناء بيانات الإدخال بعد المرور عبر طبقة عنق الزجاجة. نظرًا لأن بيانات الإدخال تم تحويلها إلى توزيع بين 0 و 1 ، فقد استخدمنا إنتروبيا ثنائية ثنائية لقياس الفرق بين مدخلات ومخرجات الخوارزمية كمقياس لتكلفة إعادة الإعمار. كلما انخفضت تكلفة إعادة الإعمار ، زادت دقة إعادة الإعمار ، وبالتالي ارتفعت نسبة الإشارات الملتقطة في ميزات المساحة الكامنة. قمنا أيضًا بتقييم ارتباط بيرسون لجميع العينات التي تقارن المدخلات بالمخرجات المعاد بناؤها. هذه القيمة مشابهة لإعادة الإعمار ويمكن تتبعها بسرعة على مستوى العينة الفردية. أخيرًا ، استخدمنا تحليل الارتباط الكنسي المتجه الفردي (SVCCA) لتحديد ثبات النموذج داخل ونموذج التشابه بين الخوارزميات وعبر الأبعاد الكامنة [23]. تتكون طريقة SVCCA من خطوتين متميزتين. أولاً ، تم إجراء تحليل القيمة الفردية (SVD) على مصفوفتين لوزن الإدخال. تم الاحتفاظ بالقيم الفردية التي جمعت لإعادة بناء 98٪ من الإشارة في البيانات. بعد ذلك ، تم إدخال مصفوفة الوزن المحولة SVD في تحليل الارتباط الكنسي (CCA). محاذاة CCA ميزات مختلفة في مصفوفة الوزن بناءً على الارتباط الأقصى بعد تعلم سلسلة من التحولات الخطية. مجتمعة ، تُخرج SVCCA مقياسًا واحدًا يقارن بين مصفوفتين وزن المدخلات التي تمثل الاستقرار عبر عمليات تهيئة النموذج ومتوسط ​​التشابه بين نموذجين مختلفين. نظرًا لأننا استخدمنا مصفوفات الوزن ، فإن التشابه يصف اكتشاف تمثيل التعبير الجيني. نستخدم توزيع مقاييس التشابه SVCCA عبر جميع عمليات تهيئة الخوارزمية الزوجية والأبعاد الكامنة للإشارة إلى استقرار النموذج [23].

تقييم تمثيلات التعبير الجيني الموجودة في ميزات BioBombe

اختبرنا ميزات BioBombe المضغوطة بالتسلسل لتمييز عينة الجنس في بيانات GTEx و TCGA ، وتضخيم MYCN في بيانات TARGET NBL. اختبرنا جميع خوارزميات الضغط وأبعاد الفضاء الكامنة لتحديد الظروف التي تم فيها التقاط هذه الميزات بشكل أفضل. أولاً ، اخترنا أنواع الأنسجة وأنواع السرطان في تحليلات الجنس GTEx و TCGA التي تمت موازنتها حسب الجنس عن طريق اختيار الأنسجة بنسب الذكور إلى الإناث بين 0.5 و 1.5. قمنا بعمل مستقل ثنائي الذيل ر-اختبار افتراض التباين غير المتكافئ الذي يقارن بين عينات الذكور والإناث ، وعينات NBL مع أو بدون تضخيم MYCN. طبقنا ر-اختبار جميع ميزات الضغط المحددة عبر الخوارزميات والتهيئة والأبعاد. تظهر في الأشكال ميزة التسجيل الأعلى لكل بعدية وخوارزمية الفضاء الكامن.

طبقنا تمثيل MYCN الأمثل الذي تم تعلمه في TARGET على مجموعة بيانات بديلة تتكون من سلسلة من خطوط الخلايا NBL المتاحة للجمهور [29]. تمت معالجة البيانات باستخدام STAR ، ووصلنا إلى مصفوفة FPKM المعالجة من figshare [67]. قمنا بتحويل مجموعة البيانات بالتمثيلات المحددة باستخدام العملية التالية:

أين د يمثل بيانات RNAseq المعنية للتحويل ، ر يمثل تمثيل الميزة المضغوطة المحددة ، ز تمثل الجينات المتداخلة المقاسة في مجموعتي البيانات ، ن يمثل العينات ، و د'ص يمثل درجات ميزة الضغط في مجموعة البيانات المحولة. من بين 8000 جين تم قياسها في بيانات TARGET ، تم قياس 7653 أيضًا في مجموعة بيانات خط خلية NBL الخارجية (95.6٪).

باستخدام نتائج التنشيط النموذجية لكل ميزة من ميزات التسجيل الأعلى لعينة الجنس في TCGA و GTEx ، وتضخيم MYCN في TARGET ومجموعة التحقق من الصحة ، أجرينا ثنائي الطرف ر-اختبار مع تباين غير متكافئ يقارن بين كل مجموعة. لمقارنة الجنس TCGA و GTEx ، لدينا ر-اختبار درجات التنشيط بين الذكور والإناث. لتحليلات خط الخلايا TARGET و NBL ، لدينا ر- اختبار مقارنة MYCN تضخيم عينات NBL مقابل عينات MYCN غير المضخمة NBL. نضيف ر- إحصائيات الاختبار و ص القيم في كل شكل فرعي.

بناء شبكة الجينات ومعالجتها

أنشأنا شبكات باستخدام مجموعات مجموعات الجينات التي تم تجميعها بواسطة الإصدار 6.2 من قاعدة بيانات التواقيع الجزيئية (MSigDB) وأنواع الخلايا المشتقة من xCell [30،31،32]. تمثل مجموعات الجينات هذه سلسلة من الجينات التي تشارك في عمليات ووظائف بيولوجية محددة. قمنا بدمج جميع مجموعات MSigDB المرخصة بشكل علني والتي تضمنت مجموعات الجينات المميزة (H) ، ومجموعات الجينات الموضعية (C1) ، ومجموعات الجينات المنسقة (C2) ، ومجموعات الجينات الحافزة (C3) ، ومجموعات الجينات الحسابية (C4) ، ومصطلحات علم الجينات (GO) (C5) ، مجموعات الجينات المسرطنة (C6) ، ومجموعات الجينات المناعية (C7). لقد حذفنا مجموعات الجينات MSigDB التي لم تكن متوفرة بموجب ترخيص مفتوح (KEGG و BioCarta و AAAS / STKE). تم تقسيم قاعدة بيانات مجموعة الجينات C2 إلى الاضطرابات الكيميائية والوراثية (C2.CPG) و Reactome (C2.CP.Reactome). تم تقسيم مجموعة الجينات C3 إلى أهداف microRNA (C3.MIR) وأهداف عامل النسخ (C3.TFT). تم تقسيم مجموعة الجينات C4 إلى أحياء جينات السرطان (C4.CGN) ووحدات السرطان (C4.CM). أخيرًا ، تم تقسيم مجموعة الجينات C5 إلى GO Biological Processes (C5.BP) و GO Cellular Components (C5.CC) و GO الجزيئية (C5.MF). تمثل xCell خلاصة مجموعة الجينات المكونة من 489 توقيعًا جينيًا مشتقًا حسابيًا من 64 نوعًا مختلفًا من الخلايا البشرية. يتم توفير عدد مجموعات الجينات في كل عملية تنظيم في ملف إضافي 6. في إسقاط شبكة BioBombe ، يتم عرض مجموعة واحدة فقط في كل مرة.

لبناء شبكة مجموعة الجينات ، استخدمنا hetnetpy [68]. باختصار ، يبني hetnetpy شبكات تتضمن أنواعًا متعددة من العقد وعلاقات الحافة. استخدمنا hetnetpy لبناء شبكة واحدة تحتوي على جميع مجموعات MSigDB ومجموعات جينات xCell المذكورة أعلاه. تتألف الشبكة من 17451 مجموعة جينية فريدة و 2،159،021 حافة تمثل عضوية مجموعة الجينات بين 20703 عقدة جينية فريدة (ملف إضافي 6). بالإضافة إلى إنشاء شبكة واحدة باستخدام مجموعات الجينات المنسقة ، استخدمنا أيضًا hetnetpy لإنشاء 10 شبكات مخترقة. يتم تبديل الشبكات باستخدام خوارزمية XSwap ، التي تعشوائي الاتصالات مع الحفاظ على درجة العقدة (أي عدد علاقات مجموعة الجينات لكل جين) [69]. لذلك ، يتم استخدام الشبكات المخففة للتحكم في التحيزات الناتجة عن درجة الجينات غير المتكافئة. قارنا النتيجة المرصودة بتوزيع درجات الشبكة المخففة لتفسير التمثيلات البيولوجية في كل ميزة ضغط.

تفسير سريع لبيانات التعبير الجيني المضغوط

كان هدفنا هو تفسير الميزات الكامنة المضغوطة التي تم إنشاؤها تلقائيًا والتي تعلمتها كل خوارزمية غير خاضعة للإشراف. تحقيقا لهذه الغاية ، قمنا ببناء مصفوفات الجينات المتجاورة مع مجموعات مجموعة جينات MSigDB أو xCell محددة باستخدام برنامج hetnetpy. ثم أجرينا عملية ضرب المصفوفة التالية مقابل مصفوفة وزن مضغوط معينة للحصول على درجة أولية لجميع مجموعات الجينات لكل ميزة كامنة.

أين ح يمثل مصفوفة الجينات المجاورة لمجموعة الجينات ، ج هي مجموعة مجموعة الجينات المحددة ، و ن يمثل الجينات. دبليو يمثل مصفوفة وزن خوارزمية الضغط المحددة ، والتي تتضمن ن الجينات و ك ميزات الفضاء الكامنة. ناتج ضرب المصفوفة هذا ، جي، يمثله ج مجموعات الجينات و ك أبعاد كامنة. من خلال ضرب مصفوفة واحدة ، المصفوفة جي يتتبع عشرات BioBombe الخام.

نظرًا لأن جينات محور معينة من المرجح أن تكون متورطة في مجموعات الجينات وأن مجموعات الجينات الأطول ستتلقى درجات خام أعلى ، قمنا بمقارنة جي لتوزيع الدرجات المخالفة على جميع الشبكات العشر المخالفة.

أين حص 1–10 يمثل المصفوفات المتجاورة لجميع الشبكات العشر المتغيرة و جيص يمثل توزيع الدرجات لنفسه ك ميزات لجميع التباديل. حسبنا ض-نقاط لجميع مجموعات الجينات حسب الميزات الكامنة (جيض-نتيجة). هذه النتيجة تمثل نقاط BioBombe. تراعي طرق مجموعة الجينات الأخرى المستندة إلى الشبكة تأثير مجموعة الجينات بناءً على اتصال الشبكة لجينات مجموعة الجينات [58 ، 59]. بدلاً من ذلك ، استخدمنا أوزان الميزات الكامنة المستمدة من خوارزميات الضغط غير الخاضعة للرقابة كمدخلات ، وشبكات مجموعة الجينات المجمعة لتعيين الوظيفة البيولوجية.

قمنا أيضًا بمقارنة نهج إسقاط شبكة BioBombe بتحليلات التمثيل الزائد (ORA). لم نقم بمقارنة نهج تحليل إثراء مجموعة الجينات (GSEA) لأن تقييم الميزات الكامنة المفردة يتطلب العديد من التباديل ولم يتناسب مع عدة آلاف من الميزات المضغوطة التي فحصناها. قمنا بتنفيذ تحليل ORA باستخدام اختبار فيشر الدقيق. تضمنت جينات الخلفية المستخدمة في الاختبار الجينات الممثلة في مجموعة مجموعة الجينات المحددة فقط.

حساب تغطية مجموعة الجينات عبر ميزات BioBombe

كنا مهتمين بتحديد نسبة مجموعات الجينات ضمن مجموعات مجموعات الجينات التي تم التقاطها بواسطة الميزات المشتقة من خوارزميات الضغط المختلفة. لقد اعتبرنا مجموعة جينات "تم التقاطها" بواسطة ميزة ضغط إذا كانت تحتوي على أعلى مستويات BioBombe إيجابية أو أعلى سلبية ض-نقاط مقارنة بجميع مجموعات الجينات الأخرى في تلك المجموعة. قمنا بتحويل BioBombe ض-نتائج في ص القيم باستخدام الدالة pnorm () R باستخدام اختبار ثنائي الذيل. أزلنا مجموعات الجينات من الاعتبار إذا كانت ص لم تكن القيم أقل من قيمة Bonferroni المعدلة التي يحددها العدد الإجمالي للأبعاد الكامنة في النموذج.

حسبنا التغطية (C) من خلال النظر في جميع مجموعات الجينات الفريدة من نوعها (يو) تم تحديده بواسطة جميع الميزات في نموذج الضغط (ث) والقسمة على العدد الإجمالي لمجموعات الجينات في المجموعة (تيج).

حسبنا مقياس التغطية لجميع الطرز بشكل مستقل (Cأنا) ، للمجموعات ، أو الخوارزميات الفردية عبر جميع التكرارات الخمسة (جه) ، ولجميع الطرز عبر ك أبعاد (جك).

حسبنا أيضًا التغطية الإجمالية لجميع ميزات BioBombe مجتمعة في نموذج واحد (جالكل). أشارت قيمة التغطية الأكبر إلى نموذج استحوذ على نسبة أكبر من التواقيع الموجودة في مجموعة مجموعة الجينات المحددة.

تنزيل ومعالجة بيانات التعبير المتاحة للجمهور لتحليل GTEx للعدلات

استخدمنا مجموعة بيانات خارجية للتحقق من صحة ميزة العدلات التي تم تعلمها عن طريق ضغط بيانات التعبير الجيني GTEx إلى ثلاثة أبعاد كامنة. لاحظنا أن هذه الميزة ساهمت في تحسين إعادة بناء أنسجة الدم. لتقييم أداء تمثيل العدلات هذا ، قمنا بتنزيل البيانات من Gene Expression Omnibus (GEO) برقم الانضمام GSE103706 [33]. تم التقاط الحمض النووي الريبي في مجموعة البيانات هذه باستخدام Illumina NextSeq 500. قامت مجموعة البيانات بقياس التعبير الجيني لعدة مكررات لخطين من الخلايا الشبيهة بالعدلات ، HL-60 و PLB-985 ، والتي كانت مشتقة في الأصل من مرضى سرطان الدم النخاعي الحاد (AML). تم تحديد خط الخلية PLB-985 سابقًا باعتباره استنساخًا فرعيًا لـ HL-60 ، لذلك نتوقع نشاطًا مشابهًا بين الخطين [70]. تم قياس التعبير الجيني لخطي الخلايا مع وبدون معالجات تمايز العدلات. Though DMSO is frequently used to solubilize compounds and act as an experimental control, it has been used to create neutrophil-like cells [71]. The validation dataset we used was generated to compare DMSO activity with untreated cells and cells treated with DMSO plus Nutridoma [33]. We tested the hypothesis that our neutrophil representation would distinguish the samples with and without neutrophil differentiation treatment. We transformed external datasets with the following operation:

أين د represents the processed RNAseq data from GSE103706. Of 8000 genes measured in دبليو, 7664 were also measured in د (95.8%). These 7664 genes are represented by g’. All of the “Neutrophils_HPCA_2” signature genes were measured in دبليو. D’ represents the GSE103706 data transformed along the specific compression feature. Each sample in D’ is then considered transformed by the specific representation captured in ك. The specific genes representing “Neutrophils_HPCA_2” is provided in Additional file 3.

Downloading and processing publicly available expression data for monocyte GTEx analysis

We used an additional external dataset to validate the identified monocyte representation. We accessed processed data for the publicly available GEO dataset with accession number GSE24759 [34]. The dataset was measured by Affymetrix HG-U133A (early access array) and consisted of 211 samples representing 38 distinct and purified populations of cells, including monocytes, undergoing various stages of hematopoiesis. The samples were purified from 4 to 7 independent donors each. Many xCell gene sets were computationally derived from this dataset as well [31]. Not all genes in the weight matrices were measured in the GSE24759 dataset. For this application, 4645 genes (58.06%) corresponded with the genes used in the compression algorithms. Additionally, 168 out of 178 genes (94.38%) in the “Monocyte_FANTOM_2” gene set were measured (Additional file 3). We investigated the “Monocytes_FANTOM_2” signature because of its high enrichment in VAE ك = 3 and low enrichment in VAE ك = 2.

Machine learning classification of cancer types and gene alterations in TCGA

We trained supervised learning classifiers using raw RNAseq features and BioBombe-derived features. In general, we trained supervised machine learning models to predict cancer type from RNAseq features in TCGA PanCanAtlas RNAseq data. We implemented a logistic regression classifier with an elastic net penalty. The classifiers were controlled for mutation burden. More details about the specific implementation are described in Way et al. [72]. Here, we predicted all 33 cancer types using all 11,060 samples. These predictions were independent per cancer type, which meant that we trained models with the same input gene expression or BioBombe feature data, but used 33 different status matrices.

We also trained models to predict gene alteration status in the top 50 most mutated genes in the PanCanAtlas. These models were controlled for cancer type and mutation burden. We defined the status in this task using all non-silent mutations identified with a consensus mutation caller [73]. We also considered large copy number amplifications for oncogenes and deep copy number deletions for tumor suppressor genes as previously defined [74]. We used the threshold GISTIC2.0 calls for large copy amplifications (score = 2) and deep copy deletions (score = − 2) in defining the status matrix [75]. For each gene alteration prediction, we removed samples with a hypermutator phenotype, defined by having log10 mutation counts greater than five standard deviations above the mean. For the mutation prediction task, we also did not include certain cancer types in training. We omitted cancer types if they had less than 5% or more than 95% representation of samples with the given gene alteration. The positive and negative sets must have also included at least 15 samples. We filtered out cancer types in this manner to prevent the classifiers from artificially detecting differences induced by unbalanced training sets.

We trained models with raw RNAseq data subset by the top 8000 most variably expressed genes by median absolute deviation. The training data used was the same training set used for the BioBombe procedure. We also trained models using all BioBombe compression matrices for each latent dimension and using real and permuted data. We combined compressed features together to form three different types of ensemble models. The first type grouped all five iterations of VAE models per latent dimensionality to make predictions. The second type grouped features of five different algorithms (PCA, ICA, NMF, DAE, VAE) of a single iteration together to make predictions. The third ensemble aggregated all features learned by all algorithms, all initializations, and across all latent dimensionalities, which included a total of 30,850 features. In total, considering the 33 cancer types, 50 mutations, 28 latent dimensionalities, ensemble models, raw RNAseq features, real and permuted data, and 5 initializations per compression, we trained and evaluated 32,868 different supervised models.

We optimized all of the models independently using fivefold cross validation (CV). We searched over a grid of elastic net mixing and alpha hyperparameters. The elastic net mixing parameter represents the tradeoff between l1 and l2 penalties (where mixing = 0 represents an l2 penalty) and controls the sparsity of solutions [76]. Alpha is a penalty that tunes the impact of regularization, with higher values inducing higher penalties on gene coefficients. We searched over a grid for both hyperparameters (alpha = 0.1, 0.13, 0.15, 0.2, 0.25, 0.3 and mixing = 0.15, 0.16, 0.2, 0.25, 0.3, 0.4) and selected the combination with the highest CV AUROC. For each model, we tested performance using the original held out testing set that was also used to assess compression model performance.

Evaluating model training time

We evaluated the execution time of training each compression algorithm for all three datasets across several latent dimensionalities. We used 8 representative latent dimensionalities: ك = 2, 4, 10, 16, 25, 50, 80, and 200. We conducted the time analysis using a CPU machine with an Intel Core i3 dual core processer with 32 GB of DDR4 memory.


مقدمة

Previous attempts to subtype PCa by transcriptomic variability, including ETS transcription-factor– based classifications and luminal/basal lineage models [1,2,3], was not able to provide additional clinical information beyond known risk factors [4]. Currently, therapeutic options for advanced PCa include AR signaling inhibitors (ARIs - abiraterone, enzalutamide, apalutamide), antimicrotubule agents (docetaxel, cabazitaxel), and immune therapy (sipuleucel-T). However, increasing evidences suggest intrinsically AR-independent tumors exist, characterized by neuroendocrine or small cell histology and mutations of multiple tumor suppressors PTEN, TP53 أو RB1 [5,6,7]. PCa of intrinsic resistance to docetaxel has been reported [8], too. Therefore, an ideal PCa classification system should be able to determine for which tumors ARI, docetaxel, immunotherapy or other newly developing therapies can be offered.

PCa is characterized by multifocality or intratumoral heterogeneity [9, 10] in addition, stromal contents (fibroblasts, endothelial cells, immune cells) can add further diversity. Therefore, it is likely that a tumor may be composed of more than two molecular subtypes that differ in the tumor cell, as well as tumor-microenvironment gene expression [11,12,13]. Whole-transcriptome analysis of tumor tissue is susceptible to those potential confounding factors when attempting to identify subtypes based on the tumor cell intrinsic heterogeneity.

For normal prostate tissue, single-cell analysis precisely defined epithelial-expressed genes and confirmed the existence of luminal, basal, or bipotential progenitor populations with specific anatomical locations and potential relevance to cancer characteristics such as AR independence [14,15,16]. We hypothesized that the PCa transcriptome can be interpreted based on their cell-of-origin of gene expression, especially considering therapeutic relevance. Using the single- cell RNA-seq data and an established deconvolution analysis tool, we developed a single-sample subtype classifier with proportion estimate (PE) for a given prostate tumor RNA-seq data. We report four transcriptomic subtypes with different predicted sensitivities to antimicrotubule agents and ARIs, and utility of serum biomarkers PSA and prostate-specific acid phosphatase (PAP) combination to select patients who will most likely benefit from each class of drugs.


بدءا من SummarizedExperiment

We now use R's البيانات command to load a prepared SummarizedExperiment that was generated from the publicly available sequencing data files associated with the Himes et al. paper, described above. The steps we used to produce this object were equivalent to those you worked through in the previous sections, except that we used all the reads and all the genes. For more details on the exact steps used to create this object type browseVignettes("airway") into your R session.

We can quickly check the millions of fragments which uniquely aligned to the genes (the second argument of مستدير tells how many decimal points to keep).

Supposing we have constructed a SummarizedExperiment using one of the methods described in the previous section, we now need to make sure that the object contains all the necessary information about the samples, i.e., a table with metadata on the count matrix's columns stored in the colData slot:

Here we see that this object already contains an informative colData slot &ndash because we have already prepared it for you, as described in the airway vignette. However, when you work with your own data, you will have to add the pertinent sample / phenotypic information for the experiment at this stage. We highly recommend keeping this information in a comma-separated value (CSV) or tab-separated value (TSV) file, which can be exported from an Excel spreadsheet, and the assign this to the colData slot, making sure that the rows correspond to the columns of the SummarizedExperiment. We made sure of this correspondence by specifying the BAM files using a column of the sample table.

Once we have our fully annotated SummarizedExperiment object, we can construct a DESeqDataSet object from it, which will then form the starting point of the actual DESeq2 package, described in the following sections. We add an appropriate design for the analysis.

If we only wanted to perform transformations and exploratory data analysis we could use a

1 for the design, but be careful, because a true experimental design, e.g.

condition would need to be added later before differential expression (or else we would only be testing the intercept).

Note that there are two alternative functions, DESeqDataSetFromMatrix و DESeqDataSetFromHTSeq, which allow you to get started in case you have your data not in the form of a SummarizedExperiment object, but either as a simple matrix of count values or as output files from the htseq-count script from the HTSeq Python package.

Below we demonstrate using DESeqDataSetFromMatrix.


Author summary

The field of transcriptomics uses and measures mRNA as a proxy of gene expression. There are currently two major platforms in use for quantifying mRNA, microarray and RNA-Seq. Many comparative studies have shown that their results are not always consistent. In this study we aim to find a robust method to increase comparability of both platforms enabling data analysis of merged data from both platforms. We transformed the high dimensional transcriptomics data from the two different platforms into lower dimensional, and biologically relevant gene set scores. These gene sets were defined a-priori as specific combination of genes (e.g. up-regulated in a certain pathway). We observed that although microarray and RNA-Seq expression levels might appear different, using these gene sets to transform the data significantly increases their correlation. This is a step forward in data integration of the two platforms. More in-depth investigation on the effect of the composition, size, and number of gene sets that are used for the transformation is suggested for future research.

الاقتباس: van der Kloet FM, Buurmans J, Jonker MJ, Smilde AK, Westerhuis JA (2020) Increased comparability between RNA-Seq and microarray data by utilization of gene sets. PLoS Comput Biol 16(9): e1008295. https://doi.org/10.1371/journal.pcbi.1008295

محرر: Jason A. Papin, University of Virginia, UNITED STATES

تم الاستلام: November 1, 2019 وافقت: August 27, 2020 نشرت: September 30, 2020

حقوق النشر: © 2020 van der Kloet et al. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ في أي وسيط ، بشرط ذكر المؤلف والمصدر الأصليين.

التمويل: FK was financially supported by the Amsterdam Academic Alliance Data Science (https://amsterdamdatascience.nl/). لم يكن للممولين دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.


نتائج ومناقشة

Data filtering functions

Sorting Functions: eGIFT uses a precomputed text-mining database that has extracted all gene associated informative terms (iTerm) from PubMed abstracts. After submitting a gene list to WebGIVI, a table is returned to the user containing the iTerms associated with the input genes. By hovering over an iTerm, the user can see the genes associated with that iTerm. The default list is sorted based on the Fisher’s exact test p-value, but the user can choose to sort based on alphabetical order, the gene ontology group (process, function, compartment or unclassified) to which the iTerm has been classified or the frequency of appearance of each iTerm.

Editing Functions: Not all iTerms are informative in all use cases, but could be important to others. For example, ‘in situ hybridization’ is an irrelevant iTerm to our use case scenario but will be interesting to researchers who might want to apply this experimental method to their own work. However, some iTerms are highly likely to be non-informative. To remove such iTerms a “blacklist” has been developed that includes terms such as “some cell” or “10 fold” that are typically non-informative to the general WebGIVI user. Since the developers of WebGIVI cannot be certain that a given iTerm is irrelevant to all users, the returned iTerm list includes the blacklisted terms a checkbox is provided that allows the user to hide any terms that are included in the blacklist. It is also beneficial to the user to also be able to filter out irrelevant iTerms in the context of their study, and only save iTerms of direct relevance. Once data is submitted on WebGIVI’s homepage, the returned list will allow the user to delete iTerms from the results table using deleting functions. If the user prefers, they can choose not to prefilter but visualize data in Concept Map or Cytoscape directly.

A biological use case scenario

We used the Sun et al. white-leghorn hepatocellular (LMH) cell heat stress dataset [22], which is a RNA-Seq study of LMH cells under heat stress. This study identified a total of 235 up-regulated and 578 down-regulated genes. Figure 2 shows a completed WebGIVI submission page with a portion of the regulated genes from the LMH study (Additional file 1). In this case we used Entrez gene identification numbers. Following submission, an iTerm list (Fig. 3) is returned that can be sorted alphabetically, by frequency, Gene Ontology categories, or by p-value as determined by the Fisher’s exact test. In this case the list is sorted by p-value. Hovering over an iTerm will show the corresponding p-value, along with the genes from the list associated with that iTerm. One can choose to display iTerms that have been blacklisted by checking the “Include blacklisted items”. You can also select irrelevant iTerms by right clicking and delete them using the remove options. Users can view the output in either Cytoscape (Fig. 4) or as a Concept Map (Fig. 5) by selecting the appropriate buttons. The default mode in Cytoscape generates a force graph (Fig. 4a) and clicking on an edge connecting a gene product to an iTerm pops up a window that allows the user to connect to either NCBI or eGIFT (Fig. 4b). Additional view modes include tree or circle that are accessible by the Layout button.

Submission interface for WebGIVI. Gene lists can be input in several different formats and named in the text field above the submit button. To the right of the page is a short video demonstrating various WebGIVI functionalities


شاهد الفيديو: طريقة إستخراج معلومات حول Gene أو Protein من GenBank و UniProtKB (أغسطس 2022).