معلومة

كيف تحدد الإطار الأكثر احتمالا للقراءة لتسلسل الحمض النووي؟

كيف تحدد الإطار الأكثر احتمالا للقراءة لتسلسل الحمض النووي؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

هذا السؤال مأخوذ من ورقة اختبار سابقة لوحدة تمهيدية للمعلوماتية الحيوية. أنا عالم كمبيوتر أقوم بعلم الأحياء لأول مرة.

"تم تسلسل جين بكتيري قصير ، مع إعطاء تسلسل الحمض النووي التالي. اكتب إطارات القراءة الستة المحتملة لهذا التسلسل وحدد ما هي الترجمة البروتينية الأكثر ترجيحًا لهذا التسلسل. اشرح سبب انتقاء الترجمة المعطاة ، واكتب الكل الترجمات في شكل رمز حمض أميني واحد.

5 '- ttattcatccgccagcgccatgcgcgccat - 3 "

أعتقد أنني أفهم إطارات القراءة الستة المحتملة: ثلاثة من 5 'نهاية تبدأ tta و tat و att ؛ وثلاثة من الطرف 3 يبدأ tac و acc و ccg.

يمكنني أيضًا كتابة الترجمات لإطار قراءة معين باستخدام جدول استخدام الكودون. إنه الجزء الأكثر احتمالاً في إطار القراءة الذي لا أحصل عليه. اعتقدت أنني ربما كنت أبحث عن أطول إطار قراءة مفتوح. يمكنني رؤية كودون واحد فقط (ATG). ما هي الطريقة الصحيحة للتعرف على إطار القراءة الأكثر احتمالا؟

لا يمكنني العثور على هذه المشكلة بالضبط في Biology This Site. لقد وجدت:

مساعدة في قراءة اللوني

جعلني أتساءل عما إذا كنت أخلط بين "إطار القراءة" و "إطار القراءة المفتوح" ، فهذا السؤال يسأل فقط أو السابق.

شكرا!


هذا ما نصنفه على أنه سؤال واجب منزلي ، ولكن بما أنه يفي بمعيار الملصق الذي يوضح محاولة الإجابة عليه ، فإنني أقدم الاقتراح التالي للإجابة.

أفترض أنه كما ظهر في وحدة المعلوماتية الحيوية التمهيدية ، فإن سؤال الامتحان هو مجرد اختبار إطارات القراءة (من الواضح) وعلامات الترقيم في الشفرة الجينية. المعنى ليس واضحًا تمامًا ، ولكن كإطار قراءة واحد سيبدأ برمز البدء ATG / AUG (مكمل عكسي لـ: cat - 3 ') † وينتهي بـ كودون الإنهاء TAA / UAA (تكملة عكسية لـ: 5 '- tta) التي من المفترض أن تنتج "ترجمة البروتين الأكثر احتمالاً".

هذا هو قراءة الإطار F4 في الإخراج من EMBOSS Sixpack ، أدناه ، حيث يتم الإشارة إلى أكواد الإنهاء بعلامة النجمة.

L F I R Q R H A R H F1 Y S S A S A M R A X F2 I H P P A P C A P X F3 1 ttattcatccgccagcgccatgcgcgccat 30 ----: ---- | ----: ---- | ----: ---- | 1 aataagtaggcgtcgcggtacgcgcggta 30 X N M R W R W A R W F6 X I * G G A G H A G F5 * E D A L A M R A M F4

الترجمة المفاهيمية ، القراءة ن إلى ج، هو MARMALADE ، والذي من الواضح أنه من المفترض أن يكون مضحكًا ويوحي بأنه بالفعل الإجابة المقصودة.

افتح إطارات القراءة

يطلب الملصق توضيح الفرق بين إطار القراءة و افتح إطار القراءة. يوجد مدخل Wikipedia لإطار القراءة المفتوح ولكني أقدم شرحًا خاصًا بي لربطه بالمثال.

هناك دائمًا ستة إطارات قراءة للترجمة المفاهيمية لقطعة من الحمض النووي المزدوج الشريطة ، كما هو موضح في المثال.

أود أن أحدد ملف افتح قراءة الإطار كواحد ليست مستبعدة من أن تترجم بعلامات الترقيم في الشفرة الجينية. لديها القدرة النظرية على ترجمتها مع الأخذ في الاعتبار علامات الترقيم في الكود فقط ، على الرغم من أنها قد لا تتم ترجمتها فعليًا. يمكن أن تبدأ إما مع AUG الأول بعد كود الإنهاء (على الرغم من أنه لا يمكن التأكد من أن هذا هو AUG الفعلي المستخدم) أو بداية جزء متسلسل من DNA (مع افتراض أن AUG ممكن قبل نهاية 5 ' من الجزء). يمكن أن تنتهي إما برمز إنهاء أو نهاية الجزء المتسلسل (مع افتراض أن كود الإنهاء سيقع 5 في نهاية الجزء).

وفقًا لهذه المعايير ، تكون إطارات القراءة F1 و F2 و F3 و F6 أعلاه مفتوحة تمامًا (على الرغم من أن الميثيونين الداخلي يمكن أن يكون نظريًا رمز بدء) ، يحتوي F5 على إطار القراءة المفتوح GAHGAGG ، و F4 هو إطار قراءة مفتوح كامل ، ربما باستثناء كود الإنهاء (اعتمادًا على التعريف الدلالي الخاص بك للنهاية الدقيقة لإطار القراءة المفتوح).

† التكملة العكسية

إذا أخذنا قسمًا من الحمض النووي مكتوبًا في الاتجاه 5'-to-3 '- وفقًا للاتفاقية القياسية - واستخدمنا معادلات اقتران قاعدة Watson-Crick (A = T ، G = C) لتوليد مكمل حبلا ، سيكون هذا في اتجاه 3'-to-5 '. للحبال في السؤال ،

5 '- ttattcatccgccagcgccatgcgcgccat - 3'

ال مكمل ستراند هي:

3 '- aataagtaggcggtcgcggtacgcgcggta - 5'

كما هو مبين أعلاه.

لسهولة الترجمة يدويًا - ولأي برنامج كمبيوتر يتعامل مع التسلسلات - يحتاج المرء إلى ذلك يعكس هذا باتجاه 5'-to-3 ':

5 '- atggcgcgcatggcgctggcggatgaataa - 3'

هذا ال تكملة عكسية. من السهل الآن قراءة بدايات إطارات القراءة العكسية الثلاثة على النحو التالي:

ATG… TGG… GGC…

كيف تحدد الإطار الأكثر احتمالا للقراءة لتسلسل الحمض النووي؟ - مادة الاحياء

مرحبًا بكم في أساسيات المعلوماتية الحيوية في تافتس!

مع استمرار تسلسل الجينوم البشري والأنواع الأخرى ، تتراكم كميات هائلة من البيانات الخام في قواعد البيانات المتاحة للعامة. يعد فهم ما هو متاح وكيفية الوصول إليه والأدوات المتاحة لتحليل هذه البيانات مهارات مهمة لأي شخص مهتم بفهم العلوم الحيوية الحديثة. تم تصميم التمارين المتوفرة في هذا الموقع لتزويدك بمقدمة أساسية جدًا لقواعد البيانات وبعض المنهجيات المستخدمة في تحليل المعلومات الحيوية. اعتبارًا من يوليو 2005 ، التدريبات المتوفرة في هذا الموقع هي:

التمرين 1: مقدمة للبحث في المؤلفات العلمية. عادةً ما تؤدي عمليات البحث البسيطة على الويب إلى الحصول على معلومات مثيرة للاهتمام والقمامة. كعلماء ومهنيين صحيين ، ستحتاج إلى معرفة كيفية الوصول إلى المؤلفات العلمية المحكمة (المنشورات التي تمت مراجعتها للتأكد من دقتها واكتمالها من قبل متخصصين آخرين). سيقدم لك هذا التمرين قاعدة بيانات MEDLINE التي يتم الوصول إليها عبر متصفح Entrez وقواعد بيانات أخرى متاحة عبر هذا المتصفح (وراثة مندلية عبر الإنترنت في الإنسان والكتب على الإنترنت).

التمرين 2: إيجاد تسلسل النيوكليوتيدات لأحد الجينات. تتمثل إحدى مشكلات الكم الهائل من البيانات التي يمكن الوصول إليها الآن في أنه أصبح من الصعب بشكل متزايد الفرز على الرغم من العثور على جين معين مهم. سيقدم لك هذا التمرين قاعدة بيانات النيوكليوتيدات والطرق المختلفة لهيكلة البحث عن جين معين.

التمرين 3: تحديد إطار القراءة الصحيح لتتابع النيوكليوتيدات. ينتج عن العديد من التجارب الحصول على تسلسل DNA قصير لوظيفة غير معروفة. باستخدام قواعد البيانات المتاحة ، غالبًا ما يكون من الممكن تخصيص هذا التسلسل القصير لجين معين. عادةً ما تتضمن الخطوة الأولى في الحصول على مثل هذه المهمة تحديد إطار القراءة الذي تستخدمه الخلية لترجمة تسلسل الحمض النووي هذا إلى تسلسل بروتيني. سيوفر لك هذا التمرين تسلسلًا غير معروف وستستخدم أدوات قائمة على الويب لتحديد إطار القراءة المحتمل. احفظ التسلسلات الخاصة بك من هذا التمرين وفي التمرين التالي ستستخدمها للبحث في قاعدة البيانات وتحديد الجين الذي أدى إلى ظهورها.

التمرين 4: استخدام بلاست لتحديد الجين. (تابع من التمرين 3) في هذا التمرين ، ستأخذ أفضل إطارين للقراءة المفتوحة تم الحصول عليهما في التمرين 3 وتستخدمهما لإجراء بحث تشابه مقابل جميع تسلسلات البروتين المتوفرة في قاعدة البيانات. سنستخدم أفضل إطارين مفتوحين للقراءة للسماح لنا بمقارنة النتائج التي تم الحصول عليها في ترجمة صحيحة مع تلك الناتجة عن ترجمة غير صحيحة. يجب أن يسمح لنا هذا التمرين بتعيين تسلسلنا المجهول لجين معين.

التمرين 5: البحث عن أشكال التسلسل في بروتين معين. لنفترض أنك وجدت زيادة في مستوى ترميز mRNA لجين غير معروف في ظل ظروف انخفاض ضغط الأكسجين. قد ترغب في معرفة نوع البروتين الذي يقوم هذا الرنا المرسال بترميزه ، لكن البحث عن التشابه في قواعد البيانات لا يكشف عن متماثلات واضحة لهذا البروتين. هناك طريقة أخرى للبحث عن وظيفة محتملة وهي تحديد ما إذا كانت المناطق القصيرة في البروتين تتوافق مع التسلسلات التي تم التعرف عليها للقيام بوظائف محددة. تم تصميم محركات بحث خاصة للبحث عن مثل هذه "الزخارف" وستستخدم أحدها لفحص بروتين غير معروف.

التمرين 6: (قيد التطوير) إيجاد متماثلات لجين بشري في الكائنات الحية الأخرى. تمكنا في السنوات الأخيرة من تحديد ارتباط جينات معينة بأمراض بشرية مختلفة. ومع ذلك ، غالبًا ما تكون وظيفة البروتينات المشفرة بواسطة هذه الجينات غير واضحة. تتمثل إحدى الطرق لفهم الوظيفة الطبيعية لهذه البروتينات بشكل أفضل في العثور على متماثلاتها في كائنات حية أبسط يمكن التلاعب بها تجريبيًا. في هذا التمرين ، سيتم إعطاؤك جينًا معروفًا بتورطه في التعرض لمرض بشري ، وستبحث في قواعد بيانات ذبابة الفاكهة أو الخميرة لتحديد ما إذا تم العثور على جين متماثل في هذه الكائنات.


تم تطوير هذه الدروس من قبل الدكتور روس س. فيلدبرج ، قسم علم الأحياء في جامعة تافتس ، ميدفورد ، ماجستير 02155 بمساعدة التدريس بمنحة التكنولوجيا من قسم الحوسبة الأكاديمية في جامعة تافتس. بفضل Anoop Kumar و Abha Verma و Scott Cordeiro لتطوير هذا المورد التعليمي.


5.2 التحقيق 2: بناء النموذج الجيني لـ tra-RA¶

يمكننا دمج ما نعرفه عن قراءة الإطارات مع ما نعرفه عن الربط لمعرفة كيفية تجميع tra-RA بالضبط. سوف نلاحظ مكان وجود كود البداية ، ومواقع لصق ، وإيقاف الكودون حتى نتمكن من بناء نموذج جيني. بعد ذلك ، في الوحدة السادسة ، سنستخدم نفس الأنواع من المعلومات لحل بعض الألغاز حول tra-RB.

  1. باستخدام نفس صفحة متصفح الجينوم ، أعد تعيين المتصفح بالنقر فوق إخفاء الكل. ثم افتح المسارات التي ستوفر المعلومات التي نريدها للتحقيق 2:
    • موقف القاعدة: ممتلئ
      • لاحظ أنك لن تكون قادرًا على رؤية تسلسل الحمض النووي أو مسارات الأحماض الأمينية حتى تقوم بالتكبير.
    • جينات FlyBase: حزمة
    • تغطية RNA-Seq: كاملة
      • سترى الرسوم البيانية باللونين الأزرق والأحمر التي تمثل بيانات RNA-Seq (تشير إلى كمية الرنا المرسال المركب) في الإناث والذكور ، على التوالي.
      • سنركز على الرسم البياني الأزرق (إناث البالغات) مرة أخرى. كما فعلنا في الوحدة 3 ، دعنا نخصص مسار RNA-Seq:
        • انقر فوق ملصق تغطية RNA-Seq أسفل الشريط الأخضر RNA-Seq Tracks الموجود في القسم السفلي من الصفحة.
        • قم بتعيين حقل "مقياس عرض البيانات" لاستخدام إعداد نطاق العرض العمودي
        • اضبط "max" "Vertical view range" على 37
        • ضمن قسم "قائمة المسارات الفرعية" ، قم بإلغاء تحديد مسار الذكور البالغين
    • تقاطعات إكسون: ممتلئة
      • ستساعدنا هذه الصناديق المستطيلة التي تم ربطها بخط أسود رفيع على تحديد حدود exon-intron.

5.2.1. تحديد كود البداية¶

  1. فلنبحث عن كودون البداية لـ tra-RA. قم بالتكبير حيث يوضح مسار FlyBase Genes أن الترجمة تبدأ (حيث يصبح الصندوق الأسود المتعقب أكثر سمكًا للشكل الإسوي tra-RA) كما هو موضح في (الشكل 5.3)

الشكل 5.3. منطقة بدء الترجمة من ترا الجين.

أعط الإحداثيات لكودون البدء بالكامل لـ tra-RA (يجب أن تكون إحداثيات كودون البداية ثلاثة أرقام متتالية ، على سبيل المثال: النيوكليوتيدات 212-214).

ما هو إطار القراءة الذي يجب أن نتبعه لمعرفة تسلسل الأحماض الأمينية المتوقعة لـ tra-RA؟

تصغير لرؤية exon بالكامل. هل هناك أي كودونات توقف في إطار القراءة هذا في أول إكسون؟

5.2.2. تحديد مواقع لصق للإنترون 1¶

  1. قم الآن بالتكبير والعثور على القاعدة الأخيرة من أول exon لـ tra-RA باستخدام بيانات RNA-Seq وبيانات مفرق Exon (الشكل 5.4).

الشكل 5.4. المنطقة في نهاية Exon 1 من ترا الجين.

اكتب إحداثيات القاعدة الأخيرة للإكسون الأول.

حتى نتمكن من متابعة البولي ببتيد حتى نحدد كود الإيقاف ، نحتاج إلى معرفة إطار القراءة الذي يجب أن نتبعه في exon الثاني. هذا ليس سهلاً كما قد تعتقد ، لأن حقيقيات النوى لا تقرأ دائمًا في نفس إطار القراءة عند النظر إلى الجينوم. لقد رأيت مثالاً على ذلك سابقًا في الوحدة 1. في بعض الأحيان يمكننا استنتاج إطار القراءة الصحيح بالنظر إلى نمط رموز البدء والإيقاف داخل منطقة exon ، المحددة بواسطة بيانات RNA-Seq. لكن هذا النوع من المعلومات لا يعطي دائمًا إجابة محددة - فقد يكون هناك أكثر من إطار قراءة محتمل لإكسون معين. لمعرفة إطار القراءة الذي تتم ترجمته في exon 2 ، نحتاج إلى التحقق من نهاية أول exon لمعرفة عدد قواعد الكودون الأخير الموجودة قبل تسلسل توافق موقع لصق 5. للقيام بذلك ، انظر عن كثب إلى قراءة الإطار 3 ، قبل موقع لصق (الشكل 5.5).

الشكل 5.5. نيوكليوتيد إضافي بين آخر كودون كامل وموقع مانح لصق لـ Exon 1 من ترا الجين.

لاحظ أن موقع لصق يقطع الكودون الأخير للإكسون الأول بعد قاعدة واحدة فقط (كما هو مبين بالمربع الأحمر في الشكل 5.5). لذلك ، يمكننا القول أن هذا exon يحتوي على نهاية "المرحلة 1" لأنه يوجد كودون جزئي في نهاية exon بطول قاعدة واحدة.

إذا كان هناك كودون مكتمل بالكامل قبل موقع لصق ، فسيكون في المرحلة 0، وإذا كانت هناك قاعدتان قبل موقع لصق ، فستكون في المرحلة 2.

بالنسبة لهذا exon مع نهاية المرحلة 1 ، سنحتاج إلى قاعدتين أخريين من exon التالي لإكمال الكودون. بمعرفة هذا يمكننا تحديد إطار القراءة الذي سيتم استخدامه في exon الثاني. انتقل إلى موقع لصق 3 'لإنترون 1 (أي الموقع الذي ينتهي فيه الإنترون الأول ويبدأ الإكسون الثاني في الشكل 5.6). لمراجعة الربط ومفهوم المرحلة ، شاهد فيديو الربط والمرحلة.

الشكل 5.6. المنطقة في بداية Exon 2 من ترا الجين

مع العلم أن exon 1 ينتهي بكودون جزئي لقاعدة 1 ، ما هو إطار القراءة المستخدم في exon الثاني؟

استنادًا إلى الدليل الذي تراه في المتصفح ، أعط إحداثيات القاعدة الأولى للإكسون الثاني لـ tra-RA.

هل تلاحظ موقع متقبل لصق مناسب في المنبع فقط داخل intron؟

سنستخدم الآن إطار القراءة 2 ، لأنه بعد موقع لصق ، هناك قاعدتان متبقيتان في الكودون. هاتان القاعدتان بالإضافة إلى القاعدة الوحيدة المتبقية من أول إكسون تشكل كودونًا كاملاً.

  1. بعد ذلك ، قم بالتصغير وانظر إلى قراءة الإطار 2 لجميع exon 2 من tra-RA. يمكنك أن ترى أنه لا توجد أكواد توقف في إطار القراءة هذا ، مما يدعم استنتاجنا بأن هذا هو إطار القراءة المناسب.

5.2.3. تحديد مواقع لصق للإنترون 2¶

  1. الآن ، لنفعل الشيء نفسه بالنسبة لموقع لصق 5 من intron 2 لـ tra-RA. قم بتكبير موقع لصق هذا (الشكل 5.7).

الشكل 5.7. المنطقة في نهاية Exon 2 من ترا الجين.

أعط إحداثيات القاعدة قبل موقع لصق 5 من intron 2.

كم عدد القواعد المتبقية في الكودون قبل موقع لصق ، أي هذه المرحلة 0 ، المرحلة 1 ، أو المرحلة 2؟

6. انتقل الآن إلى بداية exon النهائي (الشكل 5.8).

الشكل 5.8. المنطقة في بداية Exon 3 من ترا الجين.

حدد موقع موقع لصق 3 لـ Intron 2. أعط إحداثيات القاعدة الأولى في exon 3 لـ tra-RA.

ما هو إطار القراءة الذي تتم ترجمته في exon النهائي؟

5.2.4. تحديد كود الإيقاف¶

  1. حدد الآن موقع رمز التوقف الأول في إطار القراءة المترجم. تظهر أكواد الإيقاف كمربعات حمراء بها علامات نجمية (أسهم حمراء) كما هو موضح في الشكل 5.9.

الشكل 5.9. المنطقة في نهاية Exon 3 من ترا الجين.

اكتب إحداثيات القواعد في كود الإيقاف.

5.2.5. بناء النموذج الجيني الكامل

دعنا ندمج جميع البيانات التي وجدناها أعلاه في مكان واحد:

  • التنسيق لبدء الترجمة: ______________
  • التنسيق للقاعدة الأخيرة من exon 1: ______________
  • التنسيق للقاعدة الأولى من exon 2: ______________
  • التنسيق للقاعدة الأخيرة من exon 2: ______________
  • التنسيق للقاعدة الأولى من exon 3: ______________
  • إحداثيات إيقاف كودون: ___________________________

خذ معلومات الإحداثيات أعلاه لرسم خريطة tra-RA باستخدام المستطيلات لتمثيل exons وخطوط التوصيل لتمثيل introns. قم بتسمية نهايات exons بالإحداثيات المناسبة وحدد موقع بدء النسخ للنسخة الأولية لـ tra-RA. أسفل هذه الخريطة ، قم بتوفير خريطة mRNA المعالج بعد إزالة intron. أسفل هذه الخريطة ، حدد المناطق التي تمت ترجمتها إلى بروتين. أعط إحداثيات دقيقة. قد يكون الترميز اللوني مفيدًا.

في الوحدة 6 ، سنقارن هذا النموذج من tra-RA بنموذج tra-RB.

لتدعيم معرفتك ببنية الجينات ، يمكنك إنشاء خريطة مشابهة لـ SPD-2 الجين. كم عدد exons لهذا الجين؟ كم عدد الإنترونات؟ كم عدد الأشكال الإسوية؟ استخدم نفس الأسلوب لتحديد إحداثيات exons وإحداثيات منطقة الترميز (اسم آخر للمنطقة التي تمت ترجمتها).


كيف تحدد الإطار الأكثر احتمالا للقراءة لتسلسل الحمض النووي؟ - مادة الاحياء

مقدمة في علم الأحياء الجزيئي - ملاحظات على الشرائح

هناك ثلاث ممالك رئيسية للحياة: حقيقيات النوى ، وبكتيريا eubacteria ، وآثار. إن البكتيريا eubacteria و archea هي كائنات أحادية الخلية في حين أن حقيقيات النوى عادةً ما تكون كائنات متعددة الخلايا (مثل الحيوانات). سنناقش ممالك الحياة بشكل أكبر أدناه في سياق التطور. من المهم أن نتذكر حتى الآن أن جميع أشكال الحياة تتكون من خلايا. تشترك الخلايا من الممالك الثلاث المختلفة في خصائص معينة. على سبيل المثال ، لديهم غشاء يعمل كحاجز تجاه البيئة. قد يحدث نقل جزيئات مختلفة عبر هذا الغشاء ويتم التحكم في هذا النقل بعناية. تشترك الخلايا من جميع الممالك الثلاث أيضًا في آلية كيميائية حيوية. كل ما نناقشه أدناه ينطبق على جميع الخلايا.

تدفق المعلومات الجينية في الخلية

الحمض النووي (حمض الديوكسي ريبونوكلييك) هو جزيء موجود في جميع الخلايا ويحمل المعلومات الوراثية. يمكن نسخ الحمض النووي في عملية تسمى النسخ المتماثل. تقود المعلومات الموجودة في الحمض النووي في النهاية إنتاج بروتينات مختلفة. في هذه العملية ، يتم عمل نسخة من الحمض النووي الريبي أولاً في عملية تسمى النسخ. تتم إزالة الأجزاء غير الإعلامية من المنتج الأساسي للنسخ (إنترونات) في عملية تسمى الربط. يقوم الحمض النووي الريبي بعد ذلك بتوجيه عملية تخليق البروتين (وهي عملية تسمى أيضًا الترجمة). كل بروتين له وظيفة محددة في الخلية. من أمثلة الفئات الوظيفية 1) الإنزيمات 2) نقل البروتينات و 3) البروتينات التي تعمل كـ "هيكل عظمي" وتحافظ على بنية خلية معينة. تعتبر الإنزيمات مهمة جدًا لأنها تجعل جميع التفاعلات الكيميائية في الخلية ممكنة من خلال العمل كمحفزات. كل 10000s من التفاعلات الكيميائية التي تحدث داخل الخلية لن تكون ممكنة بدون الإنزيمات. لذلك ، فإن البروتينات هي الجزيئات التي تحدد بشكل مباشر شكل الخلية الحية وسلوكها وعلم وظائف الأعضاء. الحمض النووي لا يفعل أي شيء من هذا القبيل ، إنه ببساطة يحمل المعلومات الجينية ، المعلومات التي تحدد البروتينات التي يجب تصنيعها. & # 9 & # 9

سنقوم الآن بفحص كيفية حدوث تدفق المعلومات من الحمض النووي إلى البروتين بمزيد من التفصيل. أولاً ، علينا أن نفهم الكيمياء الأساسية لجزيء الحمض النووي.

جزيء الحمض النووي عبارة عن بوليمر طويل جدًا به وحدات سكر وفوسفات متكررة. تعلق على السكريات القواعد. القواعد هي الوحدات المتغيرة في الحمض النووي وهو تسلسل القواعد التي تشكل المعلومات الجينية الفعلية.

جزيء الحمض النووي له قطبية كيميائية مميزة. يُشار إلى أحد طرفي الحمض النووي إلى الطرف 5 ، لأن مجموعة الهيدروكسيل في هذه النهاية مرتبطة بكربون السكر بالرقم 5. وبالمثل ، يُشار إلى الطرف الآخر من جزيء الحمض النووي باسم 3 '. تعني قطبية الحمض النووي في النهاية أن تسلسل القواعد المقروءة من طرف واحد لا يعادل تسلسل القواعد المقروءة من الطرف الآخر.

القواعد هي Adenine و Guanine و Cytosine و Thymine ، والمختصرة كـ A و G و C و T. A و G لهيكل حلقة مزدوجة ويشار إليها باسم البيورينات ، بينما تسمى C و T بيريميدين.

يشار إلى وحدة قاعدة فوسفات السكر في الحمض النووي باسم نوكليوتيد. من منظور المعلومات ، فهي معادلة للقاعدة لأن القاعدة هي الوحدة المتغيرة في الحمض النووي.

وبالتالي يمكن تمثيل الرسالة الجينية في الحمض النووي كسلسلة من الأحرف A و G و C و T:

& # 95 '- AGGACGACGACTATTGG - 3'

عادة يتم كتابة التسلسل مع نهاية 5 إلى اليسار والنهاية 3 إلى اليمين.

قد يحدث الحمض النووي أحيانًا كسلسلة مفردة (كما هو الحال في فيروسات معينة) ولكن عادةً ما نجد الحمض النووي كوحدة مزدوجة الشريطة. لها هيكل حلزوني مزدوج مع خيوط مضادة للجدار. Antiparallell يعني أن خيوط الجزيء لها قطبية معاكسة.

يتم تثبيت الحمض النووي المزدوج الذي تقطعت به السبل معًا عن طريق الاقتران بين القواعد. تتشكل الروابط الكيميائية المعروفة باسم الروابط الهيدروجينية بين القواعد ويكون الاقتران دائمًا مثل أزواج الأدينين مع الثايمين والسيتوزين دائمًا مع الجوانين. يشار إلى الاقتران على أنه تكامل ، ويقال أن أحد خيوط الدنا مكمل للآخر.

لذلك ، يمكن تمثيل الحمض النووي المزدوج الذي تقطعت به السبل كسلسلتين مثل هذا:

& # 95 '- AGGACGACGACTATTGG - 3'

& # 93 '- TCCTGTGCTGCTGATAACC - 5'

لاحظ أن الخيطين لهما قطبية معاكسة.

التكامل الأساسي هو الأساس لتكرار الحمض النووي. في هذه العملية ، يعمل خيط واحد من الحمض النووي كقالب لتركيب الآخر.

جزيئات الحمض النووي طويلة جدًا. على سبيل المثال ، يتم توزيع المادة الوراثية للإنسان بين 24 كروموسومًا. كل كروموسوم هو في جوهره على جزيء طويل من الحمض النووي مع البروتينات المرتبطة به. الطول النموذجي للكروموسوم هو 100 مليون زوج أساسي.

الجينوم هو المادة الوراثية الكاملة للكائن الحي. على سبيل المثال ، الجينوم البشري هو أساسًا التسلسل الأساسي الكامل (= النوكليوتيدات) لجميع الكروموسومات الـ 24 (3 مليارات زوج قاعدي).

ما الذي يتم العثور عليه أثناء سفرنا على طول كروموسوم بشري؟ فئة واحدة مهمة من العناصر هي الجينات. الجين هو جزء من جزيء الحمض النووي يحتوي على جميع المعلومات الخاصة بإنتاج البروتين. يتم تحديد بعض الجينات بواسطة أحد خيوط الحمض النووي ، والبعض الآخر يتم تحديده بواسطة الخيط الآخر (التكميلي).

كان تحديد التسلسل الأساسي الكامل لجميع الكروموسومات البشرية تقدمًا مهمًا في البحث البيولوجي. من بين العديد من التطبيقات الطبية الهامة المختلفة تساعدنا على فهم الأمراض الوراثية بشكل أفضل.

تكنولوجيا الجينات. أثرت تكنولوجيا الجينات بشكل كبير على البحوث البيولوجية. لذلك ، من المهم معرفة بعض هذه التكنولوجيا.

الاستنساخ. يتمثل أحد تأثيرات الاستنساخ في قدرتك على إنتاج DNA بكميات كبيرة ، وبالتالي تسهيل الدراسات التجريبية ، على سبيل المثال تسلسل الحمض النووي ، وهي طريقة لتحديد التسلسل الأساسي للحمض النووي. عادة ما يتم إنتاج كميات كبيرة من الحمض النووي في البكتيريا. تم التلاعب بالحمض النووي الدائري ، وهو بلازميد ، بحيث يحتوي على تسلسل الحمض النووي ذي الأهمية. يستطيع البلازميد التكاثر داخل الخلية البكتيرية المضيفة بحيث يتم إنتاج عدد كبير من النسخ.

غالبًا ما يتم استخدام خليط من البلازميدات المختلفة. ومع ذلك ، عندما تمتص الخلية البكتيرية البلازميد (تقنية تسمى التحويل) ، ستحتوي كل خلية على جزيء بلازميد مميز واحد فقط. يمكن أن ينمو خليط الخلايا البكتيرية على ألواح أجار بحيث تظهر مستعمرات مميزة من الخلايا على الصفيحة بعد فترة. تنشأ كل مستعمرة من خلية واحدة فقط ، وبالتالي فإن جميع الخلايا في تلك المستعمرة ستكون متطابقة وراثيًا. يشار إلى استنساخ. تشير كلمة استنساخ إلى عملية عزل / إنتاج الحيوانات المستنسخة. مرة أخرى ، تذكر أن التأثير المهم للاستنساخ هو عزل كميات كبيرة من جزيئات DNA المتميزة.

تسلسل الحمض النووي. يشير تسلسل الحمض النووي إلى عملية تحديد التسلسل الأساسي (النوكليوتيدات) لجزيء الحمض النووي. اخترع فريد سانجر إحدى الطرق المهمة لتسلسل الحمض النووي (جوائز نوبل 1958 و 1980). إنها طريقة تعتمد على تكرار الحمض النووي وحيث يعتمد طول الأجزاء التي تم الحصول عليها على القاعدة الأخيرة في التسلسل. هناك أربعة مخاليط تفاعل ، واحدة لكل من القواعد A و T و C و G. يتم استخدام إنزيم بوليميراز DNA لإنتاج تكملة تسلسل الاهتمام. بالإضافة إلى ثلاثي فوسفات ثنائي أوكسي ريبونوكليوزيد (كتل بناء نيوكليوتيد يستخدمها الإنزيم) يحتوي كل خليط تفاعل على نظير اصطناعي لواحد من النيوكليوتيدات ، وهو نيوكليوتيد مختلف لكل خليط تفاعل. عندما يتم دمج هذا التناظرية ، يتم حظر المزيد من النمو في السلسلة الجديدة. تركيز التناظرية هو أن إنهاء السلسلة لن يحدث إلا في بعض الأحيان. هذا يعني أنه سيتم إنتاج مزيج من الأجزاء ذات الأطوال المختلفة ولكنها تنتهي جميعها بنفس النيوكليوتيدات. وبالتالي فإن الشظايا سوف تتوافق مع مواقع هذا النيوكليوتيد في الحمض النووي. يتم فصل أجزاء من أربعة تفاعلات مختلفة أخيرًا ، على سبيل المثال عن طريق الرحلان الكهربائي حيث يتم فصل شظايا الحمض النووي على أساس الحجم. قد يُقرأ التسلسل الأساسي للحمض النووي الجديد أخيرًا من نتيجة الفصل.

PCR - تفاعل البلمرة المتسلسل. تطورت تفاعل البوليميراز المتسلسل إلى طريقة مهمة في التشخيص الطبي والطب الشرعي ودراسات التطور الجزيئي. بشكل أساسي ، يمكن الحصول على ملايين النسخ من منطقة أقصر من الحمض النووي (بدون إجراء الاستنساخ) إذا كانت التسلسلات التي تحيط بالمنطقة معروفة. مثل تسلسل الحمض النووي ، تعتمد الطريقة على تكرار الحمض النووي. تستخدم البادئات الاصطناعية لتصلب المناطق المحيطة. يتم إجراء النسخ المتماثل في دورات متعددة ، مما يؤدي إلى تضخيم المنطقة المحددة بواسطة الاشعال. الطريقة حساسة للغاية بحيث يمكن في الواقع اكتشاف جزيء DNA واحد وتحليله باستخدام PCR.

الخطوة الأولى في تدفق المعلومات الجينية هي النسخ حيث يتم نسخ المعلومات الموجودة في الحمض النووي إلى جزيء RNA. يشبه الحمض النووي الريبي الحمض النووي الريبوزي منقوص الأكسجين ولكنه يحتوي على وحدة سكر وهي ريبوز بدلاً من ديوكسي ريبوز كما هو الحال في الحمض النووي. يحمل الحمض النووي الريبي اليوراسيل الأساسي بدلاً من الثايمين في الحمض النووي. مثل الحمض النووي ، يمتلك الحمض النووي الريبي قطبية 5 إلى 3.

يعمل أحد الخيوط الموجودة في الحمض النووي كقالب لتركيب الحمض النووي الريبي. الحمض النووي الريبي المنتج (على عكس الحمض النووي) أحادي الجديلة. لاحظ أن تسلسل الحمض النووي الريبي المنتج مكمل لأحد خيوط الحمض النووي وهو مطابق (على الرغم من أن U يحل محل T) مع خيط DNA الآخر.

كقاعدة عامة ، تحدد خيوط واحدة فقط من الحمض النووي الحمض النووي الريبي. لذلك ، فإن الخيط الآخر لا يوفر أي معلومات بيولوجية.

يتم النسخ بمساعدة إنزيم RNA polymerase. تشبه آلية النسخ البيوكيميائية إلى حد ما تكرار الحمض النووي لأنه في كلتا الحالتين يتم نسخ الأحماض النووية.

RNAs المنتجة عن طريق النسخ لها وظائف مختلفة في الخلية. ومع ذلك ، فإن فئة وظيفية مهمة جدًا من RNAs هي messenger RNAs (mRNAs). أنها بمثابة قوالب لإنتاج البروتينات. البروتينات عبارة عن بوليمرات كبيرة مثل DNA و RNA ، ولكنها تتكون من أحماض أمينية بدلاً من النيوكليوتيدات. هناك 20 نوعًا من الأحماض الأمينية المختلفة. في عملية الترجمة ، والتي تسمى أيضًا تخليق البروتين ، يوجه تسلسل القواعد في الحمض النووي الريبي عملية دمج الأحماض الأمينية في البروتينات. تسمى العملية الترجمة لأن الترجمة تحدث من لغة الأحماض النووية (DNA / RNA) إلى لغة البروتينات. تحدد مجموعة من القواعد المحددة جيدًا العلاقة بين تسلسل الحمض النووي الريبي وتسلسل الأحماض الأمينية في البروتينات. تحدد سلسلة من ثلاث قواعد ، تُعرف باسم كودون ، حمضًا أمينيًا مميزًا. يوضح الجدول الكودونات التي تتوافق مع الأحماض الأمينية التي تسمى الكود الجيني.

يوجد 64 كودونًا في الشفرة الجينية و 61 منها تحدد حمضًا أمينيًا. يحدد الثلاثة الآخرون توقفًا في تخليق البروتين. نظرًا لوجود 61 كودونًا تحدد الأحماض الأمينية ولا يوجد سوى 20 حمضًا أمينيًا ، فإن الشفرة الوراثية تتحلل ، مما يعني أنه بالنسبة لمعظم الأحماض الأمينية ، يوجد أكثر من كودون واحد.

يعتبر نقل الحمض النووي الريبي أمرًا بالغ الأهمية أثناء تخليق البروتين ويعمل كمحول بين اللغتين. إنه قادر على القيام بذلك لأنه من ناحية لديه تسلسل (anticodon) مكمل للكودون على mRNA ومن ناحية أخرى يحمل الحمض الأميني المقابل للكودون.

عند التفكير في كيفية قراءة RNA وفقًا للشفرة الجينية ، يعتمد منتج البروتين على الموضع في RNA حيث تبدأ في قراءة المعلومات. لذلك ، هناك ثلاثة إطارات قراءة ممكنة (انظر الشريحة على سبيل المثال). في بعض الأحيان لا تعرف ما هي نقطة البداية الصحيحة للترجمة وتريد أن تتنبأ حسابيًا بإطار القراءة المحتمل. في مثل هذه الحالات ، تبحث عن إطارات قراءة مفتوحة أطول (ORFs) ، أي تسلسلات أطول من الكودونات لا تقاطعها أكواد الإيقاف.

يحدد تسلسل الأحماض الأمينية للبروتين شكله ثلاثي الأبعاد.

يتكون البروتين المتكون أثناء عملية الترجمة من تسلسل خطي للأحماض الأمينية. سيحكم هذا التسلسل طي الجزيء في شكل مميز ثلاثي الأبعاد. والأهم من ذلك ، أن هذا الشكل يرتبط بواحدة أو أكثر من الوظائف البيولوجية المحددة. قد تكون هذه الوظيفة بمثابة إنزيم على سبيل المثال. سيتم التعامل مع المشكلة الحسابية الهامة للتنبؤ بالشكل من تسلسل الأحماض الأمينية في نهاية هذا المقرر الدراسي في جزء بنية البروتين.

يتم التحكم بدقة في تدفق المعلومات الجينية: تنظيم التعبير الجيني.

التعبير الجيني هو العملية التي تكون فيها المعلومات في الحمض النووي

يتم فك ترميزه إلى بروتين ويتضمن النسخ والترجمة.

يمتلك الحمض النووي للكائن الحي القدرة على إنتاج عدد كبير جدًا من البروتينات ، ويقدر أن هناك ما يقرب من 23000 جينة ترميز البروتين في البشر. ومع ذلك ، لا يتم إنتاج جميع هذه البروتينات في خلية بشرية معينة ، ويختلف مستوى التعبير الجيني ، أي كمية البروتين المنتجة ، كثيرًا بين البروتينات. لذلك ، يعتبر التعبير الجيني (= إنتاج البروتين) عملية شديدة التنظيم.

إن النظر إلى التعبير الجيني للخلايا البشرية خاص بنوع الخلية. على سبيل المثال ، يتم إنتاج مجموعة واحدة من البروتينات في خلية الكبد والتي تختلف عن مجموعة البروتينات التي يتم إنتاجها في خلية العضلات. تنظيم التعبير الجيني مهم أيضًا في الأمراض التي تصيب الإنسان. تنجم العديد من الأمراض عن خلل في التعبير الجيني.

تنظيم النسخ.

أهم نوع من تنظيم التعبير الجيني هو ذلك الذي يمارس على مستوى النسخ. لفهم الآليات المتضمنة ، نحتاج إلى إلقاء نظرة فاحصة على آلية النسخ.

المنبع (على الجانب 5 ') من التسلسل في DNA الذي يتوافق مع تسلسل تشفير البروتين ، هناك إشارات (تسلسلات أساسية) تؤثر على النسخ. هناك نوعان من الإشارات. فئة واحدة هي جزء من آلية النسخ الأساسية وهذه الإشارات هي جزء من جميع جينات ترميز البروتين. النوع الثاني من الإشارات هو الذي يشارك في تنظيم النسخ.

تسلسل الفئة الأولى يسمى تسلسل المروج.

البروتينات الخاصة التي تشارك في آلية النسخ الأساسية تحدد المحفز وترتبط به. هذه البروتينات هي عوامل نسخ ابتدائية أساسية. إن الإنزيم الفعلي المسؤول عن النسخ (RNA polymerase) سيرتبط بمركب البدء ، ثم يكون قادرًا على السفر على طول الحمض النووي وإنتاج نسخة RNA.

بالإضافة إلى تسلسل المحفز ، هناك عناصر تسلسل أولية إضافية تشارك في تنظيم النسخ. ترتبط البروتينات بهذه التسلسلات وتؤثر على عملية بدء النسخ الأساسية. تعمل بعض عوامل النسخ هذه كمنشطات ، أي أنها تحفز بدء النسخ بينما يعمل البعض الآخر كمثبطات ، أي أنها تمنع بدء النسخ.

Regulation of transcription is highly important in all cells. There is large number of different transcription factors. For instance, in humans it is estimated that out of the 23,000 diffent proteins encoded by the genome

1000 are transcription factors.

Yet another level of complexity during gene expression in eukaryotes is offered by the process of splicing. An eukaryotic gene is typically composed of regions called exons (coding elements) and introns (non-informational parts). The primary RNA product after transcription contains both elements but in the process of splicing it is processed such that the intron parts are removed. The effect is that the exons are combined and the resulting sequence will contain the protein coding sequence used in protein synthesis.

It is common in higher animals that for a given gene the exons may be combined differently. This means that for a given gene different proteins may be produced. In fact splicing is also a regulated process ( alternative splicing or regulated splicing) . For instance, different cell types in the human body may display different patterns of splicing.

So far, much less is known about the mechanisms involved in regulated splicing as compared to transcription. As a result, the bioinformatics of regulated splicing is not well developed.

Regulation of translation

Also translation may be controlled. The ribosome is a huge complex of RNA and protein that is responsible for protein production together with transfer RNA and other molecules. The translation process starts with binding of the ribosme to a start site on the mRNA. Regulation of the initiation process may for instance be affected by proteins that bind to the start region and prevent the ribosome from carrying out its normal function.


مناقشة

The exclusive use of sensitivity and positive predictive value (PPV) [11] in training and describing the accuracy of gene-calling tools has had unintended effects on their development [39]. Current tools accurately identify noncoding regions but are poorly equipped to handle data containing sequencing errors, even at the relatively modest levels reported by technology vendors.

To quantify gene prediction accuracy, the gene detection literature has used sensitivity and specificity for whole genes [6, 7, 30], reading-frame-aware sensitivity and specificity [8], alignment-based sensitivity and PPV [11] and amino acid sensitivity [31]. Some of these metrics penalize false-positive and false-negative predictions essentially equally. We find that reading-frame-aware, prospective sensitivity agrees with amino acid sensitivity better than with per fragment alignment-based sensitivities on the same datasets.

The frequency and impact of inaccurate gene calls are relatively low in noncoding DNA. Combinations of sensitivity and specificity that weigh the errors according to their expected number are an effective way to gauge prediction accuracy while utilizing the assumption that most (85–90%) [40] of the sequence in prokaryotic genomes is annotated as coding. Such an expected-incidence combination was introduced as “prediction accuracy” [39], but the testing dataset used was engineered to have specific gene boundaries and had only a 50% coding fraction as a result. When overall accuracy is used on datasets engineered to mimic shotgun data [31, 41], the results are close reflections of sensitivity.

The observation that at high error rates increasing fragment length does not improve gene prediction accuracy is instructive. Sequencing errors, particularly frameshift errors, dilute the evidence for coding regions by spreading the signal among competing adjacent reading frames. Since only bases without an interrupting error can contribute in the correct frame, increasing length will improve accuracy only until the length well exceeds the mean distance between errors, twice the reciprocal error rate. For fragment lengths below 100 bp and error rates above 2%, reading-frame prediction accuracy is poor. This argues against applying ab initio gene callers unless read error rates can be pushed below 2%. For the PacBio systems [42] platform, which offers raw reads >3 kb at error rates of 15% and circular template corrected reads at 400 bp with error rates <1%, ab initio gene prediction can be expected to work on the corrected reads but fail on the uncorrected reads despite their length.


How to find correct reading frame ?

For a project at work I've been asked to do an analysis for 13 possible Carbapenem Resistant Enterobacteraceae. My initial analysis was compared against that of a group of researchers at nearby federal facility. A part of this analysis is to detect certain resistance genes (Carbapenemases) that may be within these samples. In all, my analysis was nearly identical to the research group, besides one sample.

Using a local BLAST database (nucleotide) of my own samples, with various sequences of resistance genes from NCBI refseq (amino acids), I was able to use tblastn to match every gene found by the group. However, I was also able to find 1 extra resistance gene (blaCMY) in one of my E. Coli samples that was not found by the group. Of course, as a relative beginner, this is extremely exciting--BUT, my supervisor wants me to be absolutely sure of this before moving on.

So first thing that comes to mind is to look towards some details of the alignment (below):

Sequence length (1,130 DNA bp)

Following this data, my question is: Does the Frame being on -2 take away from this alignment?

From my current understanding, I know that there are 6 reading frames (Three for each strand) and 1 ORF that is being transcribed (maybe not for bacteria??). so how would I go about finding out if the frame that this gene resides in is actively being transcribed/translated?


المواد والأساليب

Algorithms

The algorithm for protein-protein comparison is similar to the dynamic programming routines employed by many sequence analysis programs ( 12 , 13 ), being a variant of the Smith-Waterman best local alignment algorithm ( 3 ). These algorithms all belong to the class known as minimal string edit algorithms.

To standardize the program operations for comparisons using either a protein sequence or an aligned sequence set, the profile concept ( 14 ) is employed. A profile of length ن is a set of 20 scores, for all possible amino acids for each position 1 to ن , in a set of one or more aligned protein sequences. Two additional scores per position provide position-specific gap opening (GOP) and gap extension penalties (GEP). Typically, gap penalty reductions aie supplied for positions where gaps are already observed ( 14 , 15 ).

The Waterman-Eggert algorithm ( 16 ) to extract the top ك subalignments has also been incorporated into PairWise. This allows the program to report repeated domains.

DNA forward frames . For the comparison against DNA, the protein is back-translated. The concept of a codon profile for a protein (or alignment) is introduced. This is a set of 64 scores for all possible codons for each position 1 to ن , plus the gap penalty and gap extension scores. A dynamic programming matrix is then constructed from a DNA sequence against the codon profile. The scheme in Figure 1 illustrates how the algorithm chooses between in-frame and jumped frame paths. The core of the algorithm is the iterative calculation for the cell in the أنا th position down the profile versus the ي th position along the DNA sequence ( Fig. 1 ). Each matrix cell has a score and a state which can be either MATCH, PROFILEGAP, SEQGAP or FRAMEGAP. The state for each cell is the appropriate state for the max calculation. The first four expressions of the max are the standard in-frame start, match and two gap calculations, but with an offset of three in the DNA dimension. Other features of this algorithm differ from more standard dynamic matrices. لأول مرة ي -2, and ي -1 movements cause frameshifting in the alignment. These frameshifts do not count the shifted bases/codons in the overall score. Second, only one score is calculated per cell, rather than a score for each different state for which the max is then taken. This single score regime prevents the fortuitous stringing together of matching segments with the large frame gaps allowed by the low frame extension penalty required to jump introns. The frame jumping behaviour is controlled by a frame opening penalty (FOP) and a frame extension penalty (FEP). These penalties can be customized depending on the particular alignment task.

The algorithm is straightforwardly applied to unusual genetic codes (mitochondria, certain protozoa and so forth) by supplying the appropriate codon table.

DNA reverse frames . The reverse frame alignment is produced while reading the DNA sequence in the forward frame by inverting the profile to read C→N (rather than N→C) and then mapping the 20 amino acid scores to the appropriate codon number for the reverse strand.

Although classical sequence comparison algorithms are symmetrical, so that either N→ C or C→ N alignments have identical scores, profile alignments introduce asymmetry due to locally varied penalties. This loss of symmetry has no intrinsic biological significance. The reverse strand implementation (which proceeds 3′→5′ and C→N) may have a slightly different score and alignment than the forward strand comparison of the complemented sequence. With optimal parameter settings, this difference is always minor and may not be seen, but is clearly observable with improperly reduced parameter settings.


Checking sequence quality with alignments¶

A second quality check is made by aligning your sequences based on the gene - align COI sequences together, rbcL together, etc.

For alignments of protein coding regions Geneious’s Translation Alignment program doesn’t work like it should, so use an alternate program such an online program called TranslatorX (http://translatorx.co.uk) to create an alignment.

It’s important to note that TranslatorX only checks the forward reading frames, so you need to Reverse-Complement the matK sequences before putting them into this alignment program, otherwise you will receive errors.

  • Export the consensus sequences (of good assemblies only) as a FASTA file then import this file into the program. We suggest you leave the Protein Alignment Option method selected as “Muscle”. In the Genetic Code box select the relevant reading frame and be sure to check the “Guess most likely reading frame” option. Then hit Submit Query.
  • If the program runs OK and doesn’t encounter any errors, it will return an alignment of the nucleotides and also an alignment of the amino acids. You may download the fasta file of both, however, the alignment of amino acids is what will be used for the second quality check. Import the fasta file(s) of the alignments into Geneious for further analyses.
  • Use the alignment to address any issue that you can see i.e. a clear difference between one sequence to the others (Remember this can be possible if the sequences are distantly related but still cross reference the alignment to the individual assemblies). Also, gaps must be assessed and resolved. Major differences in the alignment may also indicate that one or more of the sequences are contaminants (use BLAST to determine this).
  • You may need to repeat the alignment step a number of times as you cross reference the assemblies and make edits. Save the edits, re-export all the consensus sequences and create a new alignment with these new consensus fasta files.
  • If more than a handful of edits need to be made to the consensus sequence, the assembly should be discarded and the sample re-sequenced. You need to make a judgement call on this.

How to determine the most likely reading frame of a DNA sequence? - مادة الاحياء

Introduction to molecular biology - notes to the slides

There are three major kingdoms of life: Eukaryotes, eubacteria and archae. The eubacteria and archea are single cell organisms whereas eukaryotes typically are multicellular organisms (such as animals). We will discuss the kingdoms of life later in the course in the context of evolution. Important to remember so far is that all life forms are composed of cells. Cells from all three different kingdoms have certain characteristics in common. For instance, they have a membrane that acts as a barrier towards the enviroment. Across this membrane transport of different molecules may occur and this transport is carefully controlled. Cells from all three kingdoms also have a biochemical machinery in common. All we discuss below apply to all cells.

Flow of genetic information in the cell

DNA (حمض النووي الريبي منقوص الأكسجين) is a molecule that is found in all cells and it carries the genetic information. The DNA may be copied in a process called تكرار. The information in DNA ultimately guides the production of different proteins. In this process an RNA copy is first made in a process called النسخ. Non-informational portions of the primary product of transcription (introns) are removed in a process called الربط. The RNA then directs the synthesis of protein (a process also called ترجمة). Each protein has a specific function in the cell. Examples of functional classes are 1) enzymes 2) transport proteins and 3) proteins acting as a 'skeleton', maintaining a specific cell architecture. The enzymes are very important because they make all chemical reactions in the cell possible by acting as catalysts. All the 10,000s of chemical reactions that occur within a cell would not be possible without enzymes. Proteins, therefore, are the molecules that directly determine the shape, behaviour and physiology of a living cell. DNA doesn't do anything like that, it simply carries the genetic information, information that specifies what proteins are to be made.

We will now examine how the flow of information occurs from DNA to protein in more detail. First, we have to understand the basic chemistry of the DNA molecule.

The DNA molecule is a very long polymer with repeating sugar and phospate units. Attached to the sugars are القواعد. The bases are the variable units in DNA and it is the sequence of bases that constitutes the actual genetic information.

A DNA molecule has a distinct chemical polarity. One end of DNA is referred to the 5' end, because the hydroxyl group in that end is attached to a carbon of the sugar with the number 5. Similarly, the other end of the DNA molecule is referred to as 3'. The polarity of DNA means ultimately that the sequence of bases read from one end is not equivalent to the sequence of bases read from the other end.

The bases are Adenine, Guanine, Cytosine, and Thymine, abbreviated as A, G, C and T. A and G has a double ring structure and are referred to as البيورينات, whereas C and T are called pyrimidines.

The unit sugar-phosphate-base in DNA is referred to as a nucleotide. From an information perspective it is equivalent to a يتمركز because the base is the variable unit in DNA.

The genetic message in DNA can thus be represented as a string of the letters A, G, C and T:

5' - AGGACACGACGACTATTGG - 3'

Normally the sequence is written with the 5' end to the left and the 3' end to the right.

DNA may sometimes occur as a single strand (like in certain viruses) but normally we find DNA as a double stranded unit. It has a double helical structure with two antiparallell strands. Antiparallell means that the two strands of the molecule have opposite polarity.

The double stranded DNA is held together by pairing between bases. Chemical bonds known as hydrogen bonds are formed between bases and the pairing is always such that adenine pairs with thymine and cytosine pairs with guanine. The pairing is referred to as complementarity, one strand of DNA is said to be the complement of the other.

Therefore, the double stranded DNA can be represented as two strings like this:

5' - AGGACACGACGACTATTGG - 3'
3' - TCCTGTGCTGCTGATAACC - 5'

Note that the two strands have opposite polarity.

The base complementarity is the basis for تكرار من الحمض النووي. In this process one strand of the DNA serves as the template for the synthesis of the other one.

DNA molecules are very long. For instance, the genetic material of humans is distributed among 24 chromosomes. Each chromosome is in essence a very long DNA molecule with proteins attached to it. A typical length of a human chromosome is 100 million base pairs.

أ الجينوم is the complete genetic material of an organism. على سبيل المثال ، ملف human genome is essentially the complete base (=nucleotide) sequence of the all the 24 chromosomes (3 billion base pairs).

What biological elements are found as we travel along a human chromosome? One important category of elements are الجينات. A gene is a portion of the DNA molecule that contains all the information for production of a protein. The length of human genes is highly variable they can be as small as 2000 and as large as 1,000,000 bases. Some genes are specified by one of the strands of DNA, and others are specified by the other (complementary) strand.

The determination of the complete base sequence of all human chromosomes was a signficant advance in biologal research. Of many different important medical applications it helps us to better understand genetic disease.

The first step in the flow of genetic information is النسخ where the information in DNA is copied into an RNA molecule. RNA (RiboNucleic Acid) is similar to DNA but has a sugar unit which is ريبوز بدلا من ديوكسيريبوز as in DNA. RNA carries the base اليوراسيل instead of thymine in DNA. Like DNA, RNA has a 5' to 3' polarity.

One of the strands in DNA serves as the template for the synthesis of RNA. The RNA produced is (unlike DNA) single-stranded. Note that the sequence of the RNA produced is مكمل to one of the DNA strands and it is identical (although U replaces T) to the other DNA strand.

As a rule, only one of the strands of the DNA specify an RNA. Therefore, the other strand does not provide any biological information.

Transcription takes place with the help of an enzyme, RNA polymerase. The biochemical machinery of transcription is to some extent similar to DNA replication because in both cases nucleic acids are copied.

The RNAs produced by transcription have different functions in the cell. However, a very important functional class of RNAs is messenger RNA (mRNA). These RNAs serve as templates for the production of proteins . Proteins are large polymers like DNA and RNA, but instead of nucleotides they are made up of amino acids. هناك 20 نوعًا من الأحماض الأمينية المختلفة. في عملية ترجمة، وتسمى أيضا protein synthesis, the sequence of bases in RNA guides the incorporation of amino acids into proteins. The process is called ترجمة because a translation occurs from the language of nucleic acids (DNA/RNA) to the language of proteins. Just like in DNA and RNA, information contained in a protein may be represented as a string of letters (20 different as there are 20 different amino acids).

A set of well defined rules determine the relationship between the RNA sequence and the sequence of amino acids in proteins. A sequence of three bases, known as a كودون specify a distinct amino acid. The table showing what codons correspond to what amino acids is called the genetic code.

There are 64 codons in the genetic code and 61 of these specify an amino acid. The other three specify a stop in protein synthesis. Because there are 61 codons that specify an amino acid and there are only 20 amino acids, the genetic code in degenerate, meaning that for most amino acids, there is more than one codon.

ال نقل الحمض النووي الريبي is critical during protein synthesis and acts as an adaptor between the languages of nucleic acids and proteins. It is able to do that because on the one hand it has a sequence (أنتيكودون) which is complementary to the codon on the mRNA and on the other hand it carries the amino acid corresponding to the codon.

When considering how an RNA should be read according to the genetic code the protein product depends on the position in RNA where you start reading information. Therefore, there are three possible reading frames (see slide for example). Sometimes you do not know what is the correct starting point of translation and you want to computationally predict the likely reading frame. In such cases you look for longer open reading frames (ORFs), i.e. longer sequences of codons not interrupted by stop codons.

The amino acid sequence of a protein determines its three-dimensional shape.

The protein formed in the process of translation is a linear sequence of amino acids. That sequence will govern folding of the molecule into a distinct three-dimensional shape. Even more importantly, that shape is associated with one or more specific biological functions. For instance one common protein function is to act as an enzyme. The significant computational problem of predicting shape from the sequence of amino acids will be dealt with during this course in the protein structure part.


شكر وتقدير

We are grateful to J.-B. Michel and members of the Kishony laboratory for insightful discussions and support, to the team at the Partners HealthCare Center for Personalized Genetic Medicine (PCPGM) for Illumina sequencing, to L. Williams and A. Palmer for discussions and technical assistance, and to Y. Gerardin, J. Meyer, L. Stone and R. Ward for their comments on the manuscript. T.D.L. and G.P.P. were supported in part by grants from the Cystic Fibrosis Foundation (LIEBER12H0 to T.D.L. and PRIEBE1310 to G.P.P.). This work was funded in part by the US National Institutes of Health (GM081617 to R.K.), the New England Regional Center of Excellence for Biodefense and Emerging Infectious Diseases (NERCE U54 AI057159 to R.K.) and Hoffman-LaRoche.


5 Concluding remarks

Proteogenomic methods are still facing several key challenges that stand in the way of large-scale application of proteomics to genome annotation. One of the main concerns for nearly all MS-based proteomic studies is low sequence coverage. In addition, there is a notorious need for improved data mining methods and bioinformatics tools. Finally, in order to obtain high proteome coverage, one often needs to apply multiple growth conditions together with several separation and/or fractionation techniques prior to MS/MS analysis. Despite all of its shortcomings, proteogenomics analysis provides the ultimate validation of expressed gene products on a large scale and leads to correct interpretation of genomic sequences. Experimental verification of predicted hypothetical proteins and discovery of novel coding regions can be considered as one of the most important outcomes of proteogenomic studies. Moreover, specific applications designed to characterize various protein-processing events and PTMs are invaluable in deciphering the actual biological function.


شاهد الفيديو: الصف الثاني عشر المسار الأدبي العلوم تخزين المعلومات فيDNA ونقلها من خلال الحمض النووي (يونيو 2022).


تعليقات:

  1. Vukasa

    عيد ميلاد سعيد تهنئة ،

  2. Andres

    أنا متأكد من أنك بطريقة خاطئة.

  3. Sigmund

    لحظة مثيرة للاهتمام

  4. Tebei

    القطعة المفيدة جدا

  5. Berk

    فكرة قيمة للغاية

  6. Mokree

    سوبر الأصلي



اكتب رسالة