معلومة

ترددات النوكليوتيدات في نموذج كيمورا ذو المعلمتين

ترددات النوكليوتيدات في نموذج كيمورا ذو المعلمتين


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

فيما يلي مقتطفات عن نموذج كيمورا ذي المعلمتين من استنباط تطور السلالات في فيلسنشتاين:

"النموذج متماثل ، ويمكن للمرء أن يرى على الفور أنه بعد انقضاء وقت كافٍ ، سيكون من المرجح بنفس القدر أن تكون القاعدة عبارة عن بورين أو بيريميدين."

أعتقد أنني أفهم افتراضات النموذج ولكن ليس من الواضح بالنسبة لي سبب تساوي ترددات التوازن. لماذا هذا؟


إذا انقضى وقت كافٍ ، فسيكون هناك عدد كبير من التقلبات الموجودة بين القاعدة الأصلية والحالة النهائية. وبالتالي فإن الحالة الأولية لن تكون مهمة.

لنفترض أنك تقلب (تقلب ، لا تقذف) عملة على فترات عشوائية. لوقت قصير وقليل من التقلبات ، ستكون الحالة الأولية مهمة. ولكن إذا واصلت التقليب لآلاف السنين ، فستكون الحالة النهائية عشوائية في الأساس - لن تكون قادرًا على معرفة ما كان موجودًا في البداية.


أنماط استبدال النوكليوتيدات في جينات ترميز بروتين الميتوكوندريا للفقاريات

تم استخدام طرق الاحتمالية القصوى لدراسة الاختلافات في معدلات الاستبدال بين النيوكليوتيدات الأربعة وبين مواقع النيوكليوتيدات المختلفة في جينات ترميز بروتين الميتوكوندريا في الفقاريات. في بيانات موضع الكودون الأول والثاني ، يرتبط تواتر النوكليوتيدات G ارتباطًا سلبيًا بالمعدلات التطورية للجينات ، وتختلف معدلات الاستبدال بشكل كبير بين المواقع ، ويكون تحيز معدل الانتقال / التحويل (R) أكبر بمرتين إلى خمس مرات من المتوقع في عشوائي. بشكل عام ، تم العثور على أكبر تحيزات انتقالية وأكبر اختلافات في معدلات الاستبدال بين المواقع في الجينات المحفوظة للغاية. تظهر المواضع الثالثة في جينات الثدييات المشيمية تحيزات قوية في تكوين النوكليوتيدات وتتجاوز المعدلات الانتقالية المعدلات العرضية بمقدار واحد إلى اثنين من حيث الحجم. نماذج Tamura-Nei و Hasegawa-Kishino-Yano ذات معدلات جاما المتغيرة الموزعة بين المواقع (معلمة جاما ، ألفا) تصف بشكل مناسب عملية استبدال النوكليوتيدات في بيانات المركز الأول + الثاني. في هذه البيانات ، يؤدي تجاهل الاختلافات في معدلات الاستبدال بين المواقع إلى تحيزات أكبر أثناء تقدير معدلات الاستبدال. نموذج كيمورا ذو المعلمتين مع معدلات متغيرة بين المواقع يعمل بشكل مرضٍ في تقدير الاحتمالية لـ R و alpha والمقدار الإجمالي للتطور لبيانات المركز الأول + الثاني. يمكن استخدامه أيضًا لتقدير المسافات الزوجية بقيم ألفا المناسبة لغالبية الجينات.


DNADIST - برنامج لحساب مصفوفة المسافة من تسلسل النيوكليوتيدات

يقرأ البرنامج تسلسل النوكليوتيدات ويكتب ملف إخراج يحتوي على مصفوفة المسافة. النماذج الثلاثة لإحلال النوكليوتيدات هي تلك الخاصة بـ Jukes and Cantor (1969) ، Kimura (1980) والنموذج المستخدم في برنامج نسالة الحد الأقصى من احتمالية DNAML. تعديل نموذج Kimura للسماح بمعدلات غير متكافئة من الاستبدال في مواقع مختلفة بواسطة Jin and Nei (1990) متاح أيضًا كتنوع آخر. يأخذ البرنامج في الاعتبار بشكل صحيح مجموعة متنوعة من غموض التسلسل ، على الرغم من أنه في الحالات التي توجد فيها يمكن أن يكون بطيئًا.

يفترض نموذج Jukes and Cantor (1969) أن هناك تغييرًا مستقلاً في جميع المواقع ، باحتمالية متساوية. ما إذا كانت التغييرات الأساسية مستقلة عن هويتها ، وعندما تتغير ، هناك احتمال متساوٍ في النهاية مع كل من القواعد الثلاثة الأخرى. وبالتالي ، فإن مصفوفة احتمالية الانتقال (هذا مصطلح تقني من نظرية الاحتمالات ولا علاقة له بالانتقالات على عكس عمليات الاستبدال) لفترة قصيرة من الزمن dt: حيث a هو u dt ، حاصل ضرب معدل الاستبدال لكل وحدة الوقت (ش) وطول الفترة الزمنية dt. لفترات أطول من الوقت ، يشير هذا إلى أن احتمال اختلاف تسلسلين في موقع معين هو: ومن ثم إذا لاحظنا p ، فيمكننا حساب تقدير لطول الفرع ut عن طريق عكس هذا للحصول على المعامل 2 Kimura " "النموذج متماثل تقريبًا مثل هذا ، ولكنه يسمح بالفرق بين معدلات الانتقال ومعدلات التحويل. مصفوفة احتمالية الانتقال الخاصة بها لفترة زمنية قصيرة هي: حيث a هو u dt ، حاصل ضرب معدل الانتقالات لكل وحدة زمنية و dt هو طول dt للفاصل الزمني ، و b هو v dt ، حاصل ضرب نصف معدل الانقلابات (أي معدل التحويل المحدد) وطول الفترة الزمنية dt.

النموذج الثالث المستخدم هو نموذج يشتمل على معدلات انتقال وتحويل مختلفة ، ولكنه يسمح أيضًا بترددات مختلفة للنيوكليوتيدات الأربعة. هذا هو النموذج المستخدم في DNAML ، وهو برنامج تسلسل النوكليوتيدات التسلسل الأقصى للاحتمالية في هذه الحزمة. ستجد النموذج الموضح في المستند الخاص بهذا البرنامج. كما قدم كيشينو وهاسيغاوا (1989) احتمالات الانتقال لهذا النموذج.

ترتبط النماذج الثلاثة ارتباطًا وثيقًا. يقلل نموذج DNAML إلى نموذج كيمورا ذي المعلمتين إذا افترضنا أن ترددات التوازن للقواعد الأربعة متساوية. نموذج Jukes-Cantor بدوره هو حالة خاصة لنموذج Kimura 2-معلمة حيث a = b. وبالتالي فإن كل نموذج هو حالة خاصة لتلك التي تتبعه ، جوكس كانتور هو حالة خاصة لكلا النموذجين الآخرين.

تستخدم مسافة Jin and Nei (1990) نموذج Kimura لاستبدال القاعدة ، ولكنها تفترض أن معدل الاستبدال يختلف من موقع إلى آخر وفقًا لتوزيع جاما ، مع معامل التباين الذي يحدده المستخدم. يُطلب من المستخدم ذلك عند اختيار هذا الخيار في القائمة.

كل مسافة يتم حسابها هي تقدير ، من هذا الزوج المعين من الأنواع ، لوقت الاختلاف بين هذين النوعين. بالنسبة لنموذج Jukes-Cantor ، يتم حساب التقدير باستخدام صيغة ut الواردة أعلاه ، طالما أن رموز النيوكليوتيدات في التسلسلتين إما A ، C ، G ، T ، U ، N ، X ، أو - (تشير الأربعة الأخيرة إلى حذف أو نيوكليوتيد غير معروف. هذا التقدير هو تقدير احتمالية قصوى لهذا النموذج. بالنسبة لنموذج كيمورا 2-بارامتر ، باستخدام رموز النوكليوتيدات فقط ، يتم حساب الصيغ الخاصة بهذا التقدير أيضًا. وهذه أيضًا ، في الواقع ، حساب تقدير الاحتمالية القصوى لهذا النموذج. في حالة Kimura ، يعتمد ذلك على التسلسلات المرصودة فقط من خلال طول التسلسل والعدد الملحوظ لاختلافات الانتقال والانتقال بين هذين التسلسلين. الحساب في هذه الحالة هو أقصى احتمال تقدير وسيختلف إلى حد ما عن التقدير الذي تم الحصول عليه من الصيغ في ورقة Kimura الأصلية. كانت هذه الصيغة أيضًا تقديرًا أقصى احتمالية ، ولكن مع نسبة الانتقال / التحويل المقدرة تجريبياً ، بشكل منفصل لكل زوج من المتتاليات. في الحالة الحالية ، يتم استخدام نسبة انتقال / تحويل واحدة محددة مسبقًا مما يجعل الحسابات أكثر صعوبة ولكنه يحقق تناسقًا أكبر بين المقارنات المختلفة.

بالنسبة لنموذج DNAML ، أو لأي من النماذج حيث يحتوي أحد التسلسلين أو كليهما على واحد على الأقل من أكواد الغموض الأخرى مثل Y و R وما إلى ذلك ، يتم أيضًا حساب الاحتمالية القصوى باستخدام الكود الذي تمت كتابته في الأصل لـ DNAML. عيبه أنه بطيء. المسافة الناتجة هي في الواقع أقصى تقدير احتمالية لوقت التباعد (إجمالي طول الفرع بين) التسلسلين. ومع ذلك ، سيكون البرنامج الحالي أسرع بكثير من الإصدارات السابقة للإصدار 3.5 ، لأنني قمت بتسريع التكرارات.

لاحظ أن هناك افتراضًا بأننا نبحث في جميع المواقع ، بما في ذلك تلك التي لم تتغير على الإطلاق. من المهم عدم قصر الانتباه على بعض المواقع بناءً على ما إذا كانت قد غيرت فعل ذلك أم لا من شأنه أن يؤدي إلى تحيز المسافات بجعلها كبيرة جدًا ، وهذا بدوره من شأنه أن يتسبب في إساءة تفسير المسافات لمعنى تلك المواقع التي تغيرت.

يتمثل أحد الابتكارات الرئيسية في هذا البرنامج في أنه بالنسبة لجميع طرق المسافة هذه ، يسمح لنا البرنامج بتحديد أن قواعد "المركز الثالث" لها معدل استبدال مختلف عن الموضعين الأول والثاني ، وأن الإنترونات لها معدل مختلف عن exons ، و هكذا. يتيح لنا خيار الفئات إنشاء ما يصل إلى 9 فئات من المواقع وتحديد معدلات تغيير مختلفة لها. لاحظ أن خيار الفئات هذا يختلف عن الخيار المستخدم في DNAML و DNAMLK حيث لا يتعين عليك تحديد المواقع الموجودة في أي فئات.

تنسيق الإدخال والخيارات

المدخلات قياسية إلى حد ما ، مع إضافة واحدة. كالعادة يوضح السطر الأول من الملف عدد الأنواع وعدد المواقع. يتبع الحرفان C أو W في حالة استخدام خياري الفئات أو الأوزان.

بعد ذلك تأتي بيانات الأنواع. يبدأ كل تسلسل بسطر جديد ، له اسم أنواع مكون من عشرة أحرف يجب ملؤه فارغًا ليكون بهذا الطول ، متبوعًا على الفور ببيانات الأنواع في الرمز المكون من حرف واحد. يجب أن تكون التسلسلات إما بتنسيق "معشق" أو "متسلسل" موصوف في وثائق برامج التسلسل الجزيئي. الخيار الأول يختار بينهم. يمكن أن تحتوي التسلسلات على فراغات داخلية في التسلسل ولكن يجب ألا تكون هناك فراغات إضافية في نهاية السطر المنتهي. لاحظ أن الفراغ ليس رمزًا صالحًا للحذف.

بعد ذلك توجد السطور (إن وجدت) التي تحتوي على المعلومات الخاصة بخيارَي C و W ، كما هو موضح أدناه.

يتم تحديد الخيارات باستخدام قائمة تفاعلية. تبدو القائمة على النحو التالي: يقوم المستخدم إما بكتابة "Y" (متبوعًا ، بالطبع ، بحرف رجوع) إذا كانت الإعدادات المعروضة مقبولة ، أو الحرف أو الرقم المقابل لخيار سيتم تغييره.

الخياران M و 0 هما الخياران المعتادان. تم وصفها في ملف التوثيق الرئيسي لهذه الحزمة. الخيار الأول هو نفسه الموجود في برامج التسلسل الجزيئي الأخرى وهو موصوف في ملف توثيق برامج التسلسل الجزيئي.

يختار الخيار D إحدى طرق المسافة الأربعة. يتم التبديل بين الطرق الثلاث. الطريقة الافتراضية ، إذا لم يتم تحديد أي منها ، هي Kimura 2-

نموذج المعلمة. إذا تم تحديد مسافة Nei / Jin ، فسيُطلب من المستخدم توفير معامل التباين في معدل الاستبدال بين المواقع. هذا يختلف عن المعلمات المستخدمة من قبل Nei و Jin ولكنها مرتبطة بهما: ترتبط معلماتهما a بمعامل الاختلاف بواسطة (يتم استيعاب المعلمة b هنا من خلال شرط أن يتم قياس الوقت بحيث يكون متوسط ​​معدل التطور 1 لكل وحدة زمنية ، مما يعني أن أ = ب). عندما ننظر في الحالات التي تكون فيها المعدلات أقل تغيرًا ، يجب أن نضع حجمًا أكبر وأكبر ، حيث تصبح السيرة الذاتية أصغر وأصغر.

يظهر الخيار F (الترددات) عند تحديد مسافة أقصى احتمال. تتطلب هذه المسافة تزويد البرنامج بترددات التوازن للقواعد الأربعة A و C و G و T (أو U). إعداده الافتراضي هو الذي قد يوفر الكثير من الوقت للمستخدمين. إذا كنت تريد استخدام الترددات التجريبية للقواعد ، التي تمت ملاحظتها في تسلسل الإدخال ، كترددات أساسية ، فأنت ببساطة تستخدم الإعداد الافتراضي لخيار F. هذه الترددات التجريبية ليست في الحقيقة أقصى تقديرات احتمالية للترددات الأساسية ، لكنها غالبًا ما تكون قريبة من تلك القيم (ما هي تقديرات الاحتمالية القصوى في ظل سلالة "نجمية" أو "انفجار"). إذا قمت بتغيير إعداد الخيار F ، فستتم مطالبتك بترددات القواعد الأربع. يجب إضافة هذه إلى 1 ويجب كتابتها في سطر واحد مفصول بفواصل وليس بفواصل.

لا يمثل الخيار T في هذا البرنامج Threshold ، ولكنه بدلاً من ذلك هو خيار Transition / transversion. يُطلب من المستخدم إدخال رقم حقيقي أكبر من 0.0 ، مثل النسبة المتوقعة للانتقالات إلى عمليات الاستبدال. لاحظ أن هذه ليست نسبة النوع الأول إلى النوع الثاني من الأحداث ، ولكن النسبة المتوقعة الناتجة من التحولات إلى عمليات الاستبدال. تعتمد العلاقة الدقيقة بين هاتين الكميتين على الترددات في المجمعات الأساسية. القيمة الافتراضية للمعلمة T إذا لم تستخدم الخيار T هي 2.0.

الخيار C (الفئات) هو الخيار الذي يصنف معدلات الاستبدال النسبية في مواقع مختلفة. يتم تنظيم المواقع في ما يصل إلى تسع فئات. من المفترض أن تحدد معدلات الاستبدال النسبية في هذه الفئات. يطلب منك خيار الفئة تحديد عدد الفئات التي يجب أن تكون (بحد أقصى 9) ثم إدخال معدلات التغيير النسبية في الفئات ، كأرقام حقيقية غير سالبة مكتوبة على نفس السطر مفصولة بفراغات وليس فواصل . إذا لم تستخدم الخيار C ، فهناك فئة سارية المفعول ذات معدل 1.0.

بالإضافة إلى هذا السطر ، يتطلب استخدام الخيار C معلومة واحدة تربط المواقع بالفئات. هذا هو سطر واحد أو أكثر ، يتم وضعه بعد السطر الأول لملف الإدخال ، وأيضًا بعد الأسطر التي تحتوي على الأوزان ، إن وجدت ، ولكن قبل التسلسلات. يتكون من سطر يتم تجاهل أحرفه الأولى ، حتى يتم الوصول إلى الحد الأقصى لطول اسم النوع (لذلك من الملائم ، إذا كانت أسماء الأنواع بحد أقصى عشرة أحرف كما هو الحال في البرنامج كما هو موزع ، لوضع الفئات في الأول عشرة أحرف من هذا السطر ، فقط لتذكير نفسك بما هو). يحتوي السطر بعد ذلك على أرقام فردية (من 1 إلى 9) تشير إلى الفئة التي يوجد بها كل موقع. يمكن أن تستمر المعلومات في سطر جديد في أي وقت في منتصف هذه الأرقام. على سبيل المثال ، قد يقرأ السطر: (هذا مثال يتخيل خمس فئات لمواضع الكودون الثلاثة ومواضع intron ومواضع التسلسل المرافقة). قد يتم إسقاط موقع ما من التحليل بوضعه في فئة ذات معدل مرتفع للغاية من التغيير المتوقع.

يحدد الخيار L أن الملف الناتج يجب أن يكون له مصفوفة المسافة في شكل مثلث منخفض.

يتم استدعاء خيار W (الأوزان) بالطريقة المعتادة ، مع السماح فقط بالوزن 0 و 1. يختار مجموعة من المواقع ليتم تحليلها ، متجاهلاً الآخرين. المواقع المحددة هي تلك التي لها وزن 1. إذا لم يتم استدعاء الخيار W ، فسيتم تحليل جميع المواقع.

تنسيق الإخراج

أثناء حساب المسافات ، يقوم البرنامج بطباعة على شاشتك أو إنهاء أسماء الأنواع بدورها ، متبوعة بنقطة واحدة (".") لكل نوع آخر تم حساب المسافة إلى تلك الأنواع من أجلها. وبالتالي ، إذا كان هناك عشرة أنواع ، تتم طباعة اسم النوع الأول ، متبوعًا بتسع نقاط ، ثم في السطر التالي ، تتم طباعة اسم النوع التالي متبوعًا بثماني نقاط ، ثم التالي متبوعًا بسبع نقاط ، وهكذا. يجب أن يشكل نمط النقاط مثلثًا. عند كتابة مصفوفة المسافة في ملف الإخراج ، يتم إخطار المستخدم بذلك.

يحتوي ملف الإخراج في السطر الأول على عدد الأنواع. يتم بعد ذلك طباعة مصفوفة المسافة في شكل قياسي ، حيث يبدأ كل نوع في سطر جديد باسم الأنواع ، متبوعًا بالمسافات إلى الأنواع بالترتيب. تستمر هذه في خط جديد بعد كل تسع مسافات. إذا تم استخدام الخيار L ، فإن المصفوفة أو المسافات تكون في شكل مثلث منخفض ، بحيث تتم طباعة المسافات إلى الأنواع الأخرى التي تسبق كل نوع. وبخلاف ذلك ، تكون مصفوفة المسافة مربعة مع مسافات صفرية على القطر. بشكل عام ، يكون تنسيق مصفوفة المسافات بحيث يمكن أن يكون بمثابة مدخلات في أي من برامج مصفوفة المسافات.

إذا تم تحديد خيار طباعة البيانات ، فسوف يسبق ملف الإخراج البيانات بمزيد من المعلومات الكاملة حول الإدخال وتحديد القائمة. يبدأ ملف الإخراج بإعطاء عدد الأنواع وعدد الأحرف ، وهوية مقياس المسافة الذي يتم استخدامه.

إذا تم استخدام الخيار C (الفئات) ، تتم طباعة جدول بالمعدلات النسبية للاستبدال المتوقع في كل فئة من المواقع ، وقائمة بالفئات الموجودة في كل موقع.

ثم تتبع ترددات التوازن للقواعد الأربعة. إذا تم استخدام مسافات Jukes-Cantor أو Kimura ، فستكون بالضرورة 0.25: 0.25: 0.25: 0.25. يُظهر الإخراج بعد ذلك نسبة الانتقال / التحويل التي تم تحديدها أو استخدامها افتراضيًا. في حالة مسافة Jukes-Cantor ، سيكون هذا دائمًا 0.5. تتم أيضًا طباعة معلمة الانتقال-التحويل (على عكس النسبة): تُستخدم داخل البرنامج ويمكن تجاهلها. ثم تتبع تسلسل البيانات ، مع طباعة التسلسلات الأساسية في مجموعات من عشر قواعد على طول خطوط تنسيقي Genbank و EMBL.

يتم قياس المسافات المطبوعة من حيث الأعداد المتوقعة من الاستبدالات ، مع احتساب كل من التحولات والاستبدالات ولكن ليس بدائل القاعدة في حد ذاتها ، وقياسها بحيث يتم تعيين متوسط ​​معدل التغيير ، المتوسط ​​على جميع المواقع التي تم تحليلها ، على 1.0 إذا كان هناك هي فئات متعددة من المواقع. هذا يعني أنه سواء كانت هناك فئات متعددة من المواقع أم لا ، فإن جزء التغيير المتوقع للفروع الصغيرة جدًا يساوي طول الفرع. بالطبع ، عندما يبلغ طول الفرع ضعف طوله ، فإن هذا لا يعني أنه سيكون هناك ضعف صافي التغيير المتوقع على طوله ، نظرًا لأن بعض التغييرات قد تحدث في نفس الموقع وتتراكب أو حتى تنعكس. تقديرات أطوال الفروع هنا هي من حيث الأرقام الأساسية المتوقعة للتغييرات. هذا يعني أن الفرع الذي يبلغ طوله 0.26 هو 26 ضعف طول الفرع الذي سيظهر فرقًا بنسبة 1٪ بين متواليات النيوكليوتيدات في بداية الفرع ونهايته. لكننا لا نتوقع أن تكون التسلسلات في بداية الفرع ونهايته مختلفة بنسبة 26٪ ، حيث سيكون هناك بعض التراكب في التغييرات.

إحدى المشكلات التي يمكن أن تنشأ هي أن نوعين أو أكثر يمكن أن يكونا مختلفين لدرجة أن المسافة بينهما يجب أن تكون لانهائية ، حيث ترتفع الاحتمالية إلى أجل غير مسمى مع زيادة وقت الاختلاف المقدر. على سبيل المثال ، مع نموذج Jukes-Cantor ، إذا كان التسلسلان يختلفان في 75٪ أو أكثر من مواضعهما ، فإن تقدير وقت الانحراف سيكون لانهائيًا. نظرًا لعدم وجود طريقة لتمثيل مسافة لا نهائية في ملف الإخراج ، يعتبر البرنامج هذا خطأ ، ويصدر رسالة خطأ تشير إلى أي زوج من الأنواع يسبب المشكلة ، ويتوقف. قد يكون الأمر كذلك ، لو استمر في الجري ، لكان قد واجه أيضًا نفس المشكلة مع أزواج أخرى من الأنواع. إذا تم استخدام مسافة Kimura ، فقد لا تكون هناك رسالة خطأ ، فقد يعطي البرنامج ببساطة قيمة مسافة كبيرة (إنه يتكرر نحو اللانهاية والقيمة هي المكان الذي توقف فيه التكرار فقط). وبالمثل ، قد تصبح بعض تقديرات الاحتمالية القصوى كبيرة أيضًا لنفس السبب (تظهر التسلسلات تباعدًا أكبر مما هو متوقع حتى مع طول الفرع اللانهائي). آمل في المستقبل إضافة المزيد من رسائل التحذير التي من شأنها أن تنبه المستخدم إلى هذا.

ثوابت البرنامج

الثوابت المتاحة لتغييرها من قبل المستخدم في بداية البرنامج تشمل "maxcategories" ، الحد الأقصى لعدد فئات الموقع ، "التكرارات" ، التي تتحكم في عدد المرات التي يكرر فيها البرنامج خوارزمية EM المستخدمة للقيام أقصى مسافة احتمالية ، "طول الاسم" ، طول أسماء الأنواع بالأحرف ، و "إبسيلون" ، وهي معلمة تتحكم في دقة نتائج التكرارات التي تقدر المسافات. سيؤدي تصغير "epsilon" إلى زيادة أوقات التشغيل ولكنه ينتج عنه مزيد من الدقة في المنازل العشرية. هذا لا ينبغي أن يكون ضروريا.

يقضي البرنامج معظم وقته في إجراء العمليات الحسابية الحقيقية. أي تغييرات في البرامج أو الأجهزة تعمل على تسريع هذا الحساب ستؤدي إلى تسريعها بمقدار متناسب تقريبًا. على سبيل المثال ، الحواسيب الصغيرة التي لها معالج مشترك رقمي (مثل 8087 أو 80287 أو 80387 رقاقة) ستشغل هذا البرنامج أسرع بكثير من تلك التي لا تفعل ذلك ، إذا استدعاه البرنامج. الخوارزمية ، مع عمليات حسابية منفصلة ومستقلة تحدث لكل نمط ، تفسح المجال بسهولة للمعالجة المتوازية.


نموذج كيمورا

تنقسم قواعد النوكليوتيدات إلى فئتين اعتمادًا على البنية الحلقية للقاعدة.

  • البيورينات: A أو G (هذه قاعدتان حلقيتان)
  • Pyrimidines: C أو T (هذه قواعد حلقة مفردة)

الطفرات في الحمض النووي هي تغييرات يتم فيها استبدال قاعدة بأخرى.

تسمى الطفرة التي تحافظ على رقم الحلقة الانتقال (على سبيل المثال ، A - & gt G أو G - & gt A أو T - & gt C أو C - & gt T).

تسمى الطفرة التي تغير رقم الحلقة التحويل. (على سبيل المثال A - & gt C، A - & gt T، C - & gt G، إلخ.).

عدد التحولات التي لوحظ حدوثها في الطبيعة (أي عند مقارنة تسلسلات الحمض النووي ذات الصلة) هي على الأقل 3 مرات أكثر تكرارًا من عدد عمليات الاستبدال.

يدمج نموذج Kimura & # 8217s Two-Parameter هذه المعدلات المختلفة للتحولات والاستعراضات.

يوفر نموذج كيمورا ذو المعلمتين طريقة لاستنتاج المسافة التطورية التي يتم فيها التعامل مع التحولات والاستعراضات بشكل منفصل باستخدام P وهو جزء من مواضع التسلسل التي تختلف عن طريق الانتقال و Q هو جزء من مواضع التسلسل التي تختلف عن طريق التحويل. هذا نموذج أكثر تعقيدًا حيث يُفترض أن تكون معدلات الطفرات للتحولات والتحول مختلفة ، وهو أكثر واقعية. وفقًا لهذا النموذج ، تحدث التحولات بشكل متكرر أكثر من عمليات الاستعرض ، مما يوفر تقديرًا أكثر واقعية للمسافات التطورية. يستخدم نموذج Kimura الصيغة التالية:

dAB = - (1/2) ln (1−2pti - ptv) - (1/4) ln (1−2ptv)

حيث dAB هي المسافة التطورية بين التسلسل A و B (المفترض) ، pti هو التردد المرصود للانتقال ، و ptv هو تردد التحويل. يمكن توضيح مثال على استخدام نموذج Kimura من خلال مقارنة التسلسل A و B اللذان يختلفان بنسبة 30٪. إذا كانت 20٪ من التغييرات نتيجة للتحولات و 10٪ من التغييرات كانت نتيجة عمليات الاستبدال ، فيمكن حساب المسافة التطورية باستخدام المعادلة 1:

dAB = - 1/2 ln (1−2 × 0.2−0.1) −1/4 ln (1−2 × 0.1) = 0.40

تم إعطاء معادلة أكثر عمومية بواسطة Nei في عام 1991. إنها التصحيح العام. تحمل معادلتها نموذج بدائل النوكليوتيدات بمعدلات إحلال متساوية بين النيوكليوتيدات المختلفة ولا تأخذ في الاعتبار معدلات الاستبدال غير المتكافئة بين أزواج النيوكليوتيدات المختلفة.

في حالة وجود عدد قليل نسبيًا من البدائل ، يكون عدد الاستبدال كافيًا عادةً.

من المفترض أن تحدث التحولات بمعدل موحد (أ) وعمليات استقلاب بمعدل موحد مختلف ب

في أي وقت (t) في المستقبل ، يتم تحديد احتمال احتواء الموقع على C بواسطة

من خلال التلاعب بهذه المعادلة ، يمكننا اشتقاق المعادلة التالية للتحديد ك:

ص هي جزء النيوكليوتيدات الذي يكشف العد البسيط أنه انتقالات و س هي جزء النيوكليوتيدات الذي يظهره العد البسيط على أنه تحولات. إذا لم يتم التمييز بين التحولات والاستعراضات ، فإن هذه المعادلة تختزل إلى معادلة Jukes-Cantor البسيطة.


ترددات النوكليوتيدات في نموذج كيمورا ذو المعلمتين - علم الأحياء

نماذج تطور الشخصية

أ نموذج هو تمثيل تجريدي للواقع. يمكن استخدامها لربط البيانات بفرضية ما ، أو (بعبارة أخرى) يمكن استخدامها للمساعدة في توفير سياق للبيانات. للنماذج استخدامات عديدة في العلوم ، لكنها بشكل عام تسمح للعالم بإدراك الأنماط في البيانات التي من شأنها أن تكون فوضوية للغاية بحيث لا يمكن فهمها ، وتوليد بيانات تركيبية بخصائص تحاكي تلك الموجودة في البيانات الحقيقية.

نماذج متداخلة شائعة الاستخدام لتطور تسلسل الحمض النووي

يفترض أن جميع النيوكليوتيدات موجودة بترددات متساوية

يفترض احتمالات متساوية لجميع بدائل النوكليوتيدات الممكنة

إذا كان معدل الطفرة ش، ثم مع 4 نيوكليوتيدات ، فإن احتمالات الاستبدال هي (4/3)ش.

في كل وحدة زمنية ، dt ، يكون احتمال عدم وقوع أي حدث

يفترض أن جميع النيوكليوتيدات موجودة بترددات متساوية

تردد النوكليوتيدات

نسبة التحول والانتقال

الوقت العام قابل للعكس

المتغيرات الإضافية

ما هي المعلمة؟

تقدير المعلمة

في سياق الاحتمالية ، يمكن تغيير النموذج والفرضية

وبالتالي يمكن للمرء استخدام الاحتمالية لتقدير قيم المعلمات بالإضافة إلى طوبولوجيا الشجرة

من الأسرع عمومًا تثبيت طوبولوجيا الشجرة وتحديد المعلمات من هذا

نظرًا لأن المعلمات لا تختلف اختلافًا كبيرًا بين الأشجار المتشابهة ، فمن الآمن عادةً تقدير المعلمات على أي شجرة معقولة

غالبًا ما يُثار القلق من أن هذا الشكل من تقدير المعلمات يتضمن تفكيرًا دائريًا.

هذا هو قلق مشروع.

ومع ذلك ، فإن تقدير المعلمات والبحث في الهيكل هما جزء من عملية شاملة للتحسين الشامل.

وبالتالي فإن الشاغل الحقيقي هو أن تقدير المعلمة سيؤدي إلى المستوى الأمثل المحلي وليس العالمي.

يمكن أيضًا إعادة تقدير المعلمات لكل شجرة يتم تقييمها ، ولكن هذا سيكون بطيئًا للغاية.

لاستكشاف هذه المخاوف ، يجب أن تحاول إجراء تقدير المعلمات بدءًا من مجموعة متنوعة من طبولوجيا الأشجار.

يمكن للمرء أيضًا تقدير المعلمات على & quotstar & quot نسالة (شجرة لم يتم حلها بالكامل) ، من مصفوفة المسافة ، أو عن طريق محاكاة مونت كارلو.

نماذج من موقع إلى موقع معدل الاختلاف

نموذج المواقع الثابتة نموذج DNArates

توزيع جاما

مواقع ثابتة + جاما

الافتراضات بطرق البخل

أ ج جي تي
أ -3 أ أ أ أ
ج أ -3 أ أ أ
جي أ أ -3 أ أ
تي أ أ أ -3 أ

أ ج جي تي
أ - أ -2 ب ب أ ب
ج ب - أ -2 ب ب أ
جي أ ب - أ -2 ب ب
تي ب أ ب - أ -2 ب

Hasegawa، Kishino، Yano 1985 (HKY85)

أ ج جي تي
أ -m (kp G + p ص ) النائب ج مكب ج النائب تي
ج النائب أ -m (kp تي+ ص ص النائب G مكب ت
جي mkp أ النائب ج -m (kp أ+ ص ص النائب ت
تي النائب أ مكب ج النائب G -m (kp ج+ ص ص

حيث أ = م ، ب = م ك ، ص ص = p A + p G و p ص = ص ج + ص ت

أمثلة

ضع في اعتبارك تسلسلين مترابطين بعيدًا:

د س ص = 1- (أ + و + ك + ع) = 1- (0.1 + 0.1 + 0.1 + 0.1) = 0.60

ه هو أساس اللوغاريتمات الطبيعية ، وهو حد الدالة الأسية عندما يكون z = 1. وهو أساس اللوغاريتمات الطبيعية.

توزيع بواسون هو تقريب للتوزيع ذي الحدين ، وهو مناسب للاستخدام في الحالات التي تكون فيها احتمالات وقوع حدث ما صغيرة ، ولكن هناك العديد من الفرص لحدوث ذلك حتى.


ترددات النوكليوتيدات في نموذج كيمورا ذو المعلمتين - علم الأحياء

عيب مهم لمعظم هذه النماذج هو أنها لا تأخذ في الاعتبار الاختلافات في معدل الاستبدال بين مواقع الجزيء (انظر المزيد).

يعد نموذج الاستبدال الخاص بـ Jukes and Cantor ، والذي يُطلق عليه أيضًا نموذج المعلمة الواحدة ، أبسط نموذج متاح لتقدير عدد بدائل النوكليوتيدات لكل موقع وربما لا يزال الأكثر استخدامًا.

    قدم Kimura (1980) طريقة لاستنتاج المسافة التطورية التي يتم فيها التعامل مع التحولات والاستعراضات بشكل منفصل:
    حيث P هي جزء من مواضع التسلسل التي تختلف عن طريق الانتقال و Q هي جزء من مواضع التسلسل التي تختلف عن طريق التحويل.
    في التصحيح العام لـ Tajima و Nei (1984) ، تم تقدير المسافة التطورية من خلال:
    أين
    و f i هو تردد النوع i من النوكليوتيدات الذي ينتمي إلى مجموعة أنواع النيوكليوتيدات المحتملة N (= A أو G أو C أو U أو T) في التسلسلات التي تتم مقارنتها. تنطبق هذه المعادلة على نموذج بدائل النوكليوتيدات بمعدلات إحلال متساوية بين النيوكليوتيدات المختلفة ولا تأخذ في الاعتبار معدلات الاستبدال غير المتكافئة بين أزواج النيوكليوتيدات المختلفة (تاجيما وني ، 1984). في TREECON ، يكون التركيب الأساسي المحسوب هو المتوسط ​​لجميع التسلسلات التي تم تحليلها (كما هو مقترح في Swofford et al. ، 1996). إذا كانت الترددات 0.25 لجميع النيوكليوتيدات الأربعة ، فإن هذه المعادلة تساوي واحدة من Jukes و Cantor.

    تبدأ جميع مقاييس المسافة السابقة من افتراض أن معدل استبدال النوكليوتيدات هو نفسه لجميع مواقع النيوكليوتيدات. ومع ذلك ، في التسلسلات الحقيقية ، نادرًا ما يصح هذا الافتراض (انظر المزيد). تشير دراسات مختلفة إلى أن معدل استبدال النوكليوتيدات يختلف تقريبًا وفقًا لتوزيع جاما (انظر Uzzell and Corbin، 1971 Jin and Nei، 1990 Nei، 1991). يتم تحديد توزيع غاما هذا بواسطة معلمة a وهو مربع معكوس معامل الاختلاف في معدل الاستبدال (Nei ، 1991).

بالنسبة لنموذج المعلمة الواحد Jukes and Cantor ، يتم حساب المسافة على النحو التالي (Jin and Nei ، 1990):

    تم تطوير خوارزمية Galtier and Gouy (1995) لتقدير المسافات التطورية دون افتراض تجانس أو ثبات العملية التطورية. يجب أن يكون تقدير المسافة هذا مفيدًا لتحليلات النشوء والتطور عند ملاحظة التحيزات التركيبية في البيانات. يتم أخذ عاملين في الاعتبار: نسبة الانتقال / التحويل ومحتوى G + C.

يُعطى تقدير المعلمة a بمتوسط ​​قيم a (A ، B) لجميع أزواج التسلسل. يستخدم هذا التقدير لجميع حسابات المسافة الزوجية. في TREECON ، يتم تقدير نسبة الانتقال / التحويل قبل بدء الحساب الفعلي للمسافات التطورية. نظرًا لأن هذه القيمة تستند إلى جميع المقارنات الزوجية ، فإن هذا في الواقع يضاعف الوقت اللازم لتقدير المسافات بين التسلسلات. في تحليل التمهيد ، يتم حساب نسبة الانتقال / التحويل مرة واحدة فقط ، بناءً على مجموعة التسلسلات الفعلية.


تطور الحمض النووي كسلسلة ماركوف المستمرة

سلاسل ماركوف المستمرة

وقت مستمر سلاسل ماركوف لها مصفوفات الانتقال المعتادة والتي ، بالإضافة إلى ذلك ، معلمات حسب الوقت ، . على وجه التحديد ، إذا هي الدول ، ثم مصفوفة الانتقال

حيث كل إدخال فردي ، يشير إلى احتمال تلك الحالة سوف يتغير إلى حالة في الوقت المناسب .

مثال: نود أن نصمم عملية الاستبدال في تسلسل الحمض النووي (بمعنى آخر. جوكس كانتور ، كيمورا ، إلخ.) بشكل مستمر. ستبدو مصفوفات الانتقال المقابلة كما يلي:

حيث تتوافق الكتل العلوية اليسرى والسفلية اليمنى 2 × 2 احتمالات الانتقال وتتوافق الكتل العلوية اليمنى والسفلية اليسرى 2 × 2 مع احتمالات التحويل.

افتراض: إذا في وقت ما ، سلسلة ماركوف في حالة جيدة ، ثم احتمال ذلك في وقت ، سيكون في الحالة يعتمد فقط على , و . هذا يسمح لنا بعد ذلك بكتابة هذا الاحتمال كـ .

النظرية: مصفوفات الانتقال المستمر تفي بما يلي:

ملحوظة: يوجد هنا خلط محتمل بين معنيين للكلمة انتقال. (ط) في سياق سلاسل ماركوف، الانتقال هو المصطلح العام الذي يشير إلى التغيير بين الدولتين. (2) في سياق تغيرات النوكليوتيدات في تسلسل الحمض النووي، الانتقال هو مصطلح محدد يشير إلى التبادل بين البيورينات (A ↔ G) أو البيورينات (C ↔ T) (لمزيد من التفاصيل ، راجع المقالة حول التحولات في علم الوراثة). على النقيض من ذلك ، فإن التبادل بين البيورين و بيريميدين يسمى atransversion.

اشتقاق ديناميات الاستبدال

ضع في اعتبارك تسلسل الحمض النووي بطول ثابت م تتطور في الوقت المناسب عن طريق الاستبدال الأساسي. افترض أن العمليات التي يتبعها م المواقع ماركوفيان مستقلة وموزعة بشكل متماثل وثابتة في الوقت المناسب. لموقع ثابت ، اسمحوا

يكون متجه العمود لاحتمالات الدول و في الوقت . يترك

كن فضاء الدولة. لشخصين متميزين

، يترك

يكون معدل الانتقال من الدولة للدولة . وبالمثل ، لأي ، يترك:

التغييرات في توزيع الاحتمالات لفترات زمنية صغيرة يتم تقديمها بواسطة:

بمعنى آخر (في اللغة المتكررة) ، تكرار في الوقت المناسب يساوي التردد في الوقت المناسب مطروحًا منه تردد ضائع بالإضافة إلى تواتر حديثة الانشاء 'س.

وبالمثل بالنسبة للاحتمالات . يمكننا كتابة هذه بشكل مضغوط على النحو التالي:

أين ، /> هو ملف معدل مصفوفة. لاحظ أن أعمدة /> مجموعها صفر بحكم التعريف.

ارجوديس

إذا كانت جميع احتمالات الانتقال ، إيجابية ، بمعنى آخر. إذا كانت كل الدول نقل, then the Markov chain has a stationarydistribution where each is the proportion of time spent in state after the Markov chain has run for infinite time, and this probability does not depend upon the initial state of the process. Such a Markov chain is called, ergodic. In DNA evolution, under the assumption of a common process for each site, the stationary frequencies, correspond to equilibrium base compositions.

تعريف A Markov process is stationary if its current distribution is the stationary distribution, بمعنى آخر.

Thus, by using the differential equation above:

Time reversibility

تعريف: A stationary Markov process is time reversible if (in the steady state) the amount of change from state إلى is equal to the amount of change from إلى , (although the two states may occur with different frequencies). This means that:

Not all stationary processes are reversible, however, almost all DNA evolution models assume time reversibility, which is considered to be a reasonable assumption.

Under the time reversibility assumption, let , then it is easy to see that:

تعريف The symmetric term is called the exchangeability between states و . بعبارة أخرى، is the fraction of the frequency of state that results as a result of transitions from state to state .

Corollary The 12 off-diagonal entries of the rate matrix, (note the off-diagonal entries determine the diagonal entries, since the rows of sum to zero) can be completely determined by 9 numbers these are: 6 exchangeability terms and 3 stationary frequencies , (since the stationary frequencies sum to 1).

Scaling of branch lengths

By comparing extant sequences, one can determine the amount of sequence divergence. This raw measurement of divergence provides information about the number of changes that have occurred along the path separating the sequences. The simple count of differences (the Hamming distance) between sequences will often underestimate the number of substitution because of multiple hits (seehomoplasy). Trying to estimate the exact number of changes that have occurred is difficult, and usually not necessary. Instead, branch lengths (and path lengths) in phylogenetic analyses are usually expressed in the expected number of changes per site. The path length is the product of the duration of the path in time and the mean rate of substitutions. While their product can be estimated, the rate and time are not identifiable from sequence divergence.

The descriptions of rate matrices on this page accurately reflect the relative magnitude of different substitutions, but these rate matrices are ليس scaled such that a branch length of 1 yields one expected change. This scaling can be accomplished by multiplying every element of the matrix by the same factor, or simply by scaling the branch lengths. If we use the β to denote the scaling factor, and ν to denote the branch length measured in the expected number of substitutions per site then βν is used the transition probability formulae below in place of μر. Note that ν is a parameter to be estimated from data, and is referred to as the branch length, while β is simply a number that can be calculated from the rate matrix (it is not a separate free parameter).

The value of β can be found by forcing the expected rate of flux of states to 1. The diagonal entries of the rate-matrix (the س matrix) represent -1 times the rate of leaving each state. For time-reversible models, we know the equilibrium state frequencies (these are simply the πأنا parameter value for state أنا). Thus we can find the expected rate of change by calculating the sum of flux out of each state weighted by the proportion of sites that are expected to be in that class. Setting β to be the reciprocal of this sum will guarantee that scaled process has an expected flux of 1:

For example, in the Jukes-Cantor, the scaling factor would be 4/(3μ)' because the rate of leaving each state is 3μ/4.


المواد والأساليب

Data acquisition

Fourteen data sets were obtained in Fasta format from project pages on Bold . These data sets comprised large studies of relatively well-known taxonomic groups including butterflies ( Hajibabaei وآخرون. 2006 Lukhtanov وآخرون. 2009 Dincăوآخرون. 2011 ), birds ( Kerr وآخرون. 2009a, b, 2007 Johnsen وآخرون. 2010 ), fishes ( Ward وآخرون. 2005 Hubert وآخرون. 2008 Rasmussen وآخرون. 2009 Wong وآخرون. 2009 Steinke وآخرون. 2009a,b ) and bats ( Francis وآخرون. 2010 ). Well known faunas were chosen to minimise discrepancies between the molecular data and taxonomy. Bold sequence identifiers (taxon names) were trimmed using regular expressions to include only GenBank accession number and taxonomic identification (species name). Alignment was carried out by Bold , followed by visual editing using translated amino acids in Mega 4 ( Tamura وآخرون. 2007 ).

Species-level model selection

To test whether the K2P is a well-fitting model at the species level, each data set was split into species using the Ape package ( Paradis وآخرون. 2004 ) for R ( R Development Core Team 2010 ), with species delimited by their unique binomials. The individual species data were exported in Nexus format, and species with less than five individuals were excluded to represent a data set of at least an average intraspecific sample size ( Ward وآخرون. 2009 ). Using nested Unix shell scripts, the program jModelTest was run as a batch process for each species in each data set, producing a corresponding jModelTest output file. All 11 substitution schemes were tested ( Posada 2008 ), along with base frequency and rate variation options (total 44 models). An invariant sites parameter was not included, as species comprising a single haplotype could not be optimised under this setting in jModelTest. The model frequencies and AIC weights for the best and K2P models were extracted from the jModelTest output files using shell commands.

Difference between K2P and best model

To test how different intraspecific K2P distances are from best-model distances, we first used batch processes in Paup * ( Swofford 2003 ) to calculate pairwise comparisons under standard K2P distance settings ( distance = K2P ). Next, estimations for the best model were generated as maximum likelihood (ML) distances ( distance = ml ), with likelihood settings derived from jModelTest's Paup * block output. Shell scripting was used to manipulate corresponding likelihood settings from the jModelTest output into the Nexus file for each species, before initiating Paup * as a concatenated batch process. K2P distances were then subtracted from best-model estimates for each pairwise comparison. For this analysis using Paup *, the pairwise deletion option for missing data was used ( missdist = ignore ), and undefined distances were set to ‘NA’ ( undefined = asterisk ) all other settings were default. Except for K2P, abbreviated nomenclature of models follows Posada (2008) the K2P model is referred to as the K80 model by this author.

Identification success

To test the influence of model selection on identification success rate, both intraspecific and interspecific values were required, so distances were generated from the undivided data sets, which also included the previously excluded species with less than five individuals. To illustrate the effects of different substitution schemes, we used a selection of standard ‘off the shelf’ models in Paup *, offering a variety of parameterisations from simple to complex: JC, F81, K2P, TrN, HKY, HKY+Γ and GTR+Γ. Gamma shape values were derived from jModelTest. We measured identification success rates using the ‘best close match’ criterion of Meier وآخرون. (2006) , but also see Ross وآخرون. (2008) and Austerlitz وآخرون. (2009) for additional comparisons including tree-based methods. For the ‘best close match’, a conspecific nearest neighbour (ك = 1) within a threshold per cent value was recorded as a ‘correct’ identification a non-conspecific nearest neighbour within the threshold was an ‘incorrect’ identification more than one equally close species (including the correct species) within the threshold was ‘ambiguous’ and no match within the threshold was reported as a ‘no identification’. The threshold was initially set at the 1% value, as used by the Bold identification engine ( Ratnasingham & Hebert 2007 ), but because threshold values are likely to be contingent upon the models they are generated under, we also optimised new thresholds for each model and data set. This optimisation procedure minimises false-positive (no matches within x of query) and false-negative (more than one species match within x of query) errors for a range of threshold values (0·2–5·0% in 0·2% increments). To assess the effect of model selection on magnitude of the barcoding gap, both maximum intraspecific and minimum interspecific distances were calculated ( Meier وآخرون. 2008 ), with the barcoding gap expressed as minimum interspecific distance divided by maximum intraspecific distance singletons were not considered for intraspecific variation, and intraspecific values of zero were replaced with a value of 0.001536098 (corresponding to a single nucleotide change over 651 bp). Analyses were carried out in R using the DNA barcoding package Spider ( Brown وآخرون. in press Paradis وآخرون. 2004 ).


Nucleotide Substitution

This simulation illustrates the true and estimated divergence between two DNA sequences based on an explicit model of mutational change.

The input parameters are the two transition rates and the four possible transversion rates along with equilibrium nucleotide frequencies. These are the parameters that make up a nucleotide substitution model. The Example model parameters radio buttons set all of the model parameters at once to correspond to one of the commonly used nucleotide substitution models. For example, The JC69 button will set all four base frequencies to be equal and all six of the base change rates to be equal as assumed under that model.

The Jukes-Cantor of JC69 model assumes all types of substitutions occur at one rate, and that equilibrium base frequencies are all 25%. The Kimura 1980 or K80 model (also called the Kimura two parameter of K2P model) assumes that transitions and transversions occur at different rates, and that equilibrium base frequencies are all 25%. The Tamura 92 model is a special case of the K2P model, assuming different rates of transition and transversion but with equilibrium base frequencies that are unequal. The Tamura-Nei model assumes that two types of transitions occur at different rates, that all transversions have one rates, and that equilibrium base frequencies are unequal.

After setting the model parameters, press Run and view the graph. The x-axis is time while the y-axis is divergence (portion of sites diverged). One line in the plot shows apparent divergence or p-distance between two sequences. Compare this with the line showing the actual amount of divergence based on the total number of sites that have experienced substitutions in the two sequences. There are four nucleotide substitution model-corrected estimates of divergence: JC69, K80 or K2P, Tamura 92, and Tamura Nei 93. (Line styles in the plot vary by how the simulation is implemented - see the plot legend.)


Most Common Models of DNA Evolution

JC69 model (Jukes and Cantor, 1969)

JC69 is the simplest substitution model. There are several assumptions. It assumes equal base frequencies () and equal mutation rates. The only parameter of this model is therefore &mu , the overall substitution rate.

Distance between two sequences is given by

أين ص is the proportion of sites that differ between the two sequences.

K80 model (Kimura, 1980)

Distinguish between Transition(A G within purines or T C within pyrimidines) and Transversion(between purines and pyrimidines) (&alpha/&beta)

Equal base frequencies ()

Rate matrix

The Kimura two-parameter distance is given by:

أين ص is the proportion of sites that show transitional differences and س is the proportion of sites that show transversional differences.

F81 model (Felsenstein 1981)

Unequal base frequencies ()

Rate matrix

HKY85 model (Hasegawa, Kishino and Yano 1985)

Distinguish between Transition and Transversion (&alpha/&beta)

Unequal base frequencies ()

Rate matrix

T92 model (Tamura 1992)

One frequency only &piجيج


Rate matrix

The evolutionary distance between two noncoding sequences according to this model is given by

أين ح = 2&theta(1 &minus &theta) where is the GC content.

TN93 model (Tamura and Nei 1993)

Distinguish between two different types of Transition (A G) is different to (C T)

Unequal base frequencies ()

Rate matrix

GTR: Generalised time reversible

GTR is the most general neutral, independent, finite-sites, time-reversible model possible. It was first described in a general form by Simon Tavaré in 1986.

The GTR parameters consist of an equilibrium base frequency vector, &Pi = (&pi1&pi2&pi3&pi4) , giving the frequency at which each base occurs at each site, and the rate matrix

Therefore, GTR (for four characters, as is often the case in phylogenetics) requires 6 substitution rate parameters, as well as 4 equilibrium base frequency parameters. However, this is usually eliminated down to 9 parameters plus &mu , the overall number of substitutions per unit time. When measuring time in substitutions ( &mu =1) only 9 free parameters remain.

In general, to compute the number of parameters, you count the number of entries above the diagonal in the matrix, i.e. for n trait values per site , and then add ن for the equilibrium base frequencies, and subtract 1 because &mu is fixed. You get

For example, for an amino acid sequence (there are 20 "standard" amino acids that make up proteins), you would find there are 209 parameters. However, when studying coding regions of the genome, it is more common to work with a codon substitution model (a codon is three bases and codes for one amino acid in a protein). There are 4 3 = 64 codons, but the rates for transitions between codons which differ by more than one base is assumed to be zero. Hence, there are parameters.


شاهد الفيديو: أكتشاف تركيب الجين بأستخدام الـ Graphical View (يونيو 2022).


تعليقات:

  1. Shazahn

    فكرة قيمة للغاية

  2. Lun

    ليس دائما ، وأحيانا حتى قبل =)

  3. Haslett

    النزول إلى العمل ، وليس أي هراء.



اكتب رسالة