
Полная версия
Математические модели в естественнонаучном образовании. Том II
Примечание: Методы решения такого рода проблем являются предметом следующих разделов.
5.2. Построение дерева дистанционными методами UPGMA и FM
При построении филогенетического дерева таксоны, которые хотим связать, обычно являются теми, которые живут в настоящее время. Есть информация, такая как последовательности ДНК, от терминальных таксонов и нет информации от тех, которые представлены внутренними вершинами. В действительности, даже не знаем, какие внутренние вершины должны существовать, потому что не знаем даже топологию дерева.
Первым классом методов построения филогенетических деревьев, которые обсудим, являются дистанционные методы. Они пытаются построить дерево, используя информацию, которая предположительно описывает общие расстояния между терминальными таксонами вдоль дерева.
Чтобы понять, как получить эти расстояния, представьте, что пытаемся найти эволюционные отношения четырех видов:




В зависимости от данных последовательности могли бы вместо этого принять другую модель подстановки оснований, что привело бы к использованию другой формулы расстояния, такой как в 2-параметрической модели Кимуры или логарифмическое расстояние. Несмотря на это, расстояние, которое вычисляем между последовательностями, считается мерой количества произошедших мутаций. Если бы эти расстояния были точной мерой количества произведенных мутаций, они бы соответствовали между конечными таксонами в найденном метрическом дереве.
Таблица 5.2. Расстояния между таксонами





.45 .27 .53

.40 .50

.62
На самом деле даже не ожидаем найти дерево, которое точно соответствует имеющимся данным; в конце концов, расстояния выводятся из данных последовательности и не должны быть точно правильными. Более того, метод вывода расстояний зависел от модели, которая включала дополнительные предположения, которые, безусловно, не встречаются в реальных организмах. Надеемся, однако, что построенное дерево не будет слишком чувствительно к такого рода ошибкам на больших расстояниях.
Первый метод, который рассматриваем, называется методом среднего расстояния или, более формально, невзвешенным парно-групповым методом с арифметическими средними (UPGMA). Этот метод создает корневое дерево и предполагает наличие молекулярных часов. Самый простой способ понять алгоритм – это ознакомиться с примером его использования.
По приведенной выше таблицы данных выберем два ближайших таксона,




Рисунок 5.6. UPGMA; шаг 1.
Затем объединяем










Таблица 5.3. Расстояния между групп; UPGMA, Шаг 1




.425 .575

.50
Теперь просто повторяем процесс, используя расстояния в таблице 5.3. Поскольку ближайшими таксонами и/или группами в новой таблице являются



Рисунок 5.7. UPGMA; шаг 2.
Ребро





Снова объединив таксоны, формируем группу














Рисунок 5.8. UPGMA; шаг 3.
Как и подозревали, дерево, которое построили для имеющихся данных, не совсем соответствует этим данным. Расстояние на дереве от




Если бы было больше таксонов, то пришлось бы сделать больше шагов для завершения процесса UPGMA, но не было бы никаких принципиально новых действий. На каждом шаге объединяем два ближайших таксона или группы вместе, всегда размещая их на равных расстояниях от общего предка. Затем сворачиваем объединенные таксоны в группу, используя усреднение для вычисления расстояния от этой группы до таксонов и групп, которые еще предстоит объединить. Один момент, с которым следует быть особенно осторожным, заключается в том, что при вычислении расстояний между двумя группами нужно усреднить все расстояния от членов одной группы до членов другой – если одна группа имеет



Обратите внимание, что предположение о молекулярных часах неявно присутствовала в UPGMA. В примере, когда поместили


Вторым рассмотрим алгоритм Фитча-Марголиаша. Этот метод немного сложнее, чем UPGMA, но основан на том же подходе. Тем не менее, попытаемся отказаться от предположения UPGMA о молекулярных часах.
Прежде чем изложить алгоритм, сделаем несколько математических наблюдений. Во-первых, если попытаемся поместить 3 таксона на некорневое дерево, то будет только одна топология, которую необходимо учитывать. Кроме того, для 3 таксонов можем назначить желаемые длины ребер, чтобы точно соответствовать данным. Чтобы убедиться в этом, рассмотрим дерево на рисунке 5.9. Если есть некоторые данные о расстоянии






Эти уравнения могут быть решены либо путем записи системы в виде матричного уравнения и нахождения обратной матрицы, либо путем подстановки формулы для одной переменной, полученной из одного уравнения, в другие. Любой способ гарантированно приведёт к следующему решению




Рисунок 5.9. Некорневое 3-таксонное дерево.
Будем называть эти формулы 3-точечными формулами для подгонки таксонов к дереву. К сожалению, с более чем 3 таксонами точная подгонка данных к дереву обычно невозможна. Однако алгоритм Фитча-Марголиаша (кратко называемый в таблицах как FM) использует случай 3 таксонов для обработки большего количества таксонов. Теперь объясним работу алгоритма на примере. Будем использовать данные о расстоянии, приведенные в таблице 5.4.
Таблица 5.4. Расстояния между таксонами






.31 1.01 .75 1.03

1.00 .69 .90

.61 .42

.37
Начинаем с выбора ближайшей пары таксонов для присоединения, как это делали в UPGMA. Глядя на таблицу расстояний,











Таблица 5.5. Расстояния между группами; FM-алгоритм, шаг 1a




.31 .93

.863
Имея только три таксона в этой таблице, можем точно подогнать данные к дереву, используя 3-точечные формулы, чтобы получить рисунок 5.10. Ключевым моментом здесь является то, что 3-точечные формулы, в отличие от UPGMA, могут давать неравные расстояния таксонов от общего предка.

Рисунок 5.10. FM-алгоритм; шаг 1.
Теперь оставляем только ребра, заканчивающиеся в





Таблица 5.6. Расстояния между группами; FM-алгоритм, шаг 1b





1.005 .72 .965

.61 .42

.37
Снова ищем ближайшую пару (теперь это







Таблица 5.7. Расстояния между группами; FM-алгоритм, шаг 2a




.683 .783

.37

Рисунок 5.11. FM-алгоритм; шаг 2.
Оставляем ребра инцидентные с








Таблица 5.8. Расстояния между группами; FM-алгоритм, шаг 2b




1.005 .8425

.515
На этом этапе можем получить итоговое дерево по таблице путем окончательного применения 3-точечных формул, что дает рисунок 5.12.

Рисунок 5.12. FM-алгоритм; шаг 3.
Теперь заменяем группы на этой последней диаграмме шаблонами ветвления, которые уже нашли ранее. Это дает рисунок 5.13.
Последним шагом является заполнение оставшихся длин











Рисунок 5.13. FM-алгоритм; завершение.
Обратите внимание, что одно ребро оказалось отрицательной длины. Поскольку этого не может быть, многие на практике предпочли бы просто переопределить длину в 0. Однако, если это произойдет, то должны будем по крайней мере проверить, что отрицательная длина была близка к 0, иначе придётся беспокоиться о качестве используемых данных.
Хотя на первый взгляд это может показаться странным, но как алгоритм Фитча-Марголиаша, так и UPGMA будут создавать точно такое же топологическое дерево при применении к набору данных. Причина этого заключается в следующем: при принятии решения о том, к каким таксонам или группам присоединиться на каждом шаге, оба метода учитывают точно такую же свернутую таблицу данных и оба выбирают пару, соответствующую наименьшей записи в таблице. Отличаться будут только метрические характеристики результирующих деревьев. Это немного подрывает надежду на то, что FM-алгоритм лучше, чем UPGMA. Хотя это может привести к лучшему метрическому дереву, но топологически оно никогда не отличается.
Фитч и Марголиаш в 1967 году фактически предложили свой алгоритм не как самоцель, а скорее, как эвристический метод получения дерева, которое, вероятно, будет иметь определенное свойство оптимальности, о чем еще поговорим в ходе решения связанных с этим задач. Рассматриваем его здесь, как и UPGMA, в качестве шага на пути к изложению алгоритма из следующего раздела. Знакомство с UPGMA и FM-алгоритмом поможет понять более сложный метод.
Конечно, и UPGMA, и FM-алгоритм лучше выполнять компьютерными программами, чем вручную. Тем не менее, несколько ручных расчетов необходимо выполнить, чтобы полностью понять, как функционируют методы и какие предположения в них входят.
Хотя алгоритм Фитча-Марголиаша позволил получить неравные длины ветвей в деревьях, за это заплатили высокую цену – построенные деревья оказываются некорневыми. Однако, поскольку поиск корня часто желателен, возникает необходимость обойти этот недостаток.
При применении любого метода филогенетического дерева, который дает некорневое дерево, может быть включен дополнительный таксон. Этот дополнительный таксон выбран так, чтобы было известно, что он более отдаленно связан с каждым из представляющих интерес таксонов, чем они связаны друг с другом, и присоединяется как внешняя группа. Например, если пытаемся связать разные виды уток друг с другом, то можем включить другой тип птиц в качестве внешней группы. Как только дерево без корней построено, находим корень такой, чтобы ребро из внешней группы соединялось с остальной частью дерева. Информация о том, что внешняя группа должна была отделена от других таксонов до того, как они отделились друг от друга, помогает определить место корня на дереве общего предка.