Статьи Соросовского Образовательного журнала в текстовом формате
Статья является продолжением статьи "Матрицы как линейные операторы" и посвящена применению матричного аппарата к решению систем линейных уравнений. В частности, дается решение проблем нахождения наилучшего приближенного решения, если точных решений не существует, и нахождения минимальных решений, если их бесчисленное множество.
МАТРИЦЫ И СИСТЕМЫ ЛИНЕЙНЫХ УРАВНЕНИЙВ. А. БРУСИН
Нижегородский государственный архитектурно-строительный университет
1. ВВЕДЕНИЕ. ПРЕДСТАВЛЕНИЕ СИСТЕМЫ
В МАТРИЧНОЙ ФОРМЕ И РЕШЕНИЕ
В НЕОСОБОМ СЛУЧАЕ
Будем рассматривать систему из трех уравнений с тремя неизвестными:
Если изначально имеется только одно или два уравнения, то недостающие уравнения можно приписать, повторив уже имеющиеся. Аналогично если имеются три уравнения, но только два неизвестных x1 и x2 , то можно дополнить эти уравнения членами с неизвестным x3 и нулевыми коэффициентами ai3 , приведя систему к виду (1).
Как известно [2, 3], решением системы (1) называется тройка чисел (x1 , x2 , x3), которая после подстановки в систему (1) обращает каждое уравнение в тождество. Известно также, что система (1) может иметь единственное решение, бесчисленное множество решений или не иметь решений вообще. Ниже, используя матричный аппарат и интерпретацию матриц как операторов [1], мы дадим геометрическую трактовку этим трем случаям.
Введем в рассмотрение квадратную матрицу A, столбцы b и x:
Согласно правилам действий с матрицами [1, 2] (формула (8) из [1]), система (1) будет эквивалентна одному уравнению
Ax = b.
Решением уравнения (3) считается столбец x (или трехмерный вектор x k R3 с координатами x1 , x2 , x3), удовлетворяющий данному равенству как равенству двух столбцов (или соответствующих векторов). Легко видеть, что если столбец x является решением уравнения (3), то набор (x1 , x2 , x3) будет решением системы (1), и наоборот.
Пусть A - неособая матрица [1-3]. Значит, существует обратная матрица A -1 (формулы (6), (7) из [1]). Умножая на нее слева обе части равенства (3) и используя правила умножения матриц [1-3] (формулы (3)-(5) из [1]), а также факт, что A -1A = E - единичная матрица, получаем равенство
x = A -1b.
Таким образом, в этом случае имеется единственное решение, которое можно найти по формуле (4). (Заметим, что, вычислив A -1 [1, 2], можно с помощью формулы (4) быстро находить решения для различных столбцов b.)
Больше сложностей возникает в случае, когда матрица A особая. К этому случаю, в частности, приводятся системы, у которых число уравнений не совпадает с числом неизвестных. Но именно такая ситуация наиболее часто встречается в прикладных задачах [4].
Чтобы разобраться во всех возникающих вариантах и дать им геометрическое истолкование, потребуются дополнительные сведения к тем, что приведены в [1].
2. ОСНОВНЫЕ ЛИНЕЙНЫЕ ПРОСТРАНСТВА, ПОРОЖДАЕМЫЕ МАТРИЦЕЙ
Определение 1. Говорят, что множество векторов образует линейное пространство L, если удовлетворяются следующие условия:
а) для любых векторов a, b k L
a + b k L;
б) для любого вектора a k L и числа k
k " a k L.
Замечание. Для двумерных и трехмерных векторов указанные в (5), (6) действия определены в [1]. Определение 1 справедливо и для векторов (столбцов) произвольной размерности, для которых эти операции с указанными в [1] свойствами также могут быть определены [3, 5, 6].
Легко понять, что в качестве линейных пространств трехмерных векторов могут служить само трехмерное пространство R3, множества радиусов-векторов, составляющих плоскости и прямые, и, наконец, начало координат.
Определение 2. Аннулируемым пространством N(A ) [6] матрицы A третьего порядка называется множество векторов-столбцов x k R3, удовлетворяющих равенству
Ax = q,
где q - нулевой вектор: q = col(0, 0, 0).
Используя материал из [1], можно сказать, что N(A ) - это множество всех тех точек пространства (или их радиусов-векторов), которые с помощью преобразования TA переводятся в начало координат:
x k N(A ) q.
Нетрудно проверить, что N(A ) - это линейное пространство. В случае неособой матрицы N(A ) состоит из одной точки - начала координат.
Определение 3. Областью значений R(A ) или образом матрицы A третьего порядка [3, 6] называется множество тех векторов-столбцов y, которые можно получить после применения матрицы A, то есть
y = Ax, $x k R3.
Переводя на язык преобразований [1], R(A ) - это множество точек (или радиусов-векторов), в которые переводятся точки пространства R3 преобразованием TA :
x k R3 y k R(A ).
Нетрудно проверить, что R(A ) - линейное пространство. Если A - неособая матрица, то R(A ) = R3.
Определение 4 [6]. Говорят, что пространство трехмерных векторов R3 разлагается в ортогональную сумму R3 = L1 ~ L2 линейных пространств L1 и L2 , если:
1) любой ненулевой вектор из L1 ортогонален (перпендикулярен) любому (ненулевому) вектору из L2 , то есть L1 ^ L2 ;
2) любой трехмерный вектор a можно единственным образом представить в виде суммы векторов из L1 и L2 :
a = a1 + a2 , $a1 k L1 , a2 k L2 .
Пример. Пусть L1 - координатная плоскость. Тогда L2 - перпендикулярная ей ось координат. В этом случае ai (i = 1, 2) - это вектор-проекции вектора a на координатную плоскость и ось координат соответственно. Если L1 - любая плоскость, проходящая через начало координат, то L2 будет прямая, проходящая через начало координат и ей перпендикулярная.
Определение 5 [2-6]. Матрица A T называется транспонированной к матрице A, если ее строки (столбцы) являются столбцами (строками) матрицы A с одинаковыми номерами.
Лемма. Для любой матрицы A имеет место
R3 = R(A ) ~ N(A T ) = R(A T )~ N(A ).
Достаточно простое доказательство этой леммы приведено в приложении.
3. РАССМОТРЕНИЕ СИСТЕМЫ (1)
В СЛУЧАЕ ОСОБОЙ МАТРИЦЫ A
Согласно изложенному выше, если матрица A особая (и ненулевая), то оператор TA переводит все точки (радиусы-векторы) пространства в некоторую плоскость или прямую, проходящие через начало координат. Тогда для системы (1) (или уравнения (2)) возможны два варианта:
вариант I: b sR(A );
вариант II: b k R(A ).
В первом варианте система решений не имеет. В этом случае возникает задача о нахождении приближенного решения с наименьшей погрешностью - наилучшего приближенного решения (НПР). Во втором варианте система будет иметь бесчисленное множество решений. Здесь очень часто возникает задача об отыскании вектора-решения наименьшей длины [4]: минимального решения (МР). Рассмотрим решение этих задач в отдельности.
3.1. Нахождение наилучшего
приближенного решения
Пусть x1 - произвольно выбранный вектор-столбец, который мы хотим рассматривать как приближенное решение (ПР) уравнения (2). Тогда за меру погрешности такого ПР обычно принимают величину | b - Ax1 |, то есть длину вектора b - Ax1 (рис. 1). Если b sR(A ), то эта величина больше нуля. Чем меньше эта величина, тем ПР считается точнее. Тогда наилучшим ПР (НПР) будет такой вектор-столбец для которого величина | Ax - b | будет наименьшей. Возникает задача нахождения такого вектора Обозначим через проекцию вектора b на плоскость R(A ) (см. рис. 1). Очевидно, что искомый вектор должен удовлетворять равенству Ибо только в этом случае и, следовательно, величина принимает минимально возможное значение. Таким образом, НПР должно удовлетворять соотношению
Следующая теорема дает алгоритм для нахождения НПР.
Теорема 1. Вектор-столбец есть НПР в том и только том случае, если он удовлетворяет уравнению
или в другой форме - уравнению
При этом вектор определяется однозначно:
Замечание. Система (12) может иметь бесчисленное множество решений, и вектор определяется неоднозначно. Но вектор и, значит, невязка будут вполне определенными.
Доказательство. 1) Пусть удовлетворяет (10). Поскольку - проекция вектора b на R(A ), то и (см. рис. 1). Отсюда по лемме получаем Это значит, что то есть справедливо (11);
2) Наоборот, пусть удовлетворяет уравнению (11). Тогда будет удовлетворять равенству (12). Следует показать, что является проекцией вектора b на R(A ). По свойству проекций достаточно показать, что (см. рис. 1). Из (11), (12) следует, что то есть Но значит, согласно опять-таки лемме, что и требовалось доказать.
Таким образом, согласно теореме 1, для того чтобы найти НПР, нужно найти любое решение системы (11). Заметим, что эта система относится к варианту II.
Замечание. Схема нахождения НПР является одновременно и схемой проверки соотношения b k R(A ). Если решение системы (11) будет удовлетворять исходной системе, то, значит, это соотношение верно и в действительности мы получили не ПР, а точное решение. В противном случае имеет место b sR(A ). Данная схема является альтернативной к ранговому критерию теоремы Кронекера-Капелли [2, 3].
Пример 1. Рассмотрим систему
Легко видеть, что эта система несовместна. Найдем ее НПР. Имеем
Система (11) имеет вид
Исключая из первого и третьего уравнений получим последовательно
Полагая свободным параметром, записываем множество всех НПР в виде
Проекция вектора b на R(A ) вычисляется по формуле (12):
Мы видим, что этот вектор действительно вычисляется однозначно. Легко получить, что НПР минимальной длины получается при
3.2. Нахождение "минимального" решения
Пусть теперь b k R(A ). Тогда справедлива следующая теорема.
Теорема 2. Минимальный по длине вектор-столбец x0 решения уравнения (2) (МР ) имеет вид
x0 = A Tz,
где z - любой вектор-столбец, удовлетворяющий уравнению
AA Tz = b.
Множество всех решений будет иметь вид
x = x0 + Dx, Dx k N(A ).
Замечание. Геометрически множество точек - концов радиусов-векторов x вида (16) представляет собой плоскость, перпендикулярную радиусу-вектору x0 k k R(A ) и проходящему через его конец (рис. 2).
Доказательство теоремы 2. Пусть x k R3 - произвольное решение системы. Согласно лемме, он может быть однозначно представлен в виде суммы (16), где x0 k R(A T ), Dx k N(A ), причем x0 ^ Dx (см. рис. 2). Вектор x0 будет решением исходной системы, так как Ax0 = A(x - Dx) = Ax - ADx = Ax = b, Dx k N(A ). В силу перпендикулярности (и теоремы Пифагора) имеем | x | 2 = = | x0 | 2 + | Dx | 2 (| a | - длина вектора a). Отсюда вытекает, что среди всех решений x0 имеет минимальную длину (для него | Dx | = 0). То есть x0 есть МР и любое другое решение имеет вид (16).
Теорема доказана.
4. ЗАКЛЮЧЕНИЕ
Изложенная теория имеет прямое обобщение на n уравнений с n неизвестными, n > 3, что и представляет действительный интерес для приложений [4]. Идейная, геометрическая часть при этом остается той же самой - нужно только представить, что все действия происходят в n-мерном пространстве. Техническая часть теории, конечно, усложняется, но это усложнение в основном носит количественный характер: при вычислении длин векторов, произведений матриц и т.п. вместо трех слагаемых в соответствующих выражениях будут присутствовать n слагаемых, отвечающих новым размерностям. Более сложной по сравнению с трехмерными матрицами [1] будет процедура нахождения обратной матрицы A -1. Но здесь помогает наличие стандартных компьютерных программ точного и приближенного (в случае очень больших размерностей) отыскания A -1.
ПРИЛОЖЕНИЕ
Доказательство леммы основано на формуле [6]
бx, Ayс = бA Tx, yс
для любых векторов x, y k R n и матриц A n-го порядка, где через бa, bс обозначено скалярное произведение векторов-столбцов a = (a1 , a2 , _, an), b = (b1 , b2 , _, bn): В случае трехмерных векторов (n = 3) известно, что два ненулевых вектора a и b перпендикулярны в том и только том случае, если бa, bс = 0 [2-6] . Формула (I) для n = 3 легко проверяется прямым вычислением левой и правой частей.
1. Пусть x1 k R(A ), x2 k N(A T )- ненулевые трехмерные векторы из соответствующих пространств. По определению этих пространств,
x1 = Az, $z k R 3 ; A Tx = q.
Покажем, что отсюда следует x1 ^ x2 . Вычислим скалярное произведение бx1 , x2с. Подставляя в него соотношения (II) и используя равенство (I), получаем бx1 , x2с бAz, x2с бz, A Tx2с 0. Таким образом, x1 ^ x2 . Поскольку x1 и x2 - произвольные векторы пространств, отсюда следует R(A ) ^ N(A T ).
2. Покажем теперь, что любой вектор перпендикулярный R(A ), принадлежит N(A T ). Пусть Тогда для любого z k R 3. Отсюда получаем Но тогда должен быть нулевым вектором, ибо в противном случае он должен быть перпендикулярным любому вектору z k R 3. Это и доказывает наше утверждение.
Из доказанного вытекает, что размерность пространства N(A T ) дополняет размерность пространства R(A ) до полной размерности, n = 3. Значит, R(A ) ~ ~ N(A T ) = R 3 и имеет место разложение x = x1 + x2 , x1 k k R(A ), x2 k N(A T ), причем
ЛИТЕРАТУРА
1. Брусин В.А. Матрицы как линейные операторы // Соросовский Образовательный Журнал. 2000. Т.6, ╧ 1. С. 102-107.
2. Бугров Я.С., Никольский С.М. Элементы линейной алгебры и аналитической геометрии. М.: Наука, 1980. 175 с.
3. Курош А.Г. Лекции по общей алгебре. М.: Наука, 1973. 399 с.
4. Альберт А. Регрессия, псевдоинверсия и рекуррентное оценивание. М.: Наука, 1977. 223 с.
5. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. М.: Наука, 1984. 831 с.
6. Ланкастер П. Теория матриц. М.: Наука, 1982. 270 с.
Рецензент статьи В.А. Ильин
* * *
Владимир Александрович Брусин, доктор физико-математических наук, профессор, зав. кафедрой высшей математики Нижегородского государственного архитектурно-строительного университета, член-корреспондент РАЕН. Область научных интересов - математические проблемы теории устойчивости и теории управления. Автор более 160 научных статей и учебного пособия.