Неотрицательное матричное разложение (НМР), а также неотрицательное приближение матрицы[1][2], это группа алгоритмов в мультивариантном анализе[англ.] и линейной алгебре, в которых матрицаVразлагается на (обычно) две матрицы W и H, со свойством, что все три матрицы имеют неотрицательные элементы. Эта неотрицательность делает получившиеся матрицы более простыми для исследования. В приложениях, таких как обработка спектрограмм аудиосигнала или данных мускульной активности, неотрицательность свойственна рассматриваемым данным. Поскольку задача в общем случае неразрешима, её обычно численно аппроксимируют.
В хемометрике неотрицательное матричное разложение имеет долгую историю под названием «метод автомодельного разрешения кривых»[8]
В этом контексте вектора в правой матрице являются непрерывными кривыми, а не дискретными векторами.
Ранние работы по неотрицательному матричному разложению были проведены финской группой исследователей в середине 1990-х под названием положительное разложение матрицы[9][10].
Метод стал более широко известен как неотрицательное матричное разложение, после того как Ли и Сын исследовали свойства алгоритма и опубликовали несколько простых полезных алгоритмов для двух видов разложения[11][12].
Пусть матрица V является произведением матриц W и H,
Умножение матриц может быть имплементировано через вычисление вектора-столбца матрицы V как линейной комбинации векторов-столбцов в W, используя коэффициенты из столбцов матрицы H. То есть каждый столбец матрицы V может быть вычислен следующим образом:
где vi является i-ым вектор-столбцом произведения матрицы V, а hi является i-ым вектор-столбцом матрицы H.
При умножении матриц размерности матриц-сомножителей могут быть существенно меньше, чем размерность произведения матриц, и это то свойство, которое подводит базис под НМР. НМР создаёт множители с существенно уменьшенными размерностями по сравнению с исходной матрицей. Например, если V является m × n матрицей, W является m × p матрицей, а H является p × n матрицей, то p может быть существенно меньше как m, так и n.
Вот пример на основе приложения анализа текста:
Пусть входная матрица (разлагаемая матрица) будет V с 10000 строками и 500 столбцами, где слова соответствуют строкам, а документы соответствуют столбцам. То есть у нас есть 500 документов, проиндексированных 10000 словами. Отсюда следует, что вектор-столбец v в V представляет документ.
Допустим, мы спрашиваем алгоритм найти 10 признаков в порядке образования матрицы признаковW с 10000 строк и 10 столбцами и матрицу коэффициентовH с 10 строками и 500 столбцами.
Произведение W и H является матрицей с 10000 строками и 500 столбцами, те же размеры, что и входная матрица V и, если разложение работает, оно является приемлемым приближением входной матрицы V.
Из описания умножения матриц выше следует, что каждый столбец в произведении матриц WH является линейной комбинацией 10 вектор-столбцов в матрице признаков W с коэффициентами, полученными из матрицы H.
Это последнее свойство является базисом НМР, поскольку мы можем рассматривать каждый оригинальный документ в нашем примере как построенный из небольшого набора скрытых признаков. НМР создаёт эти признаки.
Полезно думать о каждом признаке (вектор-столбце) в матрице признаков W как о прототипе документа, включающем набор слов, в котором каждая ячейка, соответствующая слову, определяет ранг слова в признаке — чем выше значение в ячейке слова, тем выше ранг слова в признаке. Столбец в матрице коэффициентов H представляет оригинальный документ со значениями ячеек, определяющих ранг документа для признака. Мы теперь можем восстановить документ (вектор-столбец) из нашей входной матрицы в виде линейной комбинации наших признаков (вектор-столбцов из W), где каждый признак берётся с весом, определяемым значением признака из вектор-столбца матрицы H.
НМР имеет внутреннее свойство кластеризации[13], т.е. он автоматически кластеризует столбцы входных данных
. Это то свойство, которое востребовано большинством приложений НМР.
Более конкретно, приближение посредством
достигается минимизацией функции ошибок
при условиях
Более того, вычисленная матрица даёт индикатор кластеров, т.е. если , этот факт показывает, что входные данные принадлежат k-му кластеру. Вычисленная же матрица даёт центры кластеров, т.е. k-ый столбец задаёт центр k-го кластера. Это представление центров может быть существенно улучшено посредством выпуклого НМР.
Если ортогональность не указана явно, ортогональность выполняется достаточно сильно и свойство кластеризации также имеет место. Кластеризация является главной целью большинства приложений НМР для data mining.
Обычно число столбцов матрицы W и число строк матрицы H в НМР выбирается так, что произведение WH становится приближением к V. Полное разложение матрицы V тогда состоит из двух неотрицательных матриц W и H, а также из остаточной матрицы U, такой, что V=WH + U. Элементы остаточной матрицы могут быть и положительными, и отрицательными.
Если W и H меньше, чем V, их проще запомнить и с ними легче работать. Другая причина разложения V на меньшие матрицы W и H заключается в том, что если можно приблизительно представить элементы матрицы V существенно меньшим количеством данных, то можем заключить о некоторой неявной структуре данных.
В стандартном НМР множитель ,т.е. матрица W может быть любой в этом пространстве. Выпуклый НМР[15] ограничивает столбцы матрицы W до выпуклых комбинаций входных векторов . Это существенно улучшает качество представления данных матрицы W. Более того, множитель H становится более разрежен и ортогонален.
В случае, когда неотрицательный ранг[англ.] матрицы V равен обычному рангу, V=WH называется разложением неотрицательного ранга (НРР, англ.Nonnegative rank factorization, NRF)[16][17][18]. Известно, что задача поиска НРР матрицы V, если такой существует, NP-трудна[19].
Существуют различные виды неотрицательного разложения матрицы.
Различные виды возникают от использования различных функций цены для измерения расхождения между V и WH и возможной регуляризации матрицы W и/или матрицы H[1].
Две простые функции расхождения, которые изучали Ли и Сын, были квадратичное отклонение (или норма Фробениуса) и расширение понятия расстояния Кульбака — Лейблера на положительные матрицы (изначально расстояние Кульбака — Лейблера было определено для вероятностных распределений).
Каждая функция расхождения приводит к своему алгоритму НМР, который обычно минимизирует расхождение с помощью итеративных правил обновления.
Задача разложения в версии функции квадратичной ошибки для НМР может быть сформулирована следующим образом:
Если дана матрица , нужно найти неотрицательные матрицы W и H, которые минимизируют функцию
Если L1 регуляризация (сходная с Lasso[англ.], англ.Least Absolute Shrinkage and Selection Operator) добавлена к НМР с целевой функцией, равной среднему квадрату ошибки, получающаяся задача может быть названа неотрицательным разреженным кодированием ввиду похожести на задачу разреженного кодирования[21][22], хотя она может упоминаться и под названием НМР[23].
Многие стандартные НМР алгоритмы анализируют все данные вместе. Т.е. вся матрица доступна с самого начала. Это может оказаться неприемлемым для приложений, в которых данные занимают слишком много памяти, чтобы поместить их все в одновременно, или где данные поступают в виде потока. Такая ситуация характерна для коллаборативной фильтрации в рекомендательных системах, где может имеется много пользователей и много объектов для рекомендации, а пересчитывать всё было бы неэффективно, когда в систему добавляется пользователь или объект. Целевая функция для оптимизации в этих случаях может быть, а может и не быть такой же, как в стандартном НМР, но алгоритмы должны отличаться[24][25][26].
Обновляем значения в W и H путём вычисления (здесь — индекс итерации)
и
Пока W и H не стабилизируются.
Заметим, что обновление осуществляется поэлементно, не умножением матриц.
Недавно был разработан другой алгоритм. Некоторые подходы базируются на чередуемом методе наименьших квадратов с неотрицательными весами[англ.] (МНКНВ) — на каждом шаге такого алгоритма фиксируется сначала H, а W ищется с помощью МНКНВ, затем фиксируется W и теперь находится H аналогично. Процедуры, используемые для поиска W и H, могут быть теми же самыми [27] или различными, так как некоторые варианты НМР регуляризуют одну из матриц W или H[21]. Некоторые подходы включают, среди других, методы проецируемого градиентного спуска[27][28], метод активных ограничений[англ.][5][29], метод оптимального градиента[30] и блочный метод главного ведущего элемента[31][32].
Существующие в настоящее время алгоритмы субоптимальны, поскольку они гарантируют нахождение только локального, а не глобального минимума целевой функции. Доказанные оптимальные алгоритмы в ближайшем будущем вряд ли появятся, поскольку задача, как было показано, обобщает метод k-средних, который, как известно, NP-полон[13]. Однако, как и во многих других задачах анализа данных, знание локального минимума тоже полезно.
Последовательное построение компонент НМР (W и H) было первоначально использовано для связывания НМР с методом главных компонент (МГК) в астрономии[33]. Вклады компонент МГК ранжируются по величине их соответствующих собственных значений. Для НМР его компоненты можно ранжировать эмпирически, если они строятся один за другим (последовательно), т.е. строим -ую компоненту с уже построенными первыми компонентами.
Вклады последовательных компонент НМР можно сравнивать по теореме Карунена — Лоэва с помощью графика собственных значений. Типичный выбор числа компонент в МГК базируется на точке «изгиба», тогда существование плоского участка свидетельствует, что МГК не воспринимает данные эффективно, а если существует неожиданное падение, это говорит о случайном шуме и попадании в режим чрезмерной подгонки[34][35]. Для последовательного НМР график собственных значений приближается графиком относительной остаточной дисперсии, где кривая убывает непрерывно и сходится к большему значению, чем МГК[4], что говорит о меньшей чрезмерной подгонке последовательного НМР.
Точные решения для вариантов НМР могут быть проверены (за полиномиальное время), если выполняются дополнительные ограничения для матрицы V. Алгоритм полиномиального времени решения неотрицательного рангового разложения, когда матрица V содержит мономиальную подматрицу с рангом, равным рангу матрицы дали Кэмпбелл и Пул в 1981[36]. Калофольяс и Галлопоулус (2012)[37] решили симметричный аналог этой задачи, где V является симметричной и содержит диагональную главную подматрицу ранга r. Их алгоритм работает за время в плотном случае. Арора с группой исследователей предложили алгоритм полиномиального времени для точного НМР, который работает в случае, когда один из множителей W удовлетворяет условию отделимости[38].
В статье Изучение частей объектов путём неотрицательных разложений матрицы Ли и Сын [39] предложили НМР главным образом для основанного на частях разложения изображений. В статье НМР сравнивается с векторным квантованием и методом главных компонент и показывается, что, хотя эти три техники могут быть записаны как разложения, они воспринимают различные ограничения, а потому дают различные результаты.
НМР с целевой функцией метода наименьших квадратов эквивалентен ослабленной форме метода k-средних — матричный множитель W содержит центроиды кластеров, а H содержит индикаторы принадлежности кластерам [13][42]. Это даёт теоретическое обоснование для применения НМР для кластеризации данных. Однако k-средние не обеспечивают неотрицательности на центроидах, так что наиболее близкой аналогией является, фактически, «полу-НМР»[15].
НМР можно рассматривать как двухуровневую ориентированную графическую модель с одним уровнем наблюдаемых случайных переменных и одним уровнем скрытых случайных переменных[43].
НМР можно расширить с матриц до тензоров произвольного порядка[44][45][46]. Это расширение можно рассматривать как неотрицательный аналог, например, модели PARAFAC[англ.].
Другие расширения НМР включают совместное разложение нескольких матриц и тензоров, где некоторые сомножители одинаковы. Такие модели полезны для сочетания датчиков и обучению связям[47].
НМР является экземпляром неотрицательного квадратичного программирования (НКП), точно так же, как и метод опорных векторов (МОВ). Однако МОВ и НМР связаны более тесно, чем просто через НКП, что позволяет прямое применение алгоритмов, разработанных для решений любого из двух методов, к задачам обоих областей[48].
Разложение не единственно — матрица и её обратная могут быть использованы для преобразования двух матриц разложения посредством, например,[49],
Если две новые матрицы и неотрицательны, они образуют другую параметризацию разложения.
Неотрицательность и следует, если, по меньшей мере, B является неотрицательной мономиальной матрицей[англ.].
В этом простом случае она соответствует просто масштабированию и перестановке.
Дополнительный контроль над неоднозначностью НМР приобретается ограничением заполненности матриц [50].
В астрономии НМР является многообещающим методом для понижения размерности в смысле, что астрофизические сигналы являются неорицательными. НМР применяется для спектроскопических наблюдений [3] и прямых наблюдений[4] как метод изучения общих свойств астрономического объекта и постобработки астрономических наблюдений. Продвижение в спектроскопических наблюдениях исследователей Блэнтона и Роуиза (2007)[3] связано с принятием во внимание неопределённости астрономических наблюдений, что позднее улучшил Зу (2016) [33], который рассматривал также отсутствие данных и использовал параллельные вычисления. Их методы затем приспособили Рен и др. (2018) [4] для прямого поля наблюдения как один из методов обнаружения экзопланет, особенно для прямого наблюдения околозвёздных дисков.
Рен и др. (2018)[4] смогли показать стабильность компонент НМР, когда они строятся последовательно (т.е. одна за другой), что обеспечивает линейность процесса моделирования НМР. Свойство линейности использовалось для отделения света звезды от рассеянного света экзопланет и околозвёздных дисков.
При прямом наблюдении для выделения тусклых экзопланет и околозвёздных дисков от окружающего звезду яркого света, который имеет типичную контрастность от 10⁵ до 10¹⁰, были приспособлены различные статистические методы [51][52][34], однако выделение света от экзопланет или околозвёздных дисков обычно страдает переподгонкой, так что для обнаружения истинного течения должно быть применено последующее моделирование[53][35]. Моделирование на настоящее время оптимизировано для точечных источников [35], но не для структур с нерегулярными формами, такими как s околозвёздные диски. В этой ситуации НМР является отличным методом, менее страдающим от переподгонки в смысле неотрицательности и разреженности коэффициентов моделирования НМР, поэтому моделирование может быть осуществлено с несколькими масштабирующими множителями[4] вместо вычислительно ёмкой переобработки данных на полученных моделях.
НМР может быть использована для интеллектуального анализа текста.
В этом процессе строится терм-документная матрица с весами различных объектов (обычно — взвешенная информация о частоте встречаемости слов) из набора документов.
Матрица разлагается на матрицы объект-признак и признак-документ.
Признаки получаются из контекста документов, а матрица признак-документ описывает кластеры данных связанных документов.
Одно из приложений использует иерархический НМР на небольшом подмножестве научных абстракций из PubMed[54].
Другая группа исследователей сгруппировала множество email компании Enron[55] (65033 сообщений и 91133 объектов) в 50 кластеров[56].
НМР применяется также для данных о цитировании, с одним примером кластеризации статей английской Википедии и научных журналов, основываясь на научных цитатах в английской Википедии[57].
Арора и др. предложили алгоритмы полиномиального времени для обучения тематических моделей с помощью НМР. Алгоритм предполагает, что тематическая матрица удовлетворяет условию отделимости, что часто выполняется в таких условиях[38].
НМР используется в предсказании масштабируемого сетевого расстояния в интернете (время оборота пакета). Для сети с хостами с помощью НМР расстояния всех соединений от точки до точки могут быть предсказаны после проведения лишь измерений. Этот вид метода был впервые предложен в «Сервисе оценки интернет-расстояния» (англ.Internet Distance Estimation Service, IDES)[59]. Впоследствии, как полностью децентрализованный подход, была предложена сетевая координатная система Phoenix (англ.Phoenix network coordinate system)[60]. Она достигла лучшей предсказуемости путём введения концепции веса.
Удаление шума из разговора является давней проблемой в обработке аудиосигнала[англ.]. Есть большое число алгоритмов удаления шума, если шум стационарен. Например, фильтр Винера пригоден для аддитивного гауссова шума. Однако, если шум не стационарен, классические алгоритмы удаления шума обычно имеют плохую производительность, поскольку статистическую информацию о нестационарном шуме трудно оценить. Шмидт и др.[61] использовали НМР для удаления нестационарного шума в разговоре, что полностью отличается от классических статистических подходов. Ключевой идеей является то, что чистый сигнал может быть представлен словарём разговора, а нестационарный шум представлен быть не может. Аналогично, нестационарный шум может быть представлен словарём шумов, а разговор не может.
Алгоритм для удаления шума с помощью НМР работает следующим образом. Необходимо обучить офлайн два словаря, один для разговора, другой для шума. Как только подаётся разговор с шумом, сначала вычисляем величину оконного преобразования Фурье. Затем разделяем его на две части с помощью НМР, одна часть может быть представлена словарём разговора, а другая часть может быть представлена словарём шума. На третьем шаге часть, представленная словарём разговора, оценивается как чистый разговор.
НМР успешно применяется в биоинформатике для кластеризации данных экспрессии генов и метилирования ДНК и поиска генов, наиболее представляющих кластеры[22][62][63][64]. В анализе мутаций рака это используется для выделения общих механизмов возникновения мутации, которые случаются во многих случаях рака и, возможно, имеют различные причины [65].
НМР, упоминаемый в этой области как факторный анализ, используется здесь с 1980-х годов[66] для анализа последовательности изображений в ОФЭКТ и ПЭТ. Неоднозначность НМР решалась наложением ограничения разреженности[67].
Текущие исследования (с 2010 года) по разложению неотрицательных матриц включают, но не ограничиваются следующими вопросами
Алгоритмические вопросы: поиск глобального минимума множителей и инициализация множителя[68].
Вопросы масштабирования: как разложить матрицы размером миллион-на-миллиард, которые возникают при анализе данных в сетях. См. статьи «Распределённое неотрицательное разложение матрицы (DNMF)»[69] и «Масшабируемое неотрицательное разложение матрицы (ScalableNMF)»[70].
Онлайн-обработка: как обновлять разложение, когда приходят новые данные, без полного вычисления с нуля[71].
Совместное разложение: разложение нескольких внутренне связанных матриц для многопозиционной кластеризации, см. CoNMF[72] и MultiNMF[73].
Задача Коэна и Ротблюма 1993 года: всегда ли рациональная матрица имеет НМР минимальной внутренней размерности, множители которой также рациональны. Недавно на этот вопрос был получен отрицательный ответ[74].
↑ 12Zhu, Guangtun B. (19 декабря 2016). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM].
Ding C., Li T., Jordan M.I.Convex and semi-nonnegative matrix factorizations // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2010.
Vamsi K. Potluru, Sergey M. Plis, Morten Morup, Vince D. Calhoun, Terran Lane.Efficient Multiplicative updates for Support Vector Machines // Proceedings of the 2009 SIAM Conference on Data Mining (SDM). — 2009. — С. 1218–1229.
Paatero P., Tapper U. Positive matrix factorization: A non-negative factor model with optimal utilization of error estimates of data values // Environmetrics. — 1994. — Т. 5, вып. 2. — doi:10.1002/env.3170050203.
Zhang T., Fang B., Liu W., Tang Y. Y., He G., Wen J. Total variation norm-based nonnegative matrix factorization for identifying discriminant representation of image patterns // Neurocomputing. — 2008. — Т. 71, вып. 10–12. — doi:10.1016/j.neucom.2008.01.022.
Berman A., Plemmons R.J. Inverses of nonnegative matrices // Linear and Multilinear Algebra. — 1974. — Т. 2, вып. 2. — С. 161–172. — doi:10.1080/03081087408817055.
Berman A., Plemmons R.J. Nonnegative matrices in the Mathematical Sciences. — Philadelphia: SIAM, 1994.
Thomas L.B. Problem 73-14, Rank factorization of nonnegative matrices // SIAM Rev.. — 1974. — Т. 16, вып. 3. — doi:10.1137/1016064.
Vavasis S.A. On the complexity of nonnegative matrix factorization // SIAM J. Optim.. — 2009. — Т. 20, вып. 3. — doi:10.1137/070709967. — arXiv:0708.4149.
Inderjit S. Dhillon, Suvrit Sra.Generalized Nonnegative Matrix Approximations with Bregman Divergences // NIPS. — 2005.
Campbell S.L., Poole G.D. Computing nonnegative rank factorizations // Linear Algebra Appl.. — 1981. — Т. 35. — doi:10.1016/0024-3795(81)90272-x.
Chih-Jen Lin. On the Convergence of Multiplicative Update Algorithms for Nonnegative Matrix Factorization // IEEE Transactions on Neural Networks. — 2007. — Т. 18, вып. 6. — doi:10.1109/TNN.2007.895831.
Rémi Soummer, Laurent Pueyo, James Larkin. Detection and Characterization of Exoplanets and Disks Using Projections on Karhunen-Loève Eigenimages // The Astrophysical Journal Letters. — 2012. — Т. 755, вып. 2. — doi:10.1088/2041-8205/755/2/L28. — Bibcode: 2012ApJ...755L..28S. — arXiv:1207.4197.
Zahed Wahhaj, Lucas A. Cieza, Dimitri Mawet, Bin Yang, Hector Canovas, Jozua de Boer, Simon Casassus, François Ménard, Matthias R. Schreiber, Michael C. Liu, Beth A. Biller, Eric L. Nielsen, Thomas L. Hayward. Improving signal-to-noise in the direct imaging of exoplanets and circumstellar disks with MLOCI // Astronomy & Astrophysics. — 2015. — Т. 581, вып. 24. — С. A24. — doi:10.1051/0004-6361/201525837. — Bibcode: 2015A&A...581A..24W. — arXiv:1502.03092.
Finn Årup Nielsen, Daniela Balslev, Lars Kai Hansen. Mining the posterior cingulate: segregation between memory and pain components // NeuroImage. — 2005. — Т. 27, вып. 3. — С. 520–522. — doi:10.1016/j.neuroimage.2005.04.034. — PMID15946864.
Ludmil B. Alexandrov, Serena Nik-Zainal, David C. Wedge, Peter J. Campbell, Michael R. Stratton. Deciphering signatures of mutational processes operative in human cancer // Cell Reports. — 2013. — Январь (т. 3, вып. 1). — ISSN2211-1247. — doi:10.1016/j.celrep.2012.12.008. — PMID23318258. — PMC3588146.
Sitek A., Gullberg G.T., Huesman R.H. Correction for ambiguous solutions in factor analysis using a penalized least squares objective // IEEE Trans Med Imaging. — 2002. — Т. 21, вып. 3. — doi:10.1109/42.996340. — PMID11989846.
Boutsidis C., Gallopoulos E. SVD based initialization: A head start for nonnegative matrix factorization // Pattern Recognition. — 2008. — Т. 41, вып. 4. — С. 1350–1362. — doi:10.1016/j.patcog.2007.09.010.
Cédric Févotte, Nancy Bertin, Jean-Louis Durrieu. Nonnegative Matrix Factorization with the Itakura-Saito Divergence: With Application to Music Analysis // Neural Computation. — 2009. — Т. 21, вып. 3. — С. 793–830. — doi:10.1162/neco.2008.04-08-771. — PMID18785855.