Обучение с частичным привлечением учителя

Обучение с частичным привлечением учителя (англ. Semi-supervised learning) (также полуавтоматическое обучение или частичное обучение) — способ машинного обучения, разновидность обучения с учителем, которое также использует неразмеченные данные для тренировки — обычно небольшое количество размеченных данных и большое количество неразмеченных данных.

Обучение с частичным привлечением учителя занимает промежуточную позицию между обучением без учителя (без привлечения каких-либо размеченных данных для тренировки) и обучением с учителем (с привлечением лишь размеченных данных).

Многие исследователи машинного обучения обнаружили, что неразмеченные данные, при использовании в сочетании с небольшим количеством размеченных данных, могут значительно улучшить точность обучения.

Задание размеченных данных для задачи обучения часто требует квалифицированного человека (например, для перевода звуковой дорожки в текст) или физического эксперимента (например, для определения 3D структуры белка или выявления наличия нефти в определенном регионе). Поэтому затраты на разметку данных могут сделать процесс обучения с использованием лишь размеченных данных невыполнимым, в то время как процесс задания неразмеченных данных не является очень затратным. В таких ситуациях, полуавтоматическое обучения может иметь большое практическое значение. Такое обучение также представляет интерес в сфере машинного обучения и как модель для человеческого обучения.

Задача обучения

[править | править код]

Как и в рамках обучения с учителем, нам дается множество независимых одинаково распределенных примеров с соответствующими пометками . Кроме того, нам дано неразмеченных примеров . Цель полуавтоматической обучения заключается в том, чтобы использовать эту комбинированную информацию для достижения лучших результатов производительности классификации, которую можно получить или путем отбрасывания неразмеченных данных и использование обучения с учителем, или путем отбрасывания меток и использование обучения без учителя.

Полуавтоматическое обучение может принадлежать к трансдуктивному обучению[en] или индуктивного обучения. Целью трансдуктивного обучения является выведение правильных меток только для неразмеченных данных . Целью индукции является выведение правильного отображения из в .

Мы можем представлять задачу обучения как экзамен, а размеченные данные — как несколько примеров, которые учитель решил в классе. Учитель также предоставляет набор нерешенных задач. В постановке трансдуктивного обучения, эти нерешенные задачи является экзаменом, который забирают домой, и вы хотите хорошо его составить в целом. В постановке индуктивного обучения, эти практические задачи являются подобными тем, с которыми вы столкнетесь на экзамене в классе. Необязательно (и, согласно принципу Вапника[en], неблагоразумно) проводить трансдуктивне обучения путем логического вывода правила классификации для всех входных данных. Однако, на практике, алгоритмы, формально предназначенные для трансдукции или индукции, часто используются как взаимозаменяемые.

Предположения, которые используются в полуавтоматическом обучении

[править | править код]

Для того, чтобы использовать неразмеченные данные, нужно присвоить некоторую структуру для основного распределения данных. Алгоритмы полуавтоматического обучения используют по крайней мере одно из таких предположений.[1]

Предположение плавности

[править | править код]

Точки, которые лежат близко друг от друга, размечены одинаково с большей вероятностью. Такое же предположение в основном используется и в обучении с учителем и дает преимущество в использовании геометрически простых решений. В случае полуавтоматического обучения, предположение плавности дополнительно дает преимущество для разграничения в регионах с низкой плотностью, где меньше точек, которые расположены близко друг от друга, но разных классов.

Предположение кластеризованности

[править | править код]

Данные, как правило, образуют дискретные кластеры, и точки из одного кластера размечены одинаково с большей вероятностью (хотя данные, которые используют одинаковые метки, могут быть расположены в нескольких различных кластерах). Это особый случай предположения плавности, который приводит к обучение признаков используя алгоритмы кластеризации.

Предположение избыточности данных

[править | править код]

Это предположение применимо, когда измерения данных избыточны, то есть генерируются определенным процессом, имеющим только несколько степеней свободы. В этом случае неразмеченные данные позволяют изучить генерирующий процесс и за счёт этого снизить размерность.

Например, человеческий голос контролируется несколькими голосовыми связками,[2] а изображение различных выражений лица контролируются несколькими мышцами. В этих случаях удобнее использовать генерирующее пространство, чем пространство всех возможных акустических волн или изображений, соответственно.

Эвристический подход к самообучению является наиболее ранним.[1] Он начал применяться с 1960-х годов (см., например, Scudder 1965)[3]).

Основы трансдуктивного обучения были изложены Владимиром Вапником в 1970-х годах.[4] В 1970-е годы также появился интерес к индуктивному обучению с использованием генеративных моделей. Применение приближенного правильного обучения [en] для полуавтоматического обучения на основе модели гауссовой смеси было продемонстрировано Ратсаби и Венкатешем в 1995 году.[5]

Полуавтоматическое обучения в последнее время становится все более популярным и растет его актуальность в связи с целым рядом задач, для которых доступно огромное количество неразмеченных данных (например, текст веб страниц, последовательности белков или изображения. Обзор последних работ в этой области см. Чжу (2008).[6]

Подходы к полуавтоматическому обучению

[править | править код]

Генеративные модели

[править | править код]

Генеративные подходы к статистическому изучению в первую очередь стремятся оценить , распределение точек данных для каждого класса. Вероятность такая, что данная точка имеет метку , будет пропорциональной по теореме Байеса. Полуавтоматическое обучения с использованием генеративных подходов можно рассматривать либо как расширение обучения с учителем (классификация и информация о ), или как расширение обучения без учителя (кластеризация и некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму , параметризованную вектором . Если эти предположения являются неправильными, то неразмеченные данные могут фактически снизить точность решения по сравнению с тем, которое было бы получено только с размеченных данных.[7] Однако, если эти предположения верны, то неразмеченные данные обязательно повысят результативность.[5]

Неразмеченные данные распределены согласно смеси индивидуально-классовых разделений. Для того, чтобы распределение смеси из неразмеченных данных подлежал изучению, эти данные должны быть узнаваемыми, то есть различные параметры должны приводить к различным итоговых распределений. Распредели гауссовой смеси являются узнаваемыми и обычно используются в генеративных моделях.

Параметризованный совместное распределение можно записать в виде с помощью цепного правила. Каждый вектор связан с функцией . Затем параметр выбирается на основе подгонки как к размеченных там и до неразмеченных данных, уравновешенных с помощью :

[6]

Разделение низкой плотности

[править | править код]

Это ещё один важный класс методов, который пытается разграничить регионы, в которых есть несколько точек с данными (размеченными или неразмеченными). Одним из наиболее часто используемых алгоритмов является трансдуктивный метод опорных векторов, или ТМОВ (который, несмотря на название, может также быть использованным для индуктивного обучения). В то время как метод опорных векторов для обучения с учителем ищет решение разделяющей поверхности с максимальным зазором в размеченных данных, целью ТМОВ является обозначение неразмеченных данных таким образом, что решение разделяющей поверхности имеет максимальный зазор в сравнении со всеми данными. В дополнение к стандартной петле потери для размеченных данных, функция потерь вводится и для неразмеченных данных, обозначив . ТМОВ потом выбирает с гильбертова пространства воспроизводимого ядра путем минимизации регуляризованого эмпирического риска[en]:

Точное решение является неразрешимым из-за невыпуклого члена , поэтому исследования сосредоточены на поиске полезных приближений.[6]

Другие подходы, которые осуществляют распределение низкой плотности, включают в себя модели гауссова процесса, упорядочение информации, и минимизацию энтропии (из которых ТМОВ является частным случаем).

Методы на основе графов

[править | править код]

Методы на основе графов для полуавтоматической обучения используют данные, представленные при помощи графа, с узлом для каждого размеченного или неразмеченного примера. Граф может быть построен с использованием знаний в предметной области или на основе сходства примеров. Два общих подхода включают соединение каждой точки данных с её ближайшими соседями или с примерами на расстоянии в пределах . Вес ребра между и устанавливается равным .

В рамках регуляризации многообразия[8] [9] граф служит как представитель многообразия. Выражение добавляется к стандартной задаче регуляризации Тихонова для обеспечения гладкости решения относительно многовидності (в собственном пространстве задачи), а также окружающей входного пространства. Задачей минимизации становится:

[6]

где  — это гильбертово пространство воспроизводимого ядра, а  — многовид данным. Параметры регуляризации и контролируют гладкость в близлежащих и внутренних пространствах соответственно. Граф используется для аппроксимации внутреннего регуляризующего члена. Определив матрицу Кирхгофа[en] , где и вектор, получаем:

Эвристические подходы

[править | править код]

Некоторые из методов полуавтоматического обучения не приспособлены для использования одновременно как размеченных так и неразмеченных данных, но зато могут привлекать неразмеченные данные для обучения с учителем. Например, размеченные и неразмеченные примеры могут информировать о способе представления, метрику, или ядра данных на первом шаге без учителя. Тогда обучение с учителем обрабатывает только размеченные примеры.

Самообучение — метод-обертка полуавтоматического обучения.[10] Первоначально обучение с учителем обрабатывает только размеченные данные. Этот классификатор затем применяется к неразмеченным данным, чтобы сгенерировать больше размеченных примеров для обучения с учителем. В общем, можно быть уверенным, что только метки классификатора добавляются на каждом шагу.[11]

Совместное обучение является расширением самообучения, при котором несколько классификаторов прорабатывают разные (в идеале, непересекающиеся) множества признаков и генерируют размеченные примеры друг для друга.[12]

Полуавтоматическое обучение в человеческом восприятии

[править | править код]

Человеческие ответы на формальные задачи полуавтоматического обучения принесли различные выводы относительно степени влияния неразмеченных данных (краткое изложение см.[13]). Много задач естественного обучения также можно рассматривать как примеры полуавтоматического обучения. Большинство принципов человеческого обучения предусматривает небольшое количество прямых инструкций (например, разметка объектов родителями в детстве) в совокупности с огромным количеством неразмеченных примеров (например, наблюдения за объектами не называя или не считая их, или по крайней мере не описывая их).

Младенцы чувствительны к структуре неразмеченных данных, таких как изображения собак и кошек, или мужских и женских лиц.[14] Недавние исследования обнаружили, что младенцы и дети учитывают не только доступные неразмеченные примеры, но и процесс отбора из них, в результате которого возникают размеченные примеры.[15][16]

  1. 1 2 Semi-supervised learning (неопр.). — Cambridge, Mass.: MIT Press, 2006. — ISBN 978-0-262-03358-9.
  2. Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2
  3. Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines.
  4. Вапник, В. Н., Червоненкис, А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с.
  5. 1 2 Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information.
  6. 1 2 3 4 Zhu, Xiaojin.
  7. Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers.
  8. M. Belkin, P. Niyogi. Semi-supervised Learning on Riemannian Manifolds (неопр.) // Machine Learning. — 2004. — Т. 56, № Special Issue on Clustering. — С. 209—239. — doi:10.1023/b:mach.0000033120.25363.1e. Архивировано 17 июня 2017 года.
  9. M. Belkin, P. Niyogi, V. Sindhwani.
  10. Triguero, Isaac. Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study (англ.) // Knowledge and Information Systems : journal. — 2013. — 26 November (vol. 42, no. 2). — P. 245—284. — ISSN 0219-1377. — doi:10.1007/s10115-013-0706-y. Архивировано 17 августа 2017 года.
  11. Fazakis, Nikos. Self-Trained LMT for Semisupervised Learning (англ.) // Computational Intelligence and Neuroscience : journal. — 2015. — 29 December (vol. 2016). — P. 1—13. — doi:10.1155/2016/3057481.
  12. Didaci, Luca. Analysis of Co-training Algorithm with Very Small Training Sets (англ.). — Springer Berlin Heidelberg. — P. 719—726. — ISBN 9783642341656. Архивировано 2 июня 2018 года.
  13. Introduction to semi-supervised learning (англ.). — Morgan & Claypool, 2009. — ISBN 9781598295481.
  14. Younger B. A., Fearing D. D. Parsing Items into Separate Categories: Developmental Change in Infant Categorization (англ.) // Child Development : journal. — 1999. — Vol. 70. — P. 291—303. — doi:10.1111/1467-8624.00022.
  15. Xu, F. and Tenenbaum, J. B. Sensitivity to sampling in Bayesian word learning. Developmental Science (англ.) // Developmental Science[англ.] : journal. — 2007. — Vol. 10. — P. 288—297. — doi:10.1111/j.1467-7687.2007.00590.x.
  16. Gweon, H., Tenenbaum J.B., and Schulz L.E. Infants consider both the sample and the sampling process in inductive generalization (англ.) // Proceedings of the National Academy of Sciences of the United States of America : journal. — 2010. — Vol. 107, no. 20. — P. 9066—9071. — doi:10.1073/pnas.1003095107. Архивировано 12 июня 2016 года.