Данные обучения и тестирования в машинном обучении (ML)

Машинное обучение (ML) представляет собой подмножество искусственного интеллекта (ИИ), которое включает использование алгоритмов и статистических моделей, позволяющих компьютерным системам учиться на данных и улучшать производительность при выполнении конкретной задачи с течением времени без явного программирования. Он включает в себя передачу больших объемов данных в алгоритмы, которые автоматически изучают закономерности в данных. Машинное обучение имеет широкий спектр применений и быстро меняет то, как мы взаимодействуем с технологиями и решаем сложные проблемы.

Несмотря на широкое распространение, алгоритмы машинного обучения могут столкнуться с множеством классических проблем, которые могут повлиять на их производительность и точность. Несколько скандалов попали в заголовки из-за неадекватных, предвзятых данных обучения или тестовых данных. Скандалы с налоговой инспекцией Нидерландов, «Дизельгейт» Volkswagen и программное обеспечение для найма Amazon служат убедительным напоминанием о катастрофических последствиях, к которым может привести использование автоматизированных систем без надлежащих мер безопасности, особенно в связи с тем, что правительства и корпорации все больше полагаются на алгоритмы и ИИ для оптимизации своих процессов.

Есть несколько случаев, когда алгоритмы машинного обучения могут дать сбой, но в лучшем случае эти ошибки выявляются в процессе разработки алгоритма. Переобучение, недообучение и предвзятость при выборе функций — распространенные проблемы при составлении алгоритма ML. Переобучение происходит, когда модель изучает новые данные и плохо обобщает их. Недостаточное приспособление означает, что модель слишком проста для того, чтобы уловить основные закономерности в данных. И ошибки выбора признаков появляются, когда модель построена с использованием подмножества признаков, которые выбираются на основе их эффективности на обучающих данных и могут плохо обобщаться при новых данных.

Алгоритмы машинного обучения также могут быть чувствительны к выбросам и несбалансированным или устаревшим обучающим и тестовым наборам данных. Решение этих классических проблем необходимо для создания точных и надежных моделей машинного обучения, которые могут предоставить ценную информацию и прогнозы.

Как создаются алгоритмы ML

Хотя машинное обучение в основном находится в центре внимания, трудно понять рождение этих алгоритмов, не исследуя процесс их создания. Обычно за создание алгоритмов машинного обучения отвечают специалисты по данным. Наука о данных — это междисциплинарная область, которая сочетает в себе статистические, математические и вычислительные инструменты для извлечения идей и знаний из данных. Наука о данных более широкий термин, который включает в себя множество методов и подходов для работы с данными. ML является подмножеством этих методов и фокусируется конкретно на построении алгоритмов и моделей.

Шаги обычно включают определение проблемы, сбор и очистку данных, изучение данных, разработку модели на основе гипотезы, тестирование и проверку модели, а также сообщение результатов заинтересованным сторонам. На протяжении всего процесса специалисты по данным используют различные инструменты и методы, включая статистический анализ, машинное обучение и визуализацию данных, для извлечения и передачи значимых идей и выявления закономерностей в данных.

Этапы зависят от области применения. Например, в академической среде за оценкой модели следует сообщение и распространение результатов. В то же время в производственной среде за оценкой следует развертывание, мониторинг и обслуживание. В бизнес-среде речь идет не о линейном процессе, а скорее серия повторений.

ML играет важную роль на этапе моделирования. Моделирование относится к процессу построения математического представления реальной системы или явления с использованием данных. Целью моделирования является изучение закономерностей, взаимосвязей и тенденций в данных. Моделирование обычно включает в себя выбор подходящего алгоритма и его соответствующих функций, а также настройку гиперпараметров модели. Производительность модели оценивается с использованием различных показателей, и модель итеративно уточняется до момента достижения нужной производительности.

Этапы, связанные с выбором модели ML

Этапы жизненного цикла науки о данных также часто упоминаются как часть ML, поскольку они неизбежны при построении алгоритма ML. Однако само моделирование также включает в себя подэтапы, среди которых: разработка признаков, разделение данных, выбор модели, настройка гиперпараметров и оценка модели. Выбор модели основывается не только на вопросе, на который необходимо ответить, но и на характере имеющихся данных. При выборе модели важны определенные характеристики, такие как количество признаков, наличие категориальных или числовых переменных и распределение данных. Некоторые алгоритмы могут лучше работать с определенными типами данных или распределениями.

Надлежащая предварительная обработка данных и объяснительная аналитика данных имеют решающее значение для любого статистического моделирования, поскольку эксперты обнаруживают характеристики на таких этапах. Они также предоставляют необходимую информацию для выбора между соответствующими алгоритмами. В ML есть два основных типа алгоритмов: контролируемые и неконтролируемые. В контролируемом ML модели обучаются на помеченных данных, а в неконтролируемом модели изучают шаблоны на немаркированных данных. Ниже приведены несколько примеров моделей машинного обучения.

Полууправляемое машинное обучение — это тип машинного обучения, при котором модель учится как на маркированных и на немаркированных данных. В отличие от обучения с учителем, когда модель обучается исключительно на размеченных данных, для повышения точности модели обучение с полуучителем использует дополнительную информацию, доступную в виде неразмеченных данных.

Они широко используются в сложных моделях машинного обучения. Например, модели глубокого обучения могут извлечь выгоду из полуконтролируемого обучения, включив в процесс обучения маркированные и немаркированные данные. Это может помочь улучшить производительность модели, особенно при ограниченном количестве маркированных данных

Что такое обучающие данные в машинном обучении

В машинном обучении разрабатывается модель для изучения закономерностей или прогнозирования на основе данных. Чтобы создать эффективную модель и оценить ее производительность, доступные данные обычно разбивают на три отдельных набора: обучающий, проверочный и тестовый. Обучающий набор представляет собой самую большую часть данных и используется для обучения модели. Набор проверки — это подмножество данных, используемых для настройки гиперпараметров модели во время обучения. А тестовый набор — это отдельное подмножество данных, используемое для оценки окончательной производительности модели после настройки.

Функция обучающих данных различается в зависимости от типа модели. В обучении с учителем обучающие данные состоят из пар ввода-вывода, также известных как функции и метки. Функции — это входные переменные, используемые для прогнозирования, а метки — соответствующие выходные переменные, которые модель пытается предсказать. Цель обучения с учителем — изучить сопоставление входных признаков с выходными метками, чтобы модель могла делать точные прогнозы для новых, невидимых данных.

Например, в задаче классификации, связанной с блокчейном, признаками могут быть атрибуты транзакций, такие как адреса отправителя и получателя, сумма транзакции и комиссия за транзакцию, а метка может указывать на то, является ли транзакция мошеннической (1) или нет (0). ).

Обучающие данные будут состоять из набора исторических транзакций из сети блокчейн с соответствующими им мошенническими или немошенническими метками. Алгоритм обучения с учителем затем изучает шаблоны и ассоциации между атрибутами транзакций и их мошенническими или не мошенническими метками, чтобы прогнозировать и идентифицировать потенциально мошеннические транзакции.

При неконтролируемом обучении обучающие данные состоят только из входных признаков без соответствующих меток. Целью неконтролируемого обучения является обнаружение базовых закономерностей, структур или взаимосвязей в данных без каких-либо указаний со стороны выходных меток. Алгоритмы обучения без учителя обычно используются для кластеризации, уменьшения размерности и обнаружения аномалий.

Кластеризация — это процесс группировки похожих точек данных в кластеры на основе присущих им шаблонов. Уменьшение размерности направлено на уменьшение количества признаков в наборе данных без потери значительной информации. Обнаружение аномалий выявляет редкие или аномальные точки данных, которые значительно отклоняются от нормы.

Продолжая предыдущий пример, неконтролируемое машинное обучение может помочь в классификации мошеннических действий, обнаруживая основные закономерности, отношения или кластеры в данных транзакций. Роль обучающих данных в этом контексте состоит в том, чтобы предоставить алгоритму большой набор немаркированных транзакций, содержащих только адреса отправителя и получателя, суммы транзакций, комиссии за транзакции и сетевую активность.

Затем неконтролируемый алгоритм анализирует эти функции и группирует транзакции на основе их сходства, потенциально выявляя кластеры транзакций с общими характеристиками. Изучая эти кластеры, аналитики могут получить представление о неизвестных или возникающих мошеннических действиях.

Проверка данных и настройка гипер параметров

Проверочный набор — это меньшая часть данных, которая не используется на этапе обучения. Он используется для тонкой настройки гиперпараметров модели, которые не оптимизируются напрямую в процессе обучения.

Настройка гиперпараметров — это процесс выбора наилучшей комбинации гиперпараметров для алгоритма машинного обучения, которая обеспечивает максимально возможную производительность модели для данной задачи. Гиперпараметры различаются в зависимости от модели, но настройка обычно включает определение диапазона гиперпараметров, обучение и оценку модели для каждой комбинации, а также выбор наиболее эффективной модели.

В контролируемом машинном обучении гиперпараметры подразумевают параметры, которые задаются перед обучением модели, такие как скорость обучения, количество деревьев решений, максимальная глубина и т. д., в данном примере дерева решений градиентного повышения. В неконтролируемом машинном обучении гиперпараметры могут включать количество кластеров в алгоритме кластеризации и количество основных компонентов, которые необходимо сохранить при анализе основных компонентов.

Проверка модели является важным шагом в настройке гиперпараметров. Цель проверки модели — оценить способность модели обобщать новые, невидимые данные. Переобучение происходит, когда модель изучает шум в обучающих данных и не может обобщить новые данные. Недообучение происходит, когда модель слишком проста и не может отразить основные закономерности в данных. Компромисс между смещением и дисперсией является важной концепцией машинного обучения, связанной с переоснащением и недообучением.

Смещение модели измеряет, насколько прогнозы модели отличаются от истинных значений, а дисперсия измеряет, насколько прогнозы модели различаются в разных обучающих наборах. Модель с высоким смещением обычно слишком проста и может не соответствовать данным, в то время как модель с высокой дисперсией обычно слишком сложна и может соответствовать данным. Цель состоит в том, чтобы найти золотую середину между смещением и дисперсией для создания модели хорошо обобщающей новые данные.

Что такое тестирование данных в машинном обучении

Процесс оценки модели как в контролируемом, так и в неконтролируемом машинном обучении включает измерение производительности модели на наборе данных, который не использовался во время обучения. Как в контролируемом, так и в неконтролируемом машинном обучении роль тестовых данных заключается в оценке производительности модели. Это обеспечивает объективную оценку способности модели обобщать новые данные, что необходимо для понимания ее реальной производительности.

Метрики оценки обеспечивают количественную меру того, насколько хорошо модель способна прогнозировать выходные данные для новых, невидимых данных. Выбор показателей оценки зависит от конкретной проблемы и характера данных. Например, для моделей бинарной классификации обычно используются точность, прецизионность, полнота, оценка F1 и площадь под кривой рабочей характеристики приемника, в то время как для задач регрессии среднеквадратическая ошибка и объясненная дисперсия являются обычными показателями. Также стоит отметить, что это не единственные доступные метрики оценки, и другие метрики могут использоваться в зависимости от решаемой проблемы.

Выбор показателей оценки для алгоритмов машинного обучения без учителя может быть более сложным по сравнению с обучением с учителем. Например, при кластеризации нет оснований для сравнения кластеров. Такие метрики, как инерция и оценка силуэта, используются для оценки качества кластеров. Инерция (или сумма квадратов ошибок) вычисляет сумму квадратов расстояний от каждой точки до ближайшего к ней центра кластера.

Оценка силуэта измеряет качество кластеризации, оценивая, насколько каждая точка данных похожа на свой собственный кластер по сравнению с другими кластерами. При уменьшении размерности метрики оценки зависят от конкретной проблемы, но обычно включают объясненную дисперсию или ошибку реконструкции. Для методов визуализации оценка основана на качестве визуализации, которое является субъективным и трудно поддающимся количественной оценке.

Трудно найти правильную пропорцию для разделения набора данных. Оптимальные пропорции наборов для обучения, проверки и тестирования могут варьироваться в зависимости от размера набора данных и сложности задачи машинного обучения. Однако общее разделение составляет 70% для обучения, 15% для проверки и 15% для тестирования. В некоторых случаях также используется разделение 80-20% на обучение и тестирование.

Если доступных данных недостаточно, распространенным решением является использование методов перекрестной проверки, например перекрестная проверка в k-кратном порядке. При k-кратной перекрестной проверке данные разбиваются на k сгибов, а модель обучается и оценивается k раз, каждый раз используя разные сгибы в качестве тестового набора, а оставшиеся сгибы — в качестве обучающего набора. Затем результаты усредняются для получения оценки производительности модели.