Как искусственный интеллект меняет работу с big data
Артем, давайте сначала поясним, что попадает под определение big data?
Большие данные или big data – это абстрактное понятие, которое обычно используется при разговоре о, том, как компании собирают, хранят, и обрабатывают свою информацию. Большими эти данные стали относительно недавно, когда у компаний появилось информации больше, чем они способны обработать в пределах одного сервера. Сегодня почти любая компания может начать работу именно с большими данными, отличаться она от обычной аналитики будет лишь тем, что эти данные не должны помещаться в excel или 1c (или любую другую программу для отчетности).
Для демонстрации трудностей аналитики большого объема информации у себя на компьютере, достаточно попробовать открыть в excel файл, содержащий 10.000.000 строк, например. (спойлер: excel выдаст ошибку, что он не может обработать такое количество информации). А если мы хотим проанализировать деятельность крупной компании, то объем информации легко может достигать миллиардов сообщений в день.
Вы говорите об огромных объемах данных. А что в них может содержаться?
Примером данных таких объемов в различных компаниях могут быть записи о движении товаров на складах, об их местонахождении, статусе устройств (антенн, мобильных телефонов, датчиков), движение денежных средств, сообщения пользователей и многое другое.
Что под собой подразумевает работа с большими данными?
Работа над большими данными может делиться на следующие направления:
1. Сбор данных.
2. Хранение данных
3. Аналитика данных, отчетность
4. Использование машинного обучения для поиска зависимостей в данных
5. Использование исторических данных для создания какого-либо функционала для клиентов
Что входит в сбор данных?
Зачастую, компании реализуют весь свой IT функционал (обработка платежей, взаимодействия с клиентами, управление товарами) используя множество различным информационных систем как внутренних, так и внешних. Часто эти системы не "заточены" под хранение и аналитику большого объема информации, поэтому большие данные требуется хранить в отдельной системе, которые предназначена специально для работы с гигантскими объёмами информации.
Получается, что нужна отдельная система для больших данных?
Такие системы называются хранилища данных (еще используется название "Озеро" данных). Чтобы информация появлялась в хранилище – ее необходимо регулярно получать из источников данных – фронтальных внутренних или внешних систем.
Какие возникают трудности при хранении больших данных?
Как только данные из источников получены в хранилище, встает вопрос каким именно образом хранить данных так, чтобы они оптимально копились там десятилетиями. Основное внимание уделяется тому, сколько данные будут занимать места, как быстро их можно будет прочитать и настолько часто их потребуется обновлять (если вообще потребуется). Так же здесь ведется работа над создаем метаданных и документации – того, без чего невозможно будет понять, что какие именно данные загружены в ту или иную таблицу и что они означают.
Каким образом данные можно использовать?
Когда сбор и хранение данных налажены, наконец можно перейти к использованию данных. Самым распространенным использованием больших данных является составление отчетности и аналитики на исторических данных. Отчетность может содержать такую информацию как количество активных клиентов за месяц, подробный отчет по каждому клиенту с описанием его поведения, статистика по динамике клиентом, по частоте использования определенной услуги и функционалу и так далее. Так же очень распространена углубленная аналитика использования какой-либо функциональности или поведения клиентов в определенных ситуациях. Такая аналитика включает подсчет сложной статистики, изучение поведения пользователей и так далее. В отличии от отчетов, которые подготавливаются автоматически и регулярно, аналитика зачастую выполняется вручную.
Что изменилось при появлении ИИ в обработке больших данных?
Самым современным и модным использованием больших данных является машинное обучение. Машинное обучение похоже на ручную аналитику, только теперь выводы о данных генерируются не человеком, а с помощью алгоритмов машинного обучения. Машина сама отвечает на вопросы, почему клиенты ведут себя определенным образом, как эффективнее привлекать новых клиентов, каким клиентам какая акция подойдет, как правильнее расставить товары на полке, каким клиентам лучше сделать скидку и т.д. Задачами же человека здесь остается подготовить входные данные для машинного обучения, настроить алгоритм обучения и проверить получившиеся результаты.
Случаются ли сбои при работе ИИ с базами данных?
Если в результате машинного обучения получены нереалистичные выводы, т.е. мы можем быть уверены, что рекомендации машины не эффективны, значит модель требует переобучения с другими входными данными или другим алгоритмом. Данный цикл может повторяться бесконечно, пока у нас есть новые комбинации алгоритмов обучения и входных данных, из хранилища данных. Каждый раз машина будет генерировать новые и новые гипотезы, которые могут приносить новые бизнес результаты.