Прогнозирование с помощью глубокого обучения

Мы рады объявить о выходе 5-го поколения системы прогнозирования Lokad, которая обеспечивает максимальную эффективность создаваемых прогнозов. Данное обновление сразу же дает беспрецедентное повышение точности прогнозирования.



От вероятностного прогнозирования к глубокому обучению

В основе нашей системы лежит сравнительно новая разновидность машинного самообучения, которая называется глубоким обучением. В цепях поставок значительное повышение точности прогнозов может привести к значительному повышению прибыли, увеличению количества клиентов и скорости их обслуживания при снижении рисков, связанных с запасами. Около полутора лет назад мы объявили о выходе 4-го поколения нашей технологии прогнозирования. Это поколение было первым, в котором использовались настоящие вероятностные прогнозы. Вероятностные прогнозы важны для цепей поставок, потому что убытки в них связаны со статистическими крайностями, когда спрос оказывается неожиданно высоким или низким. Традиционные методы — привычные ежедневные, еженедельные и ежемесячные прогнозы — которые направлены на поиск среднего или медианного значения, не могут решить данную проблему. Как следствие, эти методы обычно не дают удовлетворительных результатов для бизнеса. Наша система 5-го поколения не скрывает своего происхождения: здесь также используются вероятностные прогнозы и опыт прежних поколений.

Кроме того, оказывается, что глубокое обучение вообще отлично подходит для работы с вероятностными прогнозами по своей природе. Причины этого, впрочем, никак не связаны с проблемами цепей поставок. Алгоритмы глубокого обучения хорошо подходят для оптимизации на базе вероятностного / бейесовского подхода с метриками типа перекрестной энтропии, потому что такие показатели обеспечивают большие значения градиента, которые отлично согласуются со стохастическим градиентным спуском, тем самым алгоритмом, который делает глубокое обучение возможным.

В случае с цепями поставок основы глубокого обучения полностью согласованы с реальными потребностями бизнеса!

Что стоит за хайпом на искусственном интеллекте

Искусственный интеллект, который на практике реализуется за счет глубокого обучения, был у всех на слуху еще в 2017 году. Всюду звучали заявления — громкие, поразительные и, честно говоря, запутанные. Мы в Lokad прекрасно понимали, что большинство этих промышленных систем ИИ не оправдают ожиданий. Мало у каких компаний — например, у Instacart — нашлось по полмиллиарда долларов, чтобы нанять команду специалистов по глубокому обучению мирового уровня для работы с цепями поставок.

Новое поколение системы Lokad делает прогнозирование с использованием ИИ доступным всем компаниям, которые достаточно широко используют цифровые технологии. Разумеется, для работы системы все равно нужны фактические данные о цепях поставок, поэтому их нужно будет предоставить в Lokad, однако для работы с нашей технологией не нужно разбираться в глубоком обучении. В отличие от почти всех «промышленных» систем на базе ИИ в технологии Lokad не требуется ручное конструирование признаков. Для наших клиентов переход от старых к глубокому обучению пройдет незаметно. Lokad — это первый поставщик технологий прогнозирования с использованием ИИ «под ключ». Наш продукт доступен как для малых интернет-компаний со штатом из 1 сотрудника, так и для крупных сетей поставок, которые могут включать в себя тысячи локаций и миллионы товаров.

Эпоха вычислений с помощью GPU

Глубокое обучение всегда было нишевым продуктом, до тех пор пока прогресс в сфере программирования не позволил начать использовать GPU (графические процессоры) по полной. GPU заметно отличаются от CPU (центральных процессоров), с помощью которых и работает большинство приложений, кроме разве что компьютерных игр, которые используют CPU и GPU вместе. Помимо полной переработки системы прогнозирования в 5-м поколении мы также значительно улучшили низкоуровневую инфраструктуру Lokad. Теперь при работе с компаниями платформа Lokad использует как CPU, так и GPU. Lokad пользуется машинами на базе GPU, которые можно арендовать через платформу облачных вычислений Microsoft Azure, поддерживающую Lokad. Благодаря огромной вычислительной мощи GPU наши прогнозы не только стали точнее, но они еще и составляются быстрее. При использовании сети GPU прогнозы для большого объема данных составляются в 3-6 раз быстрее (*).

(*) Прогнозы для очень маленьких наборов данных в нашей системе 5-го поколения составляются медленнее — они требуют на несколько минут больше, что на практике не имеет особого значения.

Запуск и продвижение товара

Наша система прогнозирования 5-го поколения значительно лучше работает со сложными ситуациями, такими как запуск и продвижение товара. Спрогнозировать запуск новой продукции нам немного легче, чем продвижение товаров, однако это все равно очень сложно. Разница заключается в качестве фактических данных, которое для продвижения всегда ниже, чем для запуска продукции. Данные по продвижению постепенно улучшаются, стоит только наладить надлежащие процессы обеспечения качества.

В частности, мы считаем, что глубокое обучение открывает огромные возможности для модных брендов, которые постоянно мучаются с продажами новой продукции: для них запуск новых товаров — это правило, а не исключение. Кроме того, варианты разного цвета и размера значительно увеличивают число SKU, и, как следствие, ситуация осложняется еще сильнее.

Часто задаваемые вопросы

Какие модели прогнозирования вы используете?

В нашей системе глубокого прогнозирования используется единая модель, основанная на принципах глубокого обучения. В отличие от классических статистических моделей в ней применяются десятки миллионов изучаемых параметров, что примерно в 1000 раз больше, чем в предыдущей самой сложной модели, основанной на алгоритмах неглубокого машинного самообучения. Глубокое обучение намного превосходит старые методы машинного самообучения («случайный лес», «деревья с градиентным добавлением»). Однако необходимо отметить, что такие старые методики машинного обучения уже показывали лучшие результаты по сравнению с любым классическим методом на основе временных рядов (метод Бокса-Дженкинса, ARIMA, Холта-Винтерса, экспоненциальное сглаживание и т. д.)

Изучаете ли вы ошибки своей системы прогнозирования?

Да. Процесс статистического обучения (который и лежит в основе модели глубокого обучения) учитывает все фактические данные, которые доступны для Lokad. Фактические данные обрабатываются с помощью процесса, который называется ретроспективное тестирование. Таким образом, чем больше фактических данных доступно, тем больше у системы возможностей учиться на собственных ошибках.

Учитывает ли ваша система прогнозирования сезонность, тренды, дни недели?

Да, система прогнозирования поддерживает все привычные циклы и даже квазициклы, важность которых часто недооценивают. В целях повышения точности прогнозирования по отдельно взятому товару наша система глубокого обучения активно использует различные временные ряды для обработки цикличности различных товаров. К примеру, спрос на два разных товара может одинаково меняться в зависимости от сезона, но еженедельные изменения спроса для них будут разными. Наша модель может отразить данную закономерность. Кроме того, большим плюсом машинного обучения является возможность надлежащего отражения изменчивости сезонности как таковой. Сезон может начаться раньше или позже в зависимости от внешних факторов, таких как погода; и эти изменения обнаруживаются и учитываются в наших прогнозах.

Какие данные вам требуются?

Как и в случае с прошлым поколением нашей технологии, для прогнозирования спроса системе требуется (как минимум) история спроса (продаж) за каждый день, причем негруппированная история заказов даже лучше. Как правило, чем длиннее история, тем лучше. Сезонные изменения невозможно отследить, если история не превышает 2 лет, поэтому хорошо иметь 3-летнюю историю, а в идеале — 5-летнюю. Для прогнозирования времени выполнения заказов системе требуются данные о заказах на закупку товаров с датами размещения и доставки. Дополнительные атрибуты товара или SKU помогают значительно повысить качество прогнозов. Кроме того, если вы предоставите данные об уровне ваших запасов, нам будет проще составить для вас первый анализ товарных запасов.

Можете ли вы выполнить прогнозирование по моим записям в файле Excel?

Как правило, если все ваши данные помещаются на одном листе Excel, мы не сможем вам помочь, и, если честно, вряд ли это сможет сделать кто-то другой. Данные в таблицах обычно объединяются по неделям или месяцам — в итоге большая часть информации из-за этого теряется. Кроме того, в таких файлах вряд ли будет достаточно информации по категориям и иерархии ваших товаров. Наша система настроена на работу со всеми имеющимися данными, и выполнение теста на небольшом образце не даст сколько-нибудь стоящих результатов.

Как вы работаете со случаями дефицита товаров и промоакциями?

Случаи дефицита товаров и промоакции вводят погрешность в историю продаж. Наша цель — прогнозирование спроса, а не продаж, поэтому указанную погрешность необходимо учитывать. Очень часто (но неправильно) данная проблема решается переписыванием истории продаж: в пустые места вписываются данные, а резкое повышение показателей занижается. Мы не используем этот подход, потому что он подразумевает ввод прогнозов в систему прогнозирования, что может привести к большим проблемам с переподгонкой. Наша система поддерживает «флаги», которыми отмечаются места, где спрос был урезан или завышен.

Выполняете ли вы прогнозирование для новых товаров?

Да. Тем не менее для этого системе необходимо знать даты запуска других «старых» товаров, а также спрос на них на момент запуска. Кроме того, рекомендуется использовать некоторые категории и/или иерархию товаров. Система выполняет прогнозирование для новых товаров, автоматически обнаруживая «старые» товары, которые можно сопоставить с новыми. Тем не менее из-за того что фактический спрос на новые товары еще не был зафиксирован, прогнозы полностью зависят от атрибутов, связанных с ними.

Используете ли вы внешние данные для корректировки прогнозов?

Мы можем, например, использовать конкурентные расценки, которые получаем от сторонних организаций, специализирующихся на анализе содержания веб-страниц. Данные об интернет-трафике также могут собираться и использоваться для расширения фактических данных с целью повышения статистической точности прогнозов. На практике самым сложным моментом в использовании внешних источников данных является не система прогнозирования Lokad, которая обладает достаточно широкими возможностями, а настройка и поддержание качественного потока данных из указанных внешних ресурсов.