Перейти к содержанию

Работа с ETL-блоками

ETL-блоки - это инструмент, позволяющий трансформировать и обрабатывать данные, используя готовые блоки скриптов. 

Каждый ETL-блок содержит:

  • скрипт с функцией определения списка полей объекта и функцией сборки данных блока (по аналогии с after_load/after_all-функциями из ETL-редактора), и скрипт определения;

  • список настраиваемых параметров, которые пользователь должен указать на странице редактирования модели при помещении данного ETL-блока на схему модели.

Доступные ETL-блоки:

  • Вычисляемые поля - блок предназначен для добавления вычисляемых полей к любой части модели. Вычисляемое поле задается названием и выражением для вычисления значения поля. При указании выражений вычисляемых полей используется Spark SQL;

  • Декоратор - блок предназначен для произвольного преобразования схемы и процедуры получения данных любой части модели;

  • Функция - блок предназначен для реализации произвольного поведения при обработке данных модели;

  • SQL-блок - блок позволяет выполнить произвольное SQL-выражение над любой частью модели;

  • Временная серия - блок позволяет сгенерировать столбец с некоторыми периодическими временными значениями;

  • Разворот иерархии Parent-Child - блок предназначен для преобразования таблицы с parent-child иерархией в таблицу, где уровни иерархии вынесены (развернуты) в отдельные столбцы;

  • Прогнозирование временного ряда - блок выполняет прогнозирование временного ряда на основе автоматически обучаемой статистической модели;

  • Классификация/регрессия с ML-моделью - блок выполняет предсказание (классификацию, регрессию) для вложенной в него таблицы на основе ML-модели из внутреннего реестра ML-моделей;

  • ML-модель в ручном режиме - блок предназначен для опытных специалистов по ML-моделям в случае нехватки функционала блоков Прогнозирование временного ряда (авто) и Классификация/регрессия с ML-моделью;

  • JSON-блок - блок позволяет преобразовать значения из JSON-поля в новые строки или столбцы. Работает со значениями полей как в виде объектов, так и массивов.

Для подключения ETL-блоков из внешнего репозитория используется переменная среды ETL_BLOCKS_REPOSITORY. В переменной указывается адрес собственного репозитория. В список ETL-блоков добавляются блоки из стороннего репозитория. Создание собственных ETL-блоков можно выполнять с использованием клиентской библиотеки analytic-workspace-client.

С подробным описание каждого ETL-блока и его параметров можно ознакомиться перейдя по ссылке Подробнее о блоке, указанной в окне настройки параметров ETL-блока.

img

Добавление ETL-блока

Для добавления ETL-блока нажмите на кнопку img Добавить объект на панели кнопок и в выпадающем списке выберите пункт ETL-блок.

img

Откроется окно выбора блока.

img

Для выбора блока в списке установите флажок напротив необходимого блока и нажмите на кнопку img Добавить в появившейся панели выполнения действий.

img

После добавления ETL-блока на схему модели откроется окно для задания параметров ETL-блока. Каждый ETL-блок имеет свой набор параметров. С подробным описание каждого ETL-блока и его параметров можно ознакомиться перейдя по ссылке Подробнее о блоке, указанной в окне настройки параметров ETL-блока.

img

Для наполнения ETL-блока данными переместите с помощью drag-and-drop в его область блоки данных и соедините их связью типа JOIN. При перемещении связанных объектов данных в или из ETL-блока, будет перемещен сам объект и все его связанные объекты справа. Если перемещаемый объект был связан слева с другим объектом, то откроется предупреждение, что данная связь будет удалена.

Невозможно соединить при помощи JOIN блоки данных внутри и вне ETL-блока. Для такого соединения используйте связь JOIN ETL-блока целиком и объекта вне ETL-блока.

Для переименования ETL-блока:

  • в области схемы модели напротив необходимого ETL-блока нажмите на кнопку svg, откроется контекстное меню. Выберите пункт Переименовать и измените название;

img

  • дважды нажмите на наименование ETL-блока и измените название.

gif

Для удаления ETL-блока в области схемы модели напротив необходимого ETL-блока нажмите на кнопку svg, откроется контекстное меню. Выберите пункт Удалить.

img

Для связи ETL-блока с другими блоками или объектами в области схемы модели напротив необходимого ETL-блока нажмите на кнопку svg, откроется контекстное меню. Выберите пункт Добавить JOIN.

img

Настройка параметров ETL-блока

Настройка параметров ETL-блока доступна сразу после создания блока. Для перехода к редактированию настроек параметров ETL-блока в области схемы модели напротив необходимого ETL-блока нажмите на кнопку svg, откроется контекстное меню. Выберите пункт Настроить параметры.

img

Откроется окно для задания параметров ETL-блока. Каждый ETL-блок имеет свой набор параметров. С подробным описание каждого ETL-блока и его параметров можно ознакомиться перейдя по ссылке Подробнее о блоке, указанной в окне настройки параметров ETL-блока.

img

В случае неверно заполненных параметров или незаполненных параметров, приводящих к ошибке, справа от наименования ETL-блока отображается пиктограмма svg, сигнализирующая об ошибке блока. При наведении на пиктограмму появляется подсказка с текстом ошибки.

img

Вычисляемые поля

Блок предназначен для добавления вычисляемых полей к любой части модели. Вычисляемое поле задается названием и выражением для вычисления значения поля. При указании выражений вычисляемых полей используется Spark SQL.

img

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

  • Название - наименование вычисляемого поля. Доступно использование букв, цифр и символа _;
  • SQL выражение - SQL запрос для вычисления поля. При указании выражений используется Spark SQL;

В поле ввода SQL выражения при вводе первых букв отображаются значения справочников (IntelliSense) и подсветка синтаксиса. Справочники реализованы по полям модели, ключевым словам (select, from и др.), алиасам, таблицам. При выборе алиаса в выпадающем списке в формуле указывается код выбранного поля для корректной работы запроса.

  • кнопка img Добавить "Вычисляемое поле" позволяет добавить вычисляемое поле в блок. Кнопка svg отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме .

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

Декоратор

Блок предназначен для произвольного преобразования схемы и процедуры получения данных любой части модели.

img

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

  • Функция для получения схемы - имя функции из ETL-скрипта модели, которая используется для получения схемы блока;
  • Функция для построения данных - имя функции из ETL-скрипта модели, которая используется для получения данных блока.

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

Функция

Блок предназначен для реализации произвольного поведения при обработке данных модели.

img

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

  • Вызываемая функция - имя функции из ETL-скрипта модели, которая используется для получения требуемого поведения;

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

SQL-блок

Блок позволяет выполнить произвольное SQL-выражение над любой частью модели.

img

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

  • SQL выражение - SQL запрос для вычисления. При указании выражений используется Spark SQL;

В поле ввода SQL выражения при вводе первых букв отображаются значения справочников (IntelliSense) и подсветка синтаксиса. Справочники реализованы по полям модели, ключевым словам (select, from и др.), алиасам, таблицам. При выборе алиаса в выпадающем списке в формуле указывается код выбранного поля для корректной работы запроса.

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

Временная серия

Блок позволяет сгенерировать столбец с некоторыми периодическими временными значениями.

img

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

  • Начало серии - поле для ввода или выбора из календара даты начала временной серии;
  • Окончание серии - поле для ввода или выбора из календара даты окончания временной серии;
  • Значение шага - поле для ввода числового значения шага серии;
  • Тип шага - выбор единицы измерения шага:
    • секунда;
    • минута;
    • час;
    • день;
    • неделя;
    • месяц;
    • год;
  • Название поля с серией - наименование столбца в модели, в котором будет сохранена временная серия;
  • img Разбить дату/время на компоненты - позволяет дополнительно разбить сгенерированные дату или время на отдельные столбцы;

img

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

Разворот иерархии Parent-Child

Блок предназначен для преобразования таблицы с parent-child иерархией в таблицу, где уровни иерархии вынесены (развернуты) в отдельные столбцы.

img

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

Для выбора столбцов необходимо предварительно добавить объект в блок.

  • Идентификатор записи (id) - выбор столбца, в котором хранятся идентификаторы записи;
  • Идентификатор родителя (parent_id) - выбор столбца, в котором хранятся идентификаторы родительской записи;
  • Название столбца - выбор столбца, значения которого будут размножены по уровням иерархии;
  • кнопка Добавить "Атрибут иерархии" - позволяет добавить еще один столбец, который будет размножен по уровням иерархии. Кнопка svg отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
  • Префикс столбца для уровня - приписка в названии столбца, которая будет добавлена к каждому столбцу при разворачивании уровней иерархии;
  • кнопка img Добавить "Уровень иерархии" - позволяет добавить еще один префикс. Кнопка svg отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
  • Столбец с номером уровня - название столбца в модели, в котором будут записаны уровни иерархии;
  • img Оставить только записи последнего уровня - позволяет исключить из таблицы все уровни, кроме последнего;

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

Прогнозирование временного ряда

Блок выполняет прогнозирование временного ряда на основе автоматически обучаемой статистической модели.

img

Сервисы, которые отвечают за превью и синхронизацию моделей с ML-предсказаниями подключаются с помощью docker-compose.ml.yml и docker-compose.ml.prod.yml. Для инстансов Системы, на которых не нужно машинное обучение, данные сервисы подключать не рекомендуется, т.к. данные контейнеры потребляют существенные ресурсы.

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

Для выбора столбцов необходимо предварительно добавить объект в блок.

  • Библиотека прогнозирования - библиотека для построения прогноза под данным. В текущей версии блока поддерживается: Prophet;
  • Название поля с датой - выбор столбца, который является временной меткой ряда значений;
  • Название поля с показателем - выбор столбца, значения которого необходимо предсказать. К полям дочерней таблицы добавляется столбец {показатель}__forecast, в который будет записано спрогнозированное значение;
  • Доверительный интервал для показателя - позволяет добавить дополнительные столбцы {показатель}__forecast_lower и {показатель}__forecast_upper, в которых будут указаны нижняя и верхняя границы для доверительного интервала спрогнозированного значения основного показателя;
  • Поле для группировки значений в серию - выбор столбца, для определения группировки;
  • кнопка img Добавить "Поле группы" - позволяет добавить еще одно поле для группировки. Кнопка svg отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
  • Тренд - позволяет добавить дополнительный столбец `{показатель}__trend, в котором будут значения тренда прогнозируемого показателя:
    • нет;
    • да;
    • да, с доверительным интервалом;

Если выбрано значение да, с доверительным интервалом, то дополнительно будут сформированы столбцы {показатель}__trend_lower и {показатель}__trend_upper с границами доверительного интервала для значений линии тренда.

  • Годовая компонента" - позволяет добавить дополнительный столбец {показатель}__yearly, в котором будут значения годовой компоненты сезонности прогнозируемого показателя:
    • нет;
    • да;
    • да, с доверительным интервалом;

Если выбрано значение да, с доверительным интервалом, то дополнительно будут сформированы столбцы {показатель}__yearly_lower и {показатель}__yearly_upper с границами доверительного интервала для значений годовой компоненты сезонности.

  • Еженедельная компонента - позволяет добавить дополнительный столбец {показатель}__weekly, в котором будут значения недельной компоненты сезонности прогнозируемого показателя:
    • нет;
    • да;
    • да, с доверительным интервалом;

Если выбрано значение да, с доверительным интервалом, то дополнительно будут сформированы столбцы {показатель}__weekly_lower и {показатель}__weekly_upper с границами доверительного интервала для значений недельной компоненты сезонности.

  • Дневная компонента - позволяет добавить дополнительный столбец {показатель}__daily, в котором будут значения дневной компоненты сезонности прогнозируемого показателя:
    • нет;
    • да;
    • да, с доверительным интервалом;

Если выбрано значение да, с доверительным интервалом, то дополнительно будут сформированы столбцы {показатель}__daily_lower и {показатель}__daily_upper с границами доверительного интервала для значений дневной компоненты сезонности.

  • Количество прогнозируемых точек - количество точек, на которое необходимо спрогнозировать временной ряд. Размерность точек определяется значением настройки Частота;
  • Частота - размерность прогнозируемых точек временного ряда в будущем:

    • автоматически - размерность определится автоматически на основе исторических данных. Если система в процессе обработки данных не сможет определить частоту, то будет выдана ошибка и необходимо будет указать конкретное значение частоты самостоятельно;
    • день;
    • неделя;
    • месяц (первый день);
    • месяц (посл. день);
    • квартал (первый день);
    • квартал (посл. день);
    • год (первый день);
    • год (посл. день);
  • img Применить прогноз исторических данных - позволяет построить прогноз для значений уже присутствующих в таблице. Это позволит визуально сравнить, насколько прогностическая модель хорошо приближает уже известные значения временного ряда;

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

Классификация/регрессия с ML-моделью

Блок выполняет предсказание (классификацию, регрессию) для вложенной в него таблицы на основе ML-модели из внутреннего реестра ML-моделей.

Сервисы, которые отвечают за превью и синхронизацию моделей с ML-предсказаниями подключаются с помощью docker-compose.ml.yml и docker-compose.ml.prod.yml. Для инстансов Системы, на которых не нужно машинное обучение, данные сервисы подключать не рекомендуется, т.к. данные контейнеры потребляют существенные ресурсы.

img

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

Для выбора столбцов необходимо предварительно добавить объект в блок.

  • Ссылка на ML-модель - ссылка на модель во внутреннем реестре MLFlow;
Формат ссылок

Формат с номером версии модели: models:/{model_name}/{suffix}

Пример: model:/MyModelName/1

Формат с алиасом модели: models:/{model_name}@{alias}

Пример: model:/MyModelName@production

Формат с запуском эксперимента: runs:/{run_id}/model

Пример: runs:/31d59be3b06f43a7ab7d6e218b999862/model

  • Поле из модели - выбор столбца, который будет сопоставлен с полем из набора для обучения;
  • Название при обучении - наименование столбца в обучении модели, для сопоставления с Поле из модели;

В процессе работы выполняемся автоматическое сопоставление полей из модели и полей данных обучения. Сопоставление выполняется с заменой пробелов на знаки подчеркивания, а также с удалением "технических" префиксов вида "etl_block__".

Если какой-то признак не будет сопоставлен с полем из модели, то необходимо добавить его в параметре вручную.

  • кнопка img Добавить "Признак модели" - позволяет добавить еще одно соответствие поля модели с полем из набора для обучения. Кнопка svg отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
  • Название поля - позволяет добавить дополнительный столбец, в котором будет записан результат предсказания по каждой строке;
  • Тип значения - выбор типа значения, которое будет сгенерировано ML-моделью:

    • строка;
    • целое;
    • дробное;
  • кнопка img Добавить "Целевая переменная" - позволяет добавить еще одно поле переменной. Кнопка svg отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

ML-модель в ручном режиме

Блок предназначен для опытных специалистов по ML-моделям, в случае нехватки функционала блоков Прогнозирование временного ряда и Классификация/регрессия с ML-моделью.

Сервисы, которые отвечают за превью и синхронизацию моделей с ML-предсказаниями подключаются с помощью docker-compose.ml.yml и docker-compose.ml.prod.yml. Для инстансов Системы, на которых не нужно машинное обучение, данные сервисы подключать не рекомендуется, т.к. данные контейнеры потребляют существенные ресурсы.

img

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

  • Ссылка на ML-модель - ссылка на модель во внутреннем реестре MLFlow;
Формат ссылок

Формат с номером версии модели: models:/{model_name}/{suffix}

Пример: model:/MyModelName/1

Формат с алиасом модели: models:/{model_name}@{alias}

Пример: model:/MyModelName@production

Формат с запуском эксперимента: runs:/{run_id}/model

Пример: runs:/31d59be3b06f43a7ab7d6e218b999862/model

  • Функция для получения схемы - имя функции из ML-модели, которая используется для получения схемы блока;
  • Функция для построения данных - имя функции из ML-модели, которая используется для получения данных блока.
  • Название поля - позволяет добавить дополнительный столбец, в котором будет записан результат предсказания по каждой строке;
  • Тип значения - выбор типа значения, которое будет сгенерировано ML-моделью:

    • строка;
    • целое;
    • дробное;
    • дата;
    • дата и время;
    • логическое;
  • кнопка img Добавить "Целевая переменная" - позволяет добавить еще одно поле переменной. Кнопка svg отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

JSON-блок

Блок позволяет преобразовать значения из JSON-поля в новые строки или столбцы. Работает со значениями полей как в виде объектов, так и массивов.

img

Окно настройки параметров содержит:

1.Блок кнопок управления:

  • img Сохранить - сохранение параметров и закрытие окна;
  • img Отменить - закрытие окна без сохранения изменений;
  • img Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;

img

Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • svg Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;

img

Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

  • svg подсказка - отображение/скрытие подсказки к блоку.

2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке svg.

3.Параметры ETL-блока:

Для выбора столбцов необходимо предварительно добавить объект в блок.

  • JSON-поле - выбор столбца, в котором содержаться JSON-значения;
  • Схема JSON - схема данных внутри JSON-значений. Если используется каскад JSON-блоков, когда схема JSON уже была применена во вложенном JSON-блоке, то поле можно не заполнять;
Правила заполнения схемы
  • [] - для указания массива, например, [целое];
  • {} - для указания объекта, например, {a: целое, b: строка};
  • Типы значений:
    • целое;
    • дробное;
    • датавремя;
    • логическое;
    • строка;
  • "" - для атрибута с пробелами в наименовании, например, "имя с пробелом": целое;
  • объекты и массивы могут вкладываться друг в друга:
    • {a: {b: целое}}, например, {"a": {"b":1}};
    • {a: [целое]}, например, {"a": [1, 2]};
    • [{a: целое, b: строка}], например, [{"a": 1}, {"b": "привет"}].
  • кнопка img Заполнить схему JSON автоматически - автоматическое построение схемы на основе первых 100 строк из вложенного объекта;

Заполнение схемы выполняется:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.

  • Тип преобразования - выбор метода преобразования данных:
    • Атрибуты объекта -> Столбцы - извлекает значения из атрибутов объектов в JSON-поле и помещает их в отдельные столбцы модели;
    • Элементы массива -> Столбцы - извлекает значения из массива и создает для каждого такого значения отдельный столбец модели. В значениях новых столбцов указывается true/false (или 1/0, или {значение}/null) в зависимости от того, присутствует ли указанное значение в массиве текущей строки;
    • Элементы массива -> Строки - множит текущую строку столько раз, сколько есть элементов в массиве. В модель добавляется отдельная строка, в которой указывается значение массива;
  • Путь к объекту - последовательность атрибутов до вложенного объекта, если он находится не на самом верхнем уровне JSON-поля. Пример, если в JSON-поле хранится объект d {"a": {"b": {"c": {"d": 1}}}}, то в поле указывается значение a.b.c;
  • Что указывать в значениях новых столбцов - в значениях новых столбцов указывается true/false или 1/0, или {значение}/null в зависимости от того, присутствует ли указанное значение в массиве текущей строки;

Настройка Что указывать в значениях новых столбцов активна только при Тип преобразования в значении Элементы массива -> Столбцы.

  • Столбец в модели - название столбца со значениями массива;

Настройка Что указывать в значениях новых столбцов активна только при Тип преобразования в значении Элементы массива -> Строки.

  • Правила создания столбцов - правила создания столбцов:

    • Значение из объекта - атрибуты объекта, которые нужно перенести;
    • Столбец в модели - название столбца с атрибутами объекта;

    Название Столбец в модели может быть создано автоматически:

    • НазваниеJSONполя__АтрибутОбъекта - при Тип преобразования в значении Атрибуты объекта -> Столбцы;
    • НазваниеJSONполя__ЗначениеИзМассива - при Тип преобразования в значении Элементы массива -> Столбцы.
    • кнопка img Добавить "столбец" - позволяет добавить еще одно правило создания столбцов; Кнопка svg отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
    • кнопка img Заполнить автоматически - автоматическое заполнение правил создания столбцов (атрибуты) на основе первых 100 строк из вложенного объекта;

4.Блок предпросмотра:

  • отображается по результатам тестового запуска ETL-блока по кнопке img. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;

    img

    Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.

  • при просмотре структуры вложенных объектов по кнопке svg. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.

    img

Загрузка данных предпросмотра выполняется автоматически:

  • при открытой и активной вкладке браузера;
  • при открытой форме, на которой должны отобразиться данные;
  • до превышения максимально установленного времени загрузки - 15 минут.

В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.