Работа с ETL-блоками¶
ETL-блоки - это инструмент, позволяющий трансформировать и обрабатывать данные, используя готовые блоки скриптов.
Каждый ETL-блок содержит:
-
скрипт с функцией определения списка полей объекта и функцией сборки данных блока (по аналогии с after_load/after_all-функциями из ETL-редактора), и скрипт определения;
-
список настраиваемых параметров, которые пользователь должен указать на странице редактирования модели при помещении данного ETL-блока на схему модели.
Доступные ETL-блоки:
-
Вычисляемые поля - блок предназначен для добавления вычисляемых полей к любой части модели. Вычисляемое поле задается названием и выражением для вычисления значения поля. При указании выражений вычисляемых полей используется Spark SQL;
-
Декоратор - блок предназначен для произвольного преобразования схемы и процедуры получения данных любой части модели;
-
Функция - блок предназначен для реализации произвольного поведения при обработке данных модели;
-
SQL-блок - блок позволяет выполнить произвольное SQL-выражение над любой частью модели;
-
Временная серия - блок позволяет сгенерировать столбец с некоторыми периодическими временными значениями;
-
Разворот иерархии Parent-Child - блок предназначен для преобразования таблицы с parent-child иерархией в таблицу, где уровни иерархии вынесены (развернуты) в отдельные столбцы;
-
Прогнозирование временного ряда - блок выполняет прогнозирование временного ряда на основе автоматически обучаемой статистической модели;
-
Классификация/регрессия с ML-моделью - блок выполняет предсказание (классификацию, регрессию) для вложенной в него таблицы на основе ML-модели из внутреннего реестра ML-моделей;
-
ML-модель в ручном режиме - блок предназначен для опытных специалистов по ML-моделям в случае нехватки функционала блоков Прогнозирование временного ряда (авто) и Классификация/регрессия с ML-моделью;
-
JSON-блок - блок позволяет преобразовать значения из JSON-поля в новые строки или столбцы. Работает со значениями полей как в виде объектов, так и массивов.
Для подключения ETL-блоков из внешнего репозитория используется переменная среды ETL_BLOCKS_REPOSITORY. В переменной указывается адрес собственного репозитория. В список ETL-блоков добавляются блоки из стороннего репозитория. Создание собственных ETL-блоков можно выполнять с использованием клиентской библиотеки analytic-workspace-client.
С подробным описание каждого ETL-блока и его параметров можно ознакомиться перейдя по ссылке Подробнее о блоке, указанной в окне настройки параметров ETL-блока.
Добавление ETL-блока¶
Для добавления ETL-блока нажмите на кнопку Добавить объект на панели кнопок и в выпадающем списке выберите пункт ETL-блок.
Откроется окно выбора блока.
Для выбора блока в списке установите флажок напротив необходимого блока и нажмите на кнопку Добавить в появившейся панели выполнения действий.
После добавления ETL-блока на схему модели откроется окно для задания параметров ETL-блока. Каждый ETL-блок имеет свой набор параметров. С подробным описание каждого ETL-блока и его параметров можно ознакомиться перейдя по ссылке Подробнее о блоке, указанной в окне настройки параметров ETL-блока.
Для наполнения ETL-блока данными переместите с помощью drag-and-drop в его область блоки данных и соедините их связью типа JOIN. При перемещении связанных объектов данных в или из ETL-блока, будет перемещен сам объект и все его связанные объекты справа. Если перемещаемый объект был связан слева с другим объектом, то откроется предупреждение, что данная связь будет удалена.
Невозможно соединить при помощи JOIN блоки данных внутри и вне ETL-блока. Для такого соединения используйте связь JOIN ETL-блока целиком и объекта вне ETL-блока.
Для переименования ETL-блока:
- в области схемы модели напротив необходимого ETL-блока нажмите на кнопку
, откроется контекстное меню. Выберите пункт Переименовать и измените название;
- дважды нажмите на наименование ETL-блока и измените название.
Для удаления ETL-блока в области схемы модели напротив необходимого ETL-блока нажмите на кнопку , откроется контекстное меню. Выберите пункт Удалить.
Для связи ETL-блока с другими блоками или объектами в области схемы модели напротив необходимого ETL-блока нажмите на кнопку , откроется контекстное меню. Выберите пункт Добавить JOIN.
Настройка параметров ETL-блока¶
Настройка параметров ETL-блока доступна сразу после создания блока. Для перехода к редактированию настроек параметров ETL-блока в области схемы модели напротив необходимого ETL-блока нажмите на кнопку , откроется контекстное меню. Выберите пункт Настроить параметры.
Откроется окно для задания параметров ETL-блока. Каждый ETL-блок имеет свой набор параметров. С подробным описание каждого ETL-блока и его параметров можно ознакомиться перейдя по ссылке Подробнее о блоке, указанной в окне настройки параметров ETL-блока.
В случае неверно заполненных параметров или незаполненных параметров, приводящих к ошибке, справа от наименования ETL-блока отображается пиктограмма , сигнализирующая об ошибке блока. При наведении на пиктограмму появляется подсказка с текстом ошибки.
Вычисляемые поля¶
Блок предназначен для добавления вычисляемых полей к любой части модели. Вычисляемое поле задается названием и выражением для вычисления значения поля. При указании выражений вычисляемых полей используется Spark SQL.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
- Название - наименование вычисляемого поля. Доступно использование букв, цифр и символа _;
- SQL выражение - SQL запрос для вычисления поля. При указании выражений используется Spark SQL;
В поле ввода SQL выражения при вводе первых букв отображаются значения справочников (IntelliSense) и подсветка синтаксиса. Справочники реализованы по полям модели, ключевым словам (select, from и др.), алиасам, таблицам. При выборе алиаса в выпадающем списке в формуле указывается код выбранного поля для корректной работы запроса.
- кнопка
Добавить "Вычисляемое поле" позволяет добавить вычисляемое поле в блок. Кнопка
отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме .
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
Декоратор¶
Блок предназначен для произвольного преобразования схемы и процедуры получения данных любой части модели.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
- Функция для получения схемы - имя функции из ETL-скрипта модели, которая используется для получения схемы блока;
- Функция для построения данных - имя функции из ETL-скрипта модели, которая используется для получения данных блока.
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
Функция¶
Блок предназначен для реализации произвольного поведения при обработке данных модели.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
- Вызываемая функция - имя функции из ETL-скрипта модели, которая используется для получения требуемого поведения;
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
SQL-блок¶
Блок позволяет выполнить произвольное SQL-выражение над любой частью модели.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
- SQL выражение - SQL запрос для вычисления. При указании выражений используется Spark SQL;
В поле ввода SQL выражения при вводе первых букв отображаются значения справочников (IntelliSense) и подсветка синтаксиса. Справочники реализованы по полям модели, ключевым словам (select, from и др.), алиасам, таблицам. При выборе алиаса в выпадающем списке в формуле указывается код выбранного поля для корректной работы запроса.
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
Временная серия¶
Блок позволяет сгенерировать столбец с некоторыми периодическими временными значениями.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
- Начало серии - поле для ввода или выбора из календара даты начала временной серии;
- Окончание серии - поле для ввода или выбора из календара даты окончания временной серии;
- Значение шага - поле для ввода числового значения шага серии;
- Тип шага - выбор единицы измерения шага:
секунда
;минута
;час
;день
;неделя
;месяц
;год
;
- Название поля с серией - наименование столбца в модели, в котором будет сохранена временная серия;
Разбить дату/время на компоненты - позволяет дополнительно разбить сгенерированные дату или время на отдельные столбцы;
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
Разворот иерархии Parent-Child¶
Блок предназначен для преобразования таблицы с parent-child иерархией в таблицу, где уровни иерархии вынесены (развернуты) в отдельные столбцы.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
Для выбора столбцов необходимо предварительно добавить объект в блок.
- Идентификатор записи (id) - выбор столбца, в котором хранятся идентификаторы записи;
- Идентификатор родителя (parent_id) - выбор столбца, в котором хранятся идентификаторы родительской записи;
- Название столбца - выбор столбца, значения которого будут размножены по уровням иерархии;
- кнопка Добавить "Атрибут иерархии" - позволяет добавить еще один столбец, который будет размножен по уровням иерархии.
Кнопка
отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
- Префикс столбца для уровня - приписка в названии столбца, которая будет добавлена к каждому столбцу при разворачивании уровней иерархии;
- кнопка
Добавить "Уровень иерархии" - позволяет добавить еще один префикс. Кнопка
отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
- Столбец с номером уровня - название столбца в модели, в котором будут записаны уровни иерархии;
Оставить только записи последнего уровня - позволяет исключить из таблицы все уровни, кроме последнего;
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
Прогнозирование временного ряда¶
Блок выполняет прогнозирование временного ряда на основе автоматически обучаемой статистической модели.
Сервисы, которые отвечают за превью и синхронизацию моделей с ML-предсказаниями подключаются с помощью docker-compose.ml.yml и docker-compose.ml.prod.yml. Для инстансов Системы, на которых не нужно машинное обучение, данные сервисы подключать не рекомендуется, т.к. данные контейнеры потребляют существенные ресурсы.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
Для выбора столбцов необходимо предварительно добавить объект в блок.
- Библиотека прогнозирования - библиотека для построения прогноза под данным. В текущей версии блока поддерживается: Prophet;
- Название поля с датой - выбор столбца, который является временной меткой ряда значений;
- Название поля с показателем - выбор столбца, значения которого необходимо предсказать. К полям дочерней таблицы добавляется столбец
{показатель}__forecast
, в который будет записано спрогнозированное значение; - Доверительный интервал для показателя - позволяет добавить дополнительные столбцы
{показатель}__forecast_lower
и{показатель}__forecast_upper
, в которых будут указаны нижняя и верхняя границы для доверительного интервала спрогнозированного значения основного показателя; - Поле для группировки значений в серию - выбор столбца, для определения группировки;
- кнопка
Добавить "Поле группы" - позволяет добавить еще одно поле для группировки. Кнопка
отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
- Тренд - позволяет добавить дополнительный столбец
`{показатель}__trend
, в котором будут значения тренда прогнозируемого показателя:нет
;да
;да, с доверительным интервалом
;
Если выбрано значение да, с доверительным интервалом
, то дополнительно будут сформированы столбцы {показатель}__trend_lower
и {показатель}__trend_upper
с границами доверительного интервала для значений линии тренда.
- Годовая компонента" - позволяет добавить дополнительный столбец
{показатель}__yearly
, в котором будут значения годовой компоненты сезонности прогнозируемого показателя:нет
;да
;да, с доверительным интервалом
;
Если выбрано значение да, с доверительным интервалом
, то дополнительно будут сформированы столбцы {показатель}__yearly_lower
и {показатель}__yearly_upper
с границами доверительного интервала для значений годовой компоненты сезонности.
- Еженедельная компонента - позволяет добавить дополнительный столбец
{показатель}__weekly
, в котором будут значения недельной компоненты сезонности прогнозируемого показателя:нет
;да
;да, с доверительным интервалом
;
Если выбрано значение да, с доверительным интервалом
, то дополнительно будут сформированы столбцы {показатель}__weekly_lower
и {показатель}__weekly_upper
с границами доверительного интервала для значений недельной компоненты сезонности.
- Дневная компонента - позволяет добавить дополнительный столбец
{показатель}__daily
, в котором будут значения дневной компоненты сезонности прогнозируемого показателя:нет
;да
;да, с доверительным интервалом
;
Если выбрано значение да, с доверительным интервалом
, то дополнительно будут сформированы столбцы {показатель}__daily_lower
и {показатель}__daily_upper
с границами доверительного интервала для значений дневной компоненты сезонности.
- Количество прогнозируемых точек - количество точек, на которое необходимо спрогнозировать временной ряд. Размерность точек определяется значением настройки Частота;
-
Частота - размерность прогнозируемых точек временного ряда в будущем:
автоматически
- размерность определится автоматически на основе исторических данных. Если система в процессе обработки данных не сможет определить частоту, то будет выдана ошибка и необходимо будет указать конкретное значение частоты самостоятельно;день
;неделя
;месяц (первый день)
;месяц (посл. день)
;квартал (первый день)
;квартал (посл. день)
;год (первый день)
;год (посл. день)
;
-
Применить прогноз исторических данных - позволяет построить прогноз для значений уже присутствующих в таблице. Это позволит визуально сравнить, насколько прогностическая модель хорошо приближает уже известные значения временного ряда;
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
Классификация/регрессия с ML-моделью¶
Блок выполняет предсказание (классификацию, регрессию) для вложенной в него таблицы на основе ML-модели из внутреннего реестра ML-моделей.
Сервисы, которые отвечают за превью и синхронизацию моделей с ML-предсказаниями подключаются с помощью docker-compose.ml.yml и docker-compose.ml.prod.yml. Для инстансов Системы, на которых не нужно машинное обучение, данные сервисы подключать не рекомендуется, т.к. данные контейнеры потребляют существенные ресурсы.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
Для выбора столбцов необходимо предварительно добавить объект в блок.
- Ссылка на ML-модель - ссылка на модель во внутреннем реестре MLFlow;
Формат ссылок
Формат с номером версии модели: models:/{model_name}/{suffix}
Пример: model:/MyModelName/1
Формат с алиасом модели: models:/{model_name}@{alias}
Пример: model:/MyModelName@production
Формат с запуском эксперимента: runs:/{run_id}/model
Пример: runs:/31d59be3b06f43a7ab7d6e218b999862/model
- Поле из модели - выбор столбца, который будет сопоставлен с полем из набора для обучения;
- Название при обучении - наименование столбца в обучении модели, для сопоставления с Поле из модели;
В процессе работы выполняемся автоматическое сопоставление полей из модели и полей данных обучения. Сопоставление выполняется с заменой пробелов на знаки подчеркивания, а также с удалением "технических" префиксов вида "etl_block__".
Если какой-то признак не будет сопоставлен с полем из модели, то необходимо добавить его в параметре вручную.
- кнопка
Добавить "Признак модели" - позволяет добавить еще одно соответствие поля модели с полем из набора для обучения. Кнопка
отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
- Название поля - позволяет добавить дополнительный столбец, в котором будет записан результат предсказания по каждой строке;
-
Тип значения - выбор типа значения, которое будет сгенерировано ML-моделью:
строка
;целое
;дробное
;
-
кнопка
Добавить "Целевая переменная" - позволяет добавить еще одно поле переменной. Кнопка
отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
ML-модель в ручном режиме¶
Блок предназначен для опытных специалистов по ML-моделям, в случае нехватки функционала блоков Прогнозирование временного ряда и Классификация/регрессия с ML-моделью.
Сервисы, которые отвечают за превью и синхронизацию моделей с ML-предсказаниями подключаются с помощью docker-compose.ml.yml и docker-compose.ml.prod.yml. Для инстансов Системы, на которых не нужно машинное обучение, данные сервисы подключать не рекомендуется, т.к. данные контейнеры потребляют существенные ресурсы.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
- Ссылка на ML-модель - ссылка на модель во внутреннем реестре MLFlow;
Формат ссылок
Формат с номером версии модели: models:/{model_name}/{suffix}
Пример: model:/MyModelName/1
Формат с алиасом модели: models:/{model_name}@{alias}
Пример: model:/MyModelName@production
Формат с запуском эксперимента: runs:/{run_id}/model
Пример: runs:/31d59be3b06f43a7ab7d6e218b999862/model
- Функция для получения схемы - имя функции из ML-модели, которая используется для получения схемы блока;
- Функция для построения данных - имя функции из ML-модели, которая используется для получения данных блока.
- Название поля - позволяет добавить дополнительный столбец, в котором будет записан результат предсказания по каждой строке;
-
Тип значения - выбор типа значения, которое будет сгенерировано ML-моделью:
строка
;целое
;дробное
;дата
;дата и время
;логическое
;
-
кнопка
Добавить "Целевая переменная" - позволяет добавить еще одно поле переменной. Кнопка
отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
JSON-блок¶
Блок позволяет преобразовать значения из JSON-поля в новые строки или столбцы. Работает со значениями полей как в виде объектов, так и массивов.
Окно настройки параметров содержит:
1.Блок кнопок управления:
Сохранить - сохранение параметров и закрытие окна;
Отменить - закрытие окна без сохранения изменений;
Выполнить - тестовый запуск блока внутри текущей модели. Результат тестового запуска ETL-блока отображаются в блоке Результаты запуска. Если в процессе запуска возникнут ошибки, отобразится текст ошибки;
Запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
Структура вложенных объектов - просмотр структуры полей всех вложенных в ETL-блок объектов. В структуре указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках;
Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
2.Подсказка к блоку. В подсказке содержится ссылка Подробнее о блоке, по которой доступно подробное описание ETL-блока и его параметров. Отображается/скрывается по кнопке .
3.Параметры ETL-блока:
Для выбора столбцов необходимо предварительно добавить объект в блок.
- JSON-поле - выбор столбца, в котором содержаться JSON-значения;
- Схема JSON - схема данных внутри JSON-значений. Если используется каскад JSON-блоков, когда схема JSON уже была применена во вложенном JSON-блоке, то поле можно не заполнять;
Правила заполнения схемы
- [] - для указания массива, например,
[целое]
; - {} - для указания объекта, например,
{a: целое, b: строка}
; - Типы значений:
целое
;дробное
;датавремя
;логическое
;строка
;
- "" - для атрибута с пробелами в наименовании, например,
"имя с пробелом": целое
; - объекты и массивы могут вкладываться друг в друга:
- {a: {b: целое}}, например,
{"a": {"b":1}}
; - {a: [целое]}, например,
{"a": [1, 2]}
; - [{a: целое, b: строка}], например,
[{"a": 1}, {"b": "привет"}]
.
- {a: {b: целое}}, например,
- кнопка
Заполнить схему JSON автоматически - автоматическое построение схемы на основе первых 100 строк из вложенного объекта;
Заполнение схемы выполняется:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.
- Тип преобразования - выбор метода преобразования данных:
Атрибуты объекта -> Столбцы
- извлекает значения из атрибутов объектов в JSON-поле и помещает их в отдельные столбцы модели;Элементы массива -> Столбцы
- извлекает значения из массива и создает для каждого такого значения отдельный столбец модели. В значениях новых столбцов указываетсяtrue
/false
(или1
/0
, или{значение}
/null
) в зависимости от того, присутствует ли указанное значение в массиве текущей строки;Элементы массива -> Строки
- множит текущую строку столько раз, сколько есть элементов в массиве. В модель добавляется отдельная строка, в которой указывается значение массива;
- Путь к объекту - последовательность атрибутов до вложенного объекта, если он находится не на самом верхнем уровне JSON-поля. Пример, если в JSON-поле хранится объект d {"a": {"b": {"c": {"d": 1}}}}, то в поле указывается значение a.b.c;
- Что указывать в значениях новых столбцов - в значениях новых столбцов указывается
true
/false
или1
/0
, или{значение}
/null
в зависимости от того, присутствует ли указанное значение в массиве текущей строки;
Настройка Что указывать в значениях новых столбцов активна только при Тип преобразования в значении Элементы массива -> Столбцы
.
- Столбец в модели - название столбца со значениями массива;
Настройка Что указывать в значениях новых столбцов активна только при Тип преобразования в значении Элементы массива -> Строки
.
-
Правила создания столбцов - правила создания столбцов:
- Значение из объекта - атрибуты объекта, которые нужно перенести;
- Столбец в модели - название столбца с атрибутами объекта;
Название Столбец в модели может быть создано автоматически:
НазваниеJSONполя__АтрибутОбъекта
- при Тип преобразования в значенииАтрибуты объекта -> Столбцы
;НазваниеJSONполя__ЗначениеИзМассива
- при Тип преобразования в значенииЭлементы массива -> Столбцы
.
- кнопка
Добавить "столбец" - позволяет добавить еще одно правило создания столбцов; Кнопка
отображается после добавления двух и более полей. Позволяет удалить поле, если оно не единственное на форме ;
- кнопка
Заполнить автоматически - автоматическое заполнение правил создания столбцов (атрибуты) на основе первых 100 строк из вложенного объекта;
4.Блок предпросмотра:
-
отображается по результатам тестового запуска ETL-блока по кнопке
. Если в процессе тестового запуска возникнут ошибки, отобразится текст ошибки;
Тестовый запуск выполняется на ограниченном наборе данных, результаты могут отличаться от полной загрузки модели.
-
при просмотре структуры вложенных объектов по кнопке
. В структуре вложенных объектов указаны параметры полей объектов - Наименование в модели и Алиас в квадратных скобках. Если значения параметров поля Наименование в модели и Алиас совпадают, то отобразится только один параметр поля.
Загрузка данных предпросмотра выполняется автоматически:
- при открытой и активной вкладке браузера;
- при открытой форме, на которой должны отобразиться данные;
- до превышения максимально установленного времени загрузки -
15 минут
.
В иных случаях операция загрузки автоматически завершается в течение 5-10 секунд.