Определение зон стабильности газовых гидратов при помощи методов машинного обучения
Гулиев Р.З., Еремин Н.А.,
Зиганшин А.Р.

Северный (Арктический) федеральный университет имени М.В. Ломоносова, РГУ нефти и газа (НИУ) имени И.М. Губкина

В настоящее время возрастает интерес к газогидратам как к альтернативным источникам энергии, способу транспортировки и хранения природного газа. Актуальной проблемой является прогнозирование образования газогидратов, следовательно, существует потребность в разработке эффективной технологии, способной прогнозировать термобарические условия гидратообразования.
Целью данной работы является создание алгоритма машинного обучения для прогнозирования условий гидратообразования. Задачи, которые были поставлены: сбор эмпирических данных о зонах стабильности газогидратов, анализ данных алгоритмами машинного обучения, построение алгоритма, способного достаточно точно прогнозировать зоны стабильности газогидратов.
Введение
При проведении глубоководных буровых работ образование газогидратов является угрозой для безопасности на производстве, потому что диссоциация гидрата метана может привести к выбросу оборудования или взрыву [3]. Кроме этого, метан является парниковым газом, который способен выделиться с морского дна при температуре морской воды или подводного оползня. Поэтому точная оценка запасов газогидратов на морском дне и определение зон их стабильности позволят вовремя замечать необратимые изменения морского дна. Следует также учесть главный интерес к изучению газогидратов — это возможность использовать их в качестве источника энергии.
Газовые гидраты представляют собой группу нестехиометрических ледоподобных кристаллических соединений, образующихся в результате сочетания воды и гостевых молекул подходящего размера при низких температурах и повышенных давлениях. В газогидратной решетке молекулы воды образуют водородно-связанные клеточные структуры [3].
Общая формула для всех газовых гидратов:
где M — молекула гидратообразующего газа; n — число молекул воды, приходящихся на одну включенную молекулу газа, ввиду того, что эти вещества имеют переменный состав, принимает значения от 5,75 до 17.
Полости газогидратов имеют правильную геометрическую форму, которая встречается в трех видах (рис. 1):
• первый вид (512) представляет собой многогранник, содержащий 12 граней по 5 ребер;
• второй вид (51262) является многогранником, который содержит 12 граней по 5 ребер и 2 грани по 6 ребер;
• третий вид (51264) построен из 12 граней по 5 ребер и 4 граней по 6 ребер.
Рис. 1. Схема образования различных структур газогидратов

Методология исследования
Для прогнозирования зон стабильности газогидратов в данной работе применяется алгоритм, который получает на вход значение температуры и предсказывает давление.
В качестве исходных данных принимались экспериментальные термобарические условия из литературы [1, 2, 5]. Обучение машинного алгоритма осуществляется на данных, в которых содержатся все фазовые состояния газогидратов.
Затем модель тестируется и проверяется на данных, основанных на одной из фаз газового гидрата.
Компьютерная программа обучается на основе опыта Е по отношению к некоторой задаче Т и некоторой оценке производительности Р, если ее производительность на Т, измеренная посредством Р, улучшается с опытом Е.

Методы машинного обучения
Методы машинного обучения способны справляться с широким спектром задач, но в данной работе рассматривается задача восстановления регрессии или же прогнозирования, поэтому будут рассматриваться и применяться методы, способные решить поставленную задачу.
Задачу обучения по прецедентам при Y = R принято называть задачей восстановления регрессии. Основные обозначения остаются прежними. Задано пространство объектов Х и множество возможных ответов Y. Существует неизвестная целевая зависимость:
значения которой известны только на объектах обучающей выборки Xl = (xi, yi)Ii= 1, yi = y(xi).
Требуется построить алгоритм, который в данной задаче принято называть функцией регрессии X→Y, аппроксимирующий целевую зависимость y*.
К методам восстановления регрессии можно отнести: линейную (полиномиальную) регрессию, метод K-ближних соседей и лес случайных решений.
В данной работе рассмотрен алгоритм леса случайных решений.

Случайный лес
Случайный лес — один из самых эффективных алгоритмов машинного обучения и является одним из немногих универсальных алгоритмов. Универсальность заключается, во-первых, в том, что он хорош во многих задачах, во-вторых, в том, что есть случайные леса для решения задач классификации, регрессии, кластеризации, поиска аномалий, селекции признаков и т.д. [4, 6].

Метрики для оценки алгоритмов машинного обучения
Метрики необходимы для измерения и сравнения производительности алгоритмов машинного обучения. Они отражают оценку различных характеристик в результатах работы алгоритмов.

Средняя абсолютная ошибка
Средняя абсолютная ошибка (или MAE) представляет собой сумму абсолютных различий между прогнозами и фактическими значениями:
где yi — это предсказанное значение, xi — это истинное значение, n — количество примеров для обучения.

Среднеквадратичная ошибка
Среднеквадратичная ошибка (или RMSE) представляет собой квадратный корень из среднеквадратической ошибки (MSE). Среднеквадратическая ошибка похожа на абсолютную ошибку в том, что она дает общее представление о величине ошибки. MSE находится по формуле:
где yi — это предсказанное значение, xi — это истинное значение, n — количество примеров для обучения.

Коэффициент детерминации
Коэффициент детерминации (R Squared) указывает на точность соответствия спрогнозированных значений и фактических. Это значение изменяется от 0 до 1, что характеризует в долях эффективность работы алгоритма. R Squared вычисляется по формуле:
где SSE — это сумма значений квадратичной функции потерь; SST — полная сумма квадратов, или, другими словами, это дисперсия переменной отклика.
Результаты исследований
Для качественной работы алгоритма необходимо произвести кросс-валидацию, то есть разбить исходные данные на обучающую и на тестовую выборки. Также для работы алгоритма необходимо правильно подобрать значения переменных, которые влияют на процесс обучения.
Показателями эффективности работы алгоритма будут являться следующие метрики: среднеквадратичная ошибка и коэффициент детерминации.
Число «деревьев» оказывает значительное влияние на качество алгоритма. Наименьшее значение ошибки мы получаем при значении количества «деревьев» — 20.
Число признаков для расщепления отвечают за однообразие «деревьев», чем больше значение, тем больше время работы алгоритма и тем однообразнее «деревья». Наименьшее значение ошибки мы получаем при значении количества признаков расщепления — 18.
Минимальное число объектов, при котором выполняется расщепление, влияет на время выполнения алгоритма и на качество обучения.
Ограничение на число объектов в листьях оказывает такое же влияние на алгоритм обучения, как и предыдущий параметр. Значение было выставлено значением по умолчанию и равнялось пяти.
Таким образом были подобраны значения параметров для корректной работы алгоритма и его качественного обучения и тестов.
Далее модель была обучена на общей выборке для последующего применения на данных, сгруппированных по составу. На графиках ниже отображено соответствие предсказанных значений к целевым, то есть чем ближе точки располагаются к функции y = x, тем точнее алгоритм выполнил предсказание.
Рис. 2. Зависимость давления от температуры в различных структурах газогидратов

Рис. 3. Зависимость значения RMSE от параметра n_estimators

Рис. 4. Зависимость RMSE от параметра max_features

Рис 5. Зависимость RMSE от параметра min_samples_split

Рис. 6. Зависимость RMSE от параметра min_samples_leaf

Рис. 7. Сравнение реального и прогнозируемого значения давления для всех данных в выборке

Рис. 8. Сравнение реального и прогнозируемого значения давления для состава CH4 + H2O in Hydrate + Aqueous Liquid + Vapor

Рис. 9. Сравнение реального и прогнозируемого значения давления для состава CH4 + H2O in Hydrate sI + Aqueous Liquid + Vapor

Рис. 10. Сравнение реального и прогнозируемого значения давления для состава CH4 + H2O in Hydrate sI + Ice + Vapor

Гулиев Р.З., Еремин Н.А., Зиганшин А.Р.

Северный (Арктический) федеральный университет имени М.В. Ломоносова, Архангельск, Россия,
РГУ нефти и газа (НИУ) имени И.М. Губкина, Москва, Россия

r.guliev@narfu.ru
В ходе данной работы будет построен алгоритм машинного обучения для прогнозирования температуры и структуры гидратообразования, также модель машинного обучения проведет анализ исходных данных. В основе модели будет лежать метод случайного леса. Исходные данные для обучения и тестирования модели будут взяты из открытых источников.
газовые гидраты, машинное обучение, прогнозирование, модель, термобарические условия
Гулиев Р.З., Еремин Н.А., Зиганшин А.Р. Определение зон стабильности газовых гидратов при помощи методов машинного обучения // Экспозиция Нефть Газ. 2023. № 6. С. 57–61.
DOI: 10.24412/2076-6785-2023-6-57-61
06.09.2023
УДК 622.279.51
10.24412/2076-6785-2023-6-57-61

Рекомендуемые статьи
© Экспозиция Нефть Газ. Научно-технический журнал. Входит в перечень ВАК
+7 (495) 414-34-88