• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
18.09.2024, 16:57
МТУСИ
191

В МТУСИ предложили метод машинного обучения для обнаружения фишингового сайта

❋ 4.4

Ученые МТУСИ проанализировали возможности интеграции предложенной ими модели в систему защиты веб-приложений. Внедрение автоматизированных инструментов для обнаружения потенциально фишинговых URL-адресов на ранних стадиях их проникновения в сеть поможет существенно снизить риски для пользователей и организаций.

Ученые предложили метод машинного обучения для обнаружения фишингового сайта / © Polimerek, commons.wikimedia.org

Информационная безопасность веб-приложений является одним из наиболее актуальных вопросов современного мира, а фишинг — серьезная угроза для миллионов пользователей интернет-ресурсов. Фишинговые сайты создаются таким образом, чтобы максимально быть похожими на легитимные ресурсы, они заманивают миллионы пользователей на ложные веб-сайты, похищая конфиденциальную информацию, такую как пароль, данные банковской карты или адрес электронной почты. Последствия для организаций, чьи сайты были скомпрометированы, очень серьезны — это потеря прибыли, потеря доверия клиентов, санкции от поисковых систем и проблемы с индексацией сайта.

Машинное обучение становится все более популярным инструментом в борьбе с фишингом. С его помощью можно провести анализ свойств веб-страницы: процесс сводится к бинарной классификации, где веб-ресурсы определяются как фишинговые или легитимные на основе их атрибутов. После проведения классификации производится оценка качества результатов.

Формирование набора данных является важным аспектом исследования для обнаружения фишинговых сайтов на основе подмены адресов URL. Несмотря на то, что исследования в этой области имеют высокие оценки качества, существует проблема нехватки разнообразных и сбалансированных данных, что приводит к смещению оценок и делает результаты исследования необъективными.

Над решением проблемы работает магистрант МТУСИ Людмила Емец под руководством доцента кафедры «Информационная безопасность» Александра Большакова. Проведено исследование с целью выбора атрибутов и метода классификации мошеннических сайтов для обнаружения фишингового ресурса в интернете.

Одним из ключевых аспектов исследования стало применение методов бинарной классификации, основанных на машинном обучении на языке Python с использованием библиотеки Scikit-Learn.

В ходе исследования обнаружено, что использование метода бинарной классификации усложняется процессом формирования набора данных от сторонних сервисов. Время выполнения этих запросов зависит от скорости и стабильности интернет-соединения, что может привести к непредсказуемой задержке и, следовательно, к усложнению процесса анализа.

«Для создания более сбалансированного набора данных сформированы две случайные выборки адресов сайтов — фишинговые и легитимные. Затем получен набор данных из 8600 URL-адресов, включающий как безопасные, так и небезопасные адреса, которые были поделены на обучающий и тестовый в соотношении 70 процентов на 30. Далее проведен анализ данных, который осуществлялся с применением двух подходов: использование данных из открытых источников и лексический анализ доменных имён. Применение n-граммного метода позволило выделить ключевые слова и сформировать дополнительные атрибуты лексического типа. Оценка зависимости атрибутов показала, что между ними нет высокой корреляции, что подтверждает их информативность для модели машинного обучения», – рассказала Людмила Емец.

Ученые МТУСИ разработали модель классификации на основе алгоритмов «Градиентного бустинга», «K-Ближайших Соседей», «Логистической регрессии», «Наивного Байсса», «Случайного леса» и «Дерева принятых решений». Для оценки результатов работы моделей классификации и сравнения моделей между собой использовались меры точности, полноты, f1-мера и площадь под ROC-кривой. ROC-кривая позволила визуально иллюстрировать зависимость между количеством верно классифицированных фишинговых сайтов и количеством неверно классифицированных легитимных сайтов как вредоносных. Значение AUC (площадь под ROC-кривой) оказалось важным численным показателем качества моделей, где близкое к единице значение AUC характеризует лучший алгоритм классификации.

«Была обнаружена взаимосвязь между свойствами веб-страницы и наличием фишингового ресурса в интернете. Проведен анализ таких характеристик веб-страницы как адрес, информация о домене, параметры подключения и наличие ключевых слов. Для построения модели выделены атрибуты (признаки) веб-ресурсов и получен набор данных: обучающая выборка с известным статусом сайтов и тестовая выборка с неизвестным. Ключевым этапом в предварительной обработке данных стал анализ корреляции атрибутов с применением коэффициента Пирсона. Обнаружено отсутствие высоких корреляций между выделенными атрибутами. На основе выделенных атрибутов и анализа свойств веб-ресурсов была сформирована обучающая выборка, что позволило значительно улучшить точность модели», – пояснил Александр Большаков.

Отмечено, что лексический анализ URL-адресов фишинговых ресурсов помогает обнаружить специфические особенности и шаблоны, указывающие на их мошеннический характер. Эти особенности могут включать опечатки в популярных доменах, дополнительные поддомены, специальные символы и кодировки для маскировки. Исследователи особое внимание уделили частоте неалфавитных символов (точки, дефисы, цифры), поскольку такие символы часто используются злоумышленниками.

Применение «тепловой» карты показало отсутствие незначимых атрибутов, что подтверждает правомерность формирования выбранных атрибутов. Анализ ROC-кривых и результаты оценки качества моделей позволили выявить, что алгоритм классификации «Градиентный бустинг» демонстрирует наилучшие показатели среди рассмотренных моделей.

В ходе исследования проанализированы возможности интеграции предложенной модели в системы защиты веб-приложений. Внедрение автоматизированных инструментов для обнаружения потенциально фишинговых URL-адресов на ранних стадиях их проникновения в сеть может существенно снизить риски для пользователей и организаций. Результаты оценки качества классификации на полученных данных подтверждают, что предложенный подход способен с высокой степенью достоверности выявлять фишинговые сайты.

Дальнейшие исследования в этой области могут быть направлены на улучшение алгоритмов машинного обучения путём надстройки параметров модели классификатора и использование новых источников данных для создания более комплексных и надежных средств защиты от фишинговых атак. Это открывает возможности для разработки более совершенных и надежных систем защиты пользователей в сети интернет.

Материал подготовлен на основе статьи «Обнаружение фишингового сайта методами машинного обучения», размещенной в сборнике №1-2023 «Телекоммуникации и информационные технологии».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский технический университет связи и информатики (МТУСИ) — ведущее отраслевое техническое высшее учебное заведение Центральной России по подготовке кадров для IT и телеком-индустрии, подведомственное Министерству цифрового развития, связи и массовых коммуникаций РФ. Основан в 1921 году на базе Московского электротехнического института народной связи им. В.Н. Подбельского. Ежегодно МТУСИ выпускает востребованных специалистов в области связи, информационных технологий, квантовых коммуникаций, робототехники, информационной безопасности и цифровой экономики. В состав университета входят 5 факультетов, 34 кафедры, 2 филиала (Волго-Вятский и Северо-Кавказский), Колледж телекоммуникаций, Музей электросвязи, Квантовый центр, Центр робототехники, Лаборатория AR/VR, Центры заочного обучения бакалавров и магистров, Центр индивидуального обучения.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
28 марта, 13:28
Игорь Байдов

Во время нейроанатомического исследования тканей полового члена ученые выявили высокую плотность нервных окончаний в области, которую анатомы и хирурги долгое время оставляли без должного внимания. Авторы научной работы предположили, что эта зона может играть важную роль в формировании сексуальных ощущений, и допустили, что именно там у мужчин находится аналог так называемой «точки G».

30 марта, 13:08
Илья Гриднев

Специалисты расшифровали геном неандертальца возрастом 110 000 лет из Денисовой пещеры на Алтае. Анализ генетического кода указал на разделение местных неандертальцев на крошечные изолированные группы. Географическая изоляция и сокращение численности заставили эти сообщества накапливать мутации значительно быстрее предков современных людей.

30 марта, 14:22
Андрей Серегин

Считается, что плач помогает справиться со стрессом и тяжелым состоянием, будучи способом выразить сильные эмоции. Новое исследование показало, что положительный или отрицательный эффект зависит от причины слез.

28 марта, 15:51
Максим Абдулаев

Морские биологи впервые детально задокументировали процесс родов у диких кашалотов. Анализ видеозаписей и акустических сигналов показал, что самки из разных родственных линий временно объединяются, чтобы по очереди выталкивать новорожденного на поверхность для дыхания. Это первое доказательство взаимопомощи при родах между неродственными особями у видов, не относящихся к приматам.

30 марта, 10:00
КБГУ

Ученые Кабардино-Балкарского государственного университета им. Х.М. Бербекова более десяти лет изучают уникальные свойства кефирных зерен — природных симбиотических сообществ микроорганизмов, собранных в высокогорных районах Кавказа. Исследования показывают, они могут стать основой для новых методов лечения кишечных заболеваний, восстановления иммунитета и даже создания космического питания.

28 марта, 13:28
Игорь Байдов

Во время нейроанатомического исследования тканей полового члена ученые выявили высокую плотность нервных окончаний в области, которую анатомы и хирурги долгое время оставляли без должного внимания. Авторы научной работы предположили, что эта зона может играть важную роль в формировании сексуальных ощущений, и допустили, что именно там у мужчин находится аналог так называемой «точки G».

19 марта, 10:58
Игорь Байдов

В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.

19 марта, 12:41
Игорь Байдов

Марсоход «Персеверанс» обнаружил в камнях на кромке кратера Езеро спектральные признаки минерала корунда, из которого на Земле образуются рубины и сапфиры. Такие спектры на Красной планете зарегистрировали впервые. Теперь ученые пытаются понять, при каких процессах он мог там сформироваться, ведь условия на Марсе заметно отличаются от тех, в которых корунд обычно образуется на Земле.

18 марта, 10:35
Илья Гриднев

За 10 лет лежания в почве сигаретные фильтры не растворились, а лишь замаскировались под грязь. Их пластиковые волокна распались на микрочастицы, намертво склеились с минералами и превратились во вторичный микропластик. Более того, на пятом году гниения мусор начал отравлять землю с новой силой.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно