• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
18.09.2024, 16:57
МТУСИ
188

В МТУСИ предложили метод машинного обучения для обнаружения фишингового сайта

❋ 4.4

Ученые МТУСИ проанализировали возможности интеграции предложенной ими модели в систему защиты веб-приложений. Внедрение автоматизированных инструментов для обнаружения потенциально фишинговых URL-адресов на ранних стадиях их проникновения в сеть поможет существенно снизить риски для пользователей и организаций.

Ученые предложили метод машинного обучения для обнаружения фишингового сайта / © Polimerek, commons.wikimedia.org

Информационная безопасность веб-приложений является одним из наиболее актуальных вопросов современного мира, а фишинг — серьезная угроза для миллионов пользователей интернет-ресурсов. Фишинговые сайты создаются таким образом, чтобы максимально быть похожими на легитимные ресурсы, они заманивают миллионы пользователей на ложные веб-сайты, похищая конфиденциальную информацию, такую как пароль, данные банковской карты или адрес электронной почты. Последствия для организаций, чьи сайты были скомпрометированы, очень серьезны — это потеря прибыли, потеря доверия клиентов, санкции от поисковых систем и проблемы с индексацией сайта.

Машинное обучение становится все более популярным инструментом в борьбе с фишингом. С его помощью можно провести анализ свойств веб-страницы: процесс сводится к бинарной классификации, где веб-ресурсы определяются как фишинговые или легитимные на основе их атрибутов. После проведения классификации производится оценка качества результатов.

Формирование набора данных является важным аспектом исследования для обнаружения фишинговых сайтов на основе подмены адресов URL. Несмотря на то, что исследования в этой области имеют высокие оценки качества, существует проблема нехватки разнообразных и сбалансированных данных, что приводит к смещению оценок и делает результаты исследования необъективными.

Над решением проблемы работает магистрант МТУСИ Людмила Емец под руководством доцента кафедры «Информационная безопасность» Александра Большакова. Проведено исследование с целью выбора атрибутов и метода классификации мошеннических сайтов для обнаружения фишингового ресурса в интернете.

Одним из ключевых аспектов исследования стало применение методов бинарной классификации, основанных на машинном обучении на языке Python с использованием библиотеки Scikit-Learn.

В ходе исследования обнаружено, что использование метода бинарной классификации усложняется процессом формирования набора данных от сторонних сервисов. Время выполнения этих запросов зависит от скорости и стабильности интернет-соединения, что может привести к непредсказуемой задержке и, следовательно, к усложнению процесса анализа.

«Для создания более сбалансированного набора данных сформированы две случайные выборки адресов сайтов — фишинговые и легитимные. Затем получен набор данных из 8600 URL-адресов, включающий как безопасные, так и небезопасные адреса, которые были поделены на обучающий и тестовый в соотношении 70 процентов на 30. Далее проведен анализ данных, который осуществлялся с применением двух подходов: использование данных из открытых источников и лексический анализ доменных имён. Применение n-граммного метода позволило выделить ключевые слова и сформировать дополнительные атрибуты лексического типа. Оценка зависимости атрибутов показала, что между ними нет высокой корреляции, что подтверждает их информативность для модели машинного обучения», – рассказала Людмила Емец.

Ученые МТУСИ разработали модель классификации на основе алгоритмов «Градиентного бустинга», «K-Ближайших Соседей», «Логистической регрессии», «Наивного Байсса», «Случайного леса» и «Дерева принятых решений». Для оценки результатов работы моделей классификации и сравнения моделей между собой использовались меры точности, полноты, f1-мера и площадь под ROC-кривой. ROC-кривая позволила визуально иллюстрировать зависимость между количеством верно классифицированных фишинговых сайтов и количеством неверно классифицированных легитимных сайтов как вредоносных. Значение AUC (площадь под ROC-кривой) оказалось важным численным показателем качества моделей, где близкое к единице значение AUC характеризует лучший алгоритм классификации.

«Была обнаружена взаимосвязь между свойствами веб-страницы и наличием фишингового ресурса в интернете. Проведен анализ таких характеристик веб-страницы как адрес, информация о домене, параметры подключения и наличие ключевых слов. Для построения модели выделены атрибуты (признаки) веб-ресурсов и получен набор данных: обучающая выборка с известным статусом сайтов и тестовая выборка с неизвестным. Ключевым этапом в предварительной обработке данных стал анализ корреляции атрибутов с применением коэффициента Пирсона. Обнаружено отсутствие высоких корреляций между выделенными атрибутами. На основе выделенных атрибутов и анализа свойств веб-ресурсов была сформирована обучающая выборка, что позволило значительно улучшить точность модели», – пояснил Александр Большаков.

Отмечено, что лексический анализ URL-адресов фишинговых ресурсов помогает обнаружить специфические особенности и шаблоны, указывающие на их мошеннический характер. Эти особенности могут включать опечатки в популярных доменах, дополнительные поддомены, специальные символы и кодировки для маскировки. Исследователи особое внимание уделили частоте неалфавитных символов (точки, дефисы, цифры), поскольку такие символы часто используются злоумышленниками.

Применение «тепловой» карты показало отсутствие незначимых атрибутов, что подтверждает правомерность формирования выбранных атрибутов. Анализ ROC-кривых и результаты оценки качества моделей позволили выявить, что алгоритм классификации «Градиентный бустинг» демонстрирует наилучшие показатели среди рассмотренных моделей.

В ходе исследования проанализированы возможности интеграции предложенной модели в системы защиты веб-приложений. Внедрение автоматизированных инструментов для обнаружения потенциально фишинговых URL-адресов на ранних стадиях их проникновения в сеть может существенно снизить риски для пользователей и организаций. Результаты оценки качества классификации на полученных данных подтверждают, что предложенный подход способен с высокой степенью достоверности выявлять фишинговые сайты.

Дальнейшие исследования в этой области могут быть направлены на улучшение алгоритмов машинного обучения путём надстройки параметров модели классификатора и использование новых источников данных для создания более комплексных и надежных средств защиты от фишинговых атак. Это открывает возможности для разработки более совершенных и надежных систем защиты пользователей в сети интернет.

Материал подготовлен на основе статьи «Обнаружение фишингового сайта методами машинного обучения», размещенной в сборнике №1-2023 «Телекоммуникации и информационные технологии».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский технический университет связи и информатики (МТУСИ) — ведущее отраслевое техническое высшее учебное заведение Центральной России по подготовке кадров для IT и телеком-индустрии, подведомственное Министерству цифрового развития, связи и массовых коммуникаций РФ. Основан в 1921 году на базе Московского электротехнического института народной связи им. В.Н. Подбельского. Ежегодно МТУСИ выпускает востребованных специалистов в области связи, информационных технологий, квантовых коммуникаций, робототехники, информационной безопасности и цифровой экономики. В состав университета входят 5 факультетов, 34 кафедры, 2 филиала (Волго-Вятский и Северо-Кавказский), Колледж телекоммуникаций, Музей электросвязи, Квантовый центр, Центр робототехники, Лаборатория AR/VR, Центры заочного обучения бакалавров и магистров, Центр индивидуального обучения.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
6 сентября, 16:25
Evgenia Vavilova

Для разрыва связи между молекулами водорода понадобились золото, титан и ультрафиолетовое излучение. Полученный водород ученые использовали для преобразования углекислого газа в этилен.

8 сентября, 12:11
Юлия Трепалина

Исследование показало, что длина ресниц ассоциируется у людей не только со здоровьем и привлекательностью, но и воспринимается как сигнал с сексуальным подтекстом.

8 сентября, 08:39
Илья Гриднев

Вымирания крупных таксономических групп, таких как роды, за последние 500 лет оказались редкими и локализованными. Это говорит о том, что современный кризис биоразнообразия еще не достиг масштабов глобальной катастрофы, сравнимой с массовыми вымираниями прошлого.

6 сентября, 11:48
Игорь Байдов

В данных космического телескопа «Джеймса Уэбба» ученые обнаружили объект, который может оказаться галактикой, сформировавшейся всего через 90 миллионов лет после Большого взрыва. Если открытие подтвердится, она станет абсолютным рекордсменом, побив рекорд предыдущего чемпиона почти на 200 миллионов лет. Однако исследователи осторожны — загадочный сигнал может иметь и другое, не менее интересное объяснение.

4 сентября, 13:59
Андрей П.

Глубоководная жизнь нам, сухопутным, кажется инопланетной. В недавней экспедиции морские биологи погрузились на дно пятого по глубине Курило-Камчатского желоба. Они преодолели 9500 метров толщи воды и встретили удивительно богатые сообщества организмов, живущих благодаря хемосинтезу. Тысячи километров дна покрывает беспозвоночная жизнь, которая питается благодаря бактериям, окисляющим метан. Naked Science поговорил с одним из авторов исследования.

6 сентября, 16:25
Evgenia Vavilova

Для разрыва связи между молекулами водорода понадобились золото, титан и ультрафиолетовое излучение. Полученный водород ученые использовали для преобразования углекислого газа в этилен.

3 сентября, 07:56
Адель Романова

Недавнее появление в Солнечной системе межзвездного объекта 3I/ATLAS вызвало новую волну обсуждения вопроса о том, как отличить комету или астероид от внеземного космического корабля либо другого артефакта, не созданного человечеством. Астрономы рассказали, что у искусственного объекта могут быть четыре характерные особенности.

12 августа, 11:29
Юлия Трепалина

Влияет ли формат знакомства на качество последующих романтических отношений в паре? Научные данные на этот счет разнятся. Новое исследование по вопросу представила группа психологов из Польши, Австралии и Великобритании. В попытке понять, при каком сценарии удовлетворенность отношениями выше, а любовь крепче — когда двое нашли друг друга в Сети или познакомились в жизни, — ученые опросили свыше 6000 тысяч человек из разных стран.

16 августа, 19:09
Адель Романова

Астрономы подсчитали, что с поверхности летящего по Солнечной системе межзвездного объекта 3I/ATLAS каждую секунду испаряется около 40 килограммов водяного льда. Такую сильную кометную активность он проявил, будучи в три с половиной раза дальше Земли от Солнца. По мнению ученых, это довольно необычно.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно