Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
В МТУСИ предложили метод машинного обучения для обнаружения фишингового сайта
Ученые МТУСИ проанализировали возможности интеграции предложенной ими модели в систему защиты веб-приложений. Внедрение автоматизированных инструментов для обнаружения потенциально фишинговых URL-адресов на ранних стадиях их проникновения в сеть поможет существенно снизить риски для пользователей и организаций.
Информационная безопасность веб-приложений является одним из наиболее актуальных вопросов современного мира, а фишинг — серьезная угроза для миллионов пользователей интернет-ресурсов. Фишинговые сайты создаются таким образом, чтобы максимально быть похожими на легитимные ресурсы, они заманивают миллионы пользователей на ложные веб-сайты, похищая конфиденциальную информацию, такую как пароль, данные банковской карты или адрес электронной почты. Последствия для организаций, чьи сайты были скомпрометированы, очень серьезны — это потеря прибыли, потеря доверия клиентов, санкции от поисковых систем и проблемы с индексацией сайта.
Машинное обучение становится все более популярным инструментом в борьбе с фишингом. С его помощью можно провести анализ свойств веб-страницы: процесс сводится к бинарной классификации, где веб-ресурсы определяются как фишинговые или легитимные на основе их атрибутов. После проведения классификации производится оценка качества результатов.
Формирование набора данных является важным аспектом исследования для обнаружения фишинговых сайтов на основе подмены адресов URL. Несмотря на то, что исследования в этой области имеют высокие оценки качества, существует проблема нехватки разнообразных и сбалансированных данных, что приводит к смещению оценок и делает результаты исследования необъективными.
Над решением проблемы работает магистрант МТУСИ Людмила Емец под руководством доцента кафедры «Информационная безопасность» Александра Большакова. Проведено исследование с целью выбора атрибутов и метода классификации мошеннических сайтов для обнаружения фишингового ресурса в интернете.
Одним из ключевых аспектов исследования стало применение методов бинарной классификации, основанных на машинном обучении на языке Python с использованием библиотеки Scikit-Learn.
В ходе исследования обнаружено, что использование метода бинарной классификации усложняется процессом формирования набора данных от сторонних сервисов. Время выполнения этих запросов зависит от скорости и стабильности интернет-соединения, что может привести к непредсказуемой задержке и, следовательно, к усложнению процесса анализа.
«Для создания более сбалансированного набора данных сформированы две случайные выборки адресов сайтов — фишинговые и легитимные. Затем получен набор данных из 8600 URL-адресов, включающий как безопасные, так и небезопасные адреса, которые были поделены на обучающий и тестовый в соотношении 70 процентов на 30. Далее проведен анализ данных, который осуществлялся с применением двух подходов: использование данных из открытых источников и лексический анализ доменных имён. Применение n-граммного метода позволило выделить ключевые слова и сформировать дополнительные атрибуты лексического типа. Оценка зависимости атрибутов показала, что между ними нет высокой корреляции, что подтверждает их информативность для модели машинного обучения», – рассказала Людмила Емец.
Ученые МТУСИ разработали модель классификации на основе алгоритмов «Градиентного бустинга», «K-Ближайших Соседей», «Логистической регрессии», «Наивного Байсса», «Случайного леса» и «Дерева принятых решений». Для оценки результатов работы моделей классификации и сравнения моделей между собой использовались меры точности, полноты, f1-мера и площадь под ROC-кривой. ROC-кривая позволила визуально иллюстрировать зависимость между количеством верно классифицированных фишинговых сайтов и количеством неверно классифицированных легитимных сайтов как вредоносных. Значение AUC (площадь под ROC-кривой) оказалось важным численным показателем качества моделей, где близкое к единице значение AUC характеризует лучший алгоритм классификации.
«Была обнаружена взаимосвязь между свойствами веб-страницы и наличием фишингового ресурса в интернете. Проведен анализ таких характеристик веб-страницы как адрес, информация о домене, параметры подключения и наличие ключевых слов. Для построения модели выделены атрибуты (признаки) веб-ресурсов и получен набор данных: обучающая выборка с известным статусом сайтов и тестовая выборка с неизвестным. Ключевым этапом в предварительной обработке данных стал анализ корреляции атрибутов с применением коэффициента Пирсона. Обнаружено отсутствие высоких корреляций между выделенными атрибутами. На основе выделенных атрибутов и анализа свойств веб-ресурсов была сформирована обучающая выборка, что позволило значительно улучшить точность модели», – пояснил Александр Большаков.
Отмечено, что лексический анализ URL-адресов фишинговых ресурсов помогает обнаружить специфические особенности и шаблоны, указывающие на их мошеннический характер. Эти особенности могут включать опечатки в популярных доменах, дополнительные поддомены, специальные символы и кодировки для маскировки. Исследователи особое внимание уделили частоте неалфавитных символов (точки, дефисы, цифры), поскольку такие символы часто используются злоумышленниками.
Применение «тепловой» карты показало отсутствие незначимых атрибутов, что подтверждает правомерность формирования выбранных атрибутов. Анализ ROC-кривых и результаты оценки качества моделей позволили выявить, что алгоритм классификации «Градиентный бустинг» демонстрирует наилучшие показатели среди рассмотренных моделей.
В ходе исследования проанализированы возможности интеграции предложенной модели в системы защиты веб-приложений. Внедрение автоматизированных инструментов для обнаружения потенциально фишинговых URL-адресов на ранних стадиях их проникновения в сеть может существенно снизить риски для пользователей и организаций. Результаты оценки качества классификации на полученных данных подтверждают, что предложенный подход способен с высокой степенью достоверности выявлять фишинговые сайты.
Дальнейшие исследования в этой области могут быть направлены на улучшение алгоритмов машинного обучения путём надстройки параметров модели классификатора и использование новых источников данных для создания более комплексных и надежных средств защиты от фишинговых атак. Это открывает возможности для разработки более совершенных и надежных систем защиты пользователей в сети интернет.
Материал подготовлен на основе статьи «Обнаружение фишингового сайта методами машинного обучения», размещенной в сборнике №1-2023 «Телекоммуникации и информационные технологии».
Исследователи ВШЭ выделили более 4000 примеров устной русской речи билингвов из семи регионов России и выяснили: большинство нестандартных форм в конструкциях с числительными связано не только с их родным языком, но и с тем, как часто выражение встречается в повседневной речи. Например, фразы «два часа» или «пять километров» почти всегда совпадают с литературным вариантом, а вот менее привычные выражения, особенно с числительными от двух до четырех, а также с собирательными формами вроде «двое» или «трое», часто звучат иначе.
Ученые РТУ МИРЭА синтезировали новый класс противоопухолевых препаратов на основе платины и природных хлоринов. Эти соединения объединяют химио- и фотодинамическую терапию, что может повысить эффективность лечения и снизить побочные эффекты.
Некоторые аппараты Starlink компании SpaceX преждевременно сходят с орбиты не из-за технических проблем, а активности Солнца. Об этом рассказали ученые из NASA после анализа массива данных. По их мнению, наша звезда уже оказывает негативное влияние на спутниковую группировку и в будущем может нарушить космическую связь.
Казахстанский Алматы — город контрастов, где горы соседствуют с урбанистическими пейзажами, а бизнес-центры — с историческими кварталами. Неизменным остается одно — пробки. Ежедневно сюда приезжает более 700 тысяч автомобилей из пригородов, при этом в самом мегаполисе зарегистрировано порядка 600 тысяч транспортных средств. В результате по улицам ежедневно движется более миллиона транспортных средств.
Хотя попытки объединить квантовую теорию и гравитацию десятилетиями терпели неудачу, ученые продолжают выдвигать новые, порой крайне спорные гипотезы. Авторы нового исследования, например, предложили посмотреть на гравитацию так же, как на другие фундаментальные силы природы — через симметрии и поля.
Исследователи ВШЭ выделили более 4000 примеров устной русской речи билингвов из семи регионов России и выяснили: большинство нестандартных форм в конструкциях с числительными связано не только с их родным языком, но и с тем, как часто выражение встречается в повседневной речи. Например, фразы «два часа» или «пять километров» почти всегда совпадают с литературным вариантом, а вот менее привычные выражения, особенно с числительными от двух до четырех, а также с собирательными формами вроде «двое» или «трое», часто звучат иначе.
Да, с волосами и люком все так. У космонавта Суниты Уильямс волосы на МКС плавали свободно, а у Кэти Пэрри и прочих в полете 14 апреля 2025 года — нет. Но это не значит, что суборбитального космического полета первого чисто женского экипажа не было или что он был инсценировкой. Причем, в общем-то, чтобы понять это, даже не нужно обладать специальными знаниями.
Недавно вышел второй сезон сериала «Одни из нас» (TheLastofUs), созданного по сюжету популярнейшей видеоигры. Ученые Пермского Политеха решили разобраться, насколько реален сценарий грибной пандемии, превращающей людей зомби? Чем живет кордицепс и как он «ищет» своих жертв, действительно ли паразит способен эволюционировать настолько, чтобы поражать человеческий организм и подчинять себе его волю, был бы у людей шанс выжить, какие грибы уже поселились в наших телах и выручит ли нас иммунитет, сформированный тысячелетиями.
Мощнейшее отключение электроэнергии за последние 20 лет истории Европы случилось уже неделю назад, а испанские власти пока так и не объявили о его причинах. Это логично: как мы покажем ниже, ответ на вопрос, кто виноват, получится очень неполиткорректным. И, более того, противоречащим линии правящей в Испании партии. Но мы живем за тысячи километров от нее, поэтому можем себе позволить аполитичный анализ случившегося. Так что же произошло на самом деле и каковы наши шансы увидеть подобное у себя дома?
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии