Согласно новому исследованию Сент-Эндрюсского университета, методы аудита в финансовой отрасли могут быть полезны для выявления научного мошенничества.
Одна из причин, по которой ранее опубликованная в научном журнале статья может быть отозвана, — сомнения в добросовестности авторов: они могут не только провести эксперимент ненадлежащим образом, но и сфабриковать полученные данные, подгоняя их под выбранную модель. Хотя обычно отзывают всего 0,1 процента опубликованных работ, а случаев намеренного мошенничества выявляют еще меньше, каждый из них заметно подрывает общественное доверие к науке.
Вдохновившись хорошо зарекомендовавшей себя практикой финансового аудита, исследователи из Сент-Эндрюсского университета (Великобритания) предложили использовать закон Бенфорда для анализа относительного частотного распределения первых цифр чисел в наборах данных. Это поможет выявить случаи фабрикации данных и усилит меры по борьбе с мошенничеством в научных учреждениях и издательствах. Результаты исследования опубликованы в журнале Research Integrity and Peer Review.
Суть подхода заключается в том, что, согласно закону Бенфорда, или закону первой цифры, вероятность появления определенной первой значащей цифры в наборе реальных данных отличается от абсолютно случайной (около 11 процентов). Эта закономерность прослеживается при расчете множества данных — от длины русел мировых рек до цен на акции: чем больше цифра, тем ниже вероятность того, что она будет на первом месте.
Иными словами, при наличии открытого доступа к первичным данным любой желающий сможет, используя закон Бенфорда, проанализировать их и понять, выглядят ли они «как в реальной жизни», или отчетливо кажутся выдуманными самими авторами. Тем не менее, подчеркивают исследователи, их инструмент позволит лишь сократить количество подлогов, но не ликвидировать полностью: к примеру, в статьях, где не приводятся массивные объемы чисел, закон Бенфорда будет бесполезен.
Хотя мошенничество в науке существует столетиями, ради доброго имени и честных исследователей стоит предоставить отдельным лицам и учреждениям возможность отделять научные факты от вымысла. С помощью некоторых относительно простых статистических инструментов любой сможет проверить достоверность наборов данных и приблизительно понять, что перед ним — качественная научная статья или (с хорошей вероятностью) очередной фейк.
Комментарии
Фин аудит не гарантирует 100% точность и верность чего-либо, им проверяемого. Невозможно проверить 100% документов, сплошной аудит очень трудоемок, дорого, и долог. Формулировка акта аудит-й проверки в конце проверки - "достаточная степень уверенности в том, что фин отчетность проверяемого субъекта достоверна".
Думаю научатся подделывать и первые 10 - 100 строк датасетов.
Таащи, используйте для стат анализа открытые опенсорсные бесплатные (и непохие, между прочим) программы, например, PSPP, Scilab, Octave. То, что сейчас используется в уч заведениях высшей школы - это просто ужас, в основном ломаное от АйБиЭм, с массой проблем, огромные дистрибутивы, закоснелость и т.д. - я имею в виду MathLab, Statistica, GPSS, SPSS, и прочий зоопарк, используемый просто потому, что он был взят 10-20-30 лет назад, когда ничего больше не было и\или просто преподы к этому привыкли.