Использование больших языковых моделей (LLM) в академическом письме
В последние годы наблюдается быстрый рост использования больших языковых моделей (LLM), таких как ChatGPT, в академическом письме. Исследование, проведенное в период с 2010 по 2024 год, позволяет выявить изменения в стиле письма и словарном запасе в биомедицинских исследовательских резюме из PubMed.
Применение искусственного интеллекта в академическом письме
Широкое распространение LLM вызывает опасения относительно подлинности и оригинальности научных текстов, что влияет на исследовательскую честность и оценку академических вкладов.
Традиционно для оценки присутствия текстов, сгенерированных LLM, в академической литературе применялись несколько методов. Один из распространенных подходов заключается в использовании детекторов LLM, обученных различать человеческий и AI-сгенерированный текст на основе известных образцов. Другой метод моделирует распределение частоты слов в научных текстах, рассматривая их как смеси человеческого и AI-сгенерированного контента. Третий подход использует списки маркерных слов, избыточно используемых LLM, обычно стилистических терминов, а не содержательной лексики.
В данном исследовании предлагается новый, основанный на данных подход, который избегает некоторых ограничений предыдущих методов. Вместо использования заранее определенных наборов данных человеческих и LLM-сгенерированных текстов, данный метод рассматривает избыточное использование слов для идентификации участия LLM. Этот подход позволяет более объективно и всесторонне проанализировать влияние LLM на научное письмо.
Исследователи проанализировали более 14 миллионов резюме из PubMed за период с 2010 по 2024 год. Они создали матрицу встречаемости слов в этих резюме и рассчитали годовую частоту каждого слова. Сравнивая наблюдаемые частоты в 2023 и 2024 годах с контрфактическими проекциями на основе тенденций предыдущих лет, они выявили слова со значительным увеличением использования, которые затем использовались для оценки влияния LLM.
Анализ показал, что определенные слова, особенно стилистические, такие как “вдается”, “демонстрирует” и “подчеркивает”, показали заметный рост частоты, что указывает на участие LLM. Исследователи количественно оценили это избыточное использование с помощью двух мер: разницы в избыточной частоте (разница между наблюдаемой и ожидаемой частотой) и коэффициента избыточной частоты (отношение наблюдаемой к ожидаемой частоте).
Для оценки степени использования LLM исследователи использовали разницу в частоте избыточных слов в качестве нижней границы. Например, слово “потенциал” показало разницу в избыточной частоте, указывающую на то, что по крайней мере 4% резюме 2024 года содержат это слово из-за влияния LLM. Анализируя резюме, содержащие слова с избыточным использованием, авторы получили нижнюю границу в 10% для статей, написанных с помощью LLM в 2024 году.
Данное исследование подчеркивает значительное изменение стилей академического письма из-за появления LLM, предоставляя убедительные доказательства влияния LLM на научную литературу. Это подчеркивает трансформационный эффект LLM на научную коммуникацию и вызывает важные вопросы о научной честности и будущем академического письма.
Если вы хотите узнать больше о наших исследованиях, пишите нам на Telegram.
Попробуйте использовать ИИ-ассистента в продажах от Flycode.ru. Этот ИИ-ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.