Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
20 апреля 2025 Польские полицейские в состоянии алкогольного опьянения попали в ДТП во время проведения масштабной операции
20 апреля 2025 Западные издания считают пасхальное перемирие России дипломатической победой Путина
20 апреля 2025 Вежливое поведение пользователей ChatGPT обходится компании OpenAI в сумму, равную десяткам миллионов долларов
19 апреля 2025 В пекинском полумарафоне впервые участвовали 21 робот
19 апреля 2025 Подготовка к свадьбе дочери Волочковой вызвала неловкий скандал
19 апреля 2025 Зеленский согласился на пасхальное перемирие и предложил продлить его на месяц
19 апреля 2025 Израиль рассматривает возможность нанесения удара по ядерным объектам Ирана без согласования с США
19 апреля 2025 Телеведущий Николай Дроздов серьезно пострадал из-за ухудшения состояния здоровья
19 апреля 2025 В Новокубанске подросток на мотоцикле стал виновником аварии
19 апреля 2025 Супруга главы МЧС возглавила крестный ход в Иерусалиме, заменив представителей духовенства
19 апреля 2025 Академгородок может стать самостоятельным муниципалитетом: губернатору предложили рассмотреть потенциальное преобразование
19 апреля 2025 Tesla уменьшает объемы производства доступной модели Model Y
19 апреля 2025 В Турции продолжаются массовые протесты, связанные с делом Имамоглу
19 апреля 2025 Пасхальное перемирие, предложенное Россией, демонстрирует её готовность к диалогу
19 апреля 2025 Украинским военным было приказано прекратить огонь и фиксировать случаи нарушений перемирия
19 апреля 2025 В Краснодаре сотрудники Следственного комитета избили адвоката возле здания управления
19 апреля 2025 В Херсоне сообщили о российских атаках после объявления «пасхального перемирия»
19 апреля 2025 Кремль выразил критику по поводу стратегии администрации Трампа в разрешении конфликта в Украине
19 апреля 2025 Трамп может в рамках соглашения признать суверенитет России над Крымом
19 апреля 2025 ООН отреагировала на объявленное Россией перемирие в честь Пасхи