Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
06 июня 2025 В Европе зафиксирован значительный рост случаев смертности от передозировок
06 июня 2025 В интернете появились редкие фотографии с лидерами преступного мира 90-х годов
06 июня 2025 США вводят ограничения в отношении Международного уголовного суда
06 июня 2025 Илон Маск предупреждает о надвигающейся рецессии в США из-за тарифов, введенных Трампом
06 июня 2025 Аэропорт Калуги временно остановил прием и отправку самолетов
06 июня 2025 Сирийский олигарх Мохаммед Хамшо отозвал иск о клевете после широкого общественного резонанса
06 июня 2025 Власти одной из китайских провинций планируют ослабить ограничения «Великого китайского фаервола»
06 июня 2025 Украинских железнодорожников обвинили в мошенничестве с углём
06 июня 2025 Инвестор решил продать акции Tesla из-за высказываний Илона Маска о деле Эпштейна
06 июня 2025 Пропавшую в Петербурге девушку обнаружили через девять лет
06 июня 2025 В Подмосковье школьница провела два дня в реанимации после укуса змеи
06 июня 2025 ЦРУ предотвратило попытку России устранить руководителя компании Rheinmetall
06 июня 2025 Посол России в Великобритании предупредил о возможности Третьей мировой войны после атак на аэродромы
06 июня 2025 Очевидцы сообщают о прилете и взрыве в районе брянского аэропорта
06 июня 2025 Канье Уэст призвал Илона Маска и Трампа к примирению, заявив: «Мы любим вас обоих»
06 июня 2025 Бывший советник Трампа Стив Бэннон призвал депортировать Илона Маска
06 июня 2025 Марк Рютте провел сравнение между скоростью производства боеприпасов в России и в НАТО
06 июня 2025 Илон Маск инициировал обсуждение политического будущего США
06 июня 2025 В Омске пчёлы нанесли смертельные укусы собаке и ранили дачницу
06 июня 2025 В Латвии требуют провести расследование многомиллионных контрактов семейной компании мэра Резекне Александра Барташевича