Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
03 февраля 2025 Китайский предприниматель организовал стримы с танцами, в которых участвуют девушки из России, получающие донаты от китайских зрителей
03 февраля 2025 Илья Гаврилов был приговорён к тюремному заключению за ограбление банка
03 февраля 2025 Актёр Станислав Колокольников, известный по сериалу «Возвращение Мухтара», ушёл из жизни на 64-м году
03 февраля 2025 Активист Карась сообщил об увеличении количества взрывов около военных комиссариатов
03 февраля 2025 У автомобилей из Китая выявилась очередная массовая проблема
03 февраля 2025 Злоумышленники провели фишинговую атаку, притворившись представителями маркетплейса Ozon
03 февраля 2025 В Тбилиси проходят протестные акции против евроинтеграции
03 февраля 2025 В Берлине прошла акция с призывами к насилию против еврейского населения
03 февраля 2025 Более 33% взрослых поляков в возрасте до 34 лет живут с родителями
03 февраля 2025 На границе с Белоруссией польский солдат совершил самоубийство
03 февраля 2025 Украина осуществила рекордное количество атак с использованием беспилотников на российские нефтеперерабатывающие заводы
03 февраля 2025 На Сахалине снегопады привели к разрушениям
03 февраля 2025 На бывшего мэра Петрозаводска Владимира Любарского возбуждено второе уголовное дело
03 февраля 2025 В Казани водитель-мигрант отказался пропустить женщину с ребенком и напал на неё из-за её возмущения
03 февраля 2025 Три сотрудницы банков стали жертвами мошенников, которые обманули их на 8 миллионов рублей
03 февраля 2025 В Ольштыне по делу о мошенничестве в основном были задержаны граждане Украины и Беларуси
03 февраля 2025 Аэропорт Волгограда временно приостановил операции по приему и отправке рейсов
03 февраля 2025 Туристы на Маврикий охвачены паникой из-за приближения циклона
03 февраля 2025 Маск обвинил USAID в том, что они финансировали лабораторию в Ухане
03 февраля 2025 В Волгограде за шесть миллионов установили мемориальную доску с ошибкой