Хактивисты заявили о создании открытого архива почти всей музыки Spotify объемом 300 ТБ

Переводчик Google

Проект Anna’s Archive сообщил о создании масштабного открытого архива музыки Spotify, который, по утверждению авторов, охватывает практически весь каталог стримингового сервиса. Архив распространяется через BitTorrent и включает около 256 млн треков в виде метаданных и порядка 86 млн аудиофайлов, общий объем которых составляет чуть менее 300 ТБ.
1766608470654.webp


В опубликованном на сайте проекта материале говорится, что выгрузка данных велась в течение продолжительного времени с использованием масштабируемого скрейпинга Spotify. В результате, по оценке Anna’s Archive, удалось собрать метаданные примерно по 99,9% треков сервиса, а сами аудиофайлы охватывают около 99,6% всех прослушиваний на платформе. Данные сгруппированы по популярности, что позволило приоритетно сохранить наиболее востребованную музыку.

По словам представителей проекта, архив задуман как "архив сохранения", ориентированный на долгосрочное хранение музыкального наследия. В Anna’s Archive утверждают, что существующие музыкальные коллекции в торрент-сетях страдают рядом проблем: они сосредоточены на популярных исполнителях, делают упор на максимально высокое качество файлов, что резко увеличивает объемы хранения, и не имеют единого, относительно полного каталога всей доступной музыки. Использование Spotify в качестве источника авторы называют "отправной точкой" для создания такого всеобъемлющего архива.

Для треков с ненулевой популярностью в архиве сохранены оригинальные файлы OGG Vorbis с битрейтом 160 кбит/с без повторного кодирования, при этом в файлы добавлены расширенные метаданные — названия, ISRC, UPC, данные об альбоме, обложки и служебная информация. Для композиций с нулевой популярностью часть файлов была перекодирована в OGG Opus с битрейтом около 75 кбит/с, что позволило сократить объем данных при сохранении приемлемого качества. В Anna’s Archive отмечают, что дальнейшее расширение архива сочли нецелесообразным из-за "длинного хвоста" редких и малозначимых треков, который потребовал бы более 700 ТБ дополнительного пространства.

Помимо аудиофайлов, архив включает структурированные базы данных в формате SQLite с почти полной копией ответов API Spotify. В них содержатся сведения об исполнителях, альбомах, треках, жанрах, доступных рынках, плейлистах и аудиохарактеристиках композиций, таких как темп, громкость, энергия и танцевальность. По утверждению авторов, это крупнейшая на сегодняшний день публично доступная музыкальная база данных: проект заявляет о наличии 186 млн уникальных ISRC-кодов, что значительно превышает показатели существующих открытых каталогов.

В Spotify подтвердили факт несанкционированного скрейпинга, но заявили, что инцидент не затронул пользовательские данные. По словам компании, пароли, платежная информация и приватные плейлисты не были скомпрометированы. Представители сервиса сообщили, что выявили и заблокировали учетные записи, задействованные в незаконной выгрузке контента, и внедрили дополнительные защитные меры.

Специалисты по информационной безопасности отмечают, что ситуация наглядно демонстрирует риски масштабного скрейпинга для крупных контент-платформ. Комбинация автоматизированного доступа, обхода лимитов и механизмов защиты позволяет со временем извлекать защищенный контент в промышленных масштабах. Несмотря на то что история в первую очередь связана с вопросами авторского права, эксперты подчеркивают ее значение и для безопасности цифровых платформ, которые при массовом доступе к данным неизбежно становятся объектами подобных атак.

Источники
 
Назад
Сверху Снизу