Китайский ИИ-разработчик DeepSeek обвиняется в использовании данных Google Gemini

Китайская компания DeepSeek попала под подозрение в незаконном использовании данных Google Gemini для обучения своей модели искусственного интеллекта R1. Исследователи обнаружили подозрительные сходства в лексике и логике рассуждений между моделями.

G. Ostrov

5 июня 2025

Технологическая индустрия искусственного интеллекта столкнулась с очередным скандалом, связанным с подозрениями в незаконном использовании данных конкурентов. В центре внимания оказалась китайская компания DeepSeek, которая может использовать данные Google Gemini для обучения собственных моделей ИИ.

Обновленная модель и подозрения

В мае 2025 года DeepSeek представила обновленную версию своей модели искусственного интеллекта R1, продемонстрировавшую впечатляющие результаты в математических вычислениях и задачах программирования. Однако компания не раскрыла источники данных, использованных для тренировки модели, что вызвало подозрения у экспертного сообщества.

Первые серьезные обвинения выдвинул разработчик Сэм Пэч из Мельбурна, который специализируется на оценке эмоционального интеллекта ИИ-систем. В своей публикации в социальной сети X он представил данные, которые, по его утверждению, неопровержимо доказывают обучение модели DeepSeek R1-0528 на выводах Google Gemini.

Доказательства сходства

Анализ показал поразительное сходство в используемой лексике и речевых оборотах между моделью DeepSeek и Google Gemini 2.5 Pro. Более того, другой исследователь, создатель анонимного проекта SpeechMap для оценки свободы слова в ИИ-системах, обнаружил схожесть в \"мыслительных процессах\" - промежуточных выводах модели DeepSeek с трассировками Gemini.

Эти открытия указывают на возможное использование техники дистилляции знаний - метода обучения ИИ на основе данных более мощных существующих моделей, что может нарушать лицензионные соглашения и условия использования.

История нарушений

Это не первое обвинение в адрес DeepSeek в неправомерном использовании данных конкурентов. В декабре 2024 года разработчики заметили, что модель DeepSeek V3 систематически идентифицировала себя как ChatGPT, что явно указывало на обучение на логах чатов OpenAI.

Ранее в 2025 году OpenAI официально сообщила изданию Financial Times о наличии неопровержимых доказательств использования DeepSeek метода дистилляции данных их моделей. По информации Bloomberg, Microsoft, тесно сотрудничающая с OpenAI, обнаружила в конце 2024 года утечку значительных объемов данных через учетные записи разработчиков OpenAI, предположительно связанные с деятельностью DeepSeek.

Правовые и этические аспекты

Хотя дистилляция является распространенной практикой в индустрии ИИ, условия обслуживания OpenAI категорически запрещают использование выводов их моделей для создания конкурирующих продуктов. Аналогичные ограничения действуют и у других крупных компаний.

Ситуация осложняется тем, что многие модели могут ошибочно идентифицировать себя и использовать схожие фразы из-за \"загрязнения\" открытого интернета, который служит основным источником данных для обучения ИИ. Массовое создание контента с помощью ИИ и активность ботов в социальных сетях значительно затрудняют фильтрацию данных.

Экспертные мнения

Эксперты, включая Нейтана Ламберта из исследовательского института AI2, считают обучение DeepSeek на данных Gemini вполне вероятным сценарием. Ламберт предположил, что использование API Gemini могло оказаться для DeepSeek более эффективным решением, чем разработка собственных технологий с нуля.

Ответные меры индустрии

В ответ на растущую проблему несанкционированной дистилляции технологические гиганты усиливают меры безопасности. В апреле 2025 года OpenAI ввела обязательную верификацию личности для доступа к некоторым продвинутым моделям, при этом Китай исключен из списка поддерживаемых стран.

Google также предприняла активные действия, начав \"резюмировать\" трассировки моделей, доступных через платформу AI Studio, что существенно затрудняет обучение конкурирующих моделей на данных Gemini. Компания Anthropic объявила о внедрении аналогичных защитных мер в мае.

Эта ситуация подчеркивает растущую напряженность в сфере ИИ между инновациями и защитой интеллектуальной собственности, а также необходимость четкого правового регулирования в быстро развивающейся отрасли.

Более подробную информацию о развитии технологий ИИ можно найти на официальном сайте DeepSeek.

В случае каких-либо проблем напишите нам, мы поможем быстро и качественно!