Ух, тема глубокая и интересная, я ее застал в корпоративной среде в 2018, когда только началась истерика по хранению и идентификации. А у корпоратов еще появился интерес легализовать передачу 3м лицам. Ну они потом у визовых центров научились, у них было это право в то время.
В эти же годы хотели создать карманного оператора хранения данных, чтобы дробить данные, но как всегда некомпетентность менеджероов на местах увела процессы не в общее пространство, а персональную реализацию компаниями. Отработал kpi, взял премию, обновил резюме и в следующую компанию.
По поводу синтетики. Да, и паузы вбивания на клавиатуре идентифицируют и гироскоп в телефонах не хуже лица.
Весь вопрос, как вы потом идентифицируете для продажи услуги покупателя(не личность). И если в вашей учетной системе Вася Петров хранится как хэш чего-то, то ваша идентификация не относится к реальному миру.
Это про то что мы говорили выше.
Теперь про что сбер.
Начнем издалека.
Чат gpt, это система поиска ответов на векторных данных, которая показывает наиболее вероятную близость того что вы спрашиваете. Если вы спросите gpt про сравнение двух чисел с запятыми, три четыре разряда, то она вам наврет.
Далее на этих чатах получили реальные данные пользователей, которые начали взаимодействовать с этой векторной базой.
А теперь они утверждают, что синтетических данных так много, что взяв накопленный профиль Васи Пупкина и еще два похожих профиля других людей, мы можем достроить модель этого Васи и нам не обязательно знать что он делает в реальной жизни.
Они пытаются отделить виртуальную модель и использовать цифрового двойника без согласия человека.
Как ни странно, но для этого и нужны были все эти многочисленные согласия, чтобы вбить в голову обывателя согласие, что он это он только в реальной жизни и прав не имеет на все эти пересчитанные профили