Если исследователи также принимали во внимание крупнозернистую информацию о ценах покупок, всего трех фрагментов информации было достаточно, чтобы идентифицировать даже больший процент людей, попавших в выборку данных. Это означает, что некто с копиями всего трех ваших недавних чеков — или с одним чеком, одним вашим фото из Instagram, где вы пьете кофе с друзьями, и одним твитом про телефон, который вы недавно купили — с вероятностью 94% сможет вычислить данные о транзакциях, проведенных по вашей банковской карте, из миллионов других. Исследователи утверждают, что таково положение дел даже в тех случаях, когда среди данных о транзакциях ничто не указывает на имя, адрес, номер кредитки или что-нибудь еще, что мы привыкли считать персональной информацией.
Это исследование вышло примерно два года спустя после более раннего анализа записей о мобильных телефонах, которые дали похожие результаты.
Если мы проверяем это на двух наборах данных, в общем это более-менее похоже на правду. Честно говоря, я не могу представить себе причины, по которым метаданные кредиток отличались бы от метаданных мобильников, или были бы им эквивалентны.
говорит Ив-Александр де Монтджой (Yves-Alexandre de Montjoye), аспирант МТИ со специализацией в медиатехнологиях, имя которого стоит первым в списке авторов обеих работ.
Де Монтджой присоеденился к новому исследованию вместе со своим научным руководителем Алексом «Сэнди» Пентландом (Alex «Sandy» Pentland), профессором медиатехнологий из Toshiba; Вивек Синх (Vivek Singh), бывший постдок в группе Пентланда, ныне доцент в Рутгерском университете; и Лаура Радаелли (Laura Radaelli), постдок в университете Тель-Авива.
Данные, исследованные учеными, включали названия и местоположения магазинов, где производились покупки, даты в которые они производились и суммы покупок (эта информация образует «срез данных» — прим. пер). Покупки сделанные одной и той же кредиткой помечались одним случайным идентификационным номером.
Для каждого идентификационного номера — каждого клиента в массиве данных — исследователи выбирали покупки наугад, затем определяли как много историй покупок других клиентов содержали те же самые срезы данных. В другом анализе, исследователи увеличили количество срезов данных, взятых для одного покупателя, с двух до пяти. Без информации о стоимости покупки, двух срезов было достаточно для идентификации более чем 40% покупателей, попавших в выборку данных. Пяти срезов данных с информацией о стоимости было достаточно для идентификации почти каждого.
Исследователи брали цену очень грубо, рассматривая все цены, попадавшие в заданный диапазон как функциональный эквивалент. Например, покупка за $20 в некотором магазине в какой-то день в истории покупок одного человека считалась совпадением с покупкой за $40, сделанной кем-то другим, в этом же магазине в этот же день, поскольку обе покупки попадали в диапазон от $16 до $40. Это была попытка представить неопределенность чьей-то ожидаемой стоимости покупки по вторичной информации, такой как еда на чьей-то тарелке на фото из Instagram. Пределы каждого диапазона основываются на фиксированных процентах его медианного значения: к примеру, диапазон от $16 до $49 является медианным значением покупок ($32,50) плюс-минус 50%, округленное до ближайшего целого доллара.
Сохранение анонимности больших массивов данных весьма актуальная проблема, поскольку государственные и частные организации очень любят использовать агрегированные данные в качестве источника маркетинговых идей. Ритэйлеры, изучающие анонимизированные истории покупок банковскими картами определенно могут что-то узнать о вкусах своих клиентов, но экономисты также могли бы узнать кое-что об отношении, скажем, инфляции или потребительских расходов к другим экономическим факторам.
Таким образом, ученые из МТИ также исследовали эффекты укрупнения данных — намеренно делая их менее точными, в надежде сохранить конфиденциальность, но в то же время сохраняя возможности для последующего полезного анализа. Это делает идентификацию частных лиц более сложной, но все еще в недостаточной степени. Даже если охарактеризовать каждую покупку, как свершившуюся когда-то в течении недели в одном из 150 магазинов в пределах какой-то общей области, четырех покупок (с 50% неопределенностью относительно цены) все еще будет достаточно, чтобы идентифицировать более 70% покупателей.
Тем не менее, Монтджой и Пентланд настаивают на том, что использование больших данных должно преследовать социально-значимые цели.
Я и Сэнди в самом деле считаем, что у этих данных огромный потенциал и они должны использоваться. При этом, мы должны отдавать себе отчет и отвечать за риски идентификации.
говорит де Монтджой.
В другой своей работе де Монтджой, Пентланд и другие члены группы Пентланда начали разработку системы, которая позволит людям сохранять данные, генерируемые их мобильными устройствами на защищенных серверах по их собственному выбору. Исследователям, которым будут интересны агрегированные данные, будут формировать запросы к системе, которая будет возвращать только обезличенные данные. Такие как, например, среднее значение затрат на бензин за разные периоды времени.
Источник:
phys.org