Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-8207
Main Title: Crowdsourcing as a guardian of transparency, privacy, and anti-discrimination in a personalized web
Translated Title: Crowdsourcing als Wächter von Transparenz, Datenschutz und Antidiskriminierung in einem personalisierten Web
Author(s): Iordanou, Kostas
Advisor(s): Smaragdakis, Georgios
Laoutaris, Nikolaos
Referee(s): Smaragdakis, Georgios
Laoutaris, Nikolaos
Haddadi, Hamed
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: The main focus of this thesis is the evaluation of crowdsourcing techniques to measure personalization on the Web. Overall, I apply my methodology in four different aspects on the Web. (1) First, I investigate price discrimination and how personal data can influence online pricing. (2) Then, I turn my attention on targeted web advertisements and investigate how targeted ads can be detected in real-time. (3) Next, I focus on web tracking and develop a methodology to measure the levels of compliance as defined by the new European Union General Data Protection Regulation (GDPR) with respect to the physical location of the tracking servers. (4) Finally, I measure the extent of web tracking on sensitive topic websites as defined by the new EU GDPR regulation. Towards that end, I develop a methodology to identify specialized trackers that operate exclusively on such websites. (1) For the first aspect, related to price discrimination, I present the design, im- plementation, validation, and deployment of the Price $heriff, a highly distributed system for detecting various types of online price discrimination in e-commerce. The Price $heriff uses a peer-to-peer architecture, sandboxing, and secure multiparty com- putation to allow users to tunnel price check requests through the browsers of other peers without tainting their local or server-side browsing history and state. Having operated the Price $heriff for several months, with approximately one thousand real users, I identify several instances of cross-border price discrimination based on the country of origin. Even within national borders, I identify several retailers that re- turn different prices for the same product to different users. I examine whether the observed differences are due to personal-data-induced discrimination or A/B Testing, and conclude that it is the latter. (2) The second aspect is related to targeted ads on the Web. In more details, be- ing able to check whether an online advertisement has been targeted is essential for resolving privacy controversies and implementing in practice data protection regula- tions like GDPR, the California Consumer Privacy Act (CCPA) and the Children’s Online Privacy Protection Act (COPPA). In this work, I describe the design, im- plementation, and deployment of an advertisement auditing system called eyeWnder that uses crowdsourcing to reveal in real-time whether a display advertisement has been targeted or not. Crowdsourcing simplifies targeted advertisement detection but expects users to report back encountered advertisements, thereby incurring privacy risks. I break the deadlock with a privacy preserving data sharing protocol that allows eyeWnder to compute global statistics required to detect targeting, while keeping the advertisements seen by users and their browsing history private. Using a total popu- lation of 100 users I show that eyeWnder permits end users to audit in real-time any advertisement that may appear on their browser, without jeopardizing their privacy. eyeWnder can even detect indirect targeting, i.e., marketing campaigns that promote a product or service whose description bears no semantic overlap with the targeted audience. (3) The third aspect is related to web tracking and the new EU GDPR. Towards that end, I define a tracking flow, as a flow between an end user and a web tracking service. I develop an extensive measurement methodology for quantifying at scale the amount of tracking flows that cross data protection borders, be it national or international, such as the EU28 border within which the GDPR applies. My methodology uses the eyeWnder browser extension to fully render advertising and tracking code, various lists and heuristics to extract well known trackers, passive DNS replication to get all the IP ranges of trackers, and state-of-the art geolocation. I employ my methodology on a dataset from 350 real users of the browser extension over a period of more than four months, and then generalize my results by analyzing billions of web tracking flows from more than 60 million broadband and mobile users from 4 large European ISPs. I show that the majority of tracking flows cross national borders in Europe but, unlike popular belief, are pretty well confined within the larger GDPR jurisdiction. Simple DNS redirection and PoP mirroring can increase national confinement while sealing almost all tracking flows within Europe. Last, I show that cross boarder tracking is prevalent even in sensitive and hence protected data categories and groups including health, sexual orientation, minors, and others. (4) Finally, the last aspect is related to sensitive categories as defined by the GDPR. In this work I turn my attention to the elephant in the room of data protection which is none other than the simple and obvious question “Who is tracking sensitive domains”. Despite a fast growing amount of work on more complex facets of the interplay between privacy and the business models of the Web, the obvious question of who collects data on users in domains where they would rather not be seen, has been largely ignored. I develop a methodology for discovering the trackers operating at sensitive domains, both those collaborating directly with publishers, as well as those appearing implicitly through recursive inclusions. I identify several trackers that specialize on specific sensitive categories, such as sexual orientation in adult content websites. I also investigate if there is exchange of information between such specialized trackers and other more mainstream advertisers and marketers.
Der Schwerpunkt dieser Arbeit liegt auf der Evaluation von Crowdsourcing-Verfahren zur Messung von Personalisierung im Web. Wir wenden unsere Methodik auf vier ver- schiedene Aspekte im Internet an. (1) Erstens untersuchen wir Preisdiskriminierung und den Einfluss persönlicher Daten auf Online-Preissetzung. (2) Danach richten wir unsere Aufmerksamkeit auf zielgerichtete Werbung im Web und untersuchen, wie wir diese in Echtzeit erkennen können. (3) Im Anschluss daran legen wir den Schwerpunkt auf „Web Tracking“ und entwickeln eine Methodik zur Messung der Einhaltung der Vorgaben der neuen EU Datenschutz-Grundverordnung (DS-GVO). Dies basiert auf der Ermittlung der physischen Standorte jener Server, die ein entsprechendes Tracking durchführen. (4) Zuletzt messen wir das Ausmaß von Web Tracking im Zusammen- hang von Webseiten, die gemäß der DS-GVO als sensibel („sensitive topic websites“) definiert wurden. Hierfür entwickeln wir eine Methodik um spezielle Tracker, die aus- schließlich auf entsprechenden Webseiten aktiv sind, zu identifizieren. (1) Im Rahmen des ersten Aspekts präsentieren wir im Bezug auf Preisdiskrimi- nierung Design, Implementierung, Validierung und Bereitstellung von Price $heriff, einem hochgradig verteilten System zur Erkennung verschiedenster Arten von Online- Preisdiskriminierung im E-Commerce. Das Price $heriff System basiert auf einer Peer- To-Peer Architektur, Sandboxing, und sicherer Mehrparteien-Berechnung. Auf diese Weise werden Nutzern Preisabfragen mittels Tunneln durch die Browser anderer Peers ermöglicht, ohne dass hierdurch deren lokale oder serverseitige Browsing-Verläufe be- einflusst werden. Nach mehrmonatigem Betrieb des Price $heriff Systems mit circa 1000 realen Nutzern stellen wir mehrere Fälle von grenzüberschreitender Preisdiskri- minierung auf der Basis des Ursprungslands fest. Selbst innerhalb nationaler Grenzen identifizieren wir mehrere Händler, die unterschiedlichen Nutzern unterschiedliche Preise für dieselben Produkte angeben. Wir untersuchen zudem, ob die beobachteten Preisunterschiede auf Diskriminierung auf der Basis personenbezogener Daten oder auf A/B Tests zurückzuführen sind. Wir folgern schließlich, dass es sich um Letzteres handelt. (2) Der zweite Aspekt bezieht sich auf gezielte Werbung im Web. Genauer gesagt, die Fähigkeit herauszufinden, ob Online-Werbung zielgerichtet erfolgt. Dies ist un- erlässlich um Kontroversen hinsichtlich der Privatsphäre aufzulösen und auch um Datenschutzregulierungen wie die DS-GVO, den „California Consumer Privacy Act“ und den „Children’s Online Privacy Protection Act“ in der Praxis zu implemen- tieren. In dieser Arbeit beschreiben wir Design, Implementierung und Bereitstellung eines Revisionssystems für Online-Werbung namens „eyeWnder“. Dieses System nutzt Crowdsourcing um in Echtzeit herauszufinden ob eine Werbung zielgerichtet ist oder nicht. Crowdsourcing erleichtert die Erkennung zielgerichteter Werbung, beruht je- doch darauf, dass Nutzer Bericht über aufgetretene Werbung erstatten. Hierdurch können Risikenfür die Privatsphäre der Nutzer entstehen. Durch ein Protokoll, das die gemeinsame Datennutzung unter Wahrung der Privatsphäre ermöglicht, finden wir einen Ausweg aus dieser Sackgasse. Das Protokoll erlaubt eyeWnder globale Sta- tistiken zu berechnen, die zur Erkennung von zielgerichteter Werbung notwendig sind, wobei gleichzeitig sichergestellt werden kann, dass die Werbeanzeigen der jeweiligen Nutzer und deren Browsing-Verläufe privat bleiben. Unter Rückgriff auf eine Po- pulation von 100 Nutzern zeigen wir, dass es eyeWnder Endnutzern ermöglicht in Echtzeit jegliche Werbung, die innerhalb ihres Browsers erscheint zu prüfen ohne dass dabei ihre Privatsphäre gefährdet wird. eyeWnder kann darüber hinaus sogar indirekt zielgerichtete Werbung (d.h. Marketingkampagnen, die ein Produkt oder ei- ne Dienstleistung bewerben deren Beschreibung keinerlei semantische Überlappung mit der Zielgruppe aufweist) erkennen. (3) Der dritte Aspekt bezieht sich auf Web Tracking und die neue EU DS-GVO. Hier- für definieren wir einen „Tracking Flow“ als einen Flow zwischen einem Endnutzer und einem „Web Tracking“ Dienst. Wir entwickeln eine umfangreiche Messmetho- dik um eine große Anzahl solcher „Tracking Flows“, die sowohl nationale als auch internationale (z.B. den EU28 Raum innerhalb dessen die DS-GVO Anwendung fin- det) „Datenschutzgrenzen“ überschreiten, quantitativ zu erfassen. Unsere Methodik verwendet die eyeWnder Browser-Erweiterung um Werbung und Tracking-Code voll- ständig auszuführen sowie verschiedene Listen und Heuristiken um bekannte Tracker zu identifizieren, passive DNS Replizierungen um alle relevante IP Adressbereiche der Tracker zu ermitteln, sowie neueste Ansätze zur Geolocation. Wir wenden unsere Methodik auf einen Datensatz bestehend aus 350 realen Nutzern der Browsererwei- terung über einen Zeitraum von über vier Monaten an. Wir verallgemeinern dann unsere Resultate durch die Analyse von Milliarden von Web Tracking Flows von mehr als 60 Millionen Breitband- und Mobilfunkkunden von vier großer europäischer ISPs. Wir zeigen, dass der Großteil der Tracking Flows nationale Grenzen in Europa überschreitet; entgegen weit verbreiteter Ansichten sind diese jedoch weitgehend auf den Geltungsbereich der DS-GVO beschränkt. Auf der Basis einfacher DNS Uml- weitungen und PoP Mirroring Mechanismen kann die Beschränkung auf nationale Grenzen erhöht und darüber hinaus fast alle Tracking Flows innerhalb von Europa gehalten werden. Schließlich zeigen wir, dass grenzüberschreitendes Tracking selbst in sensiblen und daher geschützten Datenkategorien und -gruppen wie Gesundheit, sexuelle Orientierung, Minderjährige, etc. vorherrscht. (4) Abschließend bezieht sich der letzte Aspekt auf die durch die DS-GVO als sensibel definierten Kategorien. In dieser Arbeit richten wir unsere Aufmerksamkeit auf die größte Herausforderung des Datenschutzes welche keine geringere ist als die einfa- che und doch offensichtliche Frage „Wer trackt sensible Domains?“. Trotz der rasant wachsenden Mengen an Arbeiten zu komplexeren Aspekten des Zusammenspiels zwi- schen Privatsphäre und webbasierten Geschäftsmodellen, wurde die offensichtliche Frage danach, wer Daten über Nutzer in Domains sammelt wo diese lieber nicht ge- sehen werden würden, weitgehend vernachlässigt. Wir entwickeln eine Methodik um Tracker die an sensiblen Domains arbeiten aufzuspüren; sowohl jene die direkt mit den Herausgebern kooperieren als auch jene die implizit durch rekursive Einbeziehung auftauchen. Wir identifizieren mehrere Tracker die auf speziellen Dienstkategorien wie sexuelle Orientierung auf nicht jugendfreien Webseiten spezialisiert sind. Wir unter- suchen zudem, ob es einen Austausch zwischen solchen spezialisierten Trackern und weiteren, eher dem „Mainstream“ zuzuordnenden Werbetreibenden und Vermarktern, gibt.
URI: https://depositonce.tu-berlin.de/handle/11303/9118
http://dx.doi.org/10.14279/depositonce-8207
Exam Date: 12-Feb-2019
Issue Date: 2019
Date Available: 2-Apr-2019
DDC Class: 000 Informatik, Wissen, Systeme
Subject(s): data protection
price discrimination
GDPR
Web tracking
Web advertising
Datenschutz
Preisdiskriminierung
DS-GVO
Web-Tracking
Web-Werbung
Sponsor/Funder: EC/FP7/607728/EU/Measurement for Europe: Training and Research for Internet Communications Science/METRICS
EC/H2020/679158/EU/Resolving the Tussle in the Internet: Mapping, Architecture, and Policy Making/ResolutioNet
License: https://creativecommons.org/licenses/by/4.0/
Appears in Collections:Inst. Telekommunikationssysteme » Publications

Files in This Item:
File Description SizeFormat 
iordanou_kostas.pdf7.46 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons