Loading…
Thumbnail Image

Web content delivery, monetization, and search

back-office and advertisement traffic on the Internet

Pujol Gil, Enric

The World Wide Web has become the most used information system worldwide. It has fueled an unprecedented commercialization of the Internet by turning this network system designed for academic data exchange into a widely used social medium. After decades of operational experience with these two systems, researchers and engineers continue to be daily confronted with the urge to accommodate new users, scale up and deploy new Web services, and fulfill the users' quality expectations. This dissertation explores how these two systems influence each other. Namely, i) how the Web influences Internet's traffic dynamics, and ii) how the Internet's infrastructure and protocols impair Web usage. We argue that there are three fundamental enablers for today's Web: content delivery, monetization, and search. On the one hand, content delivery entails the mechanisms that allow scaling up and serving Web content fast to end users worldwide. On the other, content monetization relates to obtaining the economic resources needed to deploy such infrastructure, create content, and sustain services. Finally, content search refers to the entire ecosystem that allows users to find resources on the Web almost in real-time without the need to navigate from one Web site to another Web site. We study network traffic at multiple vantage points on the Internet, including a residential broadband network, backbone links of a tier-1 Internet Service Provider (ISP), two Internet eXchange Points (IXPs), and servers of a large Content Delivery Network (CDN). We show two distinct facets of Web traffic, for which we coin the terms front- and back-office Web traffic. The term front-office traffic refers to traffic exchanged between users and front-end servers. By contrast, the term back-office traffic designates traffic exchanged between two automated hosts (machine-to-machine traffic). We analyze front-office Web traffic and more precisely content monetization via the advertisements that are displayed to the end users in an access network. We also study the prevalence of adblockers, as they can potentially disrupt the widely established business model of "free" content (one of the core elements on which the Web builds). We observe how the deployment of front-end servers has reduced latencies to many servers in the past years. By contrast, we note inflations of HTTP response times caused by back-end servers' activity related to content delivery and monetization. Hence, we devise a methodology to identify back-office Web traffic from data collected at the Internet's core. We find that this represents not only a significant fraction of today's Internet traffic but also today's Internet transactions. We further characterize it in the context of the three fundamental functions aforementioned, i.e., crawling (to find and index Web content), real-time bidding (to make advertisements more effective), and request forwarding (mainly to improve performance and reduce traffic). In turn, the Internet's infrastructure and its operational protocols can alter the way users interact with the Web. We focus on two aspects thereof. First, we study the Internet's fundamental transition to a newer version of its network-layer protocol (IP), which affects the way users can reach the Web. In particular, we study IPv6 usage at a dual-stack ISP to reason about when and how users and Web content providers exchange data over IPv6 and the reasons that hamper its usage. Second, fueled by the buffer bloat debate, we investigate how buffer-sizing schemes and transport protocols like TCP influence QoE metrics for applications like Web browsing. To this end, we use data from a large CDN and report on the prevalence of excessive buffering in the wild.
Das World Wide Web ist zu dem am häufigsten verwendeten Informationssystem der Welt geworden. Es hat die beispiellose Kommerzialisierung des Internets vorangetrieben und hat sich von einem Netzwerksystem, welches ursprünglich ein reines Forschungsnetz war, in ein weitverbreitetes soziales Medium verwandelt. Trotz jahrzehntelanger Erfahrung mit Netzwerken sind Forscher und Ingenieure tagtäglich herausgefordert, neue Nutzer in das Netzwerk aufzunehmen, neuartige Dienste bereitzustellen und die wachsenden Qualitätsansprüche der Anwender zufriedenzustellen. Die vorliegende Dissertation fokussiert sich auf drei grundlegende Aspekte, welche das Web zu dem machen, was es heute ist: Inhaltsauslieferung, Monetarisierung und Websuche. Die Inhaltsauslieferung stellt Mechanismen bereit, welche eine schnelle Skalierung und die Auslieferung von Inhalten zu Benutzern weltweit ermöglicht. Die Monetarisierung der Inhalte liefert hingegen die wirtschaftlichen Ressourcen, um eine solche Infrastruktur aufzubauen, neue Inhalte zu generieren, und die Systeme zu warten. Die Websuche bezieht sich auf das gesamte ökosystem welches es Nutzern erlaubt, Ressourcen in Echtzeit im Web zu finden, ohne dabei von Webseite zu Webseite navigieren zu müssen. Diese Dissertation untersucht die folgenden orthogonalen Aspekte: i) Datenverkehr im Internet, welcher der Inhaltsauslieferung, Monetarisierung und der Websuche dient, und ii) Kernaspekte der Applikations-, Transport-, und Netzwerkschicht des Internets, welche direkten Einfluss auf das World Wide Web haben. Wir untersuchen den Datenverkehr von mehreren Internet-Aussichtspunkten aus, darunter ein Anschlussnetzwerk, Backboneverbindungen eines Tier-1 ISPs, zwei Internetknoten (IXPs) und Server eines gro{\ss}en CDNs. Hierbei betrachten wir zwei verschiedene Facetten des Web-Datenverkehrs und prägen die Begriffe des Front- und des Back-Office-Datenverkehrs. Der Begriff Front-Office-Datenverkehr bezieht sich auf den Datenverkehr zwischen Nutzern und Frontendservern. Im Gegensatz dazu bezeichnet der Begriff Back-Office-Datenverkehr den Verkehr zwischen zwei automatisierten Maschinen (Maschine-zu-Maschine-Verkehr). Wir analysieren Front-Office-Webdatenverkehr und insbesondere Monetarisierung durch Werbeanzeigen, die Endverbrauchern in einem Anschlussnetzwerk angezeigt werden. Des Weiteren untersuchen wir die Prävalenz von Adblockern, da sie möglicherweise das etablierte Geschäftsmodell des "kostenlosen Inhalts" stören können, ein Kernelement des aktuellen Webs. Hier beobachten wir, dass der Einsatz von Frontendservern die Latenzen zwischen Endnutzern und Servern verringert hat. Im Gegensatz dazu haben sich insgesamt die HTTP Antwortzeiten erhöht, als Folge der Interaktionen zwischen Frontend- und Backendservern zur Inhaltsauslieferung und Monetarisierung. Wir entwickeln eine Methodik zur Identifikation von Back-Office-Datenverkehr und zeigen, dass dieser Datenverkehr nicht nur einen signifikanten Anteil des gesamten Datenvolumens, sondern auch einen signifikanten Anteil der heutigen Internettransaktionen ausmacht. Im Kontext der Websuche fokussieren wir unsere Arbeit auf den Anteil des durch "crawling" verursachten Datenverkehrs. Im Kontext der Monetarisierung betrachten wir "real-time bidding", um Werbeanzeigen effektiver zu schalten. Im Kontext der Inhaltsauslieferung analysieren wir "request forwarding", welches der Verbesserung der Leistung und der Reduktion des Datenverkehrs dient. Front- und Back-Office-Webdatenverkehr werden jedoch auch von der Infrastruktur des Internets und den entsprechenden operativen Protokollen beeinflusst. Wir betrachten zwei Beispiele. Zunächst studieren wir die Transition des Internets hin zu einem neuen Netzwerkschichtprotokoll (IP), welches direkt beeinflusst, wie Endnutzer Inhalte aus dem Web beziehen. Insbesondere studieren wir die IPv6 Verwendung in einem dual-stack ISP um zu erörtern, wann und wie Inhalteanbieter ihre Webinhalte über IPv6 austauschen, und um die prävalenten Hindernisse aufzuzeigen. Im Kontext der Debatte über "buffer bloat" untersuchen wir, wie die Dimensionierung von Puffern und Transportprotokollen wie TCP die Quality-of-Experience (QoE) von Applikationen, wie dem World Wide Web, beeinflussen. Gleichzeitig verwenden wir Daten von einem großen CDN, um die Verbreitung von exzessiven Puffern im Internet aufzuzeigen.