Loading…
Thumbnail Image

Whose truth? Power, labor, and the production of ground-truth data

Miceli, Maria de los Milagros

To satisfy the voracious demand for more, cheaper, and increasingly differentiated data for machine learning (ML), tasks such as data collection, curation, and annotation are outsourced through specialized firms and platforms. The data workers who perform these tasks are kept apart from the rest of the ML production chain. They work under precarious conditions and are subject to continuous surveillance. This dissertation focuses on business process outsourcing companies (BPOs) where ground-truth data is produced. Ground-truth data delivers the variables that are used to train and validate most forms of supervised ML models. Through fieldwork at two BPOs located in Argentina and Bulgaria, interviews with data workers, managers, and ML practitioners, as well as a longitudinal participatory design engagement with workers at both organizations, this dissertation situates data production in specific settings shaped by particular market demands, local contexts, and labor constellations. It expands previous research in data creation and crowdsourcing by discussing the economic imperatives and labor relationships that shape ML supply chains and arguing that labor is a fundamental aspect to be integrated into ML ethics discourses. The findings show that ground-truth data is the product of subjective and asymmetrical social and labor relationships. Narrow instructions and work interfaces, precarized labor conditions, and local contexts shaped by economic crises ensure that data workers remain obedient to managers and clients. In such constellations, clients have the power to impose their preferred “truth values” on data as long as they have the financial means to pay workers who execute that imposition. Naturalized yet arbitrary forms of knowledge are inscribed in data through such production processes. This dissertation argues that documentation practices are key for making naturalized “truths” encoded in data visible and contestable. The collaborative documentation of data production processes can preserve moments of dissent, enable feedback loops, and center workers’ voices. The findings present a series of considerations for designing documentation frameworks that allow data workers to intervene in the shaping of task instructions, the data produced through their labor, and, ultimately, the production processes involved. Improving material conditions in data work, empowering workers, recognizing their labor as a powerful tool to produce better data, and documenting data production processes in detail are essential steps to allow for spaces of reflection, deliberation, and audit that contribute to addressing important social and ethical questions surrounding ML technologies.
Um die unersättliche Nachfrage nach mehr, günstigeren und zunehmend differenzierteren Daten für die Machine-Learning (ML)-Industrie zu befriedigen, werden Aufgaben wie Datenerhebung, -aufbereitung und -annotation an spezialisierte Unternehmen und Plattformen ausgelagert. Die Datenarbeiter*innen, die diese Aufgaben erledigen, sind vom Rest der ML-Produktionskette getrennt. Sie arbeiten unter prekären Bedingungen und werden stark überwacht. Die vorliegende Dissertation untersucht Unternehmen, in denen Ground-Truth-Daten produziert werden. Ground-Truth-Daten liefern die Variable, die zum Trainieren und Validieren der meisten überwachten ML-Modelle verwendet wird. Basierend auf Feldforschung bei zwei Unternehmen in Argentinien und Bulgarien, Interviews mit Datenarbeitern*innen, Manager*innen und ML-Ingenieur*innen sowie einem mehrjährigen partizipatorischen Designprozess verortet diese Dissertation die Datenproduktion in spezifischen Umfeldern, die durch besondere Marktanforderungen, lokale Kontexte und Arbeitskonstellationen geprägt sind. Diese Dissertation erweitert bisherige Forschung im Bereich der Datenerstellung und des Crowdsourcings, indem sie die wirtschaftlichen Imperative in ML-Lieferketten beschreibt. Dabei wird argumentiert, dass Arbeit ein grundlegender in ML-Ethikdiskurse zu integrierender Aspekt ist. Die Ergebnisse zeigen, dass Ground-Truth-Daten das Produkt subjektiver und asymmetrischer sozialer und arbeitsbezogener Beziehungen sind. Enge Arbeitsanweisungen und -tools, prekäre Arbeitsbedingungen und lokale, von Wirtschaftskrisen geprägte Kontexte sorgen dafür, dass die Datenarbeiter*innen den Managern*innen und Kunden*innen gegenüber gehorsam bleiben. In solchen Konstellationen haben die Kunden*innen die Macht, den Daten ihre bevorzugten „Wahrheitswerte” aufzuerlegen, solange sie die finanziellen Mittel haben, die Arbeiter*innen zu bezahlen, die diese Auferlegung ausführen. Durch solche Produktionsprozesse werden den Daten naturalisierte, aber gleichzeitig willkürliche Formen des Wissens eingeschrieben. Dokumentationspraktiken haben großes Potential, in Daten eingebettete „Wahrheiten” sichtbar und anfechtbar zu machen. Die kollaborative Dokumentation von Datenproduktionsprozessen kann Momente des Dissenses bewahren, Feedback-Schleifen ermöglichen und den Datenarbeitern*innen eine Stimme geben. Diese Dissertation stellt Überlegungen für das Dokumentationsdesign vor, die es den Datenarbeitern*innen ermöglichen, in die Gestaltung von Arbeitsanweisungen, in die durch ihre Arbeit produzierten Daten und letztlich in die beteiligten Produktionsprozesse einzugreifen. Die Verbesserung der materiellen Bedingungen in der Datenarbeit, die Ermächtigung der Arbeiter*innen und die Betrachtung ihrer Arbeit als mächtiges Werkzeug zur Produktion besserer Daten sowie die detaillierte Dokumentation der Datenproduktionsprozesse sind wesentliche Schritte, um Reflexion-, Diskussion- und Auditing- Räume zu ermöglichen, die dazu beitragen können, wichtige soziale und ethische Fragen im Zusammenhang mit ML-Technologien zu klären.