Whose truth? Power, labor, and the production of ground-truth data

dc.contributor.advisorBerendt, Bettina
dc.contributor.advisorHanna, Alex
dc.contributor.authorMiceli, Maria de los Milagros
dc.contributor.grantorTechnische Universität Berlin
dc.contributor.refereeBerendt, Bettina
dc.contributor.refereeCasilli, Antonio
dc.contributor.refereeHanna, Alex
dc.date.accepted2022-08-29
dc.date.accessioned2023-07-24T13:18:10Z
dc.date.available2023-07-24T13:18:10Z
dc.date.issued2023
dc.description.abstractTo satisfy the voracious demand for more, cheaper, and increasingly differentiated data for machine learning (ML), tasks such as data collection, curation, and annotation are outsourced through specialized firms and platforms. The data workers who perform these tasks are kept apart from the rest of the ML production chain. They work under precarious conditions and are subject to continuous surveillance. This dissertation focuses on business process outsourcing companies (BPOs) where ground-truth data is produced. Ground-truth data delivers the variables that are used to train and validate most forms of supervised ML models. Through fieldwork at two BPOs located in Argentina and Bulgaria, interviews with data workers, managers, and ML practitioners, as well as a longitudinal participatory design engagement with workers at both organizations, this dissertation situates data production in specific settings shaped by particular market demands, local contexts, and labor constellations. It expands previous research in data creation and crowdsourcing by discussing the economic imperatives and labor relationships that shape ML supply chains and arguing that labor is a fundamental aspect to be integrated into ML ethics discourses. The findings show that ground-truth data is the product of subjective and asymmetrical social and labor relationships. Narrow instructions and work interfaces, precarized labor conditions, and local contexts shaped by economic crises ensure that data workers remain obedient to managers and clients. In such constellations, clients have the power to impose their preferred “truth values” on data as long as they have the financial means to pay workers who execute that imposition. Naturalized yet arbitrary forms of knowledge are inscribed in data through such production processes. This dissertation argues that documentation practices are key for making naturalized “truths” encoded in data visible and contestable. The collaborative documentation of data production processes can preserve moments of dissent, enable feedback loops, and center workers’ voices. The findings present a series of considerations for designing documentation frameworks that allow data workers to intervene in the shaping of task instructions, the data produced through their labor, and, ultimately, the production processes involved. Improving material conditions in data work, empowering workers, recognizing their labor as a powerful tool to produce better data, and documenting data production processes in detail are essential steps to allow for spaces of reflection, deliberation, and audit that contribute to addressing important social and ethical questions surrounding ML technologies.en
dc.description.abstractUm die unersättliche Nachfrage nach mehr, günstigeren und zunehmend differenzierteren Daten für die Machine-Learning (ML)-Industrie zu befriedigen, werden Aufgaben wie Datenerhebung, -aufbereitung und -annotation an spezialisierte Unternehmen und Plattformen ausgelagert. Die Datenarbeiter*innen, die diese Aufgaben erledigen, sind vom Rest der ML-Produktionskette getrennt. Sie arbeiten unter prekären Bedingungen und werden stark überwacht. Die vorliegende Dissertation untersucht Unternehmen, in denen Ground-Truth-Daten produziert werden. Ground-Truth-Daten liefern die Variable, die zum Trainieren und Validieren der meisten überwachten ML-Modelle verwendet wird. Basierend auf Feldforschung bei zwei Unternehmen in Argentinien und Bulgarien, Interviews mit Datenarbeitern*innen, Manager*innen und ML-Ingenieur*innen sowie einem mehrjährigen partizipatorischen Designprozess verortet diese Dissertation die Datenproduktion in spezifischen Umfeldern, die durch besondere Marktanforderungen, lokale Kontexte und Arbeitskonstellationen geprägt sind. Diese Dissertation erweitert bisherige Forschung im Bereich der Datenerstellung und des Crowdsourcings, indem sie die wirtschaftlichen Imperative in ML-Lieferketten beschreibt. Dabei wird argumentiert, dass Arbeit ein grundlegender in ML-Ethikdiskurse zu integrierender Aspekt ist. Die Ergebnisse zeigen, dass Ground-Truth-Daten das Produkt subjektiver und asymmetrischer sozialer und arbeitsbezogener Beziehungen sind. Enge Arbeitsanweisungen und -tools, prekäre Arbeitsbedingungen und lokale, von Wirtschaftskrisen geprägte Kontexte sorgen dafür, dass die Datenarbeiter*innen den Managern*innen und Kunden*innen gegenüber gehorsam bleiben. In solchen Konstellationen haben die Kunden*innen die Macht, den Daten ihre bevorzugten „Wahrheitswerte” aufzuerlegen, solange sie die finanziellen Mittel haben, die Arbeiter*innen zu bezahlen, die diese Auferlegung ausführen. Durch solche Produktionsprozesse werden den Daten naturalisierte, aber gleichzeitig willkürliche Formen des Wissens eingeschrieben. Dokumentationspraktiken haben großes Potential, in Daten eingebettete „Wahrheiten” sichtbar und anfechtbar zu machen. Die kollaborative Dokumentation von Datenproduktionsprozessen kann Momente des Dissenses bewahren, Feedback-Schleifen ermöglichen und den Datenarbeitern*innen eine Stimme geben. Diese Dissertation stellt Überlegungen für das Dokumentationsdesign vor, die es den Datenarbeitern*innen ermöglichen, in die Gestaltung von Arbeitsanweisungen, in die durch ihre Arbeit produzierten Daten und letztlich in die beteiligten Produktionsprozesse einzugreifen. Die Verbesserung der materiellen Bedingungen in der Datenarbeit, die Ermächtigung der Arbeiter*innen und die Betrachtung ihrer Arbeit als mächtiges Werkzeug zur Produktion besserer Daten sowie die detaillierte Dokumentation der Datenproduktionsprozesse sind wesentliche Schritte, um Reflexion-, Diskussion- und Auditing- Räume zu ermöglichen, die dazu beitragen können, wichtige soziale und ethische Fragen im Zusammenhang mit ML-Technologien zu klären.de
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/19464
dc.identifier.urihttps://doi.org/10.14279/depositonce-18261
dc.language.isoen
dc.relation.haspart10.14279/depositonce-18508
dc.relation.haspart10.14279/depositonce-18509
dc.relation.haspart10.14279/depositonce-18510
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/
dc.subject.ddc000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.subject.ddc600 Technik, Medizin, angewandte Wissenschaften::600 Technik::600 Technik, Technologie
dc.subject.ddc300 Sozialwissenschaften::300 Sozialwissenschaften, Soziologie::301 Soziologie, Anthropologie
dc.subject.otherground truthen
dc.subject.othermachine learningen
dc.subject.otherdata worken
dc.subject.otherdata labelingen
dc.subject.otherdata annotationen
dc.titleWhose truth? Power, labor, and the production of ground-truth dataen
dc.title.translatedWessen Wahrheit? Macht, Arbeit und die Produktion von Ground-Truth-Datende
dc.typeDoctoral Thesis
dc.type.versionacceptedVersion
dcterms.rightsHolder.referenceDeposit-Lizenz (Erstveröffentlichung)
tub.accessrights.dnbdomain
tub.affiliationFak. 4 Elektrotechnik und Informatik::Inst. Telekommunikationssysteme::FG Internet und Gesellschaft
tub.publisher.universityorinstitutionTechnische Universität Berlin

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
miceli_milagros.pdf
Size:
27.87 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.23 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections