Loading…
Thumbnail Image

Hybrid crowd-machine workflow for natural language processing

Iskender, Neslihan

Despite the increasing popularity of micro-task crowdsourcing, the quality of crowdsourced data has been questioned many times because of crowd workers' potential inaccuracy, unknown skills, and motivations, as well as the subjectivity and complexity of natural language processing (NLP) tasks. As a solution, various workflow approaches have been proposed with the aim of quality assurance, quality control, or cost optimization. However, these approaches are neither designed explicitly for the given NLP task nor integrate the NLP tools themselves into the workflow dynamically. Additionally, to this date, there is no hybrid crowd-machine workflow that combines human and machine intelligence with quality control mechanisms for crowd workers and with a methodology for cost/quality optimization. So, the presented research aims to investigate the reliability of crowdsourcing for labeling and creating data for NLP tools and evaluation of NLP data, as well as the integration of this analysis into an automated hybrid crowd-machine workflow for NLP with a quality control mechanism. Unfortunately, a comprehensive examination of all types of NLP tasks for micro-task crowdsourcing on a multilingual and multi-domain level is out of scope. Therefore, the focus is on applying micro-task crowdsourcing to argument mining and text summarization for social media text in German. Choosing these two tasks is motivated by the fact that they cover all three main crowdsourcing tasks for NLP (labeling, creation, and evaluation) and lack of empirical data, especially for languages other than English and noisy internet data. To investigate the reliability of crowd labeling and evaluation, subjective studies were carried out with crowd workers and linguistic experts for argument mining. The results revealed that the task itself had a high level of subjectivity and ambiguity, even for experts, as proven by the moderate agreement scores after mediation. Nevertheless, crowd workers could reach comparable results to experts, especially in identifying the claims and arguments, but distinguishing between claims and evidence was a more complicated task for crowd workers. Further, three different aggregation methods for deriving a reliable crowd text label were introduced, along with a novel metric to compare crowd text labels with expert labels. Crowd workers showed similar results to experts when labeling text units containing claims, especially if the aggregation method similarity was applied. Additionally, training argument mining models for classification and sequence labeling with crowdsourced data delivered similar results as experts. Further, a series of subjective studies were conducted with crowd workers, laboratory participants, and linguistic experts to determine the reliability of crowd creation and evaluation for text summarization. The results showed that crowd, expert, and crowd-corrected machine summaries had almost the same quality level, while machine summaries were significantly worse than those summaries. Looking at the crowd evaluation, there was almost no difference between the crowd workers and laboratory participants. Additionally, the correlations between the crowd and expert evaluations were usually at a strong level, influenced by the text characteristics, meaning that crowd workers delivered results comparable to experts when evaluating more readable and shorter summaries, but evaluating longer summaries was harder for crowd workers. Lastly, a new methodology has been proposed and applied to find the optimal number of repetitions in crowd summary evaluation, showing that ten different evaluations per summary would deliver reliable results. So, these results were the building blocks of two hybrid crowd-machine workflows for summarization. Using this empirical data, cheater detection rules were determined both for the creation and evaluation tasks, as well as rules for choosing the creation and evaluation method in a cost-effective way while preserving a good quality level. To do so, a non-iterative workflow (static) and an iterative workflow (dynamic) were implemented using the Apache Airflow workflow engine. The results showed that the static workflow was the fastest way of data creation and evaluation with a success ratio of 75%, whereas the dynamic workflow generated fewer tasks for the same source set compared to the static workflow while reaching a better success ratio of 100%. Additionally, when considering the crowd answers' reliability, the success ratio of dynamic workflow became 87.5%, as well as the success ratio of static workflow 62.5%, showing that the dynamic workflow exceeded the static workflow in terms of success ratio and reliability. Lastly, comparing the workflows with previous manual crowd studies revealed that both workflows succeed over manual studies in terms of time, cost, and quality.
Trotz der zunehmenden Beliebtheit des Microtask Crowdsourcings wurde die Qualität der Daten, die durch Crowdsourcing für die maschinelle Sprachverarbeitung (NLP) erstellt worden sind, immer wieder infrage gestellt, da die Crowdworker möglicherweise ungenau arbeiten, unbekannte Fähigkeiten und Motivationen haben, und zusätzlich die NLP-Aufgaben subjektiv und komplex sind. Als Lösung wurden verschiedene Workflow-Ansätze mit dem Ziel der Qualitätssicherung, Qualitätskontrolle oder Kostenoptimierung vorgeschlagen. Diese Ansätze sind jedoch weder explizit für die jeweilige NLP-Aufgabe konzipiert, noch integrieren sie die NLP-Werkzeuge selbst dynamisch in den Workflow. Darüber hinaus gibt es bis heute keinen hybriden Crowd-Machine-Workflow, der menschliche und maschinelle Intelligenz mit den Qualitätskontrollmechanismen für Crowdsourcing und einer Methodik zur Kosten-/Qualitätsoptimierung kombiniert. Ziel der vorliegenden Arbeit ist es daher, die Zuverlässigkeit von Crowdsourcing zur Textannotation und -erstellung für die NLP-Tools und zur Qualitätsbewertung von NLP-Daten zu untersuchen, sowie die Integration dieser Analyse in einen automatisierten hybriden Crowd-Machine-Workflow für NLP mit einem Qualitätskontrollmechanismus. Leider sprengt eine umfassende Untersuchung aller Typen von NLP-Aufgaben für Microtask Crowdsourcing auf einer mehrsprachigen und domänenübergreifenden Ebene den Rahmen. Daher liegt der Schwerpunkt auf der Anwendung von Microtask Crowdsourcing auf das Argument-Mining und die Textzusammenfassung für soziale Medientexte in deutscher Sprache. Die Auswahl dieser beiden Aufgabentypen ist durch die Tatsache motiviert, dass sie alle drei Hauptaufgaben des Crowdsourcing für NLP abdecken (Textannotation, Texterstellung und Qualitätsbewertung) und es an empirischen Daten für diese Aufgabentypen mangelt, insbesondere für andere Sprachen als Englisch und soziale Medientexte. Um die Zuverlässigkeit der Textannotation und Qualitätsbewertung von Crowdsourcing zu untersuchen, wurden subjektive Studien für Argument-Mining sowohl mit Crowdworkern als auch mit linguistischen Experten durchgeführt. Die Ergebnisse zeigten, dass die Aufgabe selbst für Experten ein hohes Maß an Subjektivität und Mehrdeutigkeit aufweist, wie die mäßigen Übereinstimmungswerte der Experten nach den Mediationsmeetings belegen. Dennoch konnten die Crowdworker vergleichbare Ergebnisse wie die Experten erzielen, insbesondere bei der Identifizierung von Behauptungen und Argumenten, aber die Unterscheidung zwischen Behauptungen und Beweisen war für die Crowdworker eine kompliziertere Aufgabe. Des Weiteren wurden drei verschiedene Aggregationsmethoden zur Ableitung einer zuverlässigen Textannotation durch Crowdworker sowie eine neuartige Metrik zum Vergleich der Textannotationen der Crowdworker mit den von Experten erstellten Annotationen vorgestellt. Crowdworker zeigten bei der Annotation der Texteinheiten, die Behauptungen enthalten, ähnliche Ergebnisse wie Experten, insbesondere wenn die Aggregationsmethode Similarität angewendet wurde. Auch das Training von Argument-Mining Modellen zur Klassifizierung und Textsequenzbeschriftung mit den durch Crowdsourcing erstellten Daten führte zu ähnlichen Ergebnissen wie bei Experten. Darüber hinaus wurde eine Reihe von subjektiven Studien mit Crowdworkern, Laborteilnehmern und linguistischen Experten durchgeführt, um die Zuverlässigkeit des Crowdsourcing für die Texterstellung und Qualitätsbewertung der Textzusammenfassung zu ermitteln. Die Ergebnisse zeigten, dass von der Crowd, von Experten und von der Crowd korrigierte maschinelle Zusammenfassungen fast das gleiche Qualitätsniveau aufwiesen, während maschinelle Zusammenfassungen deutlich schlechter waren als diese. Darauffolgend unterschieden sich die Qualitätsbewertungen durch Crowdworker und Laborteilnehmer voneinander nicht, was beweist, dass Crowdsourcing statt Laborstudien zur Qualitätsbewertung benutzt werden kann. Ebenfalls waren die Korrelationen zwischen Crowd- und Expertenbewertung meist sehr hoch ausgeprägt, und eine weitere Analyse zeigte, dass Texteigenschaften die Korrelationen zwischen Crowd- und Expertenbewertung beeinflussten. Dies bedeutet, dass Crowdworker bei der Qualitätsbewertung besser lesbarer und kürzerer Zusammenfassungen vergleichbare Ergebnisse wie Experten lieferten, während die Bewertung längerer Zusammenfassungen für Crowdworker schwieriger war. Schließlich wurde eine neue Methodik vorgeschlagen und angewendet, um die optimale Anzahl der Wiederholungen bei der Qualitätsbewertung der Zusammenfassungen durch Crowdworker zu finden, die zeigt, dass zehn verschiedene Bewertungen pro Zusammenfassung zuverlässige Ergebnisse liefern würden. Diese Ergebnisse waren also die Bausteine für zwei hybride Crowd-Machine-Workflows. Anhand dieser empirischen Daten wurden die Regeln zur Erkennung von unzuverlässigen Crowdworkern sowohl für die Texterstellungs- und Qualitätsbewertungsaufgaben als auch die Regeln zur Auswahl der Texterstellungs- und Qualitätsbewertungsmethode auf kostengünstige Weise unter Beibehaltung eines guten Qualitätsniveaus ermittelt. Dazu wurden ein nicht iterativer Workflow (statisch) und ein iterativer Workflow (dynamisch) mit dem Workflow Engine Apache Airflow implementiert. Die Ergebnisse zeigten, dass der statische Workflow mit einer Erfolgsquote von 75 % die schnellste Art der Datenerstellung und -bewertung war, während der dynamische Workflow im Vergleich zum statischen Workflow weniger Aufgaben für denselben Datensatz generierte und dabei eine bessere Erfolgsquote von 100 % erreichte. Wenn man die Zuverlässigkeit der Crowd-Antworten berücksichtigt, betrug die Erfolgsquote des dynamischen Workflows 87,5 % und die Erfolgsquote des statischen Workflows 62,5 %, was zeigt, dass der dynamische Workflow den statischen Workflow in Bezug auf Erfolgsquote und Zuverlässigkeit übertraf. Abschließend zeigte der Vergleich der Workflows mit früheren manuellen Crowd-Studien, dass beide Workflows gegenüber manuellen Studien in Bezug auf Zeit, Kosten und Qualität erfolgreicher waren.