Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-3497
Main Title: Content-based clustering in social corpora
Subtitle: A new method for knowledge identification based on text mining and cluster analysis
Translated Title: Inhaltsbasiertes Clustering in sozialen Korpora
Translated Subtitle: eine neue Methode zur Wissensidentifikation basierend auf Text Mining und Clusteranalyse
Author(s): Bobrik, Annette
Advisor(s): Krallmann, Hermann
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: Das Verständnis der Fähigkeiten und Erfahrungen der Mitarbeiter eines Unternehmens kann als Schlüssel im Geschäftsprozessmanagement angesehen werden. In den heutigen großen, global agierenden Unternehmen ist es zunehmend schwieriger geworden, Mitarbeiter mit bestimmten Fähigkeiten oder Kenntnissen zu finden oder das Gesamtbild des Unternehmens-Portfolios für Wissensangebot und -nachfrage zu erforschen und zu verstehen. Das Zusammenführen von Akteuren mit ähnlichen Interessen, Fähigkeiten oder Wissen ist eine große Herausforderung im Community-orientierten Wissensmanagement. In modernen Geschäftsprozessen sind kommunikative Aktivitäten ein wichtiges Mittel der Zusammenarbeit, deren Menge sich mit zunehmender Wissensgenerierung und -wiederverwendung erhöht. Elektronische Kommunikationsmedien bieten eine breite Palette von Möglichkeiten für die dezentrale Interaktion und Zusammenarbeit, die Inhalte und Kommunikation miteinander verbinden. Die Menge aller elektronischen Spuren von wechselseitigen Kommunikationsbeziehungen bildet eine Netzstruktur, die als sozialer Korpus definiert werden kann. Eine der wichtigsten Methoden für die Untersuchung dieser elektronischen Kommunikation, Zusammenarbeit und Interaktion und ihrer inhärenten Communities ist die Soziale Netzwerkanalyse (SNA). Es gibt Schätzungen, dass etwa 85% der geschäftsrelevanten Informationen in unstrukturierter Form vorliegt. Obwohl diese inhaltlichen Informationen häufig direkt mit den relationalen Daten verknüpft werden können, die das soziale Netzwerk bilden, ist das Gebiet der Inhaltsanalyse mit Hilfe von Text Mining und Information Retrieval noch nicht ausreichend in den methodischen Rahmen der SNA eingebunden. Textdaten, die aus sozialen Medien abgerufen werden können, werden oft getrennt von der Struktur des Netzwerkes analysiert. Diese Vernachlässigung von Kommunikationsinhalten während der Netzwerkanalyse kann das Verständnis der Netzwerkstruktur, ihrer zeitlichen Entwicklung und den vielfältigen Rollen der Akteure im Netzwerk begrenzen. Daher ist es her den Methoden der herkömmlichen SNA nicht möglich, Gruppen mit ähnlichem Wissen und die unterschiedlichen Rollen der Beteiligten zu entdecken, die sich in einem multi-kontextuellen Netzwerk entwickeln. Um den beschriebenen Defiziten der SNA Forschung zu begegnen, wurde im Rahmen dieser Arbeit ein neuer Ansatz entwickelt, der die Integration von Inhaltsanalyse und Netzwerkanalyse ermöglicht. Zunächst wird das Social Network Intelligence (SNI) Framework eingeführt, das die herkömmliche SNA um Inhalts-, Verhaltens- und Kontextkomponenten erweitert. Die neue Methode der inhaltsbasierten Clusteranalyse zur Wissensidentifikation in sozialen Korpora stellt ein methodisches Werkzeug innerhalb des SNI Frameworks dar. Die Methode ist als statische Inhaltsanalyse konzipiert mit dem Hauptaugenmerk auf der Analyse von Gruppen, prominenter Akteure und deren Beziehungen einschließlich Elementen der Strukturanalyse und der dynamischen Analyse. Zum Verständnis dieser Arbeit wird daher als theoretische Grundlage eine allgemeine Einführung in die Analyse sozialer Netzwerke, das Text Mining und die Clusteranalyse gegeben. Dies beinhaltet neben Definitionen, Grundbegriffen und Methoden auch ausgewählte Forschungsergebnisse. Anschließend werden die entwickelten Algorithmen und Metriken der inhaltsbasierten Clusteranalyse zur Wissensidentifikation in sozialen Korpora detailliert beschrieben sowie eine Richtlinie für ein strukturiertes Vorgehen vorgestellt. Basierend auf diesen Anforderungen, wird ein Prototyp vorgestellt, der die einschlägigen Methoden des Text-Minings, der Clusteranalyse und der Sozialen Netzwerkanalyse beinhaltet, um eine IT-gestützte Analyse zu ermöglichen. Innerhalb einer Fallstudie wird das Verfahren auf einem Firmen-E-Mail-Datensatz mit Hilfe des Prototyps angewendet.
Understanding the workforce and skill-set of an enterprise can be seen as the key to understand the capabilities of an organization. In today’s large organizations it has become increasingly difficult to find people that have specific skills or knowledge or to explore the overall picture of an organization’s portfolio of knowledge demand and supply. Bringing together human actors with similar interests, skills or knowledge is a major challenge in community-based knowledge management. In business processes communicational activities are an important means of collaboration which increases with the amount of knowledge generation and reuse. Electronic communication media provide a wide range of possibilities for decentralized interaction and collaboration that blend contents and communication. The collection of all electronic traces of interrelated communication relationships forms a network structure which can be defined as a social corpus. One of the primary methods for studying the resulting electronic communication, collaboration and interaction and their inherent communities is social network analysis (SNA). There are estimates that about 85% of business-relevant information originates in unstructured form ranging from short text messages to exchanging or even simultaneously editing large documents. Although the content information can often be directly linked with the relational data forming the social network the domain of content analysis with means of text mining and information retrieval has not yet been sufficiently accommodated in the methodological framework of SNA. Text data that can be retrieved from social media are often analyzed separately from the structure of the network. However, neglecting the content of text data during network analysis can limit the understanding of the network structure, its evolution over time and the multiple roles an actor can obtain in this context. Therefore, conventional SNA will not be able to detect groups of similar knowledge that evolve within a multi-contextual network where each node can obtain multiple roles. To meet the described shortcomings of SNA research, this study concentrates on a new approach by integrating both levels of analysis: content analysis and network analysis. First, the Social Network Intelligence (SNI) framework is introduced which extends conventional SNA providing novel insights into network structure, content, behavior and context. The new method of content-based clustering for knowledge identification in social corpora is based on the SNI framework. It is designed as a static content analysis with the main focus being on group level analysis including also elements of structural analysis and network dynamics. Therefore, a general overview of social network analysis, text mining and cluster analysis is given as theoretical foundations including definitions, basic concepts, as well as selected research to provide an understanding of the context of this work. Afterwards, this work provides a detailed research guideline and the description of algorithms and metrics for the new method of content-based clustering for knowledge identification in social corpora to structure and guide the analysis. Based on its requirements a prototype is implemented to allow an IT-supported analysis integrating relevant methods of text mining, cluster analysis and social network analysis. Within a case study the method is applied to a corporate e-mail data set using the prototype.
URI: urn:nbn:de:kobv:83-opus-38461
http://depositonce.tu-berlin.de/handle/11303/3794
http://dx.doi.org/10.14279/depositonce-3497
Exam Date: 9-Nov-2012
Issue Date: 6-Feb-2013
Date Available: 6-Feb-2013
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): Clusteranalyse
Geschäftsprozessmanagement
Soziale Netzwerkanalyse
Text Mining
Wissensmanagement
Business Process Management
Cluster Analysis
Knowledge Management
Social Network Analysis
Text Mining
Usage rights: Terms of German Copyright Law
Appears in Collections:Institut für Wirtschaftsinformatik und Quantitative Methoden » Publications

Files in This Item:
File Description SizeFormat 
Dokument_15.pdf14.2 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.