Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-3720
Main Title: Interests Discovery in Social Networks Based on a Semantically Enriched Bayesian Network Model
Translated Title: Interessensbestimmung in (digitalen) sozialen Netzen mit Hilfe semantisch angereicherter Bayes'scher Netzwerkmodelle
Author(s): Al-kouz, Akram
Advisor(s): Albayrak, Sahin
Referee(s): Wulf, Volker
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: Die starke Verbreitung und Akzeptanz von sozialen Netzwerken im Internet hat stark dazu beigetragen, dass Internet-Nutzer nicht nur Inhalte "konsumieren", sondern Inhalte auch selbst erstellen. Die von Benutzern generierten Inhalte, oft in der Form von Textnachrichten, mit denen der Nutzer mit der Online-Community kommuniziert, geben ein umfassendes Bild über die Aktivitäten und Interessen des Nutzers. Die Analyse der vom Benutzer erstellten Daten ermöglicht die Extraktion von Interessen sowie das Anreichern und Erweitern von Benutzerprofilen mit implizit vorhandenen, dynamischen Informationen. Dies eröffnet die Möglichkeit, neue Informationen semantisch mit dem Benutzermodell zu verknüpfen. Die Anreicherung von Benutzerprofilen schafft die Basis für einen höheren Grad an Personalisierung bei Anwendungen und Diensten, wie z. B. bei Empfehlungsdiensten. Das Erkennen und Extrahieren von für den Benutzer relevanten Themen und Entitäten aus benutzer-generierten Inhalten ist dabei noch ein aktuelles Forschungsgebiet. Benutzer-generierte Textinhalte in sozialen Netzwerken unterscheiden sich im Allgemeinen stark von "klassischen" Texten: So sind Textnachrichten in sozialen Netzwerken oft kurz, umgangssprachlich formuliert, auf ein Thema fokussiert, unstrukturiert, grammatikalisch fehlerhaft, eine Mischung aus verschiedenen Sprachen sowie nicht domänen-spezifisch. Durch diese sprachlichen Besonderheiten liefern die bekannten Standard-Sprachtechnologien oft keine guten Ergebnisse bei der Extraktion von Benutzerinteressen. Die derzeit verwendeten Verfahren zur Verarbeitung natürlich-sprachiger Dokumente erfordern meist strukturierte, grammatisch korrekte Texte, um die Relationen zwischen den Wörtern eines Textes zu erfassen. Die Ermittlung der Semantik von Termen basiert oft auf einer statistischen Analyse von Term-Häufigkeiten, was aber bei kurzen Texten keine verlässlichen Ergebnisse ermöglicht. Bei Nachrichten in sozialen Netzwerken hängt die implizite Semantik von Wörtern oft stark vom jeweiligen Kontext ab, d. h. beispielsweise vom Zeitpunkt zu dem die Nachricht gestellt wurde. Das Berücksichtigen des Kontextes liefert wichtige Informationen über die Interpretation (d. h. die Semantik) von Texten und damit über die für den Benutzer interessanten Themenbereiche. Die implizite Syntax, die Semantik sowie die temporalen Beziehungen von Termen in sozialen Netzwerken versendeten Textnachrichten sind Faktoren die zu einer Unsicherheit bei der Ableitung von Interessensgebieten führen. In dieser Arbeit wird ein Ansatz entwickelt, mit dem auf der Basis einer Analyse von Abhängigkeiten zwischen den Elementen benutzer-generierten Inhalten die Interessengebiete des Benutzers ermittelt werden. Die entwickelte Methodik ermöglicht es, Inhalte und Merkmale zu extrahieren, die extrahierten Daten semantisch anzureichern, und unter Verwendung von Bayesschen Netzen, die Abhängigkeitsbeziehungen modellieren sowie die Interessen des Benutzers effizient zu extrahieren. Diese Dissertation entwickelt neue Methoden und Algorithmen zur Extraktion von Benutzerinteressen aus in sozialen Netzwerken versendeten Nachrichten. Von besonderem Interesse ist in diesem Anwendungsszenario die Behandlung von Unsicherheiten, die in dieser Arbeit durch die Verwendung von Bayesschen Netzen gelöst wird. Die Verwendung von Bayesschen Netzen liefert gute Ergebnisse, wobei bei sehr starker Sparcity und übermäßiger Mehrdeutigkeit in Nachrichten die Grenzen des Ansatzes deutlich werden. Die im Rahmen dieser Arbeit entwickelten Modelle und Algorithmen sind besonders dahingehend optimiert, die sprachlichen Besonderheiten in sozialen Netzwerken zu behandeln und so die Zuverlässigkeit der Identifikation von Benutzerinteressen zu maximieren. Die mit unterschiedlichen Konfigurationen und Datensätzen durchgeführten Experimente zeigen, dass der entwickelte Ansatz bessere Ergebnisse liefert als die derzeit verwendeten Algorithmen.
Online Social Networks have significantly consolidated the role of web users from content consumers to content producers as well. In these platforms, the textual form of user-generated content emerged as the most engaged and convenient form for the users to communicate their online community about their activities and interests. Discovering the interests of users based on their user-generated textual contents can enrich the user profile with implicit and dynamic information that are semantically related in order to enhance the User Model. This enhancement in the User Model can elevate the performance of personalized web applications and services such as recommender systems. Discovering the topic of interests of users from their user-generated textual contents is still an open research challenge. Contrarily to traditional text documents, user-generated textual contents are highly focused, not domain specific, short in length, informal, multilingual, unstructured and grammatical error prone text messages. These lingual characteristics make it inapplicable to use the standard information retrieval techniques such as text classification and Natural Language Processing to discover the interests of users in an efficient way. These techniques require structured and grammatically correct text to be able to catch the implicit syntactic relations (grammatical links) between terms. To be able to automatically catch the explicit semantic (occurrence associations within text) of a term efficiently, these techniques require high terms frequency in the text. In addition, user-generated textual contents could have implicit semantic relations between entities (semantically related entities) that play a big role in discovering the topic of interest. Usually, the user submits social-posts at different points in time. Knowing the temporal factor can dramatically affect in catching the semantic relations between the contents of user-generated textual content. The implicit syntactic, explicit and implicit semantic and temporal relations are factors that yield to uncertainty in inferring the right topic of interests of a user based on his user-generated textual contents. Based on the causal implicit relation between the components of user-generated textual contents, we introduce a framework to discover the topic of interests of users in Online Social Networks based on user-generated textual content. The proposed framework able to extract the proper content, extract the proper features, semantically enrich these features, and represent them in a Bayesian Network model that can catch the explicit, implicit and temporal relations and can infer topic of interests efficiently. This dissertation develops novel methods and algorithms for the interests discovery based on user-generated textual content. Of particular interest in this scenario is the identification of the topic of interest using Bayesian Network model, which helps to inference under uncertainty. However, the sparsity of user-generated textual content and the ambiguity of natural languages and vocabularies used to generate them present problems that go beyond the capabilities of typical text classification techniques. The algorithms and models introduced in this dissertation are especially tailored to reduce the effects of the lingual characteristics of user-generated textual content in order to derive more reliable interests discovery model. Experimental evaluation for different settings and various datasets show that the proposed framework introduce solutions that outperform the current state of the art.
URI: urn:nbn:de:kobv:83-opus4-39161
http://depositonce.tu-berlin.de/handle/11303/4017
http://dx.doi.org/10.14279/depositonce-3720
Exam Date: 7-Jan-2013
Issue Date: 11-Jul-2013
Date Available: 11-Jul-2013
DDC Class: 000 Informatik, Informationswissenschaft, allgemeine Werke
Subject(s): Bayes'sche Netzwerke
Interessenbestimmung
Semantisches Netz
Bayesian Networks
Interests Discovery
Semantic
Usage rights: Terms of German Copyright Law
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 4 Elektrotechnik und Informatik » Institut für Wirtschaftsinformatik und Quantitative Methoden » Publications

Files in This Item:
File Description SizeFormat 
al-kouz_akram.pdf7,83 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.