Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-9790
For citation please use:
Main Title: Geocoding user queries
Translated Title: Das Geokodieren von Adressen mit menschengemachten Fehlern
Author(s): Clemens, Konstantin
Advisor(s): Küpper, Axel
Referee(s): Küpper, Axel
Schiller, Jochen
Bermbach, David
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: While human users refer to locations using toponyms and addresses, computers rely on latitude and longitude coordinates, or similar, numerical encoding of location information. Geocoding is the process of resolving such toponyms and addresses into machine-friendly numerical encoding. Thus, wherever human users need to specify a location to a computer, geocoding is involved. The process, thereby, is mainly dependent on two aspects. Firstly, the underlying address data needs to be complete, up-to-date, and accurate as otherwise, the geocoding result will not be precise. Secondly, the algorithms that process the user input query, browse candidates within the data and select the right result to the query need to be capable of handling queries of human users. In this thesis, the specifics of human input addresses are tackled. Various kinds of modifications occur to an address when humans are involved. For example, address formats are not adhered to, superfluous tokens are specified, while required parts of an address are left out of the query. Also, humans abbreviate, escape, or misspell address element names often. The goal of this thesis is to investigate the algorithmic aspect of geocoding systems. Throughout the thesis, ways to process, organize, index, and rank address data are investigated independently of the underlying data. As a result, a method for creating a geocoding system with good precision and recall metrics even in the face of the human factor is developed. A sequence of experiments is executed that gradually build on top of each other. First, the use of a generic document search engine as the index of a geocoding system is validated. Next, a suitable address model for indexing and searching is selected. Then, using log data from a live geocoding system, a statistical model is created that can be used to generate user-like requests. A similar approach based on the log data is evaluated to create geocoding systems that perform measurably better than geocoding systems relying on common methods to handle user queries. Finally, a process is developed that continuously improves a geocoding system using user queries issued against it. The measurements prove that the path chosen in this thesis is a viable method to create geocoding systems that can handle user queries better than geocoding systems relying on common techniques.
Menschen benutzen Adressen um Standorte zu beschreiben. Computer hingegen benutzen Längen- und Breitengrade, oder ähnliche numerische Kodierungen dafür. Den Prozess der Umwandlung einer Adresse in Längen- und Breitengrade nennt man Geocoding. Jedes Mal, wenn ein Mensch einem Computer einen Standort nennt, wird dieser Prozess ausgeführt. Dabei sind zwei Aspekte besonders wichtig für das Geocoding. Erstens, die von dem Prozess benutzen Daten müssen aktuell, vollständig und genau sein da sonst das Ergebnis ungenau sein kann. Zweitens müssen die von dem Prozess benutzen Algorithmen mit menschlichen Eingaben umgehen zu können. Diese sind dafür zuständig die Eingabe zu verarbeiten, die Daten zu durchsuchen und das richtige Ergebnis auszuwählen. Verschiedene Veränderungen der eigentlichen Adresse kommen vor, wenn Menschen diese von Hand eingeben. Zum Beispiel halten sich Menschen oft nicht an geltende Formate und spezifizieren überflüssige Entitäten während sie notwendige Elemente von Adressen weglassen. Außerdem benutzen Menschen manchmal Abkürzungen, lassen Umlaute oder Akzente weg, oder machen schlicht Fehler, wenn sie eine Adresse eingeben. Das Ziel dieser Arbeit ist es den algorithmischen Teil von Geocoding Systemen zu untersuchen. In dieser Dissertation werden Methoden zum Vorbereiten, Organisieren, Indizieren, und Sortieren von Adressdaten unabhängig von den Daten selbst erforscht. Das Ergebnis ist ein Verfahren zum Erstellen von Geocoding Systemen, die sogar angesichts des menschlichen Faktors eine gute Genauigkeit und Trefferquote aufweisen. Eine Serie von Experimenten, die auf einander aufbauen, wird dazu ausgeführt. Zunächst wird überprüft, dass eine generische Suchmaschine als Kern eines Geocoding Systems eingesetzt werden kann. Danach wird ein passendes Modell für die Indizierung und Suche von Adressen ausgewählt. Als nächstes wird ein Protokoll eines Geocoding Systems im offenen Betrieb dazu benutzt ein statistisches Modell zu erstellen. Mit dessen Hilfe können Geocoding Anfragen generiert werden, die ähnlich sind zu Anfragen von realen Menschen. Ein ähnlicher Ansatz wird benutzt um ein Geocoding System aufzusetzen, das menschliche Anfragen messbar besser verarbeiten kann als Geocoding Systeme mit gewöhnlichen Methoden. Schließlich wird ein Prozess erarbeitet, der Geocoding Systeme kontinuierlich verbessert. Dazu werden Anfragen benutzt die das System selbst verarbeiten muss. Messergebnisse belegen, dass die in dieser Dissertation vorgeschlagene Vorgehensweise eine plausible Methode ist, um Geocoding Systeme aufzusetzen, die Anfragen von Menschen besser verarbeiten können als Geocoding Systeme mit herkömmlichen Ansätzen.
URI: https://depositonce.tu-berlin.de/handle/11303/10897
http://dx.doi.org/10.14279/depositonce-9790
Exam Date: 10-Dec-2019
Issue Date: 2020
Date Available: 25-May-2020
DDC Class: 004 Datenverarbeitung; Informatik
006 Spezielle Computerverfahren
005 Computerprogrammierung, Programme, Daten
Subject(s): geocoding
address search
document search
spelling variant
spelling error
geohash
GIS
Geokodierung
Adresssuche
Dokumentensuche
Schreibvarianten
Schreibfehler
License: https://creativecommons.org/licenses/by-sa/4.0/
Appears in Collections:FG Service-centric Networking » Publications

Files in This Item:
clemens_konstantin.pdf
Format: Adobe PDF | Size: 2.34 MB
DownloadShow Preview
Thumbnail

Item Export Bar

This item is licensed under a Creative Commons License Creative Commons