Otto-von-Guericke-Universität Magdeburg

 
 
 
 
 
 
 
 

Doktorandenkolloquium Data and Knowledge Engineering

Im Rahmen dieses Kolloquiums werden aktuelle Forschungsarbeiten von Doktoranden im Bereich Data and Knowledge Engineering (DKE) vorgestellt.
Das Kolloquium findet in der Regel jeweils Donnerstags ab 13:00 c.t. im Wechel mit dem Forschungskolloquium DKE in Raum G29-301 statt.

Fragen zum Kolloquium richten Sie bitte an Andreas Nürnberger oder Tatiana Gossen.

Aktuelle Vorträge:

24.05.2012 (11:00 in Raum 128)
Modelling Knowledge with Distributions over Set-Valued Data
Frank Ruegheimer (Inst. Pasteur, Frankreich)

 

Vergangene Vorträge:

01.12.2011 (13:15 in Raum 301)
Opinion Mining based on Machine Learning Techniques and Multi-agent Systems Technologies
Mohammed Almashraee

The rapid spread of different social media applications provides a new way for people to interact and share information on-line all over the world. This massive and enormous volume of information as on-line reviews needs to be structured and organized in a useful way for users to get oriented opinions from text related to their search. Collecting information about the emotions and feelings in these social networks is an important request for many parties such as governments, manufacturers, suppliers, as well as consumers. Large number of research efforts has been done recently to provide solutions to the issue of extracting and analyzing emotions. However, most existing emotion detection proposals consider only the keywords rather than the fine-grained sentiments which are very important in giving more accurate results for the social networks users. In order to overcome such shortcomings, this proposal presents an extendable agent-based mechanism with emerging machine learning classification features that together promise better level of efficiency.

 

17.10.2011 (14:00 Uhr in Raum 301)
IR-Systeme für junge Nutzer
Tatiana Gossen (Institut für Technische und Betriebliche Informationssysteme)

Kinder sind die mit am schnellsten wachsende Nutzergruppe des Internets. Sie nutzen das Internet, unter anderem die Web-Suchmaschinen, für ihre Hausaufgaben, zum Spielen und zur Kommunikation. Leider sind nicht alle junge Nutzer erfolgreich bei der Suche nach Informationen. Das hängt damit zusammen, dass die meisten IR-Lösungen (Algorithmen wie Nutzerschnittstellen) für Erwachsene entwickelt wurden. Bei der Entwicklung der IR-Systeme für junge Nutzer sollte man aber beachten, dass ihre motorischen und kognitiven Fähigkeiten anders als die von Erwachsenen sind. Im Rahmen dieses Promotionsvorhabens soll ein Suchsystem entwickelt werden, dass die individuellen Anforderungen und Bedürfnisse der Kinder berücksichtigt. Ein Schwerpunkt wird dabei auf eine Verbesserung der Unterstützung der Suche von Kindern im Internet gelegt. Die Ziele hier sind die Entwicklung einer Benutzeroberfläche für Kinder im Grundschulalter, die Entwicklung einer an das Alter bzw. die Fähigkeiten und Kompetenzen angepassten Benutzeroberfläche und die Entwicklung von passenden Algorithmen zum Relevanzsortierung der Suchergebnisse. Der Vortrag stellt das Forschungsvorhaben als Thesis Proposal nach Vorgaben der FIN vor.

24.03.2011 (13:15 Uhr in Raum 301)
Adaptive classification in the presence of drift and latency

Georg Krempl (Institut für Statistik und Operations Research, Univ. Graz)

An important issue in Machine Learning is the problem of drifting populations and concepts. While there exist adaptive learning strategies addressing this issue, most approaches assume that new, labelled data is available instantaneously. However, there can be a lag between the classification of new data and the moment, the true labels of the dependent variable become known. This problem, known as latency, is a major issue in application domains such as credit scoring. This work discusses models of drift for this problem as well as their corresponding data generating processes. Furthermore, adaptive learning strategies for these types of drift are presented.

21.12.2010 (11:00 Uhr in Raum 335)
Visualisierung für web-basierte Informationssuche

Marian Dörk (InnoVis group and Interactions Lab at the University of Calgary)

Informationsräume im Web zeichnen sich durch immer größere Ausmaße, Vielfalt und Dynamik aus. In meiner Forschung beschäftige ich mich mit der Frage, wie wachsende Informationsräume mittels interaktiver Visualisierung besser zugänglich gemacht werden können. Um dieser Frage nachzugehen, entwickele ich neuartige Visualisierungen und Systeme, die aktuelle web-technologische Entwicklungen, wie zum Beispiel native Graphik und Interaktivität, aufgreifen. In meinem Vortrag werde ich anhand von Beispielen erläutern, wie die Exploration von Informationen entlang verschiedener Facetten durch web-basierte Visualisierungen ermöglicht werden kann. Ich werde drei meiner Projekte vorstellen: web-basierte Visualisierungs-Widgets (VisGets), ein dynamisches Interface zur Twitter-Visualisierung (Visual Backchannel) und eine Visualisierungstechnik, die explizite und implizite Datenrelationen miteinander integriert (EdgeMaps). Erste Ergebnisse dieser Fallstudien deuten auf neue Formen der web-basierten Informationssuche hin, bei der Visualisierungen helfen können, Überblick und Orientierung in wachsenden Informationsräumen zu entwickeln.

02.12.2010 (13:15 Uhr in Raum K058)
Temporal Data Mining in Real-world Applications

Christian Moewes (Institut für Wissens- und Sprachverarbeitung (IWS))

In this talk we present three real-world applications dealing with temporal sequences. We briefly describe the corresponding data mining tasks and possible approaches to solve them. Each problem comes from very diverse areas, i.e. automobile safety, visual field recovery, and software engineering. In the first problem, highly interpretable but still very accurate rules shall be extracted from a set of automobile crash tests. We developed an evolutionary fuzzy algorithm that is capable to solve this safety-critical problem adequately based on the dominance-based rough set approach. The second application involves patients who underwent an electro-stimulating therapy to recover from visual field defects. The challenge here is to evaluate several data sources, e.g. clinical data, therapeutic session parameters, electroencephalograms (EEGs), and subjective questionnaire data. We show preliminary results to classify patients based on visual exploratory analysis of EEGs. The third application deals with pattern mining in software. One goal is to find a relation between several code metrics to identify bugs (e.g. team-working bugs) or scattered functionality as early as possible during development. Another problem is the exploration of execution traces coming from function calls to analyze the causes of multithreaded software bugs, e.g. race conditions, deadlocks, livelocks. We show the outline of ongoing work in this young research field.

11.11.2010 (13:15 Uhr in Raum K058)
Analyse Diskreter Stochastischer Partiell-Beobachtbarer Modelle

Robert Buchholz (Institut für Simulation und Grafik)

Die bisher nur theoretisch mögliche Analyse partiell-beobachtbarer diskreter stochastischer Systeme verspricht, das interne Verhalten von stochastischen Systemen rekonstruieren zu können, wenn dieses zwar nicht beobachtet wurde (oder beobachtet werden konnte), aber beobachtete Auswirkungen hat. So könnte zum Beispiel aus dem Protokoll des Türsensors einer FastFood-Filiale brechnet werden, mit welcher Wahrscheinlichkeit der Angestellte während seiner Schicht weiter laufen musste als dies vom Arbeitsschutz her zulässig ist. Im Rahmen dieses Promotionsvorhabens werden Algorithmen entwickelt, um diese und andere praktischen Fragestellungen an partiell-beobachtbare diskrete stochastische Systeme effizient zu beantworten und die Genauigkeit der Antwort abschätzen zu können. Der Vortrag stellt das Forschungsvorhaben als Thesis Proposal nach Vorgaben der FIN vor.

08.07.2010 (13:15 Uhr)
Eine Privatsphären-schützende Plattform für soziale Mikro-Communities

Alexander Korth

Social Media ist allgegenwärtig. Heutzutage nutzen ca. 500 Mio. Menschen Soziale Netzwerke, um sich zu profilieren und mit Freunden zu kommunizieren. Die meisten Menschen versuchen dabei intuitiv, Verhaltensmuster und Normen aus der realen in die digitale Welt zu übernehmen. Das ist meist nicht annähernd ausreichend möglich: es fehlt an intuitiv nutzbaren Funktionen um die Zugänglichkeit zu privaten Informationen kontrollierbar und transparent zu machen. In der Folge entstehen Probleme durch die Verletzung der Privatsphäre der Nutzer. Verursacht werden diese Probleme nicht nur durch die Nutzer selbst sondern auch durch die Anbieter von Sozialen Netzwerken. Es wird eine neuartige Taxonomie für die Probleme rund um die Verletzung der Privatsphäre der Nutzer eingeführt. Daraufhin wird eine Software-Plattform vorgestellt, die ihre Nutzer befähigt zu kontrollieren und zu erfahren welche Informationen und Daten über sie wem zugänglich gemacht werden. Erste Ergebnisse zur Evaluation des Ansatzes werden aufgeführt.

15.04.2010 (13:15 Uhr)
The Slashdot Zoo: Mining a Social Network with Negative Edges

Jérôme Kunegis (DAI-Labor TU Berlin)

This talk will present an analysis of the user relationships on the Slashdot.org technology news site. The dataset was collected from the Slashdot Zoo feature where users of the website tag other users as friends and foes, providing positive and negative endorsements. We adapt social network analysis techniques to the context of negative edge weights. We describe signed variants of global network characteristics such as the clustering coefficient, node-level characteristics such as centrality and popularity measures, and link-level characteristics such as distances and similarity measures. We evaluate these measures on the task of identifying unpopular users (also known as "trolls"), as well as on the task of predicting the sign of links and show that the network exhibits multiplicative transitivity which allows algebraic methods based on matrix multiplication to be used.

04.03.2010 (13:15 Uhr)
Efficient Non-Redundant Subspace Clustering

Emmanuel Müller (RWTH-Aachen - Lehrstuhl für Informatik 9)

In the knowledge discovery process, clustering is an established technique for grouping objects based on mutual similarity. However, in today's applications for each object very many attributes are provided. As multiple concepts described by different attributes are mixed in the same data set, clusters do not appear in all dimensions. In these high dimensional data spaces, each object can be clustered in several projections of the data. Subspace Clustering aims at detecting such clusters in any subspace projection. However, as the number of possible projections is exponential in the number of dimensions, the result is often tremendously large. Recent approaches fail to reduce results to relevant subspace clusters. Their results are typically highly redundant, i.e. many clusters are detected multiple times in several projections.

In this talk, we discuss accurate but also efficient solutions to the general problem of redundancy in subspace clustering. We present a global optimization which detects the most interesting non-redundant subspace clusters. We prove that computation of this model is NP-hard. Thus, for an efficient computation we propose an approximative solution that shows high accuracy with respect to our relevance model. We report experiments on synthetic and real world data showing that our approach successfully reduces the result to manageable sizes. It reliably achieves top clustering quality while competing approaches show greatly varying performance.

28.1.2010 (13:15 Uhr in Raum 412)
Eigenvector-Based Clustering Using Aggregated Similarity Matrices

Hans-Henning Gabriel (AG Wirtschaftsinformatik II Wissensmanagament und Wissensentdeckung)

Clustering of high dimensional data is often performed by applying Singular Value Decomposition (SVD) on the original data space and building clusters from the derived eigenvectors. Often no single eigenvector separates the clusters. We propose a method that combines the self-similarity matrices of the eigenvector in such a way that the concepts are well separated. We compare it with a K-Means approach on public domain data sets and discuss when and why our method outperforms the K-Means on SVD method.

14.1.2010 (13:15 Uhr)
Data Mining in der Landwirtschaft

Georg Ruß (AG Computational Intelligence)

Mit der in den letzten Jahren stark zunehmenden Rationalisierung und Technisierung in der Landwirtschaft hat sich ein relativ junges Gebiet herausgebildet: Präzisionslandwirtschaft (precision agriculture). Dieses
Gebiet befindet sich an der Schnittstelle von Landwirtschaft und Informatik. Da aufgrund verbesserter und neuer Technologien wie (differentiellem) GPS, neuen Sensoren und bildgebenden Verfahren immer mehr Daten anfallen und gesammelt werden können, spielen hier insbesondere die Datenanalyse und das Data Mining eine zentrale Rolle, um diese Rohdaten in nützliches Wissen zu verwandeln.

Im Vortrag werden einige Ansätze zu spezifischen Fragestellungen auf diesem Gebiet vorgestellt. Im ersten Teil des Vortrags wird die Herkunft der Daten genauer vorgestellt; ein Überblick über die verschiedenen Datenarten wird gegeben. Insbesondere ist hierbei die Unterscheidung zwischen räumlichen und nicht-räumlichen Daten erwähnenswert. Dies wird am Beispiel der Ertragsvorhersage genauer erläutert, wobei auf das Problem der räumlichen Autokorrelation näher eingegangen wird. Hierbei bietet sich die Möglichkeit, einige der Verfahren zur multidimensionalen Regressiono, die üblicherweise für nicht-räumliche Daten genutzt werden, auf räumliche Daten zu übertragen. Dazu wurde ein relativ simpler, generischer Ansatz entwickelt, der auf räumlichem Clustering beruht. Weiterführende Ideen zu diesem Thema, die den vorgestellten Ansatz benutzen, werden vorgestellt.

11.12.2009 (11:00 Uhr)
Probabilistic information integration in the Semantic Web

Livia Predoiu

Since it can be expected that the amount of information describing overlapping domains will be huge on the Semantic Web, we need to face the necessity to apply automatic matching and integration techniques in order to integrate that huge amount of information. However, the results of automatic matching and integration techniques per se are attached with some sort of uncertainty. E.g. any matcher produces its mappings with a confidence. When integrating the information automatically, it is important to take the uncertainty of the mappings into account. My research revolves around modelling the results of those uncertain matching techniques by means of probability theory and using probabilistic logics for reasoning with uncertain mappings and deterministic ontologies.
In this talk I will present two logical formalisms that allow to use probabilistic mapping rules to integrate ontologies represented in description logic formalisms underlying OWL which is a W3C language recommendation for the Semantic Web.

27.11.2009 (11:00 Uhr)
Learning from the Human Visual System - Can eye tracking help to alleviate the automatic object recognition task?

Christian Hentschel (Fraunhofer Institut für Nachrichtentechnik, Berlin)

Visual scene and object recognition in the past has been largely conceived as a stimulus-driven classification task: low-level features get extracted at region level and the image is classified based on these features using machine learning techniques. The automatic selection of image regions that are supposed to contain valuable information, however, still is an open issue in computer vision. In addition research in cognitive psychology has shown that visual attention cannot be modelled satisfactorily based on image stimulus only but can be task-dependent.
Although numerous keypoint detection algorithms exist, there has been only little work to justify the appropriateness in terms of their ability to match the human visual attention process. It has only been since the availability of robust eye tracking systems that identifying the fixation points of a human observer became possible and some researchers in computer vision are now trying to model saccadic targeting in order to improve keypoint detection techniques.
In my presentation I will provide some ideas on how to exploit eye tracking data to find regions and features that are likely to attract attention. The major idea is to evaluate whether it is possible to identify a minimal set of common salient regions required for understanding a given semantic concept.

12.11.2009 (13:15 Uhr)
An alternative metaheuristic selection strategy

Kent Steer (zur Zeit AG Computational Intelligence)

The selection and configuration of metaheuristic optimisation algorithms for specific problem sets is itself a problem needing attention. In some situations-where a set of problems with exploitable similarities is given-it is worth investing time in determining the most appropriate algorithm. It is currently common to use a set of benchmark problems and extrapolate the results to the problems of interest. We are exploring an alternative approach based on analysis of the problem structure, with the goal of associating algorithm performance with specific search space features.

08.10.2009
Ontologiebasierte Indexierung und Kontextualisierung persönlicher, multimedialer Dokumente

Annett Mitschick

Digitale Daten und Dokumente bestimmen mittlerweile einen Großteil unseres Alltags - nicht nur im professionellen sondern verstärkt auch im privaten Umfeld. Die Anwender sehen sich zunehmend mit dem Problem konfrontiert, geeignete Strategien zur Organisation ihrer Dokumente zu entwickeln, um eine effiziente Verwaltung zu gewährleisten und auf die enthaltenen Informationen schnell und zielsicher zugreifen zu können. In der Regel sammeln sich im Laufe der Zeit große Mengen eher grob oder unzureichend organisierter Dokumente an. Eine geeignete Grundlage für eine Lösung zur intelligenten, langfristigen Dokumentenverwaltung bietet das Semantic Web und die damit verbundenen Technologien. Mit Hilfe anwendungsspezifischer Ontologien kann der Nutzer Dokumente über deren Relationen zueinander und zu persönlichen, kontextuellen Informationen verwalten und wiederfinden. Dazu sind jedoch entsprechende Automatismen notwendig, die dem Anwender grundlegenden Annotations- und Bearbeitungsaufwand abnehmen und eine ausreichende Datenqualität und -konsistenz sicherstellen. Im Rahmen dieses Vortrages werden zunächst die Herausforderungen und Probleme einer systemgestützten, ontologiebasierten Dokumentenverwaltung sowie der aktuelle Stand der Forschung dargestellt. Die anschließende Vorstellung des am Lehrstuhl Multimediatechnik der TU Dresden im Forschungsprojekt K-IMM erarbeiteten Lösungsansatzes für die Indexierung und Kontextualisierung persönlicher multimedialer Dokumente mit Hilfe semantischer Informationen wird durch die praktische Demonstration eines entwickelten Prototyps abgerundet.

07.05.2009
Design elements of B2G collaborations in global trade

Barbara Flügge (SAP AG)

In global trade, business partners, customs, and tax authorities are confronted with regulatory and technically safeguarding measures that affect business-to-government interactions. One of which is the plan to deploy a number of B2G relevant software applications (cf. European Commission (2006), p. 22 f.). Having issued scope and deployment details to EU member states, references to IT implementation, architectural and standardization specific requirements or recommendations are not yet provided. To-date global trade activities are supported with the following offerings:

Each of the named offerings contributes to B2G collaborations. A choreographed and B2G focused composition of these offerings however does not exist so far. The following presentation introduces key elements and describes them. It prospects further steps needed for a choreographed composition of these elements.

Reference: European Commission. (2006). Commission Staff Working Document: Annex to the Proposal on the Community programme CUSTOMS 2013 Impact Assessment. Retrieved. from http://ec.europa.eu/taxation_customs/resources/documents/Customs2013_impact.pdf.

02.04.2009
Scienstein - A Research Paper Recommender System

 

Jöran Beel, Bela Gipp (VLBA Lab)

Die Suche und Qualitätsevaluierung von wissenschaftlichen Dokumenten ist sehr zeitaufwändig. Synonyme, die zunehmende Menge von Publikationen und mehrdeutige Nomenklaturen erschweren die Suche nach relevanten Dokumenten. Hinzu kommt, dass sich Nomenklaturen mit der Zeit ändern. Daher ist es wahrscheinlich, dass bei der Verwendung von Schlüsselwort basierten Suchmaschinen einige relevante Dokumente nicht gefunden werden. Nachdem eine Publikation gefunden wurde muss der Leser deren Qualität und Glaubwürdigkeit bewerten. Normalerweise wird hierfür die Reputation des herausgebenden Journals herangezogen oder die Anzahl von Zitationen ermittelt. Beide Methoden erlauben jedoch keine zuverlässige Qualitätsevaluation.

Das Projekt Scienstein, welches im VLBA-Lab entwickelt wird, soll die aktuelle Situation verbessern. Dafür werden existierende Such- und Empfehlungsverfahren kombiniert, verbessert und neue entwickelt. Neue Verfahren sind u.a. "fortgeschrittene Zitationsanalyse", "Collaborative Document Evaluation" und die Analyse der genutzten Dokumente. Diese komplexen Möglichkeiten werden mittels einer komfortablen Grafischen Benutzeroberfläche dem Nutzer zur Verfügung gestellt.

26.02.2009
The ImageCLEF2009 PhotoAnnotation Task

Christian Hentschel (Fraunhofer Institut für Nachrichtentechnik, Berlin)

This years ImageCLEF visual concept detection and photo annotation task will focus on large scale image data and a significant increase in visual concepts to be detected. Several thousands of photos taken from the Flickr community will be provided depicting an approximate of 50 different concepts, which will be presented in a small ontology. The scale of this task poses significant problems for current image classifiers as these are typically designed to distinguish a few concepts only. This short presentation will introduce the ImageCLEF task and the provided data in more detail and will show some ideas for concept detection that shall be applied. More specifically we intend to exploit the hierarchical order of the ontology and the relations between concepts to allow for reasoning from real world objects to abstract concepts. Local image description using saliency feature points shall be used for local object detection.

21.06.2007
Personalized Hierarchical Collection Structuring

Korinna Bade (AG Information Retrieval)

With the huge amount of available electronic data, the need for efficient organization of personal data is strong in order to re-find information. Labeled hierarchical structures have proven useful in the past and are widely used for this purpose. Unfortunately external data is usually not structured at all or not structured by criteria most useful to a certain user. However, such hierarchies are most efficient for a user, if they reflect his personal preferences. Therefore, my work deals with structuring collections in a hierarchy most appropriate to a certain user using user specific data. I view the problem from two different perspectives. In the first case, a given user hierarchy is fixed and the collection shall be structure into this hierarchy. In the second case, the given user hierarchy can be further defined and is assumed in general to be uncomplete. I show how these problems could be solved with either a hierarchical classification approach (case 1) or a hierarchical constraint based clustering approach (case 2).

24.05.2007
A real-word problem: Application of Neuro fuzzy techniques to predict physical sensitivity and vulnerability for marine cage culture

Juan Navas Moreno (Geographical Information System Group, Institute of Aquaculture, University of Stirling, UK)

There is a need to develop new modelling techniques that assess to select the best site for marine cage culture in coastal water with less expensive data and which are robust when the data are uncertain and incomplete. The incorporation of Geographic Information Systems (GIS), and 3D Hydrodynamics modelling have the potential for creating a successful modelling tool. The output will be an environmental spatial model for coastal areas intended to facilitate policy decision, taking into account the intrinsic characteristics of the target area, in this case an Irish fjord.

14.12.2006
Semantic Support for Cross-language Text Retrieval

Ernesto W. De Luca (AG Information Retrieval)

Current search engines (e.g. Google) have become an essential tool for the majority of Web users. Nevertheless, certain fundamental properties leave room for improvement. For instance, from a linguistic point of view, current information retrieval systems lack lexical and grammatical resources with sufficient coverage for unrestricted text. Linguistic Information (e.g. semantics) can help users in specifying the meaning of their query for retrieving only the relevant documents related to it. In this talk I present an interface for supporting users in an interactive multilingual search process using semantic classes. The focus of this presentation is especially on the problem of browsing and navigating the different meanings of a word in one source and possibly several target languages. Therefore, word sense disambiguation, cross-language text retrieval and document categorization play, in this case, an important role for building such an interactive multilingual retrieval system.

Mittwoch 23.08.2006 15:00
Reliable Classifiers via Isometrics in ROC Space

Stijn Vanderlooy (Institute for Knowledge and Agent Technology (IKAT), Faculty of General Sciences, Universiteit Maastricht, The Netherlands)

A wide variety of state-of-the-art machine learning classifiers are available to be used in practice. Nevertheless, only few classifiers are employed in application domains with high misclassification costs, e.g., medical diagnosis. Classifiers can be applied only if they are reliable: they guarantee at least the necessary performance on each class as defined by domain experts. In this talk I will outline a technique that tunes and, if needed, transforms a classifier such that it guarantees a sufficient level of reliability. I will show that this technique is practically useful and does not have any strong assumption. Therefore, it enables the application of classifiers in real-life domains with high misclassification costs.

24.05.2006 (Raum G22A-203)
Community Dynamics Mining

Tanja Falkowski (AG KMD)

Recently, several methods and tools have been proposed to extract communities from static graphs. However, since communities are not static, but change over time, it is necessary to provide methods to determine and observe the community transitions and to extract the factors that cause the development. We regard a community as an object that exists over time and propose to observe community transitions along the time axis. For this we partition the time axis under observation by time windows. In each time window, a set of interactions between community participants is aggregated. These static networks are analyzed for sub-communities by applying community detection mechanisms. Through this we detect communities in each interval and can observe if they persist over time or undergo a transition.

30.03.2006
Data Mining auf Datenströmen

Jürgen Beringer (AG DKE)

Datenströme liefern über einen beliebig langen Zeitraum kontinuierlich sehr große Datenmengen, die es zu verarbeiten und zu analysieren gilt. In diesem Zusammenhang beschäftige ich mich mit der Entwicklung verschiedener Data Mining Methoden, die den speziellen Anforderungen von Datenströmen gerecht werden. Im Rahmen des Vortrages werde ich konkret auf Ansätze zum Clustern und Klassifizieren eingehen.

16.03.2006
Linguistische Analysen für die semantische Aufbereitung von Dokumenten

Manuela Kunze (AG Wissensbasierte Systeme und Dokumentverarbeitung)

In diesem Vortrag werden Methoden vorgestellt, die für die Extraktion von Informationen aus natürlichsprachlichen Dokumenten genutzt werden können. Auf der Basis ausgezeichneter morphosyntaktischer Informationen in Dokumenten werden neben einem semantischen Tagger und einer Kasusrahmenanalyse auch die semantische Analyse syntaktischer Strukturen für die Erkennung von semantischen Konzepten und Relationen genutzt. Die Qualität der vorgestellten Verfahren wird im starken Maße durch die Güte bzw. Abdeckung der verwendeten Ressourcen beeinflusst. Die Ressourcen manuell für die Verarbeitung eines neuen Korpus zu erweitern ist zeitaufwändig. Mittels korpusbasierter Ansätze kann dieser Aufwand reduziert werden. Auf diese Ansätze wird im Vortrag kurz eingegangen. Es handelt sich dabei um Verfahren, die zur gebietsspezifischen Erweiterung des lexikalischen Wortnetzes GermaNet genutzt werden können.

02.03.2006 13:00
Fairnet: A Reputation System for P2P Data Structures

Erik Buchmann (AG DKE)

Peer-to-Peer (P2P) Datenstrukturen (bzw. P2P Overlays oder Strukturierte P2P Netzwerke) verteilen Daten und Arbeitslast über viele Teilnehmer in einem großen, offenen Rechnernetzwerk. Die meisten Ansätze für P2P Datenstrukturen gehen davon aus, dass sich alle Peers freiwillig protokollgerecht verhalten und bereitwillig ihren Anteil an der Arbeitslast übernehmen. Die ökonomisch dominante Verhaltensweise für anonyme Peers in offenen Netzwerken besteht jedoch darin, Anfragen anderer Teilnehmer nicht zu beanworten um Ressourcen zu sparen, d.h., sich unkooperativ zu verhalten. Der Vortrag wird ein reputationsbasiertes Protokoll beschreiben, das dieses unkooperative Verhalten unattraktiv macht. Das Protokoll basiert darauf, Feedback über geleistete oder verweigerte Arbeit zwischen benachbarten Knoten auszutauschen. Dabei wird der Vortrag auch auf Probleme eingehen, die bei der Anwendung eines derartigen Protokolls auftauchen, insbesondere auf gefälschtes Feedback.

Letzte Änderung: 02.05.2012 - Ansprechpartner: Webmaster