Klassifikation
-
die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,
-
eine bekannte Funktion zur Mittelwertberechnung
-
eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( und ).
-
die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,
-
eine bekannte Funktion zur Mittelwertberechnung
-
eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( und ).
-
die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,
-
eine bekannte Funktion zur Mittelwertberechnung
-
eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( und ).
-
die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,
-
eine bekannte Funktion zur Mittelwertberechnung
-
eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( und ).
-
die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,
-
eine bekannte Funktion zur Mittelwertberechnung
-
eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( und ).
-
die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,
-
eine bekannte Funktion zur Mittelwertberechnung
-
eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( und ).
-
die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,
-
eine bekannte Funktion zur Mittelwertberechnung
-
eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( und ).
Klassifikation
Klassifikation
Klassifikation
Klassifikation
Klassifikation
Klassifikation
Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".
Fellegi-Sunter-Klassifikator
Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.
Link ,
möglichen Link oder
Nicht-Link
Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.
Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.
Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.
Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.
Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).
Expectation Maximization - Algorithmus
Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten und für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.
Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.
Dazu benötigt wird lediglich
In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.
In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.
Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.
Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.
In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene, für die Beispiele beider Klassen maximiert wird.
Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.
Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.
Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.
Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.
Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".
Fellegi-Sunter-Klassifikator
Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.
Link ,
möglichen Link oder
Nicht-Link
Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.
Flexible Klassifikatoren
Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.
Entscheidungsbaum
Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.
Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.
Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).
Expectation Maximization - Algorithmus
Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten und für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.
Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.
Dazu benötigt wird lediglich
In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.
In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.
Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.
Support Vector Machine
Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.
In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene, für die Beispiele beider Klassen maximiert wird.
Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.
Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.
Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.
Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.
Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".
Fellegi-Sunter-Klassifikator
Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.
Link ,
möglichen Link oder
Nicht-Link
Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.
Flexible Klassifikatoren
Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.
Entscheidungsbaum
Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.
Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.
Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).
Expectation Maximization - Algorithmus
Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten und für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.
Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.
Dazu benötigt wird lediglich
In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.
In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.
Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.
Support Vector Machine
Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.
In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene, für die Beispiele beider Klassen maximiert wird.
Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.
Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.
Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.
Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.
Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".
Fellegi-Sunter-Klassifikator
Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.
Link ,
möglichen Link oder
Nicht-Link
Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.
Flexible Klassifikatoren
Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.
Entscheidungsbaum
Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.
Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.
Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).
Expectation Maximization - Algorithmus
Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten und für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.
Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.
Dazu benötigt wird lediglich
In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.
In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.
Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.
Support Vector Machine
Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.
In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene, für die Beispiele beider Klassen maximiert wird.
Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.
Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.
Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.
Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.
Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".
Fellegi-Sunter-Klassifikator
Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.
Link ,
möglichen Link oder
Nicht-Link
Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.
Flexible Klassifikatoren
Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.
Entscheidungsbaum
Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.
Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.
Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).
Expectation Maximization - Algorithmus
Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten und für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.
Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.
Dazu benötigt wird lediglich
In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.
In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.
Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.
Support Vector Machine
Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.
In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene, für die Beispiele beider Klassen maximiert wird.
Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.
Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.
Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.
Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.
Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".
Fellegi-Sunter-Klassifikator
Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.
Link ,
möglichen Link oder
Nicht-Link
Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.
Flexible Klassifikatoren
Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.
Entscheidungsbaum
Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.
Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.
Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).
Expectation Maximization - Algorithmus
Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten und für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.
Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.
Dazu benötigt wird lediglich
In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.
In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.
Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.
Support Vector Machine
Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.
In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene, für die Beispiele beider Klassen maximiert wird.
Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.
Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.
Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.
Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.
Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".
Fellegi-Sunter-Klassifikator
Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.
Link ,
möglichen Link oder
Nicht-Link
Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.
Flexible Klassifikatoren
Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.
Entscheidungsbaum
Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.
Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.
Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).
Expectation Maximization - Algorithmus
Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten und für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.
Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.
Dazu benötigt wird lediglich
In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.
In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.
Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.
Support Vector Machine
Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.
In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene, für die Beispiele beider Klassen maximiert wird.
Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.
Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.
Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.
Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.
Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".
Fellegi-Sunter-Klassifikator
Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.
Link ,
möglichen Link oder
Nicht-Link
Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.
Flexible Klassifikatoren
Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.
Entscheidungsbaum
Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.
Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.
Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).
Expectation Maximization - Algorithmus
Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten und für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.
Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.
Dazu benötigt wird lediglich
-
die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,
-
eine bekannte Funktion zur Mittelwertberechnung
-
eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( und ).
In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.
In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.
Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.
Support Vector Machine
Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.
In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene, für die Beispiele beider Klassen maximiert wird.
Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.
Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.
Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.
Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.