Große Menge Daten Vergleichen...

Bild

Betrifft: Große Menge Daten Vergleichen...
von: Klemens
Geschrieben am: 04.08.2015 09:14:38

Hallo liebe Forumsgemeinde,
ich suche derzeit nach einer Möglichkeit eine große Menge Daten zu vergleichen.
Es geht dabei um folgendes:
In Tabelle A sind in den Spalten A-C Namen und Beschreibungen ohne eine feste Konvention eingetragen. Beispiel, Zeile 1:
Spalte A: Detroid - City SuperLight Spalte B: Detroid Supermarket Electricity Lighting Cabinet Spalte C: Detroid Supermarket
In Tabelle B sind dabei ebenfalls in Spalte A-D Namen und Beschreibungen eingetragen. Beispiel, Zeile 1:
Spalte A: Detroid - City Licht Spalte B: Detroid Supermarktelektrifizierung Spalte C: Detroid Supermarket
Ich suche nun eine Möglichkeit die Tabellen schnell zu vergleichen und herauszufinden ob es möglich ist eine Thematik aufgrund wortweisen Vergleichs Tabelle A - Datensatz 1 mit Tabelle B - alle Datensätze zu finden.
Tabelle A & B umfasst dabei ca. 15000 Zeilen bzw. Datensätze.
Ich habe es auf folgende Art und Weise versucht:
1) Einlesen der betreffenden Spalten aus Tabelle A in Array1.
2) Löschen bzw. Ersetzen von Sonderzeichen und "allgemein" vorhandenen Wörtern so dass nur noch "markante" Wörter übrig bleiben (wie Namen, Städte usw.)
3) Einzelnes, "zeilenweises" einlesen der Arrayeinträge Array1 und aufsplitten in die einzelnen Wörter, abgespeichert in neues Array2.
4) Wortweise suche aus Array2 in Tabelle B...wenn alle Wörter übereinstimmen, Zelle in der gefunden wurde grün markieren, wenn nur 80% gefunden orange wenn nur 30% gelb usw.
Leider dauert der Vergleich dabei sehr lange (ca. 4Stunden).
Ich habe weiter versucht das Ganze über SQL zu beschleunigen.
Leider reichen dabei meine Kenntnisse nicht ganz aus...
Kann mir jemand eventuell behilflich sein?
Vielen Dank!

Bild

Betrifft: Nicht mal, bei richtiger Schreibweise
von: Frank
Geschrieben am: 04.08.2015 15:52:17
Hallo Klemens,
ich hab's mal offen gelassen, vielleicht hat noch jemand nen genialen Trick. Darunter wird's aber nicht werden (unter GENIAL, meine ich).
Wie in Deinem Post schon zu sehen, hast Du neben dem Problem, einen Grad der Übereinstimmung festzustellen noch das der richtigen Schreibweise. Vielleicht ist es ja nicht wichtig, oder es geht um eine ganz andere Stadt oder es war nur um ein Beispiel zu bringen: Detroit wäre die richtige Schreibweise.
Wie geht Dein Code mit solchen Abweichungen um? Die können ja auch aus Vertippern stammen. Auch ohne Rechtschreibreform würden Dir 3 Leute "Supermarktelektrifizierung" auf 3 Arten schreiben
Supermarkt Elektrifizierung
Supermarkt-Elektrifizierung
Supermarktelektrifizierung
Mein Tipp: Praktikanten einstellen, mit Cola versorgen und für 2,50 die Stunde werkeln lassen. Zu Weihnachten hast Du erste brauchbare Ergebnisse.
Grüsse,
Frank

Bild

Betrifft: AW: Große Menge Daten Vergleichen...
von: Klemens
Geschrieben am: 05.08.2015 07:15:56
:D...is des frängische Dedroit mit haddn d :D...
Ich werde dann mal weiter versuchen...es geht ja nicht um einen 100% Vergleich.
Wenn etwas falsch oder unterschiedlich geschrieben ist dann wird es eben nicht gefunden.

 Bild

Beiträge aus den Excel-Beispielen zum Thema "Optionbutton zweite Auswahl"