Ähnlichkeit der Werte kalkulieren
15.12.2015 13:42:07
Eugen
I habe zwei Aufgaben, für die ich eine Lösung suche:
1. ich habe eine URL-Liste (in einer Spalte). URLs können sein wie:
- http://example.com/page-1
- http://example.com/page-2.html
- http://example.com/page/12
- http://example.com/1/page/2
- http://example.com/page/1/2
2. ich habe eine Liste der Schlüsselwörter, die sein können wie
- iphone kaufen
- iphone kaufen in berlin
- iphone kaufen in stuttgart
- i-phone kaufen
- iphone verkaufen in berlin etc.
Bei jeder Aufgabe will ich für elle Werte ihren Ähnlichkeitsgrad untereinander errechnen. Dabei reicht es nicht, sie einfach alphabetisch zu sortieren, weil Ähnlichkeiten auch in der Mitte oder am Ende eines Strings vorkommen können.
Ich stelle mir die Lösung so vor, dass ich eine Tabelle mit maximal 101 Spalte habe. Ich der ersten Spalte sind die Werte, weitere 100 Spalten sind 100%, 99%...1% der Ähnlichkeit. In jeder Spalte werden dann nach Berechnung die Werte aufgefüllt, die dem Wert aus der ersten Spalte entsprechen und den entsprechenden Ähnlichkeitsgrad haben, wie
Werte 100% 99% ... 5%
Wert1 Wert2 Wert3,Wert7 Wert5
Wert2
Wert3
Wert4
Wert5
Wert6
Wert7