Live-Forum - Die aktuellen Beiträge
Datum
Titel
28.03.2024 21:12:36
28.03.2024 18:31:49
Anzeige
Archiv - Navigation
1796to1800
Aktuelles Verzeichnis
Verzeichnis Index
Übersicht Verzeichnisse
Vorheriger Thread
Rückwärts Blättern
Nächster Thread
Vorwärts blättern
Anzeige
HERBERS
Excel-Forum (Archiv)
20+ Jahre Excel-Kompetenz: Von Anwendern, für Anwender
Inhaltsverzeichnis

Fehler beim extrahieren aus Gelbe Seiten

Fehler beim extrahieren aus Gelbe Seiten
13.12.2020 11:46:08
Ralf
Schönen Tag alle zusammen,
Ich stehe hier seit 2 Tage vor einen Problem, wo ich nicht weis, woran der Fehler liegt.
Ich möchte z.B. aus https://www.gelbeseiten.de/Suche/Photovoltaik Daten auslesen. Das mache ich über Daten - aus dem Web und trage dann die v.g. Adresse ein. Das passiert mir auch bei dastelefonbuch.de oder herold.at.
Es erscheint mir immer folgende Anzeige " in dem Scirpt auf dieser Seite ist ein Fehler aufgetreten"
Was mache ich falsch?
Hat jemand von Euch eventuell einen Lösungsvorschlag für mich ?
Gruß Ralf

7
Beiträge zum Forumthread
Beiträge zu diesem Forumthread

Betreff
Datum
Anwender
Anzeige
AW: Fehler beim extrahieren aus Gelbe Seiten
13.12.2020 13:29:24
Günther
Moin Ralf,
meiner Erfahrung nach mag Power Query keine Frames in Websites. Mit VBA könnte es möglich sein, zum Erfolg zu kommen, das ist aber nicht (mehr) meine Baustelle.
 
Gruß
Günther  |  mein Excel-Blog
AW: PS: komplexe Struktur
13.12.2020 13:33:51
Fennek
Hallo,
ein erster Versuch mit Powershell

$userAgent = "Mozilla/5.0 (Windows NT 10.0; rv:70.0) Gecko/20100101 Firefox/70.0"
[Net.ServicePointManager]::SecurityProtocol = [Net.SecurityProtocolType]::Tls12
$No_Java = 'HKCU:\Software\Microsoft\Windows\CurrentVersion\Internet Settings\Zones\3'
Set-ItemProperty -Path $No_Java -Name '1400' -Value 3 #3: abgeschaltet; 0: angeschaltet
$url = 'https://www.gelbeseiten.de/Suche/Photovoltaik'
$ret = iwr $url -DisableKeepAlive -UserAgent $userAgent
$ret.ParsedHtml.body.innerHTML
Set-ItemProperty -Path $No_Java -Name '1400' -Value 0 #3: abgeschaltet; 0: angeschaltet
zeigt wie komplex die Seite aufgebaut ist. Da soll das Auslesen wohl erschwert werden.
Teste mal mit der Zeile $ret.ParsedHtml, das Eergebnis sollte noch verbessert werden können.
mfg
Anzeige
AW: PS: komplexe Struktur
13.12.2020 14:04:17
Ralf
hallo Fennek,
ich kenne Powershell nicht, habe es auch nicht bei mir auf dem PC, ich habe nur das normale MS Office2013.
Gruß Ralf
AW: PS: komplexe Struktur
13.12.2020 14:36:31
Oberschlumpf
warum wählst du DANN Version: 2016 - 16.0 aus?
AW: PS: komplexe Struktur
13.12.2020 14:39:14
Ralf
sorry, mein Fehler ich habe Version 2013
Gruß
Ralf
AW: Fehler beim extrahieren aus Gelbe Seiten
14.12.2020 13:31:20
Zwenn
Hallo Ralf,
ich habe mir das mal angesehen. Sowohl Gelbe Seiten, wie auch Das Telefonbuch sind dynamische Seiten, die beim Aufruf eines Suchbegriffs die ersten Treffer anzeigen und weitere Treffer erst durch Aktivität des Benutzers nachladen. Allein deshalb denke ich scheidet PQ aus.
Das Problem sind meines Erachtens nach die Anzahlen der Suchtreffer.
  • Auf den Gelben Seiten gibt es 8372 Treffer für Photovoltaik

  • Die ersten 50 werden direkt angezeigt

  • Alle weiteren lassen sich nur in 10er Schritten nachladen

  • Es müsste also 833 auf den "weitere 10 Laden" Button geklickt werden

  • Bei jedem Klick muss sichergestellt werden, dass die 10 neuen Treffer geladen wurden, bevor die nächsten 10 geholt werden

  • Am Ende müssen alle Suchtreffer auf Basis ihrer HTML-Struktur (DOM-Struktur) ausgelesen werden. DOM ist das Document Object Model

  • Auf Das Telefonbuch gibt es >999 Treffer für Photovoltaik

  • Hier werden weitere Treffer zunächst durch nach unten Scrollen nachgeladen

  • Nach einigen Scrollvorgängen erscheint ein Button 460 weitere Treffer anzeigen

  • Wird der Button angeklickt, werden 10 weitere Suchtreffer angezeigt und das Scrollen geht weiter

  • Hier muss also neben dem Timing fürs Warten auf das Nachladen auch auf den auftauchenden Button geprüft und reagiert werden

  • Ist die Liste vollständig, müssen auch hier alle Suchtreffer auf Basis ihrer HTML-Struktur (DOM-Struktur) ausgelesen werden

  • Um an alle Suchergebnisse zu kommen, ist also einiges an Aufwand notwendig. Das ist irgendwie auch klar. Schließlich wollen sich die Seiten nicht einfach die Datenbanken auslesen lassen. Ob die von mir skizzierten Konstrukte so überhaupt stabil laufen würden, ist noch eine Zusatzfrage. Weil, 833x Klicken habe ich mir verkniffen ;-)
    Du könntest aber die Suchgebiete einschränken. Oder muss es immer gleich fürs ganze Land sein? Hinzu kommt, dass die Daten von mehreren Seiten sich in weiten Teilen überschneiden dürften. Doppelte musst Du also eindeutig erkennen und rausschmeißen oder gar nicht erst einlesen.
    Bei Deinen angegebenen Kenntnissen klingt Dein Vorhaben also eher nach Auftragsarbeit oder Du kaufst die benötigten Daten irgendwo ein. Da mir nix einfällt, wofür man privat die Kontaktdaten zu tausenden von Photovoltaik Gewerbetreibenden aus ganz Deutschland und Österreich braucht, gehe ich davon aus, Du willst damit irgendwie Geld verdienen.
    Ich wollte Dir mit diesem Posting nur aufzeigen, dass es leider nicht mit ein paar Handgriffen und Mausklicks getan ist, soweit ich das überblicke.
    Viele Grüße,
    Zwenn
    Anzeige
    Nachtrag Das Telefonbuch und der IE
    14.12.2020 14:03:33
    Zwenn
    Hallo noch einmal
    Wenn man nicht alles direkt prüft ;-) Das Telefonbuch funktioniert im Internet Explorer schon gar nicht mehr mit den erklärten Mechanismen. Die Treffer werden über die Paginierung auf einzelnen Seiten mit je 10 Treffern aufgerufen. Es werden allerdings maximal 50 Seiten zur Verfügung gestellt. Im IE kann man aber sehen, dass es 6020 Treffer gibt.
    Viele Grüße,
    Zwenn

    Links zu Excel-Dialogen

    Beliebteste Forumthreads (12 Monate)

    Anzeige

    Beliebteste Forumthreads (12 Monate)

    Anzeige
    Anzeige
    Anzeige