Anzeige
Anzeige
HERBERS
Excel-Forum (Archiv)
20+ Jahre Excel-Kompetenz: Von Anwendern, für Anwender

Forumthread: Fehler beim extrahieren aus Gelbe Seiten

Fehler beim extrahieren aus Gelbe Seiten
13.12.2020 11:46:08
Ralf
Schönen Tag alle zusammen,
Ich stehe hier seit 2 Tage vor einen Problem, wo ich nicht weis, woran der Fehler liegt.
Ich möchte z.B. aus https://www.gelbeseiten.de/Suche/Photovoltaik Daten auslesen. Das mache ich über Daten - aus dem Web und trage dann die v.g. Adresse ein. Das passiert mir auch bei dastelefonbuch.de oder herold.at.
Es erscheint mir immer folgende Anzeige " in dem Scirpt auf dieser Seite ist ein Fehler aufgetreten"
Was mache ich falsch?
Hat jemand von Euch eventuell einen Lösungsvorschlag für mich ?
Gruß Ralf
Anzeige

7
Beiträge zum Forumthread
Beiträge zu diesem Forumthread

Betreff
Datum
Anwender
Anzeige
AW: Fehler beim extrahieren aus Gelbe Seiten
13.12.2020 13:29:24
Günther
Moin Ralf,
meiner Erfahrung nach mag Power Query keine Frames in Websites. Mit VBA könnte es möglich sein, zum Erfolg zu kommen, das ist aber nicht (mehr) meine Baustelle.
 
Gruß
Günther  |  mein Excel-Blog
Anzeige
AW: PS: komplexe Struktur
13.12.2020 13:33:51
Fennek
Hallo,
ein erster Versuch mit Powershell

$userAgent = "Mozilla/5.0 (Windows NT 10.0; rv:70.0) Gecko/20100101 Firefox/70.0"
[Net.ServicePointManager]::SecurityProtocol = [Net.SecurityProtocolType]::Tls12
$No_Java = 'HKCU:\Software\Microsoft\Windows\CurrentVersion\Internet Settings\Zones\3'
Set-ItemProperty -Path $No_Java -Name '1400' -Value 3 #3: abgeschaltet; 0: angeschaltet
$url = 'https://www.gelbeseiten.de/Suche/Photovoltaik'
$ret = iwr $url -DisableKeepAlive -UserAgent $userAgent
$ret.ParsedHtml.body.innerHTML
Set-ItemProperty -Path $No_Java -Name '1400' -Value 0 #3: abgeschaltet; 0: angeschaltet
zeigt wie komplex die Seite aufgebaut ist. Da soll das Auslesen wohl erschwert werden.
Teste mal mit der Zeile $ret.ParsedHtml, das Eergebnis sollte noch verbessert werden können.
mfg
Anzeige
AW: PS: komplexe Struktur
13.12.2020 14:04:17
Ralf
hallo Fennek,
ich kenne Powershell nicht, habe es auch nicht bei mir auf dem PC, ich habe nur das normale MS Office2013.
Gruß Ralf
AW: PS: komplexe Struktur
13.12.2020 14:36:31
Oberschlumpf
warum wählst du DANN Version: 2016 - 16.0 aus?
AW: PS: komplexe Struktur
13.12.2020 14:39:14
Ralf
sorry, mein Fehler ich habe Version 2013
Gruß
Ralf
Anzeige
AW: Fehler beim extrahieren aus Gelbe Seiten
14.12.2020 13:31:20
Zwenn
Hallo Ralf,
ich habe mir das mal angesehen. Sowohl Gelbe Seiten, wie auch Das Telefonbuch sind dynamische Seiten, die beim Aufruf eines Suchbegriffs die ersten Treffer anzeigen und weitere Treffer erst durch Aktivität des Benutzers nachladen. Allein deshalb denke ich scheidet PQ aus.
Das Problem sind meines Erachtens nach die Anzahlen der Suchtreffer.
  • Auf den Gelben Seiten gibt es 8372 Treffer für Photovoltaik

  • Die ersten 50 werden direkt angezeigt

  • Alle weiteren lassen sich nur in 10er Schritten nachladen

  • Es müsste also 833 auf den "weitere 10 Laden" Button geklickt werden

  • Bei jedem Klick muss sichergestellt werden, dass die 10 neuen Treffer geladen wurden, bevor die nächsten 10 geholt werden

  • Am Ende müssen alle Suchtreffer auf Basis ihrer HTML-Struktur (DOM-Struktur) ausgelesen werden. DOM ist das Document Object Model

  • Auf Das Telefonbuch gibt es >999 Treffer für Photovoltaik

  • Hier werden weitere Treffer zunächst durch nach unten Scrollen nachgeladen

  • Nach einigen Scrollvorgängen erscheint ein Button 460 weitere Treffer anzeigen

  • Wird der Button angeklickt, werden 10 weitere Suchtreffer angezeigt und das Scrollen geht weiter

  • Hier muss also neben dem Timing fürs Warten auf das Nachladen auch auf den auftauchenden Button geprüft und reagiert werden

  • Ist die Liste vollständig, müssen auch hier alle Suchtreffer auf Basis ihrer HTML-Struktur (DOM-Struktur) ausgelesen werden

  • Um an alle Suchergebnisse zu kommen, ist also einiges an Aufwand notwendig. Das ist irgendwie auch klar. Schließlich wollen sich die Seiten nicht einfach die Datenbanken auslesen lassen. Ob die von mir skizzierten Konstrukte so überhaupt stabil laufen würden, ist noch eine Zusatzfrage. Weil, 833x Klicken habe ich mir verkniffen ;-)
    Du könntest aber die Suchgebiete einschränken. Oder muss es immer gleich fürs ganze Land sein? Hinzu kommt, dass die Daten von mehreren Seiten sich in weiten Teilen überschneiden dürften. Doppelte musst Du also eindeutig erkennen und rausschmeißen oder gar nicht erst einlesen.
    Bei Deinen angegebenen Kenntnissen klingt Dein Vorhaben also eher nach Auftragsarbeit oder Du kaufst die benötigten Daten irgendwo ein. Da mir nix einfällt, wofür man privat die Kontaktdaten zu tausenden von Photovoltaik Gewerbetreibenden aus ganz Deutschland und Österreich braucht, gehe ich davon aus, Du willst damit irgendwie Geld verdienen.
    Ich wollte Dir mit diesem Posting nur aufzeigen, dass es leider nicht mit ein paar Handgriffen und Mausklicks getan ist, soweit ich das überblicke.
    Viele Grüße,
    Zwenn
    Anzeige
    Nachtrag Das Telefonbuch und der IE
    14.12.2020 14:03:33
    Zwenn
    Hallo noch einmal
    Wenn man nicht alles direkt prüft ;-) Das Telefonbuch funktioniert im Internet Explorer schon gar nicht mehr mit den erklärten Mechanismen. Die Treffer werden über die Paginierung auf einzelnen Seiten mit je 10 Treffern aufgerufen. Es werden allerdings maximal 50 Seiten zur Verfügung gestellt. Im IE kann man aber sehen, dass es 6020 Treffer gibt.
    Viele Grüße,
    Zwenn
    Anzeige
    ;
    Anzeige
    Anzeige

    Infobox / Tutorial

    Fehler bei der Nutzung der Gelben Seiten in Excel beheben


    Schritt-für-Schritt-Anleitung

    Hier erfährst du, wie du mit Excel und dem Power Query-Tool die gelben Seiten adressen exportieren kannst. Beachte, dass dies möglicherweise nicht bei allen Seiten funktioniert, da viele dynamische Inhalte verwenden.

    1. Excel öffnen: Starte Excel und erstelle ein neues Arbeitsblatt.
    2. Daten abrufen: Gehe zu Daten > Daten abrufen > Aus dem Web.
    3. URL eingeben: Trage die URL der Gelben Seiten ein, z.B. https://www.gelbeseiten.de/Suche/Photovoltaik.
    4. Daten laden: Klicke auf Laden, um die Daten zu importieren. Bei dynamischen Seiten kann es sein, dass ein Fehler auftritt.
    5. Überprüfen der Struktur: Wenn ein Fehler erscheint, überprüfe die HTML-Struktur der Seite. Dynamische Inhalte können die Abfrage erschweren.

    Falls du weiterhin Probleme hast, könnte ein Skript oder eine andere Methode notwendig sein.


    Häufige Fehler und Lösungen

    • Fehler bei dynamischen Inhalten: Viele Seiten wie die Gelben Seiten verwenden dynamische Strukturen, die Power Query nicht verarbeiten kann. In diesem Fall ist VBA oder eine andere Programmiersprache eine mögliche Lösung.

    • Scriptfehler: Wenn du die Meldung "In dem Script auf dieser Seite ist ein Fehler aufgetreten" erhältst, liegt es oft daran, dass die Seite Frames oder andere Einschränkungen hat.

    • Leere Daten: Wenn du keine Daten erhältst, könnte dies an der Anzahl der Treffer liegen, die nicht vollständig geladen werden. Du musst möglicherweise durch die Seiten navigieren, um alle Informationen zu extrahieren.


    Alternative Methoden

    Wenn Power Query nicht funktioniert, kannst du alternative Methoden in Betracht ziehen:

    1. VBA-Skripte: Nutze VBA, um die Daten automatisch auszulesen. Hier ist ein Beispiel, wie du deine Anfrage anpassen könntest:

      Dim http As Object
      Set http = CreateObject("MSXML2.ServerXMLHTTP.6.0")
      http.Open "GET", "https://www.gelbeseiten.de/Suche/Photovoltaik", False
      http.send
      Debug.Print http.responseText
    2. Powershell: Du kannst auch Powershell verwenden, um die Daten von den Gelben Seiten zu extrahieren. Hier ein einfacher Einstieg:

      $url = 'https://www.gelbeseiten.de/Suche/Photovoltaik'
      $result = Invoke-WebRequest -Uri $url
      $result.Content
    3. Web-Scraping-Tools: Es gibt auch spezialisierte Tools für Web-Scraping, die einfacher zu bedienen sind als VBA oder Powershell.


    Praktische Beispiele

    Hier sind einige praktische Beispiele, wie du die gelben seiten adressen exportieren kannst:

    • Photovoltaik Anbieter: Wenn du Anbieter für Photovoltaik suchst, gehe auf https://www.gelbeseiten.de/Suche/Photovoltaik und folge der Schritt-für-Schritt-Anleitung.

    • Das Telefonbuch: Für das telefonbuch gelbe seiten kannst du die gleiche Methode verwenden. Beachte die Anzahl der Treffer und die Notwendigkeit, durch die Seiten zu navigieren.


    Tipps für Profis

    • Browser-Entwicklertools nutzen: Verwende die Entwicklertools in deinem Browser, um die HTML-Struktur der Seite besser zu verstehen und die benötigten Daten zu identifizieren.

    • Daten filtern: Nutze Excel-Filter, um die exportierten Daten zu optimieren und Duplikate zu entfernen. Dies ist besonders hilfreich, wenn du viele Daten von verschiedenen Quellen hast.

    • API-Integration: Wenn verfügbar, nutze APIs der Dienste, um Daten direkt und effizient zu importieren.


    FAQ: Häufige Fragen

    1. Warum kann ich keine Daten von den Gelben Seiten abrufen?
    Die Website verwendet wahrscheinlich dynamische Inhalte, die Power Query nicht verarbeiten kann. Versuche, ein VBA-Skript oder Powershell zu nutzen.

    2. Welche Excel-Version benötige ich?
    Obwohl die meisten Funktionen in Excel 2016 oder neuer verfügbar sind, sind einige Methoden möglicherweise nicht mit älteren Versionen wie Excel 2013 kompatibel.

    3. Gibt es eine Möglichkeit, die Daten automatisiert zu extrahieren?
    Ja, du kannst VBA oder Powershell verwenden, um Daten automatisiert abzurufen. Alternativ stehen auch Web-Scraping-Tools zur Verfügung.

    4. Wie gehe ich mit Duplikaten um?
    Nutze Excel-Funktionen wie Entfernen von Duplikaten, um doppelte Einträge zu filtern, besonders wenn du Daten von verschiedenen gelben seiten hast.

    Beliebteste Forumthreads (12 Monate)

    Anzeige
    Anzeige
    Entdecke mehr
    Finde genau, was du suchst

    Die erweiterte Suchfunktion hilft dir, gezielt die besten Antworten zu finden

    Suche nach den besten Antworten
    Unsere beliebtesten Threads

    Entdecke unsere meistgeklickten Beiträge in der Google Suche

    Top 100 Threads jetzt ansehen
    Anzeige