Fehler beim extrahieren aus Gelbe Seiten

Forumthread: Fehler beim extrahieren aus Gelbe Seiten

13.12.2020 11:46:08

Ralf

Schönen Tag alle zusammen,
Ich stehe hier seit 2 Tage vor einen Problem, wo ich nicht weis, woran der Fehler liegt.
Ich möchte z.B. aus https://www.gelbeseiten.de/Suche/Photovoltaik Daten auslesen. Das mache ich über Daten - aus dem Web und trage dann die v.g. Adresse ein. Das passiert mir auch bei dastelefonbuch.de oder herold.at.
Es erscheint mir immer folgende Anzeige " in dem Scirpt auf dieser Seite ist ein Fehler aufgetreten"
Was mache ich falsch?
Hat jemand von Euch eventuell einen Lösungsvorschlag für mich ?
Gruß Ralf

Beiträge zum Forumthread

Beiträge zu diesem Forumthread

Betreff

Datum

Anwender

AW: Fehler beim extrahieren aus Gelbe Seiten

13.12.2020 13:29:24

Günther

Moin Ralf,
meiner Erfahrung nach mag Power Query keine Frames in Websites. Mit VBA könnte es möglich sein, zum Erfolg zu kommen, das ist aber nicht (mehr) meine Baustelle.

Gruß
Günther | mein Excel-Blog

AW: PS: komplexe Struktur

13.12.2020 13:33:51

Fennek

Hallo,
ein erster Versuch mit Powershell


$userAgent = "Mozilla/5.0 (Windows NT 10.0; rv:70.0) Gecko/20100101 Firefox/70.0"
[Net.ServicePointManager]::SecurityProtocol = [Net.SecurityProtocolType]::Tls12
$No_Java = 'HKCU:\Software\Microsoft\Windows\CurrentVersion\Internet Settings\Zones\3'
Set-ItemProperty -Path $No_Java -Name '1400' -Value 3 #3: abgeschaltet; 0: angeschaltet
$url = 'https://www.gelbeseiten.de/Suche/Photovoltaik'
$ret = iwr $url -DisableKeepAlive -UserAgent $userAgent
$ret.ParsedHtml.body.innerHTML
Set-ItemProperty -Path $No_Java -Name '1400' -Value 0 #3: abgeschaltet; 0: angeschaltet

zeigt wie komplex die Seite aufgebaut ist. Da soll das Auslesen wohl erschwert werden.
Teste mal mit der Zeile $ret.ParsedHtml, das Eergebnis sollte noch verbessert werden können.
mfg

AW: PS: komplexe Struktur

13.12.2020 14:04:17

Ralf

hallo Fennek,
ich kenne Powershell nicht, habe es auch nicht bei mir auf dem PC, ich habe nur das normale MS Office2013.
Gruß Ralf

AW: PS: komplexe Struktur

13.12.2020 14:36:31

Oberschlumpf

warum wählst du DANN Version: 2016 - 16.0 aus?

AW: PS: komplexe Struktur

13.12.2020 14:39:14

Ralf

sorry, mein Fehler ich habe Version 2013
Gruß
Ralf

AW: Fehler beim extrahieren aus Gelbe Seiten

14.12.2020 13:31:20

Zwenn

Hallo Ralf,
ich habe mir das mal angesehen. Sowohl Gelbe Seiten, wie auch Das Telefonbuch sind dynamische Seiten, die beim Aufruf eines Suchbegriffs die ersten Treffer anzeigen und weitere Treffer erst durch Aktivität des Benutzers nachladen. Allein deshalb denke ich scheidet PQ aus.
Das Problem sind meines Erachtens nach die Anzahlen der Suchtreffer.
Auf den Gelben Seiten gibt es 8372 Treffer für Photovoltaik

Die ersten 50 werden direkt angezeigt

Alle weiteren lassen sich nur in 10er Schritten nachladen

Es müsste also 833 auf den "weitere 10 Laden" Button geklickt werden

Bei jedem Klick muss sichergestellt werden, dass die 10 neuen Treffer geladen wurden, bevor die nächsten 10 geholt werden

Am Ende müssen alle Suchtreffer auf Basis ihrer HTML-Struktur (DOM-Struktur) ausgelesen werden. DOM ist das Document Object Model

Auf Das Telefonbuch gibt es >999 Treffer für Photovoltaik

Hier werden weitere Treffer zunächst durch nach unten Scrollen nachgeladen

Nach einigen Scrollvorgängen erscheint ein Button 460 weitere Treffer anzeigen

Wird der Button angeklickt, werden 10 weitere Suchtreffer angezeigt und das Scrollen geht weiter

Hier muss also neben dem Timing fürs Warten auf das Nachladen auch auf den auftauchenden Button geprüft und reagiert werden

Ist die Liste vollständig, müssen auch hier alle Suchtreffer auf Basis ihrer HTML-Struktur (DOM-Struktur) ausgelesen werden

Um an alle Suchergebnisse zu kommen, ist also einiges an Aufwand notwendig. Das ist irgendwie auch klar. Schließlich wollen sich die Seiten nicht einfach die Datenbanken auslesen lassen. Ob die von mir skizzierten Konstrukte so überhaupt stabil laufen würden, ist noch eine Zusatzfrage. Weil, 833x Klicken habe ich mir verkniffen ;-)
Du könntest aber die Suchgebiete einschränken. Oder muss es immer gleich fürs ganze Land sein? Hinzu kommt, dass die Daten von mehreren Seiten sich in weiten Teilen überschneiden dürften. Doppelte musst Du also eindeutig erkennen und rausschmeißen oder gar nicht erst einlesen.
Bei Deinen angegebenen Kenntnissen klingt Dein Vorhaben also eher nach Auftragsarbeit oder Du kaufst die benötigten Daten irgendwo ein. Da mir nix einfällt, wofür man privat die Kontaktdaten zu tausenden von Photovoltaik Gewerbetreibenden aus ganz Deutschland und Österreich braucht, gehe ich davon aus, Du willst damit irgendwie Geld verdienen.
Ich wollte Dir mit diesem Posting nur aufzeigen, dass es leider nicht mit ein paar Handgriffen und Mausklicks getan ist, soweit ich das überblicke.
Viele Grüße,
Zwenn

Nachtrag Das Telefonbuch und der IE

14.12.2020 14:03:33

Zwenn

Hallo noch einmal
Wenn man nicht alles direkt prüft ;-) Das Telefonbuch funktioniert im Internet Explorer schon gar nicht mehr mit den erklärten Mechanismen. Die Treffer werden über die Paginierung auf einzelnen Seiten mit je 10 Treffern aufgerufen. Es werden allerdings maximal 50 Seiten zur Verfügung gestellt. Im IE kann man aber sehen, dass es 6020 Treffer gibt.
Viele Grüße,
Zwenn

Infobox / Tutorial

Fehler bei der Nutzung der Gelben Seiten in Excel beheben

Schritt-für-Schritt-Anleitung
Häufige Fehler und Lösungen
Alternative Methoden
Praktische Beispiele
Tipps für Profis
FAQ: Häufige Fragen

Schritt-für-Schritt-Anleitung

Hier erfährst du, wie du mit Excel und dem Power Query-Tool die gelben Seiten adressen exportieren kannst. Beachte, dass dies möglicherweise nicht bei allen Seiten funktioniert, da viele dynamische Inhalte verwenden.

Excel öffnen: Starte Excel und erstelle ein neues Arbeitsblatt.
Daten abrufen: Gehe zu Daten > Daten abrufen > Aus dem Web.
URL eingeben: Trage die URL der Gelben Seiten ein, z.B. https://www.gelbeseiten.de/Suche/Photovoltaik.
Daten laden: Klicke auf Laden, um die Daten zu importieren. Bei dynamischen Seiten kann es sein, dass ein Fehler auftritt.
Überprüfen der Struktur: Wenn ein Fehler erscheint, überprüfe die HTML-Struktur der Seite. Dynamische Inhalte können die Abfrage erschweren.

Falls du weiterhin Probleme hast, könnte ein Skript oder eine andere Methode notwendig sein.

Häufige Fehler und Lösungen

Fehler bei dynamischen Inhalten: Viele Seiten wie die Gelben Seiten verwenden dynamische Strukturen, die Power Query nicht verarbeiten kann. In diesem Fall ist VBA oder eine andere Programmiersprache eine mögliche Lösung.
Scriptfehler: Wenn du die Meldung "In dem Script auf dieser Seite ist ein Fehler aufgetreten" erhältst, liegt es oft daran, dass die Seite Frames oder andere Einschränkungen hat.
Leere Daten: Wenn du keine Daten erhältst, könnte dies an der Anzahl der Treffer liegen, die nicht vollständig geladen werden. Du musst möglicherweise durch die Seiten navigieren, um alle Informationen zu extrahieren.

Alternative Methoden

Wenn Power Query nicht funktioniert, kannst du alternative Methoden in Betracht ziehen:

VBA-Skripte: Nutze VBA, um die Daten automatisch auszulesen. Hier ist ein Beispiel, wie du deine Anfrage anpassen könntest:

Dim http As Object
Set http = CreateObject("MSXML2.ServerXMLHTTP.6.0")
http.Open "GET", "https://www.gelbeseiten.de/Suche/Photovoltaik", False
http.send
Debug.Print http.responseText

Powershell: Du kannst auch Powershell verwenden, um die Daten von den Gelben Seiten zu extrahieren. Hier ein einfacher Einstieg:
```
$url = 'https://www.gelbeseiten.de/Suche/Photovoltaik'
$result = Invoke-WebRequest -Uri $url
$result.Content
```
Web-Scraping-Tools: Es gibt auch spezialisierte Tools für Web-Scraping, die einfacher zu bedienen sind als VBA oder Powershell.

Praktische Beispiele

Hier sind einige praktische Beispiele, wie du die gelben seiten adressen exportieren kannst:

Photovoltaik Anbieter: Wenn du Anbieter für Photovoltaik suchst, gehe auf https://www.gelbeseiten.de/Suche/Photovoltaik und folge der Schritt-für-Schritt-Anleitung.
Das Telefonbuch: Für das telefonbuch gelbe seiten kannst du die gleiche Methode verwenden. Beachte die Anzahl der Treffer und die Notwendigkeit, durch die Seiten zu navigieren.

Tipps für Profis

Browser-Entwicklertools nutzen: Verwende die Entwicklertools in deinem Browser, um die HTML-Struktur der Seite besser zu verstehen und die benötigten Daten zu identifizieren.
Daten filtern: Nutze Excel-Filter, um die exportierten Daten zu optimieren und Duplikate zu entfernen. Dies ist besonders hilfreich, wenn du viele Daten von verschiedenen Quellen hast.
API-Integration: Wenn verfügbar, nutze APIs der Dienste, um Daten direkt und effizient zu importieren.

FAQ: Häufige Fragen

1. Warum kann ich keine Daten von den Gelben Seiten abrufen?
Die Website verwendet wahrscheinlich dynamische Inhalte, die Power Query nicht verarbeiten kann. Versuche, ein VBA-Skript oder Powershell zu nutzen.

2. Welche Excel-Version benötige ich?
Obwohl die meisten Funktionen in Excel 2016 oder neuer verfügbar sind, sind einige Methoden möglicherweise nicht mit älteren Versionen wie Excel 2013 kompatibel.

3. Gibt es eine Möglichkeit, die Daten automatisiert zu extrahieren?
Ja, du kannst VBA oder Powershell verwenden, um Daten automatisiert abzurufen. Alternativ stehen auch Web-Scraping-Tools zur Verfügung.

4. Wie gehe ich mit Duplikaten um?
Nutze Excel-Funktionen wie Entfernen von Duplikaten, um doppelte Einträge zu filtern, besonders wenn du Daten von verschiedenen gelben seiten hast.

Beliebteste Forumthreads (12 Monate)

Fehler beim extrahieren aus Gelbe Seiten

Forumthread: Fehler beim extrahieren aus Gelbe Seiten

7
Beiträge zum Forumthread

Beiträge zu diesem Forumthread

Forumthreads zu verwandten Themen

Infobox / Tutorial

Fehler bei der Nutzung der Gelben Seiten in Excel beheben

Schritt-für-Schritt-Anleitung

Häufige Fehler und Lösungen

Alternative Methoden

Praktische Beispiele

Tipps für Profis

FAQ: Häufige Fragen

Beliebteste Forumthreads (12 Monate)

Fehler beim extrahieren aus Gelbe Seiten

Forumthread: Fehler beim extrahieren aus Gelbe Seiten

7 Beiträge zum Forumthread Beiträge zu diesem Forumthread

Forumthreads zu verwandten Themen

VBA Beispiele zu diesem und ähnlichen Themen

Infobox / Tutorial

Fehler bei der Nutzung der Gelben Seiten in Excel beheben

Schritt-für-Schritt-Anleitung

Häufige Fehler und Lösungen

Alternative Methoden

Praktische Beispiele

Tipps für Profis

FAQ: Häufige Fragen

Beliebteste Forumthreads (12 Monate)

7
Beiträge zum Forumthread

Beiträge zu diesem Forumthread