Das Internet ist voll von wertvollen Daten für Unternehmen aus allen Branchen. Um also von all diesen verfügbaren Informationen zu profitieren, ist es möglich, Daten von einer oder mehreren Webseiten zu extrahieren. Insbesondere durch Web Scraping mit Power Query. DataScientest erklärt dir, wie das geht.
Was ist Web Scraping?
Web Scraping ist ganz einfach die Möglichkeit, Daten von einer Webseite abzurufen. Auf diese Weise können alle nützlichen Informationen, die auf einer Webseite zu finden sind, in einer eigenen Datenbank gespeichert werden.
Diese Methode wird oft von Unternehmen zur Überwachung der Konkurrenz verwendet. Die Idee ist es, die Daten von Konkurrenzunternehmen zu vergleichen, um eine umfassende Marktstudie zu erstellen. Es ist aber auch möglich, Web-Scraping von einer Regierungsseite zu betreiben, um offizielle Informationen zu speichern, oder, um Statistiken zu erhalten, von einer Seite, die auf eine zusätzliche Branche spezialisiert ist, usw.
Was auch immer das Ziel ist, die Datenabfrage ist von jeder beliebigen Website aus möglich. Und vor allem wird das Web Scraping mit Power Query, dem in Power BI integrierten Abfrageeditor, erleichtert.
Wie kann man mit Power Query Web Scraping betreiben?
Um Web Scraping über Power Query und Power BI durchzuführen, musst du folgende Schritte durchführen.
Daten extrahieren
Die Daten werden aus dem Power BI-Tool extrahiert. Von dort aus führst du die folgenden Schritte aus:
- Klicke auf der Registerkarte „Startseite“ auf „Daten beziehen“.
- Gib in der Suchleiste „web“ ein, um den Web Connector auszuwählen. Das ist der, mit dem du dich mit der Website verbinden und ihre Daten abrufen kannst.
- Gib die URL ein, von der du die Daten abrufen möchtest, und klicke auf „OK“.
- In den meisten Fällen ist keine Authentifizierung erforderlich, um auf die Website zuzugreifen.
- In einigen Fällen musst du dich jedoch über Windows-Anmeldemodi, Web-APIs oder Geschäftskonten authentifizieren.
Klicke auf „Anmelden“. - Es öffnet sich eine Navigationsseite, die dir mehrere vorgeschlagene Tabellen anzeigt, die die Daten aus der URL enthalten. Wähle einfach die Tabelle aus, aus der du die Daten extrahieren möchtest.
- Klicke auf „Daten umwandeln“.
Web Scraping ermöglicht zwar das einfache Abrufen von Daten von einer Webseite, aber diese Daten werden gemäß den Anforderungen der Webseite formatiert. Meistens passen diese Formate jedoch nicht in deine Datenbank. Daher musst du die Tabelle umwandeln und das Web Scraping mit Power Query verwenden.
Daten umwandeln
Sobald du auf „Daten umwandeln“ geklickt hast, erscheint der Abfrageeditor Power Query, um das Web Scraping zu vervollständigen. Dort findest du die ausgewählte Tabelle mit all ihren Daten.
Damit sie deinen Analyse- und Berichtsanforderungen entspricht, kannst du mit Power Query mehrere Bearbeitungsaktionen durchführen. Zum Beispiel:
- Tabelle umbenennen
- Spalten löschen
- Spalten umbenennen
- Spalten hinzufügen
Sobald deine Tabelle fertig ist, klicke auf „Schließen und anwenden“, um sie in Power BI anzusehen.
Alle Tabellen der Website hinzufügen
Das Interessante am Web Scraping mit Power Query ist auch die Möglichkeit, Daten von allen Seiten einer Website abzurufen.
Um dies zu tun, muss der Code der Tabelle geändert werden. Hier sind die Schritte, die du unternehmen musst:
- Benutze den erweiterten Editor, um die Codezeilen der Tabelle anzuzeigen;
- Du wirst eine Zeile sehen:
Source=Web.Browser.Content(„https:www.votre-url.com/blog/page/2“). In diesem Fall werden nur die Tabellen der Seite eingebunden. - Wenn du also alle Seiten haben möchtest, kannst du den Code wie folgt ändern:
Source=Web.Browser.Content(„https:www.votre-url.com/blog/page/“&Page&“). - Von nun an wird die Datentabelle zu einer Funktion. Du kannst sie in FxPages umbenennen, bevor du eine Liste erstellst, die alle Seitenzahlen enthält.
- Klicke auf „Eigene Funktion aufrufen“, um die Funktion FxPages aufzurufen.
Eine neue Spalte wird hinzugefügt. - Erweitere sie, um eine neue Tabelle zu erstellen, die alle Daten der Seite umfasst.
Transformiere die Daten wie oben beschrieben. - Klicke auf „Schließen und anwenden“.
Power Query mit DataScientest lernen
Neben dem Web Scraping bietet dir Power Query eine Vielzahl von Funktionen zur Verwaltung deiner Datenbanken. Aber der Abfrage-Editor ist nicht so einfach zu beherrschen.
Um all diese Dienste mit Leichtigkeit nutzen zu können, ist es von größter Wichtigkeit, sich weiterzubilden.
Genau dafür bietet dir DataScientest seine Datentrainings an. Entdecke sie!