Google Colab ist ein Online-Dienst für Jupyter-Notebooks, mit dem Du Python-Code direkt im Webbrowser schreiben und ausführen kannst. Kostenlos und mit einem Google-Konto zugänglich, ist Colab ideal für Datenanalyse und Data Science mit Python geeignet. Es bietet Codezellen und Textblöcke in Markdown-Syntax, um den Code übersichtlich zu strukturieren und zu kommentieren.
Ein auf Colab erstelltes Notebook wird automatisch auf Google Drive gespeichert. Praktisch gesehen handelt es sich um eine .ipynb
-Datei, die Du bei Bedarf herunterladen und lokal mit Jupyter Notebook öffnen kannst. Umgekehrt lassen sich lokale .ipynb
-Dateien auf Google Drive hochladen, um sie in Colab zu bearbeiten und auszuführen – inklusive Zugriff auf zusätzliche Ressourcen wie GPU (Graphics Processing Unit) oder TPU (Tensor Processing Unit). Für die Zusammenarbeit im Team kannst Du ein Colab-Notebook wie ein Google-Dokument freigeben. Außerdem ist es möglich, direkt auf Dateien auf Google Drive zuzugreifen, zum Beispiel bei der Arbeit mit Datensätzen im .csv
-Format.
Aber wie teilt man am besten sowohl den Code als auch die zugehörigen Dateien? Genau an diesem Punkt wird es (ein wenig) komplizierter – und es gibt mehrere Wege, dies umzusetzen.
Während ihrer Ausbildung bei DataScientest arbeiten unsere Teilnehmenden an einem durchgehenden Projekt, bei dem die erworbenen Fähigkeiten in einem vollständigen, praxisnahen Use Case angewendet werden. Dieses Projekt wird in Teams von zwei bis vier Personen durchgeführt – oft standortübergreifend. Um diese Zusammenarbeit auf Distanz effizient zu organisieren, bietet unser pädagogisches Team eine Masterclass an, die die Grundlagen erklärt und verschiedene Lösungswege aufzeigt. Anschließend wird jedes Team individuell betreut – durch regelmäßige Termine mit dem eigenen Mentor.
In diesem Artikel zeigen wir Dir die wichtigsten Punkte, um mit Google Colab erfolgreich im Team zu starten. Was empfehlen die Mentoren von DataScientest? Worauf solltest Du besonders achten? In weniger als sieben Minuten hast Du einen klaren Überblick über die drei besten Szenarien für eine reibungslose Zusammenarbeit.
Zuerst: Erstelle und teile Dein Notebook
- Gehe in Deinem Google Drive auf Deinen Projektordner und klicke auf „+ Neu“ > „Mehr“ > „Google Colaboratory“ (oder auf „Weitere Apps verbinden“, falls es nicht in der Liste erscheint) und dann auf „Erstellen“.
- Alternativ kannst Du auch direkt über https://colab.google einsteigen und dort auf „New Notebook“ klicken. Die Datei wird dann automatisch in Deinem Drive im Unterordner „Colab Notebooks“ gespeichert.
- Benenne die Datei um – standardmäßig heißt sie „Untitled0.ipynb“.
Dann klick auf den „Teilen“-Button und gib Deinen Teamkollegen Bearbeitungsrechte.
⚠️ Wichtig: Das Notebook kann nur von einer Person gleichzeitig ausgeführt werden.
Szenario 1: Gemeinsame Datei mit BytesIO laden
Diese Methode ist besonders für den Projektstart zu empfehlen. Damit könnt Ihr alle dieselbe Quelldatei nutzen, ohne dass jeder den Code zum Laden anpassen muss. Die Datei kann im Drive eines beliebigen Teammitglieds gespeichert sein – Hauptsache, sie ist öffentlich freigegeben.
Beispielcode:
import pandas as pd
from io import BytesIO
import requests
# Nur zur Veranschaulichung, wie man die file_id findet:
original_link = "https://drive.google.com/file/d/1fRkXUdfLzTMkscHsAI8_NJuuDptwk02W/view?usp=drive_link"
# Datei-ID (aus dem Freigabelink) – DIE DATEI MUSS ÖFFENTLICH SEIN
file_id = "1fRkXUdfLzTMkscHsAI8_NJuuDptwk02W"
# Download-Link erstellen
download_url = f"https://drive.google.com/uc?id={file_id}"
# Datei herunterladen und einlesen
response = requests.get(download_url)
data = BytesIO(response.content)
# CSV-Datei in ein DataFrame laden
df = pd.read_csv(data)
df.head()
🔗 Tipp: Mehr zur BytesIO
-Bibliothek findest Du in der offiziellen Dokumentation.
Szenario 2: Öffentliche Dateien mit gdown laden – einzeln oder im Paket
Wir empfehlen diese Methode regelmäßig unseren Studierenden. Die Bibliothek gdown
ist speziell dafür entwickelt worden, Dateien direkt von Google Drive zu importieren – zuverlässig und einfach. Auch hier gilt: Die Datei muss öffentlich freigegeben sein, damit alle im Team darauf zugreifen können.
💡 Tipp: Mit dem Parameter quiet=True
unterdrückst Du die Fortschrittsanzeige beim Download – ideal, um die Ausgabe übersichtlich zu halten.
Beispiel: Einzelne Dateien laden
# Pakete importieren
import subprocess
import sys
import pandas as pd
# Sicherstellen, dass gdown installiert ist
try:
import gdown
except ImportError:
subprocess.check_call([sys.executable, "-m", "pip", "install", "gdown"])
# Datei-ID aus dem Freigabelink (zwischen /d/ und /view)
# Beispiel-Link: https://drive.google.com/file/d/1ptwmJbk8ToMt4BvQeG5ni37IeNAOoAsb/view?usp=drive_link
file_id = '1ptwmJbk8ToMt4BvQeG5ni37IeNAOoAsb' # Ggf. durch eine kleinere Datei ersetzen
url = f'https://drive.google.com/uc?id={file_id}'
# Datei herunterladen
gdown.download(url, 'your_file_name.csv', quiet=True)
# CSV-Datei laden
df = pd.read_csv('your_file_name.csv')
df.head()
🗃️ Du hast mehrere Dateien im selben Drive-Ordner? Kein Problem – mit gdown
kannst Du den gesamten Ordner herunterladen und anschließend gezielt die benötigten Dateien laden.
import gdown
url = "https://drive.google.com/drive/folders/1HWFHKCprFzR7H7TYhrE-W7v4bz2Vc7Ia"
gdown.download_folder(url, quiet=True, use_cookies=False)
Nach dem Download gibt die Ausgabe eine Liste der heruntergeladenen Dateien zurück, z. B.:
['https://db0dce98.rocketcdn.me/content/ihpperson_data_with_rules/special_general.csv',
'https://db0dce98.rocketcdn.me/content/ihpperson_data_with_rules/remain_person.csv',
'https://db0dce98.rocketcdn.me/content/ihpperson_data_with_rules/general.csv',
'https://db0dce98.rocketcdn.me/content/ihpperson_data_with_rules/eunuch.csv',
'https://db0dce98.rocketcdn.me/content/ihpperson_data_with_rules/civil_servant.csv']
Jetzt kannst Du die Datei Deiner Wahl wie gewohnt mit pandas
laden:
import pandas as pd
df = pd.read_csv('https://db0dce98.rocketcdn.me/content/ihpperson_data_with_rules/special_general.csv')
df.head()
🔗 Mehr erfahren:
Offizielle Dokumentation: https://pypi.org/project/gdown
Codebeispiel von Google Colab:
Demo-Notebook auf GitHub
Szenario 3: Gemeinsamer Dateipfad mit Drive-Shortcut für private Dateien
Müssen Deine Quelldateien privat bleiben? Kein Problem – auch dafür gibt es eine Lösung: Du kannst ein Colab-Notebook im Team teilen und nacheinander bearbeiten, während der Datensatz nur für die Teammitglieder freigegeben ist. Ziel dieser Methode ist es, dass alle denselben Dateipfad verwenden können, um die Daten zu importieren – ganz ohne Codeänderungen.
So funktioniert es – am Beispiel der Nutzer A, B und C:
1. A legt den Datensatz dataset.csv
in einem Ordner namens „Data“ ab, den er im Stammverzeichnis seines Google Drives erstellt hat. Der vollständige Pfad lautet:
'/content/drive/My Drive/Data/dataset.csv'
2. A gibt den Ordner „Data“ für B und C frei.
3. B und C finden diesen Ordner unter „Für mich freigegeben“, erstellen einen Shortcut (Rechtsklick auf den Ordner > „Verknüpfung zu ‚Mein Drive‘ hinzufügen“) und legen ihn ebenfalls im Stammverzeichnis von „Mein Drive“ ab.
Alle Teammitglieder können nun denselben Pfad verwenden, um auf den Datensatz zuzugreifen:
'/content/drive/My Drive/Data/dataset.csv'
Verbindung zu Google Drive in Collab
Jedes Teammitglied, das das Notebook nutzt, muss zuerst Google Drive einbinden. Das geschieht über folgenden Code:
from google.colab import drive
drive.mount('/content/drive')
Danach kann der Datensatz ganz einfach geladen werden:
# Gemeinsamer Dateipfad für A, B und C
import pandas as pd
path = '/content/drive/My Drive/Data/dataset.csv'
df = pd.read_csv(path)
Zusammenfassung: Welche Methode wann?
Je nach Projektphase und Anforderungen gibt es verschiedene Wege, um Daten gemeinsam zu nutzen:
BytesIO (Szenario 1): Ideal am Anfang, wenn mit einem öffentlichen Datensatz gearbeitet wird. Einfachste Syntax, kein Setup nötig.
gdown (Szenario 2): Perfekt, wenn mehrere Dateien bereinigt und kombiniert werden müssen – zum Beispiel aus einem Drive-Ordner. Ebenfalls öffentlich zugänglich.
Drive-Shortcut (Szenario 3): Die beste Lösung, wenn Datensätze privat bleiben sollen. Ein gemeinsam genutzter Ordner, über einen Shortcut im Stammverzeichnis, sorgt für identische Pfade im Team.