Webseiten herunterladen mit HTTrack – Eine einfache Anleitung
⭐ für Einsteiger:innen empfohlen
In diesem möchte ich euch eine tolle Möglichkeit vorstellen, wie ihr ganz einfach Webseiten herunterladen und offline nutzen könnt. Die Lösung, die ich euch zeige, ist bereits seit vielen Jahren beliebt und trägt den Namen HTTrack. Doch ich möchte euch eine noch benutzerfreundlichere Variante präsentieren: HTTraQt. Diese Version bietet eine grafische Oberfläche, die das Arbeiten mit HTTrack erheblich vereinfacht.
Was ist HTTrack?
HTTrack ist ein kostenloses Tool, das es ermöglicht, komplette Webseiten auf euren Computer herunterzuladen. Es speichert alle HTML-Dateien, Bilder, Stylesheets und andere Ressourcen, sodass ihr die Webseite später offline betrachten könnt. Die Originalversion von HTTrack findet ihr auf httrack.com, wo es auch verschiedene Downloads für unterschiedliche Plattformen gibt.
Installation von HTTraQt
Ich nutze in diesem Video meine eigene Linux-Distribution SpaceFun, die auf Debian basiert. Daher kann ich die üblichen Debian-Paketmanagement-Tools verwenden. Um HTTraQt zu installieren, öffne ich ein Terminal und gebe den folgenden Befehl ein:
sudo apt-cache search httrack
Nach Eingabe meines Passworts wird mir eine Liste aller Pakete angezeigt, die 'httrack' im Namen haben. Ich sehe das Hauptpaket für die Kommandozeilenversion und die grafische Variante, die ich suche: HTTraQt. Jetzt installiere ich die Anwendung mit folgendem Befehl:
sudo apt install httraqt
HTTraQt starten und Webseite auswählen
Nach der Installation starte ich HTTraQt. Der Assistent öffnet sich sofort und ich kann ein neues Projekt anlegen. Ich nenne mein Projekt einfach 'knetfeder', da ich eine befreundete Webseite archivieren möchte: knetfeder.de. Diese Webseite bietet viele nützliche Informationen rund um Linux sowie liebevoll gestaltete Zeichnungen und Wallpapers – ein echter Geheimtipp!
Im Assistenten kann ich nun ein Basisverzeichnis auswählen, in dem die heruntergeladene Webseite gespeichert werden soll. Ich lasse es bei 'My Web Sites' und wähle die Option für eine automatische Website-Kopie. Das ist die einfachste Methode, um die Webseite zu archivieren.
Download-Optionen anpassen
Jetzt kann ich die URL der Webseite hinzufügen. Falls die Webseite eine Authentifizierung benötigt, kann ich hier auch die Zugangsdaten eingeben. Ich klicke auf 'Weiter' und habe die Möglichkeit, einige spezielle Optionen einzustellen. Ich kann unter anderem festlegen, dass mein Rechner nach dem Download automatisch heruntergefahren wird, wenn es sich um eine größere Webseite handelt.
Nach einem Klick auf 'Fertig' beginnt der Download. HTTraQt versucht inzwischen, alle Links auf der Webseite aufzulösen und die entsprechenden Dateien offline zu speichern. Das Beste daran: Die heruntergeladenen Dateien sind im HTML-Format, sodass ich die Webseite überall weiter nutzen kann.
Die heruntergeladene Webseite ansehen
Während der Download läuft, kann ich im Dateimanager nachsehen, was bereits gespeichert wurde. In meinem Projektordner 'knetfeder' finde ich die ersten Dateien. Ich öffne die 'index.html' und kann bereits erste Informationen sehen. Natürlich fehlen noch einige Logos und das Design, da der Download noch im Gange ist. Es kann etwas Zeit in Anspruch nehmen, bis alles vollständig ist, aber die Geduld lohnt sich!
Fazit
Mit HTTrack und HTTraQt habt ihr eine großartige Möglichkeit, Webseiten offline zu archivieren und zu nutzen. Egal, ob ihr Inhalte für die spätere Verwendung speichern oder einfach nur eine Webseite für den Offline-Zugriff sichern möchtet – dieses Tool macht es einfach.
Wenn ihr Fragen oder Anregungen habt, schaut gerne in unserer Community auf spacefun.ch vorbei. Dort findet ihr auch die Möglichkeit, mit anderen Linux-Freunden in Kontakt zu treten. Ich freue mich darauf, von euch zu hören!
Bis zum nächsten Mal und viel Spaß beim Ausprobieren!
TuxWiz
Hast du Lust, das Linux-Betriebssystem auf eine unterhaltsame Weise kennenzulernen? Dann schau unbedingt auf meinem YouTube-Kanal TuxWiz vorbei! ✨
Ich habe speziell für Einsteiger eine Playlist erstellt, die dich Schritt für Schritt durch die aufregende Welt von Linux und Freier Software führt. Also starte von Anfang an – du wirst sehen, wie viel Spass es macht!
Die Linux-Lernvideos bauen auf meiner Debian GNU/Linux basierenden Distribution SpaceFun auf. Viele der bei Einsteiger_innen beliebten Linux-Distros wie Mint, MX Linux oder Ubuntu stammen ebenfalls aus dieser kosmischen Familie. Falls du eine andere Distro nutzt, keine Sorge – die grundlegenden Mechanismen sind universell und lassen sich problemlos übertragen.
Ich freue mich auch, wenn du mir auf Mastodon folgst. Dort erfährst du immer sofort, wenn es etwas Neues zu entdecken gibt.
Mein Kanal auf YouTube: https://www.youtube.com/@tuxwiz
Die Einsteiger-Playlist: https://www.youtube.com/playlist?list=PLJlnbs0kQiZiWks57CPOoCOnUlFwbZWQp
Hallo Lioh, geht das auch mit Webseiten, die JavaScript enthalten?
Einige beklagen schwerwiegende Fehler: https://www.reddit.com/r/DataHoarder/comments/10yjkgm/alternative_to_httrack_website_copier_as_of_2023/?tl=de
Laut Webseite ist HTTrack seit 8 Jahren nicht mehr verändert worden. Die Github-Seite zeigt zwar Aktivität leichte von vor 1 bis 3 Jahren, doch es gab scheinbar keinen neuen Release.
Danke für den Artikel Lioh!
Ich benutze oft den Kurzbefehl von wget:
mit den commands ausgeschrieben sieht der Befehl so aus:
Ich nehme an HTTrack beobachtet zusätzlich auch Veränderungen von Websites und aktualisiert diese automatisch?
Muss ich unbedingt mal selber testen..
Passend zum Thema, eine Linksammlung zur Webseiten-Archivierung: https://neoxion.net/webarchive-library/
Um Daten aus Webseiten zu extrahieren und zu speichern, noch eine Linksammlung zum Thema Web-Scraper https://neoxion.net/webextract-scraper/ Wobei übrigens Common Crawl https://commoncrawl.org/ circa 60% des Content für die Entwicklung von ChatGPT geliefert hat.