HTTrack - Der Website Downloader

1. Februar 2025 Lioh Möller Lesezeit: 4 Minuten 🗪 6 Kommentare Auf Mastodon ansehen

In diesem Tutorial zeige ich dir, wie du ganze Websites mit HTTrack für den Offline-Zugriff speichern kannst. Egal, ob für die eigene Sicherung oder einfach zum Stöbern ohne Internet – ich zeige dir Schritt für Schritt, wie es funktioniert.

Webseiten herunterladen mit HTTrack – Eine einfache Anleitung

⭐ für Einsteiger:innen empfohlen

In diesem möchte ich euch eine tolle Möglichkeit vorstellen, wie ihr ganz einfach Webseiten herunterladen und offline nutzen könnt. Die Lösung, die ich euch zeige, ist bereits seit vielen Jahren beliebt und trägt den Namen HTTrack. Doch ich möchte euch eine noch benutzerfreundlichere Variante präsentieren: HTTraQt. Diese Version bietet eine grafische Oberfläche, die das Arbeiten mit HTTrack erheblich vereinfacht.

Was ist HTTrack?

HTTrack ist ein kostenloses Tool, das es ermöglicht, komplette Webseiten auf euren Computer herunterzuladen. Es speichert alle HTML-Dateien, Bilder, Stylesheets und andere Ressourcen, sodass ihr die Webseite später offline betrachten könnt. Die Originalversion von HTTrack findet ihr auf httrack.com, wo es auch verschiedene Downloads für unterschiedliche Plattformen gibt.

Installation von HTTraQt

Ich nutze in diesem Video meine eigene Linux-Distribution SpaceFun, die auf Debian basiert. Daher kann ich die üblichen Debian-Paketmanagement-Tools verwenden. Um HTTraQt zu installieren, öffne ich ein Terminal und gebe den folgenden Befehl ein:

sudo apt-cache search httrack

Nach Eingabe meines Passworts wird mir eine Liste aller Pakete angezeigt, die 'httrack' im Namen haben. Ich sehe das Hauptpaket für die Kommandozeilenversion und die grafische Variante, die ich suche: HTTraQt. Jetzt installiere ich die Anwendung mit folgendem Befehl:

sudo apt install httraqt

HTTraQt starten und Webseite auswählen

Nach der Installation starte ich HTTraQt. Der Assistent öffnet sich sofort und ich kann ein neues Projekt anlegen. Ich nenne mein Projekt einfach 'knetfeder', da ich eine befreundete Webseite archivieren möchte: knetfeder.de. Diese Webseite bietet viele nützliche Informationen rund um Linux sowie liebevoll gestaltete Zeichnungen und Wallpapers – ein echter Geheimtipp!

Im Assistenten kann ich nun ein Basisverzeichnis auswählen, in dem die heruntergeladene Webseite gespeichert werden soll. Ich lasse es bei 'My Web Sites' und wähle die Option für eine automatische Website-Kopie. Das ist die einfachste Methode, um die Webseite zu archivieren.

Download-Optionen anpassen

Jetzt kann ich die URL der Webseite hinzufügen. Falls die Webseite eine Authentifizierung benötigt, kann ich hier auch die Zugangsdaten eingeben. Ich klicke auf 'Weiter' und habe die Möglichkeit, einige spezielle Optionen einzustellen. Ich kann unter anderem festlegen, dass mein Rechner nach dem Download automatisch heruntergefahren wird, wenn es sich um eine größere Webseite handelt.

Nach einem Klick auf 'Fertig' beginnt der Download. HTTraQt versucht inzwischen, alle Links auf der Webseite aufzulösen und die entsprechenden Dateien offline zu speichern. Das Beste daran: Die heruntergeladenen Dateien sind im HTML-Format, sodass ich die Webseite überall weiter nutzen kann.

Die heruntergeladene Webseite ansehen

Während der Download läuft, kann ich im Dateimanager nachsehen, was bereits gespeichert wurde. In meinem Projektordner 'knetfeder' finde ich die ersten Dateien. Ich öffne die 'index.html' und kann bereits erste Informationen sehen. Natürlich fehlen noch einige Logos und das Design, da der Download noch im Gange ist. Es kann etwas Zeit in Anspruch nehmen, bis alles vollständig ist, aber die Geduld lohnt sich!

Fazit

Mit HTTrack und HTTraQt habt ihr eine großartige Möglichkeit, Webseiten offline zu archivieren und zu nutzen. Egal, ob ihr Inhalte für die spätere Verwendung speichern oder einfach nur eine Webseite für den Offline-Zugriff sichern möchtet – dieses Tool macht es einfach.

Wenn ihr Fragen oder Anregungen habt, schaut gerne in unserer Community auf spacefun.ch vorbei. Dort findet ihr auch die Möglichkeit, mit anderen Linux-Freunden in Kontakt zu treten. Ich freue mich darauf, von euch zu hören!

Bis zum nächsten Mal und viel Spaß beim Ausprobieren!

TuxWiz

Hast du Lust, das Linux-Betriebssystem auf eine unterhaltsame Weise kennenzulernen? Dann schau unbedingt auf meinem YouTube-Kanal TuxWiz vorbei! ✨

Ich habe speziell für Einsteiger eine Playlist erstellt, die dich Schritt für Schritt durch die aufregende Welt von Linux und Freier Software führt. Also starte von Anfang an – du wirst sehen, wie viel Spass es macht!

Die Linux-Lernvideos bauen auf meiner Debian GNU/Linux basierenden Distribution SpaceFun auf. Viele der bei Einsteiger_innen beliebten Linux-Distros wie Mint, MX Linux oder Ubuntu stammen ebenfalls aus dieser kosmischen Familie. Falls du eine andere Distro nutzt, keine Sorge – die grundlegenden Mechanismen sind universell und lassen sich problemlos übertragen.

Ich freue mich auch, wenn du mir auf Mastodon folgst. Dort erfährst du immer sofort, wenn es etwas Neues zu entdecken gibt.

Mein Kanal auf YouTube: https://www.youtube.com/@tuxwiz

Die Einsteiger-Playlist: https://www.youtube.com/playlist?list=PLJlnbs0kQiZiWks57CPOoCOnUlFwbZWQp

Geschrieben von Liegeradler am 1. Februar 2025 um 11:08

Hallo Lioh, geht das auch mit Webseiten, die JavaScript enthalten?

Antworten

Geschrieben von Peter am 13. Juni 2025 um 00:06

Nicht Lioh :).

Und: Jein.

Genauer: Im allgemeinen: natürlich nicht (zB alles mit Seiteninhalt-relevanter API-Nutzung, REST, ...).

Aber: In einfachen Fällen mit hinreichend friedlich-gehaltenem Javascript enthält HTTrack ein paar Heuristiken, die vielleicht über das Linkrewriting, etc von wget hinausreichen. Mal sehen.

Siehe https://www.httrack.com/html/fcguide.html.

Geschrieben von Flo am 1. Februar 2025 um 11:30

Einige beklagen schwerwiegende Fehler: https://www.reddit.com/r/DataHoarder/comments/10yjkgm/alternative_to_httrack_website_copier_as_of_2023/?tl=de

Laut Webseite ist HTTrack seit 8 Jahren nicht mehr verändert worden. Die Github-Seite zeigt zwar Aktivität leichte von vor 1 bis 3 Jahren, doch es gab scheinbar keinen neuen Release.

Geschrieben von Pascal am 1. Februar 2025 um 11:35

Danke für den Artikel Lioh!

Ich benutze oft den Kurzbefehl von wget:

wget -mkEpnp https://gnulinux.ch

mit den commands ausgeschrieben sieht der Befehl so aus:

wget --mirror --convert-links --page-requisites --no-parent -P https://some-website.com

Ich nehme an HTTrack beobachtet zusätzlich auch Veränderungen von Websites und aktualisiert diese automatisch?

Muss ich unbedingt mal selber testen..

Geschrieben von André am 1. Februar 2025 um 22:49

Wollte ich auch gerade schreiben.

Ich benutze diese Variante.

wget --mirror --convert-links --adjust-extension --page-requisites --convert-links URL

Geschrieben von Robert am 1. Februar 2025 um 15:30

Passend zum Thema, eine Linksammlung zur Webseiten-Archivierung: https://neoxion.net/webarchive-library/

Um Daten aus Webseiten zu extrahieren und zu speichern, noch eine Linksammlung zum Thema Web-Scraper https://neoxion.net/webextract-scraper/ Wobei übrigens Common Crawl https://commoncrawl.org/ circa 60% des Content für die Entwicklung von ChatGPT geliefert hat.