logo
logo
Massenumwandlung von Webseiten zu PDF - Mac-TV.de
Zurück   Mac-TV.de > Fachforen für klassische Macs > Sonstige Fachfragen
Registrieren Hilfe Suchen Heutige Beiträge Alle Foren als gelesen markieren

Antwort
 
Themen-Optionen Thema durchsuchen
  #1  
Alt 25.04.2018, 23:16
RostockBaer RostockBaer ist offline
Neuer Benutzer
 
Registriert seit: 25.04.2018
Beiträge: 13
Massenumwandlung von Webseiten zu PDF

Hallo liebe Forenmitglieder,
hallo lieber Jörn, lieber Gerd!

Ich bin noch ziemlich neu hier als Mac-TV Zuschauer und erst recht im Forum. Einen Mac habe ich jetzt seit ca. 2 Jahren aber mich noch nicht wirklich mit den ganzen Automatisierungsmechanismen auseinandergesetzt. Obwohl die wirklich sehr interessant zu sein scheinen, zumindest wie das bei Jörn in den Sendungen so aussieht.

Genug der Vorrede und nun zu meinem Anliegen.

In meiner Masterarbeit analysiere ich viele Zeitungsartikel des Spiegels und der Süddeutschen Zeitung (nur online) hinsichtlich eines Themas. Diese Artikel möchte ich gern als PDF archivieren, um auch langfristig nachweisen zu können, wie die Artikel zum Zeitpunkt der Analyse ausgesehen haben (die können sich ja auch nochmal verändern). Da es aber insgesamt 912 Artikel und damit Webseiten sind, würde es unglaublich lange dauern jeden Artikel einzeln aufzurufen und über den Drucken-Dialog als PDF zu speichern.
Hinzu kommt noch, dass gerade bei der Süddeutschen Zeitung einige Artikel mehrere Seiten umfassen. Man muss dann immer noch extra ans Ende des Artikels scrollen, um dann "Auf einer Seite anzeigen" auszuwählen.

Meine Frage ist also: Kann man das automatisieren?

P.S.: Ja, ich habe den Foren-Account während der Sendung erstellt. Und nein: Ich bin kein Spam.

Beste Grüße
Martin aus Rostock (RostockBaer)
Mit Zitat antworten
  #2  
Alt 26.04.2018, 00:04
Jörn Jörn ist gerade online
Administrator
 
Registriert seit: 05.01.2008
Beiträge: 8.832
Welche Datenbasis hast Du? Bookmarks? Also 912 Bookmarks?
Mit Zitat antworten
  #3  
Alt 26.04.2018, 08:29
RostockBaer RostockBaer ist offline
Neuer Benutzer
 
Registriert seit: 25.04.2018
Beiträge: 13
Die Bookmarks könnte ich auf jeden Fall anlegen. Ist zwar auch nochmal Klick-Arbeit, aber doch relativ schnell machbar. Da könnte man auch den Fall der SZ umgehen, indem man sich den Link als Bookmark speichert, der den Artikel als eine Seite anzeigt.
Wenn man jetzt die Klicks minimieren will, könnte ich die Seiten auch noch z.B. in Pocket oder Instapaper sichern. Das wäre ein Klick, Bookmarks zwei Klicks. Bei Instapaper kann man z.B. auch alle gespeicherten Artikel als CSV-Liste exportieren.
Mit Zitat antworten
  #4  
Alt 26.04.2018, 14:33
Jörn Jörn ist gerade online
Administrator
 
Registriert seit: 05.01.2008
Beiträge: 8.832
Das verstehe ich noch nicht. Wieso weißt Du, dass es 912 Webseiten sind? Du musst doch irgendwo die Adressen (URLs) gespeichert haben, oder hast Du die alle im Kopf?

Woraus bestehen Deine Daten? Ist es eine Excel-Tabelle? Eine Datenbank? Was hast Du?

Geändert von Jörn (26.04.2018 um 16:37 Uhr).
Mit Zitat antworten
  #5  
Alt 26.04.2018, 21:03
RostockBaer RostockBaer ist offline
Neuer Benutzer
 
Registriert seit: 25.04.2018
Beiträge: 13
Ah okay. Ich muss vielleicht dazu sagen, dass ich die Artikel unter anderem mit korpuslinguistischen Methoden analysiere. Für diesen Zweck brauche ich sie als .txt-Dateien. Das heißt ich habe schon einmal die ganze Klick-Arbeit durch. Ich schätze nämlich, dass man das definitiv nicht automatisieren kann.

Und um die Artikel jetzt wieder aufzufinden, kann ich einfach in der Suchmaske der beiden Nachrichtenportale meine Suchbegriffe eingeben, entsprechende Filter anwenden und sehe ja dann, welche ich angeklickt habe, weil die Links entsprechend als "besucht" farblich gekennzeichnet sind - letztlich wie bei Google.

Also wenn ein derartiger erster Schritt nötig ist, also zum Beispiel das Abspeichern in einer Excel-Tabelle, dann ist das ja noch relativ wenig Aufwand. Viel wird es erst durch das einzelne Aufrufen und Speichern der Artikel.

Ich habe die ganzen URLs noch nicht extra gespeichert, weil ich immer die Hoffnung hatte, dass man die Problematik über einen Webcrawler erledigen kann. Aber entweder ich sehe da nicht richtig durch oder die können tatsächlich vordergründig Meta-Daten und anderes extrahieren, aber keine ganzen Artikel.

Ist es so einigermaßen verständlich?
Mit Zitat antworten
  #6  
Alt 26.04.2018, 21:23
Jörn Jörn ist gerade online
Administrator
 
Registriert seit: 05.01.2008
Beiträge: 8.832
Verstehe ich das richtig:

- Es gibt zwei Webseiten (Nachrichtenportale), diese verfügen über ein Suchfeld.
- Je nachdem, welchen Suchbegriff Du in das Suchfeld eingibst, erscheinen die Links zu den Artikeln.
- Du suchst aber nicht alle gefundenen Artikel, sondern nur bestimmte, die Du zuvor angeklickt hattest.
- Diese zuvor besuchten Artikel sind farblich hervorgehoben, d.h. Dein Browser erkennt diese URLs als "bereits besucht". Eine andere "Markierung" gibt es nicht, sondern das einzige Erkennungszeichen ist die Farbe.

Ist das so korrekt?

Noch zwei Fragen:

- Wieso schätzt Du, dass das Anlegen einer Excel-Tabelle mit 912 URLs "wenig Aufwand" wäre? Müsste das nicht ein mörderischer Aufwand sein? Wie würdest Du hier vorgehen? Wieso weisst Du, dass es genau 912 Seiten sind?

- Wenn Du im Browser den "Verlauf" anzeigen lässt (bei Safari wäre das durch Tippen von CMD-Y), bekommst Du dort neben den ganzen besuchten Webseiten auch eine Suchfunktion. Wenn Du nun in dieser Suche den Namen eines der Nachrichtenportale eingibst: Müsstest Du dann nicht sofort eine Liste der bereits besuchten URLs angezeigt bekommen? Darüber würden wir eine feine Liste an URLs bekommen.
Mit Zitat antworten
  #7  
Alt 26.04.2018, 21:33
RostockBaer RostockBaer ist offline
Neuer Benutzer
 
Registriert seit: 25.04.2018
Beiträge: 13
Genau, das beschreibt es sehr gut.

Zum Anlegen der Excel-Tabelle: Also im Vergleich zu den Schritten, die ich ausführen müsste, wenn ich einfach jeden Artikel manuell als PDF speichern will (Aufrufen/ggf. ans Ende scrollen und "als eine Seite anzeigen" klicken/Druck-Dialog/Speichern als PDF/Bestätigen) wäre es weniger Aufwand da ich wie folgt vorgehen würde: Safari links, Excel rechts. Die Ergebnisliste der Suche auf den Nachrichtenportalen enthält 20-30 Artikel pro Seite. Rechtsklick auf Link/Link kopieren/in Excel einfügen.

Das mit dem Verlauf ist eine super Idee - so simpel, aber ja, dann hätte man eine schöne Liste der Artikel.

Hab auch gerade gesehen, dass man den Verlauf einfach per copy&paste in Excel übertragen kann.
Mit Zitat antworten
  #8  
Alt 26.04.2018, 22:44
Jörn Jörn ist gerade online
Administrator
 
Registriert seit: 05.01.2008
Beiträge: 8.832
Die Sache mit den mehrseitigen Artikeln ist das größte Problem. Möchtest Du mal ein Beispiel eines solchen Artikels posten (gerne auch per PM, falls es nicht öffentlich sein soll), damit ich mal sehen kann, wie diese Alles-auf-einer-Seite-URLs konstruiert sind?
Mit Zitat antworten
  #9  
Alt 26.04.2018, 22:52
RostockBaer RostockBaer ist offline
Neuer Benutzer
 
Registriert seit: 25.04.2018
Beiträge: 13
Das dachte ich mir schon fast. Tritt zum Glück nur bei der Süddeutschen Zeitung auf. Ein Beispielartikel wäre:

http://www.sueddeutsche.de/politik/i...gabe-1.3907350
Mit Zitat antworten
Antwort


Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge anzufügen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

vB Code ist An.
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist Aus.
Gehe zu




Powered by vBulletin® Version 3.6.8 (Deutsch)
Copyright ©2000 - 2020, Jelsoft Enterprises Ltd.