Ako archivovať webové stránky v systémoch podobných unixu?

Je predvolene súčasťou mnohých systémov podobných systému Unix — Wget je program, ktorý dokáže sťahovať obsah z internetu a je predvolene súčasťou mnohých systémov podobných systému Unix.

Link rot (fenomén, kde staré webové stránky a stránky miznú, čím sú odkazy zbytočné) je na internete obrovský problém. Pre čitateľov je sklamaním, keď staré webové stránky už neexistujú. Pre autorov, ktorých písanie na webe je rozsiahlo prepojené hypertextovými odkazmi, je problém, že nie sú schopní overiť informácie, keď odkazy zaniknú. Nech už je motivácia akákoľvek, je dôležité vedieť archivovať informácie na internete.

Kroky

1
Pochopte svoje motivácie pre archiváciu stránok. Je dôležité vedieť, o čo sa pri archivácii stránky pokúšate.
- Existuje niekoľko dôvodov, prečo by ste mohli chcieť archivovať webovú stránku, a tieto ovplyvňujú vašu stratégiu:
  - Môžete len chcieť, aby existoval archív stránok, bez toho, aby ste sa museli starať o to, kto ho spravuje. Ak je to tak, pozrite sa na krok „Skontrolujte, či sú k dispozícii nedávne archívy webových stránok“.
  - Možno budete chcieť zachovať osobnú kópiu (tj. Mať archív lokálne). To môže nastať vtedy, ak nemôžete dôverovať ostatným, že uchovávajú archívy online (napr. Ak je obsah stránok chránený autorskými právami alebo nezákonný, môže byť predmetom zastavenia šírenia, v takom prípade je bezpečnejšie mať lokálne kópie).
  - V určitom časovom okamihu môžete chcieť iba snímku webu. To môže byť prípad, ak niečo píšete a chcete, aby vaše citácie boli trvalé; Môžete len urobiť snímku stránky v čase, keď ste ju použili ako zdroj.
  - Možno budete chcieť nepretržite vytvárať snímky webu. To môže byť prípad, ak máte neslýchanú posadnutosť obsahom stránky alebo jej vlastníkmi.
  - Môžete chcieť iba časti stránok (napr. Stránky, ktoré citujete).
- Uvedomte si, že vyššie uvedené body sa navzájom nevylučujú (aj keď niektoré si protirečia, napríklad želanie časti webu oproti celému webu); inými slovami, môžete chcieť, aby mal niekto archív, vy sami archív a aby sa vytvárali nepretržité snímky súčasne.
2

Ak chcete získať skládky, zvážte kontaktovanie vlastníkov stránok. Je možné, že sa vlastníci stránok zaviažu napríklad tým, že vám poskytnú svoje zálohy stránok. Majte však tiež na pamäti, že sa tým pre nich stanú transparentné vaše zámery, takže môžu reagovať nepriaznivým spôsobom (napr. Časťami stránky chrániacimi heslo).
3
Skontrolujte, či sú na webe aktuálne archívy. Je dôležité si uvedomiť, že práca nie je vo svojej podstate hodnotná; uveriť tomu by znamenalo dopustiť sa zaujatosti pri líčení. Archivácia veľkých webových stránok môže často trvať veľa času a úsilia. Ak už za vás väčšinu práce vykonal niekto iný, nie je potrebné cítiť sa nútený opakovať úlohu znova.
- Ak niekto iný nedávno vykonal zálohu stránok, je možné, že ste skončili (ak ste chceli, aby mal kópiu niekto iný) alebo ste blízko dokončenia (ak ste chceli iba jednu miestnu snímku; vaša úloha sa zníži na zrkadlenie ich zálohovanie, čo je pravdepodobne podstatne jednoduchšie ako pôvodná úloha).
- Pred pokračovaním vo vlastnom riešení archivácie (ktoré je uvedené vo zvyšných krokoch) by ste mali skontrolovať niekoľko miest:
  - Wiki archiveteamu. Tím Archív je skupina dobrovoľníkov špecializujúcich sa na archiváciu webových stránok. Ich wiki obsahuje informácie o rôznych webových stránkach a pokroku, ktorý bol dosiahnutý pri ich archivácii. Skúste sa pozrieť na wiki, aby ste zistili, aká práca (ak nejaká bola) bola vykonaná. Tím archívu má tiež verejné protokoly svojich kanálov IRC (internetový chat). Najmä, pokúste hľadať #archiveteam a # archiveteam-BS.
  - Internetový archív. Internet Archive má masívny úložisko cache verzií rôznych webových stránkach. Ďalšie informácie o tom, ako sa k tomu dostať, nájdete v príručke na wiki spoločnosti Archiveteam.
  - Hľadaj na Google. Vyhľadajte názov stránky a za ním slová ako „archív“ a „zrkadlo“.
Ich wiki obsahuje informácie o rôznych webových stránkach a pokroku, ktorý bol dosiahnutý pri ich archivácii.
4

Skontrolujte, či existujú špecializované nástroje na stiahnutie stránky. Niekedy existujú špeciálne nástroje na sťahovanie konkrétneho obsahu. Ak si napríklad chcete stiahnuť veľa videí z YouTube, existuje nástroj s názvom youtube-dl. Mnoho webových stránok má aj API (rozhranie pre programovanie aplikácií), ktoré vám umožňuje ľahký prístup k obsahu prostredníctvom programovania. To je prípad napríklad reddit, ktorý je dobre zdokumentovaným rozhraním API (aj keď si tiež všimnite, že už existuje pomerne komplexný archív reddit, ktorý bol sám vytvorený pomocou API reddit).
5
Zistite, či má server obmedzený počet žiadostí, ktoré môžete podať za určitý časový úsek. Ak v poslednom čase stránku nearchivoval nikto iný a ak neexistujú žiadne špecializované nástroje na archiváciu stránky, ste na to sami. Je dobrým zvykom zistiť, či stránka, na ktorú zacieľujete, má nejaké špeciálne pravidlá pre množstvo alebo rýchlosť sťahovania obsahu. Mnoho stránok má jasne definované pravidlá, ktoré sú často uvedené v podmienkach ich služby/použitia. Aj keď vás osobne nezaujíma, či vám stránka chce obmedziť prístup, je dobré to mať na pamäti, pretože môžu mať zavedený automatický zákaz IP (a ďalšie opatrenia), aby ľudia nemohli preťažovať svoje servery alebo „kradnúť“. “ich obsah.
- Spôsoby, ako tento limit obísť, nájdete v kroku „Použitie viacerých počítačov alebo adries IP na urýchlenie archivácie“.
6
Skúste na webe spustiť príkaz wget. Wget je program, ktorý môže sťahovať obsah z internetu a je predvolene zahrnutý v mnohých systémoch podobných Unixu. Niekedy jeden príkaz wget môže stiahnuť celú alebo väčšinu stránok. Ak je to tak, úloha sa stane triviálnou. Je však stále dôležité začať indexové prehľadávanie na stránke, ktorá pravdepodobne bude odkazovať na mnoho ďalších stránok, pretože wget začína na úvodnej stránke (nazýva sa „zárodok“) a rekurzívne sleduje interné odkazy. Umiestnenie stránky na mape webu je ideálne, ak ju stránka má.
- Tu je ukážkový príkaz so zapnutými mnohými užitočnými príznakmi:
  wget - zrkadlo - požiadavky na stránku \ - úprava rozšírenia - prevody odkazov \ - čakanie = 1 - náhodné čakanie - nečinnosť \ -e roboti = vypnuté \ http://example.com/sitemap.html
- Nezabudnite zmeniť http://example.com/sitemap.html a všetky vlajky tak, aby vyhovovali vašim potrebám. Tu sú významy vlajok, aj keď by ste si mali prečítať aj oficiálnu dokumentáciu k wgetu (alebo info wget) a jeho príručku (typ man wget):
  - - - mirror zapína niekoľko možností priaznivých pre zrkadlenie stránok vrátane rekurzívne nasledujúcich odkazov.
    - - page-requisites umožňuje wget sťahovať obrázky, šablóny štýlov a ďalšie súbory, ktoré pomáhajú vytvárať vzhľad verný originálu.
    - - adjust-extensionpridáva príponu .htmlk súborom HTML, aby sa uľahčilo ich lokálne prehliadanie.
    - - convert-links mení prepojenie v stiahnutých súboroch, takže sú vhodné pre lokálne prehliadanie.
    - - wait=1 núti wget čakať medzi požiadavkami 1 sekundu (pozrite si však aj ďalšiu možnosť).
    - - random-waitnáhodne vynásobí konštantu z - waitpre každú požiadavku, aby vzor sťahovania bol menej podozrivý; Tento vierohodne pomáha predchádzať bytia IP zakázané.
    - - no-clobbernamiesto prepísania alebo sťahovania nových kópií zachová lokálne kópie súboru. Na to treba myslieť, ak bolo sťahovanie v strede zastavené.
    - -e robots=offvypne počúvanie robots.txtsúboru stránok. Niektorí ľudia považujú za rešpektujúce dodržiavať pravidlá robots.txt, ale niekedy sú celé stránky vylúčené robots.txt(ak to uvádzajú vlastníci Disallow: /). Archiveteam napríklad považuje robots.txt„poznámku o samovražde“ a ignoruje ju.
  - Zvážte tiež použitie nasledujúcich možností:
    - - user-agent='Mozilla/5,0 Firefox/40,0'nastaví váš používateľský agent tak, aby vyzeral, ako keby ste na prístup na stránku používali Firefox. Je to užitočné, pretože niektoré weby nepovoľujú prehľadávačom podobných agentov alebo inak zobrazujú rôzne stránky v závislosti od používateľského agenta.
    - - restrict-file-names=nocontrolzabráni wgetu v dotyku so špeciálnymi znakmi v URL. To je často užitočné, ak sťahujete z webu s názvami súborov obsahujúcimi veľa znakov Unicode.
  - cURL je podobný nástroj ako wget, ktorý má podobné funkcie. V systéme Mac OS X a mnohých systémoch BSD je cURL predvoleným nástrojom na sťahovanie namiesto wget. Tiež by vás mohlo zaujímať nájdenie ďalších programov, ktoré sú určené na zrkadlenie stránok, napríklad HTTrack.
7
Prezrite si webovú stránku a zistite, či na nej nie sú nejaké vzory alebo štruktúra. Ak sa stránka nedá ľahko zrkadliť pomocou wgetu (alebo podobného pomocného programu), je čas na inú stratégiu. Mnoho webových stránok, napríklad webové fóra, má v adrese URL explicitné vzory, napríklad číslované vlákna.
- Aby sme si zobrali príklad, môžeme sa pozrieť na AutoAdmit, notoricky známy diskusný panel. Jedno z vlákien na webe má adresu URL http://autoadmit.com/thread.php?thread_id=2993725&mc=12&forum_id=2. Môžeme si však všimnúť, že jediným rozhodujúcim číslom je thread_id; navigácia na stránku http://autoadmit.com/thread.php?thread_id=2993725 skutočne ukazuje v podstate identickú stránku. Teraz by sme sa mohli pokúsiť odvodiť, že všeobecná štruktúra adries URL AutoAdmit je http://autoadmit.com/thread.php?thread_id=N, kde N je nejaké číslo; vyskúšanie niekoľkých adries URL, ktoré sú inštanciami tohto všeobecného vzoru, potvrdzuje toto. Potom sa jedná o opakovanie všetkých vlákien a ich stiahnutie; v bash:
  pre mňa v {1. 0,2993725} do wget -A 'Mozilla/5,0 Firefox/40,0' \ "http://xoxohth.com/thread.php?thread_id=$i" spať 0,3 s hotovo
- Štruktúra adries URL programu AutoAdmit je samozrejme jednou z najjednoduchších. Iné weby, ako napríklad blogy WordPress, môžu vyžadovať napr. Prechádzanie archívnymi stránkami po vypočítaní počtu stránok s príspevkami v každom mesiaci (aj keď blogy WordPress sú zvyčajne prístupné naivnému prehľadávaniu). Neexistuje žiadny všeobecný spôsob, ako to urobiť, takže by ste mohli byť sami; vyhľadávanie na Googli môže byť často veľmi nápomocné.
Link rot (fenomén, kde staré webové stránky a stránky miznú, čím sú odkazy zbytočné) je na internete obrovský problém.
8
Ak obsahuje veľa JavaScriptu, zvážte pokročilejšie alebo únavnejšie techniky sťahovania stránok. V poslednej dobe sa web stále viac presúva k intenzívnemu používaniu JavaScriptu a ďalších interaktívnych prvkov (niekedy sa nazýva aj skriptovanie DOM). Napriek tomu, že tento posun umožnil webu „súperiť s natívnymi aplikáciami bez rozsiahleho úvodného sťahovania, bez inštalačného procesu a robiť to na starých aj nových zariadeniach“, stále je často predmetom výsmechu a kritiky. Pokiaľ ide o archiváciu webových stránok, JavaScript a interaktívne prvky sú takmer vždy zlou správou. Existuje niekoľko stratégií, ako sa pokúsiť o archiváciu stránok náročných na JavaScript.
- Jedným z prístupov je pokúsiť sa úplne vyhnúť JavaScriptu. Mnoho stránok sprístupňuje kanály RSS alebo Atom, ktoré môžu čitatelia použiť na sledovanie nového obsahu. Pre archivátorov sú webové kanály užitočné, pretože sú statické XML, čo uľahčuje sťahovanie a spracovanie. To je obzvlášť užitočné, ak chcete pokračovať vo vytváraní snímok webu: postupujte podľa príslušných informačných kanálov a automaticky budete mať to, čo chcete (ak máte šťastie; mnoho stránok zobrazuje iba ukážky kanálov alebo môžu autori neskôr upraviť obsah atď., čo komplikuje záležitosti). Upozorňujeme, že väčšina webových kanálov obsahuje iba niekoľko najnovších príspevkov alebo článkov, takže spätná archivácia stránky nemusí byť možná.
- Ďalšie veci, na ktoré by ste sa mali zamerať:
  - V JavaScripte napríklad na automatické klikanie na prvky
  - PhantomJS a ďalšie bezhlavé prehliadače
  - Webové stránky často menia svoje používateľské rozhranie, takže držať krok s nimi môže byť náročné
9

Exportujte súbory cookie, ak je web chránený heslom alebo inak vyžaduje autentifikáciu. Na stránky, ktoré vyžadujú autentifikáciu, je ťažké získať prístup pomocou nástrojov, ako je wget. Je však možné exportovať súbory cookie z grafických prehliadačov, ako je Firefox, a potom ich používať na prístup na webové stránky na serveri wget.
10
Na urýchlenie archivácie použite viac počítačov alebo IP adries. Ak webová stránka dokáže relatívne rýchlo detekovať prehľadávače a zakázať ich, jednou z možností (okrem spomalenia) je pripojiť sa k webu pomocou viacerých adries IP. Existuje niekoľko spôsobov, ako to urobiť; tu sú dve: jednou jednoduchou formou, ako mať viac IP adries, je zmeniť svoje fyzické umiestnenie napríklad návštevou niekoľkých kaviarní alebo knižníc; na každom novom mieste budete mať novú IP adresu, pomocou ktorej sa dá z webu sťahovať. Ďalšou možnosťou je získať prístup k viacerým počítačom, napríklad zakúpením prístupu k virtuálnym súkromným serverom. Výhodou druhej možnosti je, že môžete mať viacero adries IP, ktoré je možné sťahovať súčasne, čo urýchli proces sťahovania namiesto toho, aby vám umožnilo pokračovať v sťahovaní. Všimnite si však, že posledná možnosť často znamená míňanie peňazí, aj keď to môže byť až 11€ ročne. Posledná uvedená forma sťahovania je navyše otáznou zákonnosťou.
- Je tiež možné použiť anonymnú sieť Tor na nepretržitú zmenu vašej IP zmenou výstupných uzlov. Je však veľmi odradené zneužívať Tor týmto spôsobom.
11

Automatizujte čo najviac. Ak očakávate, že budete pokračovať v vytváraní archívov stránok alebo ak je cieľový web enormný, potom je veľmi dôležité automatizovať čo najväčšiu časť procesu.

Je preto dôležité vopred zvážiť odhadnutie veľkosti archívu a tiež podniknúť kroky na minimalizáciu veľkosti archívu komprimáciou súborov.
12

Zvážte uvoľnenie svojich archívov. Existuje niekoľko dôvodov, prečo by ste chceli svoje archívy zverejniť. Po prvé, teraz ste prešli časovo náročným procesom archivácie stránky; ak chcú aj ostatní lokálne kópie, je pravdepodobné, že budú radi, keď zistia, že prácu za nich urobil niekto iný. Navyše „veľa kópií uchováva veci v bezpečí“, takže umožnenie ostatným zrkadliť vaše archívy zaistí väčšiu bezpečnosť pred hrozbami, ako je zlyhanie disku. Viac informácií nájdete napríklad na stránke nahrávania internetového archívu.

Varovania

Niektoré stránky majú špeciálne odkazy, ktoré majú byť „honeypots“ pre robotov. Majú niekoľko foriem, ale väčšinou ide o odkazy skryté tak, aby na ne pravidelní používatelia stránok neklikli, ale také, aby ich prehľadávač, ktorý rekurzívne sleduje všetky odkazy, ich prešiel. Jeden typ honeypotu zablokuje ľudí, ktorí kliknú na konkrétny odkaz, zatiaľ čo iní oklamú prehľadávača, aby sledoval nekonečnú slučku (nazýva sa tiež pasca na pavúky).
Dávajte si pozor na weby, ktoré odkazujú na rôzne odkazy na dopyty, aby ste mohli skončiť s tým, že povedzme bude viacero kópií tej istej stránky zoradených iným spôsobom alebo pomocou rôznych dopytov.
Niektoré weby implementujú Captchas, čo robí archiváciu mimoriadne ťažkou. Ak musíte vyriešiť veľa CAPTCHA, zvážte vyskúšanie nastavenia riešiteľa alebo zaplatenie ľudí, ktorí ich vyriešia za vás (existujú na to online služby). To však robí mimo rozsah tejto príručky.

Nech už je motivácia akákoľvek, je dôležité vedieť archivovať informácie na internete.
Ak príliš veľa sťahujete, doma sa môžete stretnúť s problémami so sieťou.
Ak sťahujete príliš veľa alebo príliš rýchlo, môže to tiež spôsobiť problémy s webom, na ktorý zacieľujete (a dokonca ho môžete stiahnuť). Toto je obzvlášť problém, ak používate diskutabilnejšie metódy, ako je používanie viacerých počítačov na sťahovanie alebo nedodržiavanie navrhovaných limitov sťahovania.
Niektoré stránky sú väčšie, ako by sa na prvý pohľad mohlo zdať. Jeden z problémov, s ktorými sa môžete stretnúť, je nedostatok miesta na disku vo vašom počítači. Je preto dôležité vopred zvážiť odhadnutie veľkosti archívu a tiež podniknúť kroky na minimalizáciu veľkosti archívu komprimáciou súborov.
Priemerná veľkosť webových stránok sa neustále zvyšuje, pričom v júli 2014 je priemerná veľkosť 1600 kB. Ak však zacieľujete na konkrétny web, veľkosti stránok na tomto webe sa môžu výrazne líšiť od vyššie uvedeného obrázku. Preto je užitočné pozrieť sa bližšie na konkrétne konkrétne miesto v ruke. V prehliadači Firefox môžete stlačením Ctrl- Shift- qvyvolať monitor siete; potom môžete stlačením tlačidla „Znova načítať“ stránku znova načítať. Potom sa zobrazí celková veľkosť prenosu siete. (Podobnú funkciu môžu mať aj iné prehliadače.) Ak to urobíte pre niekoľko stránok, získate dobrú predstavu o tom, koľko miesta zaberú jednotlivé stránky. Ďalšími dôležitými informáciami je celkový počet stránok, od ktorých sa očakáva stiahnutie, ktoré tiež veľmi závisia od lokality. Mnoho blogov napríklad uvádza počet príspevkov za každý mesiac, takže ich súčet poskytne dobrý nápad; v prípade zložitejších stránok je to ťažšie.
- Pokiaľ ide o kompresiu súborov, programy na deduplikáciu údajov, ako napríklad bup, sú vynikajúce, najmä ak chcete pokračovať vo vytváraní snímok stránky na neurčito. Aj jednoduché používanie programov na kompresiu súborov, ako je xz, môže dramaticky obmedziť miesto na disku, pretože mnohé webové stránky zvyčajne obsahujú veľa textu, ktorý sa dobre komprimuje. Môžete dokonca napísať skript, ktorý odfiltruje šablónu webu, takže vám zostane iba obsah. Taký skript existuje pre Quoru, aby sme uviedli jeden príklad.

Prečítajte si tiež: Ako vytvoriť zoznam adries z tabuľky Google Docs?