旧インターネットアーカイブ本部(1996年 - 2009年11月)
新インターネットアーカイブ本部(2009年11月 - )
インターネットアーカイブ [ 注 1] (Internet Archive )は、WWW ・マルチメディア 資料のアーカイブ 閲覧サービス として有名なウェイバックマシン (Wayback Machine )[ 注 2] を運営しているアメリカ の団体 である。本部はカリフォルニア州 サンフランシスコ のリッチモンド地区に置かれている。
アーカイブにはプログラムが自動で、または利用者が手動で収集 したウェブページ のコピー(ウェブアーカイブ )が混在しており、これは「WWWのスナップショット 」と呼ばれる。そのほか、ソフトウェア ・映画 ・本 ・録音 データ(音楽バンド などの許可によるライブ公演 の録音も含む)などがある。アーカイブは、それらの資料を無償で提供している。
設立の理念
アーカイブは1996年 にブルースター・ケール によって設立された。公式サイトによれば、その使命は以下のとおりである:
大抵の社会はその文化、歴史遺産の保存を重視している。そのような資料が無ければ、文明はその成功または失敗から学ぶための手段も記憶も持てない。我等の文化は現在電子形態での資料を大量に生産している。アーカイブの使命は、これらの電子資料の保存を支援し、研究者・歴史家・学界のためのインターネットライブラリを構築することにある。アーカイブは
アメリカ議会図書館 や
スミソニアン博物館 などの他機関との恊働も行う。
— インターネットアーカイブ 公式サイト
人類の知識と遺産を保存してそのコレクションを公開するというその目標からか、アレクサンドリア図書館 に例えられることもある。
ウェイバックマシン
インターネットアーカイブ (新アレクサンドリア図書館 )
ウェイバックマシン (Wayback Machine)[ 注 2] はインターネットアーカイブが保存するウェブアーカイブ を閲覧することのできるサービスである。インターネットアーカイブのもっともよく知られたサービスの一つであり、ときに「インターネットアーカイブ」がウェイバックマシンと同義に使われることもある他、「ウェイバックマシン」がその背景のWebクローリングを含んだ意味で使われることもある。ウェイバックマシンを使えば、ウェブページ が保存された時点の状態を閲覧することができ、また「Save Page」にURLを貼り付けることで、そのページをその場でインターネットアーカイブのウェブアーカイブに保存できる。インターネットアーカイブはウェイバックマシンの技術を「3次元インデックス」と呼んでいる。
ウェイバックマシンで閲覧可能なウェブアーカイブは、1996年のサービス開始当時はアレクサ・インターネット から提供されたデータが元であったが、インターネットアーカイブは2010年後半から独自の大規模Webクローリングを開始し、現在では自身で収集したデータが半分以上を占める。以前はデータ収集から公開まで半年から一年かかっていたが、独自のWebクローリングと2013年の技術革新により、数時間から一日で公開されるようになった。また「Save Page」で保存されたものは即時に閲覧可能である。
ウェイバックマシンが保持しているデータ量は、2001年時点ではおよそ100テラバイトに過ぎなかったが、2004年時点で1ペタバイトに達し、月に20テラバイトの割合で増加を続けている。2003年に報告された増加率は月あたり12テラバイトであったので、1年でおよそ倍の速度になった。これは、議会図書館など世界最大規模の図書館の文書量をはるかに上回るものである。そして2012年にはデータ総量は10ペタバイトを超えた[ 3] 。保存されたウェブページ数[ 注 3] では、2022年10月現在で7400億を超え[ 5] 、一か月あたりおよそ140億ページの割合で増加中である[ 5] [ 6] 。このデータのコピーは新アレクサンドリア図書館 にも保存されている。
ウェイバックマシンの過去のページの再生表示は、様々な理由により不完全である。具体的にはウェイバックマシンから提供されるHTMLソースにはロボットが収集したものに対して加工が行われており、ソースファイルとして同一のものが提供されない。また、外部ファイル(画像データやJavaScriptなど)の読み込みがある場合、本来の挙動とは異なることが多数ある。例えば、アレクサ・インターネットから提供されるデータにはHTMLファイルしか含まれていないため、2010年以前のアーカイブはページの画像などが表示されないものが大半である。またWebクローリングの技術的制約により、Webページの再生に必要なデータ全てが収集されないことや、Webページの再生表示技術の制約などによりページ表示が正常に行われないことなどは、特に最近の高度に動的なWebページではよく見られる。そのため、本来のページが再現されない場合や、オリジナルのサーバーの現在のファイルを参照してしまうなどのことが起き、必ずしもその時期にそのページやファイルが存在したことを表すの正確性、最新性、完全性、信頼性、またはタイムリーであることに対する保証はされていない。[ 7] また、ウェブページを構成するスクリプトや画像などの部品はページのHTMLと同時点で収集されたものとは限らず、数年以上の時間差があることも稀ではない。さらに、いったん収集されたWebアーカイブが、著作権や正確性の観点から、関係者の要請やrobots.txtの配置によりウェイバックマシンから取り除かれることもある。
「ウェイバックマシン」という名称は「ロッキーとブルウィンクルの大冒険 」の一シーンからとられた。このアニメシリーズは学者風の蝶ネクタイ をした犬のピーボディ先生と人間の助手シャーマンが「ウェイバックマシン(WABAC machine )」と呼ぶタイムマシン を使って歴史上の有名な事件にちょっかいを出すというコメディアニメである。
公的な保存とは別途、個人のレベルでも、特定の個人がインターネット上に運営していたWebサイト、Blogを個人の死後も管理、保存することがどのようにして可能か、といった話題もWeb Magazine、Web ニュースなどに出てくるようになった。保険会社などが遺言の執行と合わせて、こうしたサービスを行っているようなものはないが、難病での闘病生活をおくった人のドキュメントやさまざまな公益的で共有すべき内容を持ったもの(人権、環境、社会問題、女性、健康と福祉、情報公開、特殊な個人的体験など)、オンラインソフトウェア の開発サイトなどが、関係者によって保存、維持されている例はある。こうしたものには、Webサイトを保存しているものと、故人を追悼するためのものとが混在している。
著作権
ウェイバックマシンは米国著作権法 のフェアユース 規定にもとづいてウェブアーカイブを構築している[ 8] 。後述の「インドからのアクセス遮断 」のようにフェアユースに該当するとは思えない情報(営利目的の情報など)の収集も行っているのが実態である。
著作権侵害によるインターネットアーカイブに対する訴訟
ウェイバックマシンは目的の性質上、フェアユースが成立しているが、2020年にアシェット、ハーパーコリンズ、ワイリー、ペンギン・ランダムハウスなどの出版社が著作権侵害によりインターネットアーカイブを提訴した[ 9] [ 10] 。
Recall サーチエンジン
またInternet Archiveのデータベース 的側面としては、現在の特定URLを必要とする形以外のアクセス方法として、2003年9月、Internet Archiveに保存されたウェブページ全体を対象にした検索エンジン「Recall」のベータ版が公開された。検索した単語の頻度をグラフ化して表示する機能があり(2byte文字は未対応)、ネットワーク上の流行調査などに有益なものだったが、2004年9月中旬に停止した。これは「Recall」の開発者であったAnna Pattersonがプロジェクトから離れたためである。Internet Archiveのフォーラムでは新たな検索システムの構築を望む声が多くあがっており、動向が注目される。
アプリケーションプログラミングインタフェース
ウェイバックマシンはWebブラウザを使ったウェブアーカイブの閲覧だけでなく、アプリケーションプログラミングインタフェース も提供している[ 11] 。2015年時点では、
Wayback Availability JSON API
Memento API
Wayback CDX Server API
がある。
コレクション
動画、書籍、録音の多くがパブリックドメイン にあるか、クリエイティブ・コモンズ のライセンスで提供されている。音楽 部門には、コンサートでの演奏の録音を許可しているアーティスト や演奏家 (グレイトフル・デッド 、ストリング・チーズ・インシデント 、トード・ザ・ウェット・スプロケット 、311 、fugazi など)による音源とともに、独立系 ミュージシャンの音源も数多く含まれている。
2020年11月, インターネットアーカイブではAdobe FlashのエミュレータとしてRuffle を導入し、Flashアニメーションやゲームのアーカイブを開始した。[ 12]
オープンライブラリ
インターネットアーカイブはオープン・ライブラリの運営も行っている。ここではいくつかのスキャンしたパブリックドメイン書籍が容易に閲覧、印刷ができる形式で入手可能である。
動画像コレクション
商用映画に加え、動画像コレクションには以下のようなものがある。
ニュース映画 コレクション、昔のアニメ(カートゥーン )コレクション、戦争映画・反戦映画などのプロパガンダ コレクション、Skip ElsheimerによるA/V Geek コレクション、プレリンガー・アーカイブズによる短編ものコレクション(広告用、教育用、工業用などや家庭用の動画コレクション)
ブリックフィルム コレクションにはレゴ によるストップモーション・アニメーション があり、中には映画のリメイクものをしているものもある。Election 2004(2004年選挙) コレクションは、2004年アメリカ合衆国大統領選挙 に関連する動画資料を中立の立場からまとめた資料である。Independent News コレクションにはインターネットアーカイブのWorld At War competition from 2001 (歴史的事物へのアクセスの重要性を示すための短編映画コンテスト)のようなサブコレクションもある。最もダウンロードされたビデオファイルは、2004年のスマトラ島沖地震 の惨禍をとらえたものとなっている。
インターネットアーカイブには以下のような映画が1,500本前後存在する:
en:Special:WhatLinksHere/Template:Internet Archive film (英語) を参照。
論争
サイエントロジーサイト
2002年後半に、インターネットアーカイブはサイエントロジー の批判サイトをいくつもウェイバックマシンから削除した[ 13] 。ウェイバックマシンのエラーメッセージには、この削除は「サイトオーナーの要望による」との文言が載せられていたが[ 14] 、後に明らかになったところによればサイエントロジー教会の弁護士が削除を要求したものであった。この削除要求の法的根拠は不明であり、実際のサイトオーナー自身が削除を要求したものではなかった[ 15] 。
アーカイブ内のウェブページの証拠能力
2004年10月の「ポーランド・テレビ ・SA社 対 エコースター・サテライト社」の裁判において、ウェイバックマシンのアーカイブが法的証拠の情報源として使われた。ポーランド・テレビはポーランドのテレビ局TVPポロニア (TVP Polonia) の提供元であり、エコースター・サテライトはアメリカの衛星テレビ放送ネットワークである、ディッシュ・ネットワーク の運営元である。裁判の過程で、エコースター社はテレウジャ・ポルスカ社のウェブサイトの過去の内容の証拠として、ウェイバックマシンのスナップショットをあげた。テレウジャ・ポルスカ社は、伝聞 および非公式情報に基づくものとしてやめさせようとしたものの、判事のアーランダー・キーズ氏は、Polska の伝聞証拠の主張を却下し、アーカイブされたコピーは、Polska が以前にそのサイトに投稿した内容を示しているだけなので、伝聞証拠であるという理由で裁判の証拠から排除されないと判断した。[ 16] 。
グレイトフル・デッド
2005年11月、グレイトフル・デッド のコンサートの模様を収録した資料の無料ダウンロードが削除された。ニューヨーク・タイムズ 紙の報道によれば、ジョン・ペリー・バーロウ はこの変化の原因として、ボブ・ウィアー 、ミッキー・ハート 、ビル・クロイツマン のバンドの元メンバー3名の名を挙げた[ 17] 。元メンバーのフィル・レッシュ は2005年11月30日付けでこの削除について個人サイト上でコメントを出した[ 18] :
グレイトフル・デッドのショーの全てが感謝祭前にArchive.orgから消えたのが気になった。私はこの決定に関与していないが、これら資料の引き上げについて聞かされていなかった。私はこの音源こそがグレイトフル・デッドの伝説であると信じているし、これらが求める人全ての手に入ることを望む。
ブリュースター・カール が11月30日にフォーラムへ投稿し、「観客による録音資料はダウンロードもしくはストリーム配信可能である。しかしながら、ミキサー での録音資料はストリーム配信 にのみ限られる。」とのバンドメンバーとの合意に達した内容をまとめた[ 19] 。
インドからのアクセス遮断
画像外部リンク
[1] - インドの携帯電話通信会社であるバーティ・エアテル からインターネットアーカイブにアクセスしたときの画面。「あなたのリクエストしたURLは、インド政府の電気通信局からの命令に基づきブロックされています」と書かれている。
2017年8月から、インド 国内からのインターネットアーカイブへのアクセスが禁止された[ 20] 。インドの映画製作会社2社が、映画の著作権侵害 防止のために2,500超のウェブサイトへのアクセス遮断を訴える裁判を起こしており、その中にはインターネットアーカイブも含まれていた[ 20] 。インド、チェンナイ にあるマドラス高等裁判所 (英語版 ) は、8月2日にこれらの申し立てを認めている[ 20] 。インターネットアーカイブ側はブロックした電気通信局 (英語版 ) と連絡を取ろうとしているが、返答がない[ 21] 。
ホスティング環境
ネット上のすべてのデータを収拾するサイトである性格上、そのホスティング環境は巨大なものである。2009年まではHDD4台を搭載した800台のLinuxクラスターで運用していたが、2009年春にサン・マイクロシステムズ のSun Fire X4500 63台のクラスターに変更された。OSはSolaris 10で、1台あたり1テラバイトHDDを48台搭載(=総計3ペタバイト)、ファイルシステム はZFS を採用していた。施設には専用のSun Modular Datacenter を使用していて、全データが輸送用コンテナひとつに収まっていた[ 22] 。これはその後次第にPetaboxと呼ばれる独自設計のラックマウント型Linuxサーバークラスターに置き換えられ、現在はPetaboxの第二世代が稼働中である[ 23] 。カリフォルニアベイエリアに3つのデータセンター拠点を持つ。
対応ブラウザ
閲覧するウェブブラウザ について、2019年8月頃からInternet Explorer で保存一覧を見ることができなくなっている。Google Chrome では従来通り閲覧可能。
データ漏洩
2024年10月9日から10日にかけてインターネットアーカイブはDoS攻撃 を受け、ウェイバックマシン を含むarchive.org系列のサイトがダウンした[ 24] [ 25] [ 26] [ 27] 。
10月9日、セキュリティウェブサイトHave I Been Pwned? は年9月28日に発生したリークによって31,081,179のアカウント情報が漏洩したことを報告した[ 27] 。 インターネットアーカイブ運営者のブリュースター・ケール は漏洩を確認し、「JSライブラリを介したウェブサイトの改竄、ユーザー名/電子メール/ソルト 化されたパスワードの漏洩」を検出したこと、ライブラリが無効になっていること、またインターネットアーカイブのセキュリティをアップデートしていることを伝えた[ 27] 。
DoS攻撃とデータの漏洩が関係しているかは明らかではない[ 27] [ 28] [ 29] 。
乗っ取られた状態のウェブサイトには次のようなポップアップが表示されていた[ 30] [ 31] 。
Have you ever felt like the Internet Archive runs on sticks and is constantly on the verge of suffering a catastrophic security breach? It just happened. See 31 million of you on HIBP!(インターネットアーカイブが、不安定で常に壊滅的なセキュリティ侵害に見舞われそうになっていると感じたことはありませんか? それが今起こったのです。HIBP(Have I Been Pwned? ) で 3,100 万人のユーザーをご覧ください!)
脚注
注釈
^ 中黒 を入れた「インターネット・アーカイブ 」という表記も見られるほか、日本語でも「Internet Archive 」と表記することもある。たとえば、ともに国際インターネット保存コンソーシアム に加盟している国立国会図書館 による紹介では表題では「Internet Archive」、本文では「インターネットアーカイブ」と表記しており、本文冒頭で"Internet Archive"を併記している[ 1] 。また、同じく国立国会図書館による国際インターネット保存コンソーシアムの紹介では「インターネットアーカイブ」、「インターネット・アーカイブ」の両表記が混在している[ 2] 。
^ a b 国立国会図書館による紹介ではカナ表記は使用しておらず、「Wayback Machine」と表記している[ 1] 。
^ インターネットアーカイブではウェブページを、有効なHTMLドキュメント、プレーンテキスト、PDFと定義している。[ 4]
出典
^ a b “Internet Archive “Wayback Machine” ”. インターネット資料収集保存事業 . 国立国会図書館 (2016年11月22日). 2017年8月9日 閲覧。
^ “International Internet Preservation Consortium (IIPC) ”. インターネット資料収集保存事業 . 国立国会図書館 (2013年1月29日). 2017年8月9日 閲覧。
^ “10,000,000,000,000,000 bytes archived! ”. Internet Archive Blogs . Internet Archive. 2019年1月10日 閲覧。
^ “Defining Web pages, Web sites and Web captures ”. Internet Archive Blogs . Internet Archive (2016年10月23日). 2023年9月16日 閲覧。
^ a b “Wayback Machine ”. web.archive.org (2022年10月1日). 2022年10月18日 閲覧。 “Explore more than 742 billion web pages saved over time(時間の経過とともに保存された7,420億を超えるWebページを探索する)”
^ “Wayback Machine ”. web.archive.org (2022年9月1日). 2022年10月18日 閲覧。 “Explore more than 728 billion web pages saved over time(時間の経過とともに保存された7,280億を超えるWebページを探索する)”
^ “Internet Archive's Terms of Use, Privacy Policy, and Copyright Policy ”. Internet Archive. 2014年12月31日 閲覧。
^ “Internet Archive “Wayback Machine” ”. 国立国会図書館インターネット資料収集保存事業 . 国立国会図書館 (2016年11月22日). 2017年9月24日時点のオリジナル よりアーカイブ。2017年9月24日 閲覧。
^ “出版社がInternet Archiveを提訴。オープンライブラリーで「故意に大量の著作権侵害」と主張 - Engadget 日本版 ”. Engadget JP . 2020年6月2日時点のオリジナル よりアーカイブ。2022年1月27日 閲覧。
^ 株式会社インプレス (2020年6月4日). “Internet Archive、米国の複数の出版社から著作権侵害で訴えられる。その理由は【やじうまWatch】 ”. INTERNET Watch . 2022年1月27日 閲覧。
^ “Wayback Machine APIs ”. Internet Archive. 2019年1月10日 閲覧。
^ Campbell, Ian Carlos (November 19, 2020). “The Internet Archive is now preserving Flash games and animations ”. The Verge . November 20, 2020時点のオリジナルよりアーカイブ 。November 19, 2020 閲覧。
^ “Net archive silences Scientology critic - CNET News ”. CBS Interactive.. 2012年7月16日時点のオリジナル よりアーカイブ。2019年1月10日 閲覧。
^ “Internet Archive Forums: exclusions from the Wayback Machine ”. Internet Archive. 2019年1月10日 閲覧。
^ “LawMeme - Sherman, Set the Wayback Machine for Scientology ”. Yale University. 2006年4月24日時点のオリジナル よりアーカイブ。2019年1月10日 閲覧。
^ Gelman, Lauren (2004年11月17日). “Internet Archive’s Web Page Snapshots Held Admissible as Evidence ” (英語). The Center for Internet and Society. 2022年12月20日 閲覧。
^ Wrath of Deadheads stalls Web crackdown , ニューヨーク・タイムズ の記事(インターナショナル・ヘラルド・トリビューン サイト内)[リンク切れ ]
^ Phil Lesh. “PhilLesh.net - Hotline ”. 2012年2月20日時点のオリジナル よりアーカイブ。2019年1月10日 閲覧。
^ “Internet Archive Forums: Good News and an Apology: GD on the Internet Archive ”. Internet Archive. 2019年1月10日 閲覧。
^ a b c Leo Kelion (9 August 2017). “Bollywood blocks the Internet Archive” . BBC News (BBC). https://www.bbc.com/news/technology-40875528 2017年9月24日 閲覧。
^ “The 'Internet Archive' was blocked on orders from Madras High Court” . tech2 (Firstpost). (2017年8月11日). https://www.firstpost.com/tech/news-analysis/the-internet-archive-was-blocked-on-orders-from-madras-high-court-archive-questions-the-order-3919991.html 2017年9月24日 閲覧。
^ “Sun puts Internet Archive in a box, but will it stay there? ”. Ars Technica . 2019年1月10日 閲覧。
^ “Internet Archive: Petabox ”. Internet Archive. 2019年1月10日 閲覧。
^ Brewster Kahle [@brewster_kahle] (2024年10月8日). "DDOS on a tuesday? Last time it was a monday. Geez" . X(旧Twitter) より2024年10月13日閲覧 。
^ Brewster Kahle [@brewster_kahle] (2024年10月9日). "Yesterday's DDOS attack on @internetarchive repeated today" . X(旧Twitter) より2024年10月13日閲覧 。
^ Winder, Davey (2024年10月10日). “Internet History Hacked, Wayback Machine Down—31 Million Passwords Stolen ”. Forbes . 2024年10月13日 閲覧。
^ a b c d Sharwood, Simon (2024年10月10日). “Internet Archive leaks user info and succumbs to DDoS” . en:The Register . https://www.theregister.com/2024/10/10/internet_archive_ddos_data_leak/ 2024年10月13日 閲覧。
^ Greig, Jonathan (2024年10月10日). “DDoS attacks on Internet Archive continue after data breach impacting 31 million” . Recorded Future News . オリジナル の2024年10月10日時点におけるアーカイブ。. https://archive.fo/ezBgb
^ Arntz, Pieter (2024年10月10日). “Internet Archive suffers data breach and DDoS” . Malwarebytes . オリジナル の2024年10月10日時点におけるアーカイブ。. https://archive.ph/YJDB8
^ “Internet Archive hacked, data breach impacts 31 million users ”. Bleeping Computer (2024年10月9日). 2024年10月13日 閲覧。
^ “The Internet Archive is under attack, with a breach revealing info for 31 million accounts ”. The Verge (2024年10月10日). 2024年10月13日 閲覧。
関連項目
外部リンク