See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
ウェブアーカイブ - Wikipedia

ウェブアーカイブ

出典: フリー百科事典『ウィキペディア(Wikipedia)』

WebアーカイブWeb全体もしくはその一部を収集し、そのコレクションを後世の研究者、歴史家、一般大衆のために保存して、アーカイブとしたもの。Webのサイズは膨大であるため、Webアーカイブではクローラを使って自動収集を行う。最大規模のWebアーカイブ機関は、Web全体のアーカイブ作成を行っているInternet Archiveである。各国の国立図書館もまた文化的に重要なWebコンテンツを保存しようとしている。

2004年には、日本でもこの方面のアーカイブを検討するという方向が小泉内閣で打ち出され、国立国会図書館による事業が始まった。

ウェブアーカイブが年々増えていく情報を保存し提供していく上で、その活動をどのように制度的、財政的に支えていくかが今後の課題となっている。

目次

[編集] Webの収集

Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。

Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシートJavaScript画像ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性と同一性を確保できる。

[編集] アーカイビングの難しさと限界

Webアーカイブは収集を主としてクロールに頼っているため、Webクローリングの難しさに影響を受ける。

  • ロボット排除の取り決め(robots exclusion protocol)によりクローラはウェブサイトの一部へのアクセスが拒否されることがある。
  • ウェブサイトの大部分がDeep Webとして隠れた領域となっていることもある。例えば、フォームの先にあるはずの結果ページなどは、クローラはリンクを辿って行き着くことができないためDeep Webの領域となってしまう。
  • ウェブサーバーの中にはクローラに対して通常のWebブラウザに対するのとは別のページ内容を返すことがある。これはサーチエンジンを騙してサイトへのトラフィックを増やそうとする際に行われる手法の一つでもある。
  • クローラ・トラップが、クローラにページを無限に延々とダウンロードさせることがある(例えば、カレンダーなど)。このためクローラは通常、動的ページのダウンロード数の上限を設定されている。

Webは非常に巨大なため、その大部分を収集するには相当な計算機資源を必要とする。また、Web自体の内容の変化も速いため、サイト全体をクローラが収集する前にその内容が変わってしまうことさえある。

Webアーカイブが対処しなければならないのは技術的な側面だけではなく、知的財産権といった法的、社会的側面もある。Peter Lyman (2002)は「Webは一般にパブリックドメインのソースのように見られているが、これは著作権付きの情報である。従って、アーキビストはWebをコピーする法的権利を保持していない。」と述べている。 Internet Archiveのようにアーカイブしたコンテンツを一般に公開しているアーカイブの中には、コンテンツの所有者が一般公開を希望しない場合には、アーカイブしたコンテンツを公開から外したり、削除できるようにしているところもある。また、特定の場所からのみアクセス可能にしたり、特定の決められた利用法でのみアクセス可能にしたりしているアーカイブもある。

[編集] 手動によるアーカイビング

Internet Archiveのように、自らロボット(クローラ)が片っ端からかき集めるのではなく、利用者が手動でURLを指定して保存するアーカイブサイトもある。代表例は「ウェブ魚拓」である。外国では「hanzo:web」http://www.hanzoweb.com/ がある。

[編集] 参照文献

[編集] 関連項目

[編集] 外部リンク


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -