数字化更迭 研究显示过去十年有1/4的网页已彻底消失
如今数字化网络时代,信息的快速更迭已成为常态,但一项新的研究揭示了一个令人关注的现象:过去十年中,有四分之一的网页已经彻底消失。 Pew Research Center的最新报告指出,截至2023年10月,2013年至2023年期间存在的网页中有25%不再运行。 报告中提到,这些无法访问的网页中,有16%的页面虽然单独无法访问,但其根域仍可正常使用;而另外9%的页面则因为整个根域已无法正常使用而无法访问。 而对于2013年之前存在的网页,有38%已经无法访问,这一比例在2021年的网页中为五分之一,而在2023年的网页中,约有8%已经消失。 这种现象被称为“数字化衰退”,它不仅限于个别网站,而是普遍存在于多种在线空间中。 研究人员检查了政府网站、新闻网站以及维基百科页面的“参考文献”部分的链接,发现23%的新闻网页和21%的政府网站网页至少包含一个损坏的链接。 在维基百科上,11%的参考资料不再可访问,54%的维基百科页面在其“参考文献”部分中至少包含一个指向不再存在的页面的链接。 此外,社交媒体上的内容也在迅速消失。研究人员对2023年春季Twitter上的实时推文样本进行了三个月的跟踪,发现近五分之一的推文在发布几个月后就不再在网站上公开可见,特定类型的推文,如土耳其语或阿拉伯语推文,更容易消失。 这项研究基于对Common Crawl中随机收集的近100万个网页样本、约5万篇维基百科文章以及2023年3月8日至4月27日在Twitter上发布的近500万条推文的分析。

如今数字化网络时代,信息的快速更迭已成为常态,但一项新的研究揭示了一个令人关注的现象:过去十年中,有四分之一的网页已经彻底消失。
Pew Research Center的最新报告指出,截至2023年10月,2013年至2023年期间存在的网页中有25%不再运行。
报告中提到,这些无法访问的网页中,有16%的页面虽然单独无法访问,但其根域仍可正常使用;而另外9%的页面则因为整个根域已无法正常使用而无法访问。
而对于2013年之前存在的网页,有38%已经无法访问,这一比例在2021年的网页中为五分之一,而在2023年的网页中,约有8%已经消失。
这种现象被称为“数字化衰退”,它不仅限于个别网站,而是普遍存在于多种在线空间中。
研究人员检查了政府网站、新闻网站以及维基百科页面的“参考文献”部分的链接,发现23%的新闻网页和21%的政府网站网页至少包含一个损坏的链接。
在维基百科上,11%的参考资料不再可访问,54%的维基百科页面在其“参考文献”部分中至少包含一个指向不再存在的页面的链接。
此外,社交媒体上的内容也在迅速消失。研究人员对2023年春季Twitter上的实时推文样本进行了三个月的跟踪,发现近五分之一的推文在发布几个月后就不再在网站上公开可见,特定类型的推文,如土耳其语或阿拉伯语推文,更容易消失。
这项研究基于对Common Crawl中随机收集的近100万个网页样本、约5万篇维基百科文章以及2023年3月8日至4月27日在Twitter上发布的近500万条推文的分析。






