您当前的位置:首页 > 新闻资讯 > 科技

2023 年了,为什么我们还需要“非法的” Sci-Hub?

时间:2023-02-09 11:32:16  来源:果壳网  作者:

2022 年 2 月, 学术数据库 Sci-Hub 开始对外公布每月的文献下载统计—— 不论何时,中国用户在这个网站上的论文下载量都位居全球第一,是第二名美国的近五倍。

2023 年1月使用数据 |图片来源:Sci-Hub

中国用户和 Sci-Hub 的关系升温于 2020 年的一个小插曲。当年 5 月, Sci-Hub 创始人亚历山德拉·埃尔巴金(Alexandra Elbakyan)在网站主页上添加了一张 GIF 动图: 图中她挥舞着手,身穿一件印有“发送”字样的衬衫,面带微笑,有张肉肉的脸。这激起了人们的好奇,知乎上,“ Sci-Hub 左下角在招手的神秘女人是谁?”的相关解答收获上万点赞。

图片来源:Sci-Hub

那之后,数千封邮件突如其来地淹没了埃尔巴金的邮箱,其中一些“非常冗长而详尽”。

中国用户亲切地将 Sci-Hub 称呼为“小鸟”,称埃尔巴金为“学术女神”;Sci-Hub 则在最近的一次更新中,将 logo 小鸟口衔的钥匙变成了一把镰刀锤头。但看似和谐的关系背后是各自深陷的困境—— 埃尔巴金不断被美国、印度的出版商起诉;中国的科研人员则“苦知网久已”。

尽情拥抱 Sci-Hub 之时,中国科研从业者也响应学术开放的口号,探索着一条隐秘之路。

再造一条船

一战成名的故事开始于程序员论坛 ycombinator 上的一个帖子,内容简单直接: Sci-Bay:谷歌学术和 Sci-Hub 的合体。后面附带了网站链接。

一石千层浪。“这太棒了!”扑面而来的溢美之词带来了访问量的飙升,网站每天的日活数达到两万多人,分布在世界各地。

维基百科对 Sci-Hub 的定性是影子图书馆,一种绕过出版社付费墙,将文献开放给大众的在线数据库。Sci-Bay(意为科学海盗湾) 是一个与 Sci-Hub 高度类似的工具,被很多用户视为后者的“升级版”——Sci-Hub 只能用 DOI 号找论文,Sci-Bay 则允许用户使用关键词进行检索。

图片来源:pixabay

相较于 Sci-Hub 和埃尔巴金的高调,Sci-Bay 的来历是个谜团。“有谁知道 Sci-Bay 创始者的信息么?” 2018 年三月,曾为《大众科学》、《科学美国人》等媒体撰稿的美国记者 Ian Graber-Stiehl 在一个技术论坛上求助发问。此前不久,他刚在 The Verge 上发表了一篇关于埃尔巴金的深度长文,正想乘胜追击。他说,“据我了解,全世界最知名的一些期刊编辑都希望能尽快做一篇关于 Sci-Bay 的报道。”

五年后, Dongning 再次回忆起当时的状况,仍感到不可思议。 他并非互联网创业者,创建 Sci-Bay 也不是为了营利。这个网站做的唯一推广,只有那个帖子。

他看到媒体在四处打听,思前想后,考虑到各种风险,还是决定不要现身。直到现在,也几乎没人知道那个平台背后的运营者来自中国。

Dongning 属于中国最早接触到 Sci-Hub 的那批人。在他的印象中, Sci-Hub 的用户爆发期是 2016 年。也就是在那一年,“白嫖”了三年的他开始考虑对 Sci-Hub 进行改良——作为材料领域的学术人员,他知道研究者的需求, 他们希望能在查阅文献的同时,可以对比期刊信息、主题、影响因子,在浩瀚的论文之海中找到对自己有用的那一篇。

他把 Sci-Bay 和 Sci-Hub 的关系定义为升级而非竞争。在他看来,如果成功, Sci-Hub 也将是获益者,“不然你随便看见一个文件就去下载,对 Sci-Hub 的服务器会造成很大的压力。”

“升级改造”所需的主要技术是 Python/ target=_blank class=infotextkey>Python 编程,以他当时的水平只算了解些皮毛。但很快他就在开源平台上找到了一个谷歌学术的代理工具。他将两者进行了功能的整合,像搭乐高一样拼在一起。只一两个月之后,一个拥有检索功能的类 Sci-Hub 平台便初具雏形。

像是凭印象搭了一艘船,手边全是临时找来的废旧材料。网站刚一上线,常是每两个小时就会例行崩溃,只能手动重启。Dongning 就再返回去学架构、服务器知识,不停地往船上打补丁。

图片来源:unsplash

但仍有成千上万的人搭上了这艘船,摇摇荡荡来到了对岸。上线大概一个月时间,这个工具的访问增长到每天将近有一万人左右。为了改进技术并实现用户交流,Dongning 还设置了一个两千人的 QQ 群,结果几天就被加满,不得不找了一些志愿者跟他一起进行维护。

后来他将这些功能都聚合到一个网站上,模仿一些技术论坛的中文社群,建立了一个基于 Sci-Hub 的在线社区。

Sci-Hub 和它的中国拥趸

实际上, 庞大的中国用户群体一直对 Sci-Hub 的运作模式产生着持续的影响。

2013,Sci-Hub 创立的第三年,迎来了中国用户的第一次爆炸式增长。 发现这点后,埃尔巴金先是暂时阻止了来自中国的访问,以防网站崩溃。紧接着她测试了限流的方法——一度,用户寻找论文时需要“排队”才能进入。

在此之前,Sci-Hub 采用的是“下后即焚”的方式,没有存储库,文章被用户下载后六个小时就会自动删除。来自中国、疯狂增长的请求数让这种模式无法再延续,埃尔巴金转而从页面中提取 DOI,将用户重新定向到更老牌的文献数据库 LibGen 。

2013 年下半年,LibGen 内部出现严重的存储问题,大约四万篇论文丢失。埃尔巴金决定发起众筹,购买硬盘,建立自己的文献副本—— 这才让 Sci-Hub 更接近如今的模样,一个包含数千万篇论文的巨大存储库。

2021 年 8 月,Sci-Hub 接收捐款的账户被封,应用户要求,埃尔巴金在支付宝上开设了一个账户。 立刻,大量的捐款开始涌入。至于具体收到的金额,埃尔巴金表示,支付宝的提款限制是每年三万美金,在达到限额后,她没有再积极地进行统计和收集。

但总体来看,2021 年 Sci-Hub 收到的所有捐款中,来自中国用户的捐款占比达到了 30% 到 50%。

许多用户发信希望网站能增加中文的语言选项,作为回应,埃尔巴金在几个月前的一次更新中为 Sci-Hub 增添了这个功能。

图片来源:知乎截图

一起打游击

围绕 Sci-Hub 存在一个现象, 每次被封锁、被诉讼都只是让它的名气变得更大,获得的支持更多。这体现出它在舆论中占据的上风。

2015 年 6 月,爱思唯尔(全世界最大的出版商之一)对 Sci-Hub 提起版权诉讼,让被告声名鹊起。但这场败诉也让 Sci-Hub 丢掉了自己 Sci-Hub.org 的域名。自此,它进入了一种四处游击,不断搬家的状态,先后使用过 .ac、 .io、 .cc 等不同后缀。

迄今为止,它的官方域名已经更换数次。原本埃尔巴金依赖 Twitter 作为窗口,向用户随时更新最新域名。在 2021 年,Sci-Hub 的几个 Twitter 账户也接连被封。

2022 年 11 月,同为影子图书馆的 Z-lib 域名也遭美国司法部查封,引发广泛的不满|图片来源:bleepingcomputer

因此,几乎所有 Sci-Hub 的中文社群最初都是为了这个单纯的目的聚集到一起——获知 Sci-Hub 的最新地址。

YoviSun 便是其中之一。起初,他基于个人兴趣建立了一个网站,实时更新 Sci-Hub 的可用网址链接。为了弥补部分用户无法登陆 Sci-Hub 的问题,他又建立了 QQ 群,那些无法登陆网站的人可以在群内求助,总会有热心人伸出援手。

最终,这个模式在 2020 年衍生出一个非盈利性的科研互助平台“科研通”。 “科学是属于全人类的,它本不应该有障碍。”平台介绍中,YoviSun 如此写道,“大家站在巨人的肩膀上,才更有可能跳得更远。”

对于有资源的人来说,别人四处难寻的文献,只需点点鼠标就可以获取。阿莱是科研通的一名热心志愿者, 据他粗略估算,对于表述清晰无误的求助,他平均的回应时间只要 20 秒。

过去半年多,他的应助数量高达两万多次,也就是说,两万篇被需要的论文由他搬运到了垄断出版机构的墙壁之外,发送给求助之人。这是不菲的成绩,他的活跃让他在网站的应助榜上留下名字。应助前十的人能看到一些网站运行的内部数据。他查看发现,科研通每一天的应助人次都在万次以上。

一定程度上,阿莱将此视为一种互惠投资。 “我也不会一直在一个(访问科研文献)权限好的学校待下去,就当成现在帮别人,好让以后也有人能帮自己吧。”

一开始,科研通的功能和 Sci-Hub 重度重叠,但事情在 2021 年走到一个分水岭。

2021 年,Sci-Hub 在印度再次遭遇大规模诉讼,继而停止了对新论文的上传。同年 9 月,为庆祝成立十周年,埃尔巴金进行了一轮大规模的论文上传,但最新的论文仍有许多缺失。几乎所有基于 Sci-Hub 的索引平台也受牵连,可下载的论文也就停留在了 2021 年。

从这时起,科研通点对点互助模式就显出优越性,平台的活跃度一下子提升起来。

科研通承继了 Sci-Hub 基因当中最原初的那个部分:互助精神。

绕过出版商的付费墙是非法的,但用自己的账户帮朋友下一篇论文呢?那么十篇呢?一百篇呢?一百万篇呢?

外界一直对 Sci-Hub 庞大的论文来源充满好奇,对此埃尔巴金只透露过少量信息: 早期许多账号都来自于身处高校或研究机构内部的教授或学生,他们志愿贡献出自己的用户名和密码,直接发送到她的邮箱里。埃尔巴金记得,其中有一部分文献和密码就是与中文的学术论坛科研速递(expaper.cn)合作而取得的 。

对于很多人来说,这或许跟朋友之间共享一个 B 站或.NETflix 账号并无二致。

友情提醒:如果在 Sci-Hub 上找不到你要的论文,尝试直接给作者发邮件,他们通常都会很乐意给你发一份全文|来源:Sci-Hub Twitter

从来没有救世主

学术研究者与学术出版商之间的矛盾,全球同此凉热。

在中国,学术成本同样高企, 相比于每年涨价 5% 的爱思唯尔,中国知网从 2010 年到 2016 年平均每年提价了近 20% 。

Sci-Hub 暴打收费期刊 meme|图片来源:Sci-Hub Twitter

运营 Sci-Hub 社区的过程中, Dongning 常收到求助邮件。其中有几位让他印象尤其深刻:一些年龄比较大、在他看来相当有年资的高校老教授,也会为了 Sci-Hub 联系到他们,大多是为寻找一篇特定的论文,也有的会对网站的功能提些反馈意见。

“有一些真的资历特别高,院士级别的吧。我很惊讶是因为, 你会以为,凭借他们本身的资历,想要获取文献会有很多途径,不需要通过 Sci-Hub ,但实际情况不是这样。

抵制促进了开放。2021 年的重新谈判中,加州大学与爱思唯尔签署了里程碑意义的协议。爱思唯尔破天荒同意,将前者在其上发表的研究成果免费开放给世界上任何地方的任何人。

民意沸腾下,知网也被责令整改。经过半年的调查,2022 年 12 月 26 日,国家市场监管总局发布公告:确认知网滥用市场支配地位,处以其 2021 年中国境内销售额 17.52 亿元 5% 的罚款,计 8760 万元,并提出整改独家合作、大幅降低数据库服务价格在内的 15 条整改措施。

不同于 Sci-Hub 、Sci-Bay 和科研通所代表的隐秘、灰暗的抗争,为争取学术开发,还存在一条看似更为光明的岔路—— 已经进行了数十年的开放获取运动(Open Access)

开放获取运动并非没有成果:2013 年,奥巴马政府规定,所有通过美国联邦机构进行的研究,必须在发表一年内上传副本到免费资源库;压力之下,全世界的出版商巨头陆续推出开放获取期刊,如今根据地区的不同,OA 对现有论文的覆盖率在 27.9% 到 53.7% 不等;也存在 arXiv 这样的在线数据库,供研究者上传存档尚未经同行审议的论文。

然而,这场始自 2001 年的运动步调实在太过缓慢,慢得让人们几乎失去耐心。 更糟糕的是,开放获取的成本也常常被转嫁到论文作者的身上。Dongning 介绍,如今在论文出版的时候,出版商会问要不要选择 OA(Open Access),选择的话,作者就要自行交付非常昂贵的版面费(又称文章处理费 APC);不选择 OA, 版面费会低一点,但能接触到这篇论文的人就会少得多。

比如,根据期刊不同,爱思唯尔的 APC 价格在 200 美元到 10100 美元之间;美国国家科学院院刊(PNAS)的即时开放获取价格为 5495 美元(合约 3.7 万人民币)。因而坊间有调侃,“ OA 期刊出现以前,有人穷得读不起好文章;OA 期刊出现以后,有人穷得发不起文章”。

2013 年 reddit 创始人亚伦·斯沃茨自杀。此前他曾因利用个人学生账号大规模下载学术文献遭到起诉,面临最高 35 年的刑期|图片来源:《互联网之子》海报

埃尔巴金来看,Sci-Hub 和开放获取(OA)并不应简单地以“合法”与否作为区分。“ 2001 年开放获取运动出现时,没有人谈论它必须是‘合法’的——这样的问题根本就没有出现过!人们谈论的是如何让获取科学变得免费、开放,以及,如何将科学扩展到所有人而不仅仅是专业研究人员。”

她提到,事实上,当科学家在一些学术社交平台,比如 ResearchGate 或 Academia 上分享他们的工作成果时,也常会被爱思唯尔告上法庭。最终,许多不得不服从于诉讼,将自己的论文删除。

“开放获取中的‘合法性’问题是在 Sci-Hub 出现后才成为一个问题。 基本上,Sci-Hub 只是更激进的开放获取,目标是让科学变得开放,即使有人说它不完全合法。

但这种区分仍给 Sci-Hub 带来了真实的麻烦。如今,由于深陷诉讼,论文的上传已经停滞,埃尔巴金希望未来能够恢复。她还梦想加入人工智能的功能,让 Sci-Hub 能自动翻译论文,或是用自然语言回答关于科学的问题……

现实中,科研学术人员还是离不开 Sci-Hub 和它的海盗团。

“(Sci-Hub)这样的网站,它的存在本身就是一场悲剧。” Palladium 杂志评论道,“ 它填补了一个本不该存在的利基市场,就像买不起处方药的人只能在黑市买药。它的存在本身,就是在控诉让它能够出现的外部环境。

谁也说不准这场悲剧将如何收场,就连海盗自己也不愿尽情高歌。

(文内 Dongning、阿莱均为化名)

参考文献

[3] https://www.reddit.com/r/hacking/comments/868mqd/academic_piracy_journalist_know_anything_about/

[5] https://engineuring.wordPress/ target=_blank class=infotextkey>WordPress.com/2017/07/02/some-facts-on-sci-hub-that-wikipedia-gets-wrong/

[7] https://www.theguardian.com/science/2012/apr/24/harvard-university-journal-publishers-prices

[8] https://www.insidehighered.com/news/2019/03/01/university-california-cancels-deal-elsevier-after-months-negotiations

[10] https://huacheng.gz-cmc.com/pages/2021/12/13/6371cccd1a804c12809a401ef2df0aa3.html

[12] https://news.berkeley.edu/2021/03/16/ucs-deal-with-elsevier-what-it-took-what-it-means-why-it-matters/

[16] https://www.palladiummag.com/2021/09/24/a-world-without-sci-hub/

[17] https://www.pnas.org/author-center/publication-charges

作者:翁垟

编辑:卧虫



Tags:Sci-Hub   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
2023 年了,为什么我们还需要“非法的” Sci-Hub?
2022 年 2 月, 学术数据库 Sci-Hub 开始对外公布每月的文献下载统计—— 不论何时,中国用户在这个网站上的论文下载量都位居全球第一,是第二名美国的近五倍。2023 年...【详细内容】
2023-02-09  Search: Sci-Hub  点击:(193)  评论:(0)  加入收藏
▌简易百科推荐
Google成了“AI界汪峰”,全都怪OpenAI?
  2016 年,Google CEO 桑达尔·皮查伊在 I/O 开发者大会上豪情满怀地向全世界宣布:Google 已经成为了搜索的代名词,Alphabet 未来将成为一家 AI 优先的公司。  凭借...【详细内容】
2024-04-15    APPSO  Tags:Google   点击:(2)  评论:(0)  加入收藏
人工智能耗电凶猛,科技巨头寻求核聚变发电
第一财经 作者:朱颖人工智能(AI)是电老虎,每天在吞噬巨大的电能。据报道,OpenAI的ChatGPT每天消耗超过50万千瓦时的电力,以响应2亿个用户的请求,而美国一个家庭平均每天的用电量...【详细内容】
2024-04-15    第一财经  Tags:人工智能耗电   点击:(2)  评论:(0)  加入收藏
Meta确认5月发布Llama 3,参数量达1400亿
周二,在伦敦的一场活动上,Meta 确认计划在下个月初推出其 LLM 的最新版 Llama 3,这个模型是驱动生成式 AI 助手的核心技术。这一消息证实了《The Information》杂志周一发布的...【详细内容】
2024-04-12  视角先锋队    Tags:Meta   点击:(7)  评论:(0)  加入收藏
OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型
IT之家 4 月 12 日消息,OpenAI 今日宣布,新 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。与 1 月份相比,新版本提高了写作、数学、逻辑推理和编码的能力。GPT-4 Turbo 可在 Chat...【详细内容】
2024-04-12    IT之家  Tags:GPT-4   点击:(6)  评论:(0)  加入收藏
Meta推出新版自研AI芯片:性能较上代提高三倍,降低对英伟达依赖
AI(人工智能)芯片紧缺之际,越来越多科技巨头选择自行研发。当地时间4月10日,社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】
2024-04-11    澎湃新闻  Tags:Meta   点击:(5)  评论:(0)  加入收藏
英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
新华财经上海4月11日电 当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称,相比英伟达的H100 GPU,Gaudi3 AI芯片的模型...【详细内容】
2024-04-11    上海证券报  Tags:英特尔   点击:(7)  评论:(0)  加入收藏
AI“复活”亲人成生意,哪些红线待划定?
提供一张照片、一段10多秒的音频,即可让逝者在视频中“活”过来——AI“复活”亲人成生意,哪些红线待划定?本报记者 陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】
2024-04-11    工人日报  Tags:AI   点击:(5)  评论:(0)  加入收藏
科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
高质量的数据,越来越值钱。你能想象,那些被遗忘在网盘的陈年老图,有朝一日能价值千金?就在最近,路透社报道称,苹果公司正与图像托管网站Photobucket协商,希望得到这家公司近130亿张...【详细内容】
2024-04-10    镁客网  Tags:AI模型   点击:(4)  评论:(0)  加入收藏
谷歌推出适用于安卓设备的“查找我的设备”网络
IT之家 4 月 9 日消息,谷歌今日推出了适用于安卓设备的“查找我的设备”网络,其功能类似于苹果的“查找”网络,旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到,与苹果的“...【详细内容】
2024-04-09    IT之家  Tags:安卓   点击:(6)  评论:(0)  加入收藏
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的...【详细内容】
2024-04-09    新智元  Tags:硅谷   点击:(3)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
站内热门
相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条