Categories
程式開發

全球新冠病毒COVID-19研究數據集正式開放,內含近3萬篇論文和所需AI工具


如今,這場疫情早已開始在全球範圍內傳播,全球數十家實驗室陸續關閉,這對冠狀病毒的研究工作進展十分不利。與此同時,全球眾多國家和地區聯合簽名要求共享 COVID-19 研究數據集以及相關論文,並建議發布者同時提供 AI 軟件和其他計算機系統可以直接使用的數據格式,以加速研究過程。

全球 COVID-19 研究數據集正式開放

近日,科技界、學術界正式宣布了一個公開數據集CORD-19,內含截至3 月13 日的所有新型冠狀病毒的論文,並包含針對文本進行優化的文本處理工具包SciSpacy、在科學文本上進行預訓練的BERT 模型SciBERT、開放研究語料庫和API 等,匯集了有關SARS-CoV-2 病毒內容在內的共計近3 萬篇文獻。

全球新冠病毒COVID-19研究數據集正式開放,內含近3萬篇論文和所需AI工具 1

根據相關人員介紹,新的數據集是機器可讀的,可以輕鬆進行解析以用於機器學習目的。為了讓研究人員可以快速梳理清楚數據,美國國家科學、工程和醫學研究院與世界衛生組織合作,提出了與冠狀病毒有關的“高優先級”問題,這些問題與遺傳、治療、症狀和預防等相關。

此前,全球已有包含美國、意大利、韓國、英國等在內的 11 個國家和地區要求相關機構開放這些數據集,以供研究。這裡的相關機構包括 PubMed Central(美國國立衛生研究院提供的一項服務, 存檔生物醫學, 生命科學科研文獻)和世界衛生組織的 Covid 數據庫。在呼籲開放數據集的公開信中寫道:

希望發布者可以提供相關的 AI 軟件和計算機系統可以直接讀取和使用的數據格式,而不是一個簡單的 PDF 文檔。

除了用於研究,相關機構也需要對內容進行篩選。此前,很多研究人員已經發布了不少與疫情相關的研究成果,但由於時間問題,不少論文都屬於“預印本”狀態,未經同行評審,可能存在一些問題,需要審查。 《新英格蘭醫學雜誌 (NEJM)》執行主編 Edward Campion 就曾表示:

我們每天收到多達 20 份關于冠狀病毒的報告,坦率地說, 其中一些並不是高質量的文章。我們的部分責任是選擇我們認為對臨床受眾和公共衛生受眾最重要的內容。

值得注意的是,Kaggle 還圍繞此主持了一場COVID-19 開放研究數據集挑戰賽,旨在激發開發人員使用CORD-19 來尋找有關本次疫情如此大規模流行的新見解,包括該病毒的歷史、傳播和診斷,人畜接觸的管理措施,先前流行病學研究的經驗教訓等。 Kaggle 為獲獎者提供了每項任務 1000 美元的獎勵,其他獎品和詳細信息參照挑戰賽官網說明。

COVID-19 開放研究數據集地址:https://pages.semanticscholar.org/coronavirus-research

疫情致許多實驗室關閉,開放可提高生產力

因新冠病毒疫情影響,哈佛最近在陸續關閉實驗室或大規模縮減實驗室成員,這樣的事情同樣發生在其他實驗室,這導致疫情相關的很多研究開展受阻,業界需要開放數據集進一步提高生產力。

通常,實驗室是根據當地爆發的程度來決定運營方式,但目前全球疫情爆發嚴重,有些實驗室陸續關閉,有些不鼓勵繼續研究,開放的一些機構雖然允許人員進入實驗室,但也在控制人數,最大程度避免聚集在建築物中的人數。愛荷華大學長期致力于冠狀病毒研究的研究員 Stanley Perlman 表示:

已經不再允許學生在實驗室里工作,而且研究生有一定的限制。這樣一來,可以同時限制人數,並減少有人傳播 SARS-CoV-2 病毒的機會。

這也在一定程度上影響了疫情的相關研究,研究人員表示,公共衛生和實驗室成員的安全至高無上,但他們仍然擔心離開實驗室數週或數月將意味著必須重新啟動某些項目或放棄實驗,浪費時間和資源。約翰霍普金斯大學彭博公共衛生學院分子微生物學和免疫學教授 Arturo Casadevall 表示:到目前為止,我們保持開放狀態,但情況非常不穩定。據了解,他正在研究針對 Covid-19 的治療方法。

中國科學家貢獻了大量研究和數據

早在一月份,在疫情被宣佈為國際公共衛生緊急事件前,中國科學家就快速分享了 SARS-CoV-2 病毒首個基因組信息。去年 12 月底,武漢首次報告了新型冠狀病毒肺炎。 1 月 8 日,中國科學家完成了病毒基因組測序,並將其公開,以便讓全世界的科學家投入到對抗 SARS-CoV-2 的戰役中。

今年1 月31 日,也就是新型冠狀病毒成為全球關注的突發公共衛生事件的第二天,94 家學術期刊、學會、研究機構和公司就曾簽署了一項協議, 承諾至少在疫情爆發期間免費提供有關該疾病的研究和數據。

簽署了這項協議的《公共科學圖書館(PLOS)》一直是開放獲取,他們向作者而不是讀者收取費用。 PLOS 的主編 Joerg Heber 表示:

公共科學圖書館已做好應對任何疫情的準備。除了開放獲取外,該期刊還要求復制研究所需的所有數據與之一起發表。儘管如此,同行評議研究仍然需要時間,因此 PLOS 強烈鼓勵所有提交與冠狀病毒相關論文的研究人員將這些論文作為預印本發表,以便盡快獲得。

如今,匯集了所有研究成果的數據集正式開放,這不僅可以加速疫情的研究過程,同樣可以對相關傳染病的研究提供經驗。如果開發者感興趣,可以訪問 COVID-19 數據集的官網進行下載,同意相關許可即可。

相關鏈接:

COVID-19 開放研究數據集地址:
https://pages.semanticscholar.org/coronavirus-research

COVID-19 開放研究數據集挑戰賽地址:
https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge