網上有很多關于全球pos機,MIT Technology Review 2022年的知識,也有很多人為大家解答關于全球pos機的問題,今天pos機之家(www.tonybus.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
1、全球pos機
全球pos機
編者按
自2001年起,MIT Technology Review 每年都會評選出年度“全球十大突破性技術”,不少在當年嶄露頭角的技術,如今已經深刻地改變了我們的生活,推動了人類社會的進步。2022年2月23日,MIT Technology Review 評選出的年度“全球十大突破性技術”包括:終結口令、新冠變異追蹤、長時電網儲能電池、新冠口服藥和除碳工廠等。這些上榜的科學技術突破代表了當前時代科技的發展前沿和未來方向,為了讓廣大讀者深入了解這些突破性技術的科學價值及其背后的科學故事,《中國科學基金》編輯部特邀請各領域著名科學家對“十大突破性技術”中的九項分別進行深入解讀,推進科技資源科普化,構建科學普及與科技創新“兩翼齊飛”新格局。終結口令
The end of passwords
20世紀60年代,口令(Password,坊間稱為“密碼”)最早被圖靈獎得主費爾南多·科爾巴托教授用于大型機的本地文件訪問控制。20世紀90年代,互聯網開始進入千家萬戶,口令也在互聯網世界得到廣泛應用。隨著用戶網絡賬號的增多,用戶為了方便記憶,傾向使用流行口令、在口令中使用個人信息、在多個賬號重用口令,導致嚴重的安全隱患。自2000年以來,數以百計的新型身份認證方案陸續被提出。其中,無口令(Passwordless)方案近年來受到企業的青睞,比如谷歌、蘋果、微軟等公司,都為用戶提供了無需輸入口令就能登錄應用和服務的身份認證方案。在無口令身份認證方案中,要么用戶擁有一部帶攝像頭或指紋識別器的移動設備,并安裝相應的身份認證應用程序;要么用戶擁有專門的硬件設備(如U盾),以存儲身份認證所需的密鑰及算法參數。當前無口令身份認證方案仍在初級階段,面臨可擴展性低、部署成本高和隱私泄漏等挑戰,這些問題亟待解決。在可預見的未來,口令將仍是最主要的身份認證方法,無口令方案可能會使普通用戶對口令的直接接觸變少,但口令仍在幕后保護著我們的網絡與信息安全
專家點評
汪 定
南開大學網絡空間安全學院教授、密碼科學與技術系主任,天津市網絡與數據安全技術重點實驗室副主任,研究方向為數字身份安全。以第一作者(或通訊作者)在IEEE Symposium on Security and Privacy、IEEE Transactions on Dependable and Secure Computing 等刊物發表論文80余篇。研究工作引起美國身份認證標準NIST SP800-63-3的修改。獲教育部自然科學獎一等獎、中國計算機學會(CCF)優秀博士學位論文獎、ACM中國優秀博士論文獎、中國密碼學會優秀青年獎。
陳曉峰
西安電子科技大學網絡與信息安全學院教授,國家高層次人才,互聯網基金會網絡安全優秀教師。主要研究領域為密碼學和云計算安全,已在重要國際會議和期刊發表學術論文200余篇。擔任IEEE Transactions on Dependable and Secure Computing、IEEE Transactions on Knowledge and Data Engineering 等著名國際期刊的編輯,Asia Conference on Computer and Communications Security 2016、International Conference on Network and System Security 2014 等多個國際會議的大會主席。獲2019年度教育部自然科學獎二等獎、2016年中國密碼學會密碼創新獎。
馬建峰
西安電子科技大學網絡與信息安全學院教授,國家高層次人才,互聯網基金會網絡安全優秀人才,“網絡與信息安全”教育部創新團隊帶頭人,陜西省“網絡與信息安全”三秦學者創新團隊帶頭人。歷任西安電子科技大學計算機學院院長、網絡空間安全學部主任。擔任國務院學位委員會“網絡空間安全”學科評議組成員、陜西省網絡安全與信息化專家咨詢委員會副主任。曾以第一完成人身份獲得國家技術發明獎二等獎兩次。
身份認證是保障網絡安全的第一道防線,口令(Password,坊間稱為“密碼”)是最常用的身份認證方法。近年來頻頻發生的大規??诹钚孤妒录瑸楹诳秃筒环ǚ肿悠平庥脩舻馁~號口令提供了源源不斷的素材,引起人們對口令安全性的擔憂。在這一背景下,美國Okta 和 Duo等面向企業用戶的公司,微軟和谷歌等面向個人用戶的公司,都為用戶提供了無需輸入口令就能登錄應用和服務的身份認證方案,引起社會廣泛關注,并入選此次MIT Technology Review“十大突破性技術”。
實際上,這是“終結口令”的第二次浪潮??诹钭钤缭?0世紀60年代開始在大型機上使用[1],設計初衷是用來控制大型計算機上本地文件的訪問權限,避免分時操作系統的時間片濫用問題。20世紀90年代以來,互聯網服務(如電子郵件、電子商務、社交網絡)蓬勃發展,口令成為互聯網世界里保護用戶信息安全的最主要手段之一。隨著用戶的口令賬號越來越多,為方便記憶,用戶傾向使用流行口令、在口令中使用個人信息(如姓名、生日)、在多個賬號間直接重用或簡單修改后重用口令,導致嚴重的安全隱患[2,3]。另一方面,攻擊者的計算能力不斷增強。在這一背景下,自2000年開始,數以百計的新型身份認證方案陸續被提出。
早在2004年,時任微軟董事長的比爾·蓋茨就對外宣稱微軟將不再使用口令[4],掀起了“終結口令”的第一次浪潮。微軟與當時世界最大的安全公司RSA合作開發了一種名為SecurID的技術,這種技術本質上是一種“硬件設備+驗證碼”的雙因子認證。與此同時,微軟也開發了一種名為“tamper-resistant”的生物ID卡識別技術,本質是一種“生物特征+硬件設備”的雙因素認證。隨后,學術界也陸續指出了“安全的口令記不住,能記住的口令不安全”等問題,提出了數以百計的各類新型身份認證方法,如基于各類基于生物特征、行為特征的認證,基于圖形口令的認證和單點登錄[5]等。
出乎意料的是,始于2004年的這波“終結口令”的浪潮,到2009年左右逐漸悄無聲息地消失了,口令的地位不僅沒有被撼動,反而得到了更廣泛的應用。用戶平均擁有的賬號口令數量,也從2007年的25個增長到2020年的80個左右。這引起了學術界的反思。在數字世界里,信任不會憑空產生,而身份認證是構建信任的主要環節。身份認證方法有成百上千種,但基本手段可分為以下三類[5,6]:(1) 基于用戶所知,如口令;(2) 基于用戶所有,如U盾;(3) 基于用戶所是,如生物特征。這些嘗試替代口令的新方法,有的在安全性方面優于口令,有的在可用性方面見長,但幾乎都在可部署性上比口令差,并且在安全性、可用性、隱私保護方面幾乎都難以做到均衡。因此,學術界從2012年開始逐漸形成一個共識[5-7]:口令在可預見的未來仍將無可替代。
2015年至今,學術界逐漸認識到:除了用戶因素,導致口令安全問題的另一原因在于服務運營商的安全保障缺失。長期以來,運營商把保護口令的責任推給用戶,在最基本的口令策略設置、口令強度評價和口令存儲安全等方面都是穿著“皇帝的新衣”[7]。最近,微軟、谷歌和蘋果等公司加強了口令安全防護措施,并即將為用戶提供無需輸入口令就能登錄應用和服務的身份認證方案[8]。在這些無口令方案中,要么用戶擁有一部帶攝像頭或指紋識別器的移動設備(如智能手機、平板電腦等),并安裝相應的身份認證應用程序(如微軟的Authenticator App);要么用戶擁有專門的硬件設備(如支持FIDO2 標準且能識別指紋的U盾),以存儲身份認證所需的密鑰及算法參數。此外,這些方案仍把口令(或PIN碼)作為生物特征識別失效時的應急選項。
由此可以看出,當前無口令身份認證方案仍處于初級階段,存在明顯的缺陷:一方面,僅在大型公司的少數平臺和設備上應用(如iOS 16上或Win 10以上),未考慮舊版本的系統和不使用智能手機的人群;另一方面,由于需要特定版本的系統或平臺導致可擴展性低,涉及硬件導致部署成本高,由于生物特征的不可更改性導致存在隱私泄漏風險。此外,無口令認證方案降低了用戶對身份的控制權,52%的被調研用戶表示不接受把信任鏈條傳遞到手機等設備。截至2022年2月,78%的微軟云服務企業用戶仍僅使用賬號名和口令登錄,只有22%啟用了基于口令的多因素認證或無口令方案[9]。
綜上所述,在可預見的未來,口令仍將是最主要的身份認證方法之一,基于口令的認證技術仍不可替代。未來,隨著無口令方案的不斷成熟,在一些場景下(如使用智能手機)用戶對口令的直接接觸可能會變少,但口令不會消失,仍是應急認證手段,將在幕后保護著我們的網絡與信息安全。
圖1|“終結口令”技術入選此次MIT Technology Review 2022“全球十大突破性技術”(圖片來源:MIT Technology Review 官網)
新冠變異追蹤
COVID variant tracking
2019新型冠狀病毒(SARS-CoV-2)仍在全球傳播,這場全球疫情使得病毒基因組測序受到了前所未有的資金青睞,并極大地擴大了全球對此類病毒監測與預警的能力。2021年11月,南非一家實驗室的測序人員發現一個有50多個突變的病毒基因組,并首次發出警示信號,幾乎在瞬間,西雅圖、波士頓和倫敦的計算機都在利用這些數據做出預測:這種被命名為Omicron的新冠病毒變異體是個麻煩,它是一種可能逃避抗體的病毒突變體??茖W家們借助于基因測序、分析技術,可繪制出SARS-CoV-2的基因組圖譜,可監測病毒傳播過程中基因組發生的變化,并可進一步地快速發現并警告新的病毒變異體,如阿爾法(Alpha)、德爾塔(Delta),以及最近出現的奧密克戎(Omicron)。其中,Omicron被認為是迄今為止變異程度最高的病毒變種。這一項史無前例的努力,使SARS-CoV-2成為歷史上接受基因測序最多的生物體,超越了流感病毒、人類免疫缺陷病毒(Human Immunodeficiency Virus,HIV)甚至人類基因組,極大地提高了全球對此類病毒的監測、傳播跟蹤與預警能力。
專家點評
陸 劍
北京大學生命科學學院教授、博士生導師,教育部長江學者特聘教授,國家重點研發計劃重點專項首席科學家。目前擔任Science Bulletin 和Molecular Biology and Evolution 的副主編、中華預防醫學會生物信息學分會委員和北京市生物信息學會理事。研究方向為分子進化和基因組學,長期致力于群體遺傳學、進化基因組學和基因表達調控等領域的研究。參加中國—世界衛生組織新冠病毒溯源聯合研究,獲得全國科技系統抗擊新冠肺炎疫情先進個人稱號。
錢朝暉
中國醫學科學院/協和醫學院病原生物學研究所研究員,博士生導師,國家病原微生物實驗室生物安全專家委員會委員。長期從事冠狀病毒入侵、復制以及致病機制研究。
吳愛平
中國醫學科學院系統醫學研究院、蘇州系統醫學研究所研究員,北京協和醫學院博士生導師。獲得全國科技系統抗擊新冠肺炎疫情先進個人稱號、中華醫學科技獎二等獎和江蘇省“雙創人才”等獎勵。研究方向為傳染病生物信息學,專注于開發新型計算方法,建立病毒性傳染病的生物信息分析框架,系統進行新發突發病毒的發現溯源、變異進化和免疫評估等。主持或參與了國家重點研發計劃、國防科技創新特區和國家自然科學基金等多項國家級科研項目。
新型冠狀病毒傳播引發的疫情給全球經濟和公共衛生帶來了極大的破壞。作為一種RNA病毒,新型冠狀病毒在流行過程中必然會不停地發生變異,導致新的變異株不斷涌現。世界衛生組織已經定義過5個密切關注變異株(Variant of Concern, VOC),分別是阿爾法(Alpha)、貝塔(Beta)、伽瑪(Gamma)、德爾塔(Delta)和奧密克戎(Omicron)。快速積累的大量病毒基因組,為大流行期間病毒的持續演化和流行病學研究提供了寶貴的數據基礎。
對新冠病毒不同變異株進行科學的譜系劃分和演化動態追蹤,不僅有助于流行病學的調查和疫情精準防控政策的制定,對病原體檢測,臨床診斷,疫苗和治療藥物的研發以及有效性評估也具有不可估量的重要意義。在新冠疫情暴發早期,新冠病毒基因組序列還非常有限的情況下,我國科學家就開展了新冠病毒基因組分型和譜系劃分的系統研究。例如,我國科學家準確地將新冠病毒分為L和S兩個主要譜系,推測S譜系較為古老,而L由S譜系進化而來。進一步的研究發現早期病例中S譜系病毒感染者中危重癥比例顯著高于L譜系病毒感染者。為了便于追蹤不同譜系病毒演化流行過程和特征,進一步構建了新冠病毒分層次譜系劃分系統,繪制了完整的反映各個譜系之間親緣關系的單倍型網絡圖,揭示譜系演化關系,并建立新冠病毒譜系時空動態分布的可視化平臺(www.covid19evolution.net)。當前世界衛生組織定義的VOC變異株均是L譜系的分支譜系。S和L譜系分別對應Pango Lineage分型系統的A型和B型。S和L譜系劃分已被科學界廣泛接受和認可,并被全球禽流感基因共享數據庫(GISAID)數據庫、國家基因組科學數據中心、中國疾病預防控制中心以及《中國—世界衛生組織新冠病毒溯源聯合研究》中英文報告所采用。
我國科學家還發現,新冠病毒感染人數的不斷增加會加速新冠病毒變異的適應性演化,從而形成正反饋循環。龐大的全球感染人群,為新冠病毒的位點突變、片段插入/刪除以及基因重組等基因組結構變異等提供了巨大空間。在可預期的一段時間內,新冠病毒將會與人類共存。因此,對病毒變異規律的及時解析和譜系演化動態的及時追蹤仍然非常重要。如何科學地預測病毒的變異趨勢,對可能造成大流行的高風險株做到有效的先期預警尤為重要。早期新冠病毒變異的功能選擇主要表現為傳播力、受體結合能力以及病毒復制能力的增強。但是,在奧密克戎變異株高傳播力的背景下,突破性感染不停發生,感染人群比例不斷升高,病毒多樣性持續擴大,免疫逃逸已經成為新冠病毒變異的主要驅動力。因此,如何在疫苗接種和突破感染形成的復雜免疫選擇壓力下,預測新冠病毒變異趨勢和流行動態將會是一個充滿挑戰但又亟需解決的重要科學問題。GISAID已經收錄了超過1 000萬條新冠病毒全基因組序列及部分樣本的采集信息,基因組序列的超復雜性也為監測和分析新冠病毒演化趨勢提出了巨大挑戰。開展病原學、免疫學、結構生物學、群體遺傳學、分子演化以及計算生物學等多學科的合作,結合人工智能和機器學習等新興技術可能是解決這一問題的有效途徑。
圖2|SARS-CoV-2病毒是地球上被測序最多的生物體,極大地增強了全球對此類病毒的變異追蹤與預警能力(圖片來源:MIT Technology Review 官網)
長時電網儲能電池
Long-lasting grid battery
2021年4月,可再生能源打破了加利福尼亞州主電網的紀錄,提供的電力足以滿足94.5%的需求,這一時刻被譽為低碳化道路上的一個里程碑。我們使用的可再生能源比以往任何時候都多。然而,可再生能源帶來的波動式電力需用一種廉價且長時(數小時甚至數天)的儲能電池保存,以備日后使用。新型的鐵基電池有望勝任這一任務。總部位于俄勒岡州的ESS公司,其電池可實現4至12小時的儲能,并在2021年推出了其第一個電網規模的項目??偛课挥隈R薩諸塞州的Form Energy公司稱其電池可儲存電能長達100小時,他們在2021年籌集了2.4億美元,在明尼蘇達州安裝一兆瓦級別的儲電工廠,預計2023年完成。這兩家公司都選擇使用鐵基電池,而鐵是地球上最豐富的材料之一。這意味著他們的產品最終可能比鋰離子電池和釩系液流電池等其他儲能電池更便宜。Form Energy公司表示,其電池最終的成本可能僅為20美元/千瓦時,甚至低于未來幾十年對鋰離子電池成本的樂觀預測。但鐵基電池也存在一些技術挑戰,如它們的效率通常較低,這意味著投入其中的相當一部分能量無法被回收;此外,副反應也會隨著時間的推移而使電池退化。但如果鐵基電池能以足夠低的成本被廣泛安裝使用,便可以為更多人提供來自可再生能源的電能。
專家點評
張新波
研究員,中國科學院長春應用化學研究所稀土資源利用國家重點實驗室主任,國家杰出青年科學基金獲得者。致力于能源存儲與轉化研究,目前主要聚焦于金屬—空氣電池、新型離子電池與能源電催化方面的關鍵材料設計和高性能器件研制,開發了具有完全自主知識產權的鋰空氣電池器件。在Nature Chemistry、Nature Energy 等國際權威期刊上發表論文200余篇,主編國際專著1部。授權發明專利20件。2019年獲吉林省自然科學獎一等獎。
未來在以可再生能源為主體的新型電力系統中,可再生能源的比例將超過50%,這必然會要求儲能設施具備十幾個小時乃至幾天的儲能時長,以滿足吉瓦(Gigawatt, GW)級別的再生能源并網和長時間削峰填谷的需求。然而,在目前的儲能電池技術水平下,鋰離子電池儲能時長以2小時居多,部分已經提升至3到4小時,但要達到6小時及以上的儲能時長則會面臨成本與產品安全等方面的諸多挑戰。因此,低成本、長時儲能電池的發展將成為電力系統轉型的關鍵。
此次入選2022年MIT Technology Review “全球十大突破性技術”的水系鐵基電池是基于廉價和儲量豐富的鐵元素構筑的,其具有高安全性和環境友好等特征。其中,美國俄勒岡州ESS公司的鐵基液流電池以氯化亞鐵為正負極電解液,通過電解液中鐵離子的氧化還原實現電能的儲存和釋放,可實現長達20 000次的穩定循環。此外,該液流電池的儲能活性物質與電極完全分開,功率和容量設計互相獨立,便于模塊組合設計和電池結構放置,其電網規模的儲能模塊可以實現4至12小時的能量儲存。不同于液流電池,Form Energy公司的鐵—空氣電池是一種靜態電池,其基本原理是基于鐵的可逆氧化(生銹),可持續多達10 000次的循環。相比于鐵基液流電池,鐵—空氣電池的儲能容量更大,其可儲存電能長達100小時(約可為電網提供超過4天的電力),這種電池將使具有成本效益的“多日儲能”成為可能。上述兩種鐵基電池在大規模儲能方面均具有明顯的優勢:超長循環壽命、高安全穩定性、可擴展性、低成本和綠色環保,可平衡可再生能源發電的波動式變化,實現低碳長時電網儲能。
鐵基長時電網儲能電池的發展,可以彌補鋰離子電池的一些不足,以科技創新的方式將電力系統從化石燃料發電轉變為可再生能源發電,有利于在全球范圍內減少碳排放,實現低碳電網碳的發展和碳中和的終極目標。然而,除了長時電網儲能電池外,還有一些其它可以提供穩定電力服務的能源組合(核能、化石能源+碳捕捉與封存技術、氫能等)與之競爭,這些技術未來的發展,也會在一定程度上左右長時儲能電池在電網中的占比。此外,與其他儲能技術的發展一樣,長時儲能電池從研發、示范、落地到規?;?,一路上必將面臨產能、供應鏈、建設、運營等多方面的挑戰,必須嚴格控制每一環的風險,才能實現既定的成本目標。
我國的長時電網儲能技術以全釩液流電池為主,其已經過十多年的示范考核,并且其大規模儲能的工程效果已得到了充分的驗證,產業配套成熟,可支撐起百兆瓦級儲能項目的設計與開發。此外,全釩液流電池系統的單瓦時成本已可控制在2~3元的水平,具備了商業化應用的條件。2018年以來,我國液流電池的裝機量呈現爆發式增長。其中,2020年規劃的液流電池裝機量超過6 GW,容量超過20 GWh。與此同時,單個項目的規模也在不斷提升,如200 MW/800 MWh的全釩液流電池示范項目。整體而言,我國液流電池的產業研究和技術工藝處于國際領先水平,特別是國內液流電池的龍頭企業,大連融科在海外市場的拓展也在如火如荼地進行。然而,全釩液流電池的低能量密度和釩高昂的價格,需要我們開發更具價格和能量密度優勢的新型長時電網儲能技術。
儲能作為“雙碳”背景下構建低碳電網的關鍵組成部分,跨天、跨月乃至跨季節的長時電網儲能系統的發展迫在眉睫。目前長時儲能技術仍處于百家爭鳴的中早期研發示范階段,孰勝孰劣尚未揭曉。電化學儲能由于動力電池產業的推動,不受地理環境的制約,暫時處于比較有利的競爭地位。未來電網儲能系統的發展需要以模型數據開源、學術產業結合等方式集思廣益,甄選出最具經濟可靠性的電源儲能配置方案,形成多能互補的,新能源+儲能的電力系統,為實現“雙碳”目標提供強有力的支撐。
圖3|廉價、儲能持久的鐵基電池有望分攤可再生能源的供應壓力,并擴大清潔能源的使用范圍(圖片來源:MIT Technology Review 官網)
AI蛋白質折疊
Artificial intelligence for protein folding作為生命體最重要的功能載體之一,蛋白質在眾多生命活動中發揮著關鍵的作用。蛋白質在行使功能時往往需要折疊成特定的三維結構,因此對蛋白質結構的測定和解析不僅能幫助人們在分子層面上理解大多數生命活動的機理,而且可以有效輔助基于結構的藥物開發以及相關疾病的診治。目前通過實驗手段解析蛋白質結構費時費力,遠遠無法滿足現實需求。2020年底,谷歌重組后的“傘形公司”Alphabet旗下名為DeepMind的人工智能實驗室采用多種深度學習技術,開發出了一款名為 AlphaFold2 的軟件,能根據蛋白質的氨基酸序列準確預測其三維結構。該軟件使用一種稱為深度學習的人工智能技術,可以預測蛋白質的形狀,甚至精確到原子。由于大多數蛋白質的氨基酸序列已知,該軟件可以在數個小時內提供目標蛋白質原子分辨率的結構信息,而且其預測的結構模型準確度很高,在很多蛋白上可以與實驗解析的真實結果媲美。世界各地的科學團隊已經開始使用它來研究癌癥、抗生素抗性和新冠病毒。2022年,該技術被MIT Technology Review 評選為“全球十大突破技術”之一。
專家點評
龔海鵬
清華大學生命學院副教授,博士生導師,生物信息學教育部重點實驗室副主任。2009年加入清華大學生命學院,主要從事蛋白質結構相關的計算方法研究。近年來的研究興趣主要集中在結合人工智能技術發展蛋白質結構預測算法和分子模擬的采樣方法,以通訊作者身份在Nature Machine Intelligence、Advanced Science、Bioinformatics、PLoS Computational Biology、Journal of Chemical Theory and Computation 等計算生物學主流期刊上發表多篇論文。近5年主持國家自然科學基金項目3項。
生命體中的主要生命活動都通過蛋白質分子完成,因此理解單個蛋白質分子的工作機理至關重要。蛋白質的多肽鏈是由氨基酸順序連接而成的線性分子,它往往折疊成特定的三維結構來行使功能。換言之,蛋白質的序列決定結構,而結構又決定功能。自20世紀五六十年代起,蛋白質序列、結構與功能間的關系就一直是生命科學的核心問題。作為這一信息鏈條的中心點,蛋白質結構既可以幫助人們理解生命活動的分子機理,也能有效地輔助蛋白質設計和基于結構的藥物設計,因而結構解析已經成為生物物理領域最重要的研究方向之一。過去二三十年來,結構生物學取得了長足進展,包括蛋白質晶體學和冷凍電鏡等技術的快速發展,使得人們可以較為快速地測定生物大分子的三維結構。目前蛋白質結構數據庫(Protein Data Bank,PDB)中已經積累了超過18萬個分子的結構。但是,總體而言,蛋白質結構的實驗測定仍然較為耗時,往往至少要耗費數月時間。此外,由于新一代測序技術的發展,蛋白質序列的積累速度遠遠大于結構解析的速度。目前蛋白質序列庫中的蛋白質數目已經超過結構數據庫3~4個數量級,這一差距無法通過實驗方法彌補。
根據安芬森法則(Anfinsen’s dogma),大多數球狀蛋白的三維結構由氨基酸序列唯一決定。自20世紀八九十年代起,人們就開始發展計算機算法,通過研究序列和結構間的關系,根據氨基酸序列預測蛋白質的三維結構。1994年,約翰·莫爾特(John Moult)等人組織了第一屆國際蛋白質結構預測評估競賽(Critical Assessment of protein Structure Prediction, CASP),用于系統評測各種計算方法的預測準確性。該競賽每兩年舉辦一次,組委會收集未發表的結構數據,對參賽者發布其序列信息,然后收集其預測結果進行雙盲評估。CASP競賽極大地促進了蛋白質結構預測領域的發展。在早期CASP競賽中,發展的基于模板的建模方法Modeller以及基于統計和物理模型的建模方法Rosetta和I-TASSER等程序,結合物理知識和對結構數據庫的統計分析,可以對某些特定蛋白提供較為準確的預測模型。但是,隨著實驗解析蛋白質數目的快速積累,這些方法的預測性能并未顯示出相應提升,反而達到了瓶頸。2015年,克里斯·桑德斯(Chris Sanders)等人提出可以從多重序列比對中獲得氨基酸殘基間的共進化關系,從而為結構預測提供額外信息。2016年的CASP12競賽中,許錦波等人提出的RaptorX程序,首次使用深度卷積模型,根據多重序列比對預測氨基酸殘基間接觸,再根據預測結果折疊蛋白,從而顯著提升了結構預測的平均準確率。其后,人工智能方法開始廣泛介入蛋白質結構預測領域。2018年的CASP13競賽中,DeepMind發展的 AlphaFold 采用了類似的方案預測殘基間距離并根據預測距離折疊蛋白。其后的大多數方法也主要沿這一思路進行。2020年CASP14競賽前,人們發現這類方法的性能并不能隨模型參數量增加而繼續提高,而且這類深度學習模型的預測準確性離現實需求尚有一段難以跨越的距離。但是,在2020年底CASP14結果公布時,DeepMind提出的 AlphaFold2 算法遠遠超越了其它深度學習模型,對絕大多數目標蛋白都可以提供高度精準的預測模型。對有些蛋白質而言,AlphaFold2預測的結果與實驗解析的模型高度相似,甚至僅根據實驗數據都很難區分孰優孰劣。這一結果也震驚了整個科學界。
后續的報告和論文顯示,DeepMind在設計 AlphaFold2 時完全摒棄了第一代 AlphaFold 的架構,規避了殘基間接觸或距離的預測,采用了一種全新的端對端模型直接根據序列預測結構。這一設計不僅能加快預測速度,而且可以有效抑制中間過程中的誤差積累。此外,DeepMind采用了近年來自然語言處理領域較流行的Transformer架構。與以前常用的卷積架構不同,這種基于注意力機制的模型允許所有氨基酸殘基在每一步操作中發生信息交互,能更好地模擬蛋白質折疊過程中的殘基間相互作用。最后,AlphaFold2 還使用了重循環和自蒸餾等工程技術,進一步有效提升了預測準確率。總之,在 AlphaFold2 中,DeepMind通過具有高度創新性的深度學習網絡架構設計,初步解決了蛋白質結構預測(或折疊)這一困擾人類50年之久的科學難題,也因此入選MIT Technology Review 評選的2022年“全球十大突破技術”。
AlphaFold2 的提出顯然對生命科學有巨大的促進作用。一方面,它能夠快速準確地根據氨基酸序列預測蛋白質的三維結構,因此可以有效彌補現有結構生物學技術的缺陷。另一方面,通過對 AlphaFold2 的進一步研究,人們可以更好地理解蛋白質序列和結構間的映射關系。目前已有很多研究組開始把 AlphaFold2 應用于藥物開發和蛋白質設計領域。比如,清華大學的張林琦和彭健合作,通過進一步優化的 AlphaFold2 模型預測抗原和抗體的結合能,并根據預測結果優化抗體設計,最終開發出我國首款新冠特效藥。2021年,DeepMind與EBI合作,建立了基于 AlphaFold2 預測結果的數據庫 AlphaFold DB。該數據庫中已經儲備了近一百萬蛋白質的預測結構,為生命科學各個領域的科學家們提供重要的蛋白質結構信息。這一行為很可能會改變很多領域的科研范式,促進分子層面的研究從以序列為基礎轉變為基于序列和結構的研究,從而加快生命科學定量化的步伐。
當然,AlphaFold2 還有一定的局限性。首先,它在很多蛋白上的預測精度還有待進一步提高,目前還不能完全滿足藥物開發等領域需要的結構精度,特別是對蛋白質復合體的預測精度較低。因此,AlphaFold2 還不能完全替代結構生物學研究。其次,AlphaFold2 模擬的是從多重序列比對到三維結構的映射關系,并沒有解決從單一序列到三維結構的映射關系,因此蛋白質折疊問題還沒有完美解決。最后,也是最重要的一點,針對一個特定的目標蛋白,AlphaFold2 僅提供有限的結構模型,不能揭示其結構的動態變化。而動態結構才是真正決定功能的基礎。
無論如何,AlphaFold2 的提出展示了人工智能技術對生命科學研究的巨大促進作用。在蛋白質結構預測領域,預計人工智能技術將繼續引領后續的進展,解決目前 AlphaFold2 的局限性:(1) 提高蛋白質復合體的結構預測精度;(2) 發展根據單一序列預測蛋白質結構的人工智能算法;(3) 根據氨基酸序列預測蛋白質的動態結構。
我國在蛋白質結構預測領域的基礎整體上還比較薄弱。近年來雖然有多個學術研究組在殘基間距離預測、能量函數構建和模型質量評估等子領域做出了原創性的工作,但是由于學術研究組的規模和資金有限,還沒有形成完整的自主研發的程序算法,能達到與 AlphaFold2 持平的程度。但是,目前已有企業(如深勢科技、華深智藥、騰訊、百度、華為等)牽頭的研發小組以 AlphaFold2 為模板進行二次開發,并取得了一定的成績??紤]到人工智能技術的飛速發展,我國在這一領域還有極大的潛力。希望在不久的將來,我國能通過多個學術研究組的聯合攻關,或企業和高校的合作研發模式,開發出原創性的、具有完全自主知識產權的蛋白質結構精準預測算法。
圖4|人工智能實驗室DeepMind開發的 AlphaFold2 軟件初步解決了蛋白質結構預測這一科學難題(圖片來源:MIT Technology Review 官網)
瘧疾疫苗
Malaria vaccine
寄生蟲是復雜的多細胞生物,其基因組比大多數病毒和細菌中的基因組大500~1 000倍。使其能夠通過無數種方式的基因突變來躲避人體免疫系統的監視。瘧疾是瘧原蟲所引起的嚴重危害人類生命健康的寄生蟲病。其主要集中在撒哈拉以南的非洲地區,該地區的病例約占全世界的95%。每年有60多萬人死于瘧疾,其中大部分是5歲以下的兒童。2021年10月,世界衛生組織批準了世界上第一種對抗由蚊子傳播的致命疾病的疫苗—瘧疾疫苗。然而,這款由葛蘭素史克公司研發的瘧疾疫苗,RTS,S或Mosquirix,被認為不是一種特別有效的疫苗。它需要在5至17個月大的兒童中接種三劑,并在12至15個月后接種第四劑。此外,在肯尼亞、馬拉維和加納的80多萬名兒童中,這種疫苗在第一年對嚴重瘧疾的有效率約為50%,而且隨著時間的推移,其療效急劇下降。即便如此,公共衛生官員仍將這種自1987年就開始測試的疫苗譽為非洲的“游戲改變者”,主要原因是當其與其它瘧疾控制措施(包括驅蟲蚊帳和在雨季使用的預防藥物)結合使用時,有望將瘧疾死亡人數減少多達70%。Mosquirix作為第一個被批準用于寄生蟲病的疫苗,旨在敲響免疫系統的警鐘,保護潛在的宿主免受感染,對鼓勵創新以及下一代瘧疾疫苗的開發具有重大意義。
專家點評
江陸斌
研究員,中國科學院上海巴斯德研究所副所長,上海科技大學特聘教授,國家杰出青年科學基金獲得者,國家重點研發計劃項目首席科學家,美國國立衛生研究院(National Institute of Health,NIH)R01項目首席。曾獲湖北省科技進步獎二等獎、上海市科技系統先進個人、中國科學院優秀教師“朱李月華”獎等獎勵和榮譽。長期致力于惡性瘧原蟲致病的表觀遺傳學機制研究,首創了惡性瘧原蟲表觀遺傳基因編輯技術,揭示了惡性瘧原蟲免疫逃逸的調控網絡,闡明了線粒體功能抑制的表觀遺傳機制,鑒定到一批具有藥物開發潛力的表觀遺傳靶點,其中一種小分子候選藥物已進入臨床前研究。
RTS, S/AS01(RTS,S)是全球首款獲得世界衛生組織(World Health Organization,WHO)批準的瘧疾疫苗。它是惡性瘧原蟲環子孢子蛋白CSP的C-末端序列(包括NANP抗原重復序列和T細胞表位序列)與乙型肝炎病毒表面抗原(HBsAg)融合、組裝成病毒樣顆粒結構的亞單位疫苗,并通過新型脂質體免疫佐劑AS01增強疫苗的免疫原性。自2021年10月起,RTS, S/AS01獲批在非洲瘧疾傳播的中、高風險地區5月齡以上兒童中使用。
瘧疾是嚴重危害人類健康的全球三大傳染病之一。隨著青蒿素等各類抗瘧藥的臨床耐藥性問題日益加劇,目前全世界仍有近一半人口面臨瘧疾感染風險。致死性最強的惡性瘧疾原蟲每年造成2億~3億的感染病例和近60萬的死亡病例,是實現“人類衛生健康共同體”目標的關鍵阻礙之一。21世紀以來,全球每年約有10項瘧疾疫苗項目獲批開展臨床試驗,約150項已完成或提前終止臨床試驗。其中,RTS, S/AS01在非洲地區的多中心Ⅲ期臨床試驗數據顯示,5~17月齡兒童接種4劑疫苗后,臨床發病的平均保護效率為36.3%,部分地區可實現約50%的臨床保護效率。迄今為止,RTS, S/AS01是唯一被證明可降低瘧疾患兒臨床發病率和死亡率的疫苗。需要指出的是,RTS, S/AS01僅在接種4劑后的1年內對5~17月齡兒童具有較高的保護效率。隨后,其免疫保護效率快速下降,接種1年半后平均保護效率已低于30%。作為瘧疾疫苗研究領域零的突破,RTS, S/AS01具有重大的現實意義,WHO預期它在未來每年可以挽救數萬名5歲以下非洲兒童的生命。
不可否認,RTS, S/AS01并沒有達到瘧疾疫苗的WHO官方標準(保護率>50%,保護時間>1年)。因此,如何有效遏制瘧疾在熱帶、亞熱帶等國家和地區的流行與傳播,依然是全球瘧疾研究人員亟需解決的科學問題。雖然在幾代疾控工作者的不懈努力下,我國已于2021年正式獲得由WHO頒布的消除瘧疾認證,但輸入性瘧疾在華中、華南和西南省份呈上升趨勢。而且,在我國云南、東南亞以及非洲等地已出現了具有青蒿素潛在抗性的惡性瘧原蟲。因此,研制新型瘧疾疫苗刻不容緩,并具有重大的社會和經濟意義。
與瘧疾作為國際傳染病學研究熱點極不協調的是,相關寄生蟲學研究在國內普遍不被重視,瘧疾疫苗研究也多為靶向瘧原蟲單一抗原的亞單位疫苗策略。由于瘧原蟲生活史包括肝(細胞)內期、紅(細胞)內期和蚊期等復雜的生長時期,惡性瘧原蟲具有高度變異的抗原蛋白和多變的免疫逃逸策略,這既限制了國內外瘧疾疫苗的研發,同時也是導致RTS, S/AS01并不完美的主要原因。近年來,隨著多種新型基因編輯技術在惡性瘧原蟲關鍵生物標志物功能鑒定中的廣泛應用,使研究人員針對惡性瘧原蟲不同生長時期設計多價疫苗成為可能。同時,與傳統疫苗相比,新興的信使核糖核酸(Messenger Ribonucleic Acid,mRNA)疫苗技術、疫苗佐劑和抗原遞送系統的技術革新也將為瘧疾疫苗研究提供更多的潛在方案,使得新一代高效瘧疾疫苗的研發有望在未來5~10年內取得關鍵性突破。
圖5|世界上第一種對抗由蚊子傳播的致命疾病的疫苗—瘧疾疫苗獲批。(圖片來源:MIT Technology Review 官網)
權益證明
Proof of Stake,PoS
共識算法是區塊鏈技術的核心,通過算力競爭的“挖礦”工作量證明機制消耗了全球太多的電力和計算資源,一直為人詬病。而PoS權益證明機制則有望徹底擺脫這一困境。PoS算法的突出特點是引入了幣齡的概念,幣齡越長,權力越大,挖礦難度越低,所獲獎勵越多。這樣節點不需要消耗過多的外部算力和資源去競爭記賬權,一定程度上還縮短了達成共識的時間,提升了系統運行性能。2022年2月,MIT Technology Review 發布了2022年“全球十大突破性技術”,“PoS權益證明”與“新冠口服藥”“實用型聚變反應堆”“終結口令”“AI 蛋白質折疊”等技術一起名列其中。
專家點評
張小松
教育部“長江學者”特聘教授,電子科技大學網絡空間安全研究院院長,博士生導師,中國電子學會區塊鏈分會副主任委員。長期從事計算機網絡與系統安全技術的研究。以第一完成人先后獲國家科技進步獎一等獎、二等獎各1項,省部級科技進步獎一等獎3項、發明獎2項。
2008年題名為“Bitcoin:a peer-to-peer electronic cash system”的論文發表至今,基于分布式賬本技術的區塊鏈在全球產生了巨大深遠的影響,而實現分布式系統強一致性及最終一致性達成的共識算法無疑是區塊鏈技術體系的核心,其本質是要解決在分布式網絡環境下,如何讓所有的節點對窗口內發生事務的順序和內容正確性達成共識,確保系統內同一個事務處理的可靠和可信,為實現區塊鏈去中心化、開放自治提供機制的支撐和保障。
對于嚴格維護去中心化機制的“公有鏈”(Public Blockchain)系統,工作量證明(Proof of Work, PoW)毫無爭議是目前最具認可度的共識算法,在全球影響力最大公有鏈比特幣和以太坊系統中均予以采用。PoW的原理是區塊鏈中各個節點通過算力計算哈希(Hash)難題,其中最先解決難題的節點將獲得區塊記賬權,從而以算力競爭的方式保證數據的一致性,這一過程又俗稱“挖礦”。PoW機制可以表達為:H(param||nonce)<target,其中,h表示哈希函數,param是區塊相關的數據,nonce是隨機值,target是由當前計算難度值決定的目標值。顯然,要找到符合條件的nonce,只能通過窮舉的方法來實現,然而,公鏈節點規模的擴大和挖礦難度的不斷增大,PoW共識機制越來越暴露出無法克服的問題:
(1) 能源浪費巨大。截至目前,采用PoW共識算法“挖礦”的比特幣系統,產生一枚比特幣的耗電量大約在20萬度到30萬度之間,導致全球范圍內的比特幣挖礦能源消耗非常巨大,劍橋大學替代金融研究中心數據顯示,僅比特幣挖礦年度消耗的電量高達1 300多億度電,比很多國家的年度用電總量都要高。
(2) 業務性能很低。PoW共識算法要求每筆交易及其區塊都要獲得所有節點的確認,才會被記錄到賬本中,而隨著網絡規模的擴大,共識的耗時必然提升,目前比特幣和以太坊系統的共識速度平均僅約5筆/秒左右。雖然有試圖以增加區塊大小和降低出塊時間間隔來提升交易速度的其它衍生公鏈系統,但是它們仍無法避免出現分叉概率上升的風險和交易效率降低等問題。
(3) 算力集中風險。在巨大的利益驅動下,越來越多的專業挖礦算力節點加入到比特幣和以太坊系統,甚至出現多個節點聯合挖礦形成了的幾大礦池占據多數算力的局面,明顯違背了區塊鏈去中心化基本原則和設計初衷。
權益證明算法正是為彌補PoW不足應運而生。PoS算法由PeerCoin創始人Sunny King和Scott Nadal提出并實現,其突出特點是引入了幣齡的概念,將消耗幣齡(代幣數量與時間的乘積)與計算hash散列的工作量一起作為記賬權分配的準則,從而等比例的降低hash運算的難度。PoS機制可以表達為:工作量證明hash<總目標值,而總目標值=幣齡X目標值target。因此節點不再是僅依靠算力去競爭記賬權,而是通過長期持有或者獲得更多的幣去增加幣齡。與PoW算法相比,PoS算法是在一個有限的空間里進行共識,不需要消耗過多的外部算力和資源,可以有效地彌補PoW的劣勢,并且能夠在一定程度上縮短達成共識的時間,提升系統運行性能。
股權授權證明(Delegated Proof of Stake,DPoS)基于PoS演化而來,由Block.one公司開發的企業操作系統(Enterprise Operating System,EOS)是第一個采用DPoS的公鏈項目。DPoS在完成共識的過程中不需要消耗大量的算力,大大提高了區塊的生成速度和交易確認效率,同時不會出現PoS機制中富有節點長期支配記賬權的情況。
以太坊由于其率先實現了圖靈完備的智能合約子系統,目前已經是全世界應用生態發展最好的公有鏈系統,為解決以太坊面臨的網絡擁堵、運行節點的算力要求門檻高、PoW機制能耗巨大等困境,從2015年以來以太坊開發團隊就一直致力于共識機制的切換研發:(1) 利用分片鏈來減輕節點驗證者的工作量,解決可擴展性問題;(2) 利用信標鏈隨機分配驗證者降低作惡概率,保證安全;(3) 利用PoS機制降低節點門檻并保障生態的可持續發展,并最大程度上實現去中心化。
以太坊信標鏈已于2020年底上線。2022年4月11日,以太坊完成了網絡的第一個影子分叉(Mainnet Shadow Fork),啟動了一個從PoW過渡到PoS的合并測試網。預計2022年以太坊將完成由PoW到PoS的切換,并由此形成世界范圍內節點數最多,應用生態最大的公有鏈系統,并將進一步推動區塊鏈技術發展。
圖6|一種確保數字貨幣安全的替代方法可以結束加密貨幣的能源消耗困境(圖片來源:MIT Technology Review 官網)
新冠口服藥
A pill for COVID
吞下一粒藥丸就能使新型冠狀病毒消失,這是人們的愿望?,F在,這個愿望變成了現實。感染新型冠狀病毒幾天的病人服用輝瑞公司的一種抗病毒藥物后,可將住院的幾率降低89%。美國政府已經訂購了價值100億美元的這種名為Paxlovid的新藥。這款新藥的成功研制并不只是黑暗中一次幸運的嘗試。針對一種能夠調控新冠病毒進行威脅性復制的關鍵蛋白酶,化學家們設計了這款藥物,用于阻斷病毒的自我復制能力。事實上,其它類型的冠狀病毒中也存在類似的蛋白酶,這也就意味著輝瑞公司的藥物有望抵御下一次冠狀病毒流行病。抗病毒新藥的研發周期比病毒疫苗的設計、合成和測試時間更長,以前從未有一種全新的戰勝疾病的分子能如此迅速地從化學家的實驗室進入志愿者的口中,并獲得美國食品和藥物管理局的批準。該藥物將防止許多人死于新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19),包括免疫系統較弱而疫苗對其無效的人。而且如果出現了能夠打敗疫苗的新變種,抗病毒藥物可能是我們的最后手段。
專家點評
李 巖
華中科技大學同濟醫學院教授、博士生導師。入選國家高層次青年人才項目及湖北省公共衛生青年拔尖人才。主要從事重要傳染病的致病機制及新藥研究工作。在Science、Nature Communications、Journal of Virology、Journal of Infection 等期刊發表SCI論文50余篇。
自2019年新冠肺炎疫情爆發以來,國內外已有多種新冠肺炎治療藥物和疫苗陸續被開發出來。由于專業醫療資源在新冠肺炎疫情中的緊缺性,許多生物制藥研究機構將療效好、副作用低、給藥條件要求較低的新冠口服藥作為新型冠狀病毒藥物開發的重點方向。
近期,由輝瑞公司開發的新冠口服藥Paxlovid受到了廣泛關注。2022年,發表在The New England Journal of Medicine 雜志上的臨床 2/3 期雙盲隨機對照試驗結果表明,蛋白酶抑制劑奈瑪特韋(Nirmatrelvir/PF-07321332)和利托那韋(Ritonavir)聯用,可導致進展為嚴重COVID-19的風險比安慰劑低89%,并且無明顯的安全性問題[10]。Paxlovid實質上是兩種藥物的聯合包裝,即蛋白酶抑制劑奈瑪特韋(Nirmatrelvir/PF-07321332)和能夠改善奈瑪特韋藥代動力學行為的利托那韋(Ritonavir)。新型冠狀病毒SARS-CoV-2依賴一種蛋白酶Mpro來切割蛋白前體,而奈瑪特韋是一種針對Mpro蛋白酶的小分子抑制劑,能夠通過競爭結合Mpro來抑制SARS-CoV-2的復制。一方面,奈瑪特韋對重組Mpro的抑制常數(Ki)以及對SARS-CoV-2抗病毒指標半最大效應濃度(Concentration for 50% of Maximal Effect,EC50)均達到了納摩爾每升的水平,同時其在小鼠適應的SARS-CoV-2模型中證明了口服活性,并在臨床I期試驗中達到了超過體外抗病毒細胞效力的口服血漿濃度;另一方面,奈瑪特韋具備了可接受的溶解度、改進過的大規模合成潛力、與簡單制劑載體的兼容性等特點,這些因素構成了奈瑪特韋作為新冠口服藥組分的分子基礎[11]。利托那韋是一種酶抑制劑,其本身對SARS-CoV-2無明顯活性,但它能抑制負責代謝奈瑪特韋的酶CYP3A4的活性,從而提高奈瑪特韋的血清濃度和半衰期,輔助奈瑪特韋發揮功能[12]。
值得注意的是,自2019年以來,SARS-CoV-2已發展出數種比原始株具有更強傳播力的突變株。因此,開發抗新冠藥物時,其對突變株和潛在新突變株的效力留存水平是必須考慮的問題。奈瑪特韋的靶點Mpro是SARS-CoV-2復制過程必需的重要蛋白酶,這種酶依賴一些高度保守的位點組成的口袋行使催化功能[13]。理論上發生在Mpro上的突變有可能對SARS-CoV-2的復制能力造成直接的損害,從而使這種突變株難以獲得遺傳優勢。但目前尚無明確證據表明Paxlovid不易引起SARS-CoV-2的耐藥性。此外,盡管體外研究和動物實驗結果提示,奈瑪特韋對奧密克戎突變株仍具有抗病毒活性[14,15],Paxlovid對奧密克戎及將來可能出現的新毒株引發的新冠肺炎感染是否仍有較好的臨床療效仍需進一步驗證。同時,我們也注意到已有研究表明,在其他藥物存在的情況下,利托那韋對奈瑪特韋的藥代動力學助推效應可能會引入有害的藥物藥物相互作用,因此對具有特定用藥史的輕度~中度新冠患者開具Paxlovid處方可能需要高度謹慎[16]。
總的來說,如其他重要的新冠藥物一般,新冠口服藥Paxlovid的開發和上市也為新冠防治事業打入了一針強心劑。然而,隨著新冠口服藥的深入研發,是否能有進一步新的突破?讓我們拭目以待。
圖7|易于服用的治療嚴重的 COVID-19 的藥片也可能對下一次大流行病起作用(圖片來源:MIT Technology Review 官網)
人工智能合成數據
Synthetic data for AI
訓練人工智能模型需要大量的數據。2021年,尼日利亞數據科學公司的研究人員注意到,旨在訓練計算機視覺算法的工程師可以選用大量以西方服裝為特色的數據集,但卻沒有非洲服裝的數據集。于是,該團隊通過人工智能算法人為生成由非洲時尚服裝的圖像組成的數據來解決這一不平衡問題。這種通過算法人為合成出的符合真實世界情況的數據,具有與真實數據相似的統計學特征,且在數據饑渴的機器學習領域的應用越來越普遍。在真實數據稀缺或過于敏感的領域,如醫療記錄或個人財務數據,這些“合成數據”可用于訓練人工智能模型。實際上,合成數據的想法并不新鮮,例如,無人駕駛汽車已經在虛擬街道上進行了許多訓練。2021年,“合成數據”技術已經變得很普遍,許多初創公司和大學都在提供這種服務。例如,Datagen和Synthesis AI可根據需要提供數字人臉,其他公司可為金融和保險業提供合成數據。
特別地,2021年麻省理工學院發布了名為“Synthetic Data Vault”的開源工具,支持便捷生成不同領域、不同模態的數據。MIT Technology Review 關注到了數據合成方向的技術動態,并鑒于數據對智能算法的源頭作用,將其列入2022“全球十大突破性技術”。
專家點評
程學旗
中國科學院計算技術研究所研究員、博士生導師,國家杰出青年科學基金獲得者。主要研究方向為數據科學基礎理論,大數據分析技術與系統,網絡與社會治理大數據應用等。在國內外學術期刊與會議上發表論文200余篇,授權發明專利80余項,谷歌學術引用20 000余次。在數據表征學習、異構大數據廣譜關聯、信息檢索與排序、群體分析與群智眾包系統等方面取得突出成果,5次獲得本領域國際學術會議最佳論文獎。獲國家科技進步獎二等獎3次、國家技術發明獎二等獎1次。
陳 薇
中國科學院計算技術研究所研究員,博士生導師。主要研究領域為機器學習理論與算法,可信機器學習技術及其在智能算法安全中的應用。在International Conference on Machine Learning、Conference on Neural Information Processing Systems、International Conference on Learning Representations 等機器學習和人工智能國際會議/期刊發表學術論文50余篇。2021年入選福布斯“中國科技女性榜”。
人工智能技術已經在百姓生活和社會管理中廣泛應用,例如日常購物娛樂和網絡社交中的智能算法推薦、生活工作中的智能穿戴和智能算法助手、以及幫助規劃調度城市高效運轉的城市大腦。人工智能技術浸潤著現代社會的每一個角落,已然成為世界科技與社會發展的一大支柱。
2022年MIT Technology Review 評選出“全球十大突破性技術”,“人工智能合成數據(Synthetic Data for AI)”入選其中。如果說以深度學習為代表的智能算法是人工智能技術應用和發展的“引擎”,那么數據就是用于驅動“引擎”的“燃料”。雖然人工智能與機器學習領域的專家吳恩達認為,未來技術落地的重點將會轉向數據,形成以“數據為中心的人工智能”[17],但過去幾年研究人員還是主要聚焦在模型、訓練算法、或者是算力的改進上,對數據本身的關注相對較少。
有觀點認為,在大數據時代,數據本身是廉價的,富有價值的是從數據中挖掘到的知識。這個觀點并不完全正確。知識是寶貴的,但數據卻并非廉價。人工智能模型的效果很大程度上取決于數據質量,“無效輸入(Garbage In)”往往會導致“無效輸出(Garbage Out)”[18,19]。為了得到高質量的數據,需要對數據進行預處理,包括處理缺失數據和異常數據等。此外,為了提高模型訓練的效果,還需要邀請領域專家人工為每一份數據附上標簽,這大大地提高了數據的獲取成本并制約了數據集的規模。除去獲取成本高昂以外,特定領域的數據集還受限于用戶隱私,極難采集。以醫學影像領域為例,患者的醫學影像(如X光片)被醫院保管,醫院無權泄露。這很好地保障了患者的隱私,但同時增添了領域研究者獲取數據的難度。
因此,如何高效、廉價并在不侵犯隱私的情況下獲取大量數據,是人工智能領域的關鍵問題之一。為了實現這一目標,研究人員提出了“合成數據(Synthetic Data)”的方法,即通過算法人為生成出符合真實世界情況的數據集[20-22]。合成得到的數據集可以用于人工智能模型的訓練,且具有獲取成本低、質量高、避免侵犯隱私等優點,有望解決目前模型訓練中數據缺乏這一瓶頸問題。綜上,筆者認為,MIT Technology Review 關注到了數據生成方向的技術動態,并鑒于數據對智能算法的源頭作用,將其列入“全球十大突破性技術”。
國際上,“合成數據”技術研究的價值已經正在得到廣泛認可,許多知名研究機構及科研院校都正在開展關于合成數據的項目。特別地,2021年麻省理工學院發布了名為“Synthetic Data Vault”的開源工具,支持便捷生成不同領域、不同模態的數據[23]。此外,國際資本市場也提早預期到了“合成數據”技術的潛在價值,催生出了一批初創公司, 如AI.Reverie、Sky Engine、Datagen等。其中,AI.Reverie在2021年被Meta公司收購,用于支持元宇宙的開發;Datagen在2022年3月獲得5 000萬美元的B輪融資。成功的商業模式正在表明“合成數據”這項技術并非只能用于實驗室場景,在實際場景中也能夠發揮重要作用。高納德咨詢公司在2021年6月的報告中甚至預測,到2030年,絕大部分用于訓練人工智能模型的數據將是合成數據[24]。
我國的科研院所及商業公司也在“合成數據”領域積極進行研究探索,并取得了優秀的成果。例如,中國科學院的研究人員提出了對偶生成模型(Dual Variational Generation, DVG),該模型能夠高效地生成大量現實中不存在的人臉虛擬圖像,從而有效緩解異質人臉識別任務中缺乏數據及數據采集成本過高的問題[25]。商業公司也正在該領域進行有效探索,例如,支付寶公司基于實物建模技術與渲染技術提出了一套用于合成三維數據的方案,有效降低了模型訓練中的數據成本,并且避免了人工標注數據帶來的不可靠性[26]。相對而言,我國關于“合成數據”的研究主要著眼于服務下游任務,對“合成數據”技術本身的研究仍有待開拓。
“合成數據”領域的技術發展趨勢迅猛,正在被期待對人工智能產生“再次點火”的作用。本次入選MIT Technology Review “全球十大突破性技術”榜單,也將使其受到社會各界的更多關注。然而,筆者認為我們仍然需要重點關注以下幾個問題:
(1) “合成數據”的評估問題。研究者們逐漸意識到,高質量的合成數據集不僅僅可以作為真實數據集的補充,更可以作為訓練人工智能模型的主要數據來源。但在全面應用合成數據集之前,需要充分研究合成數據集與真實數據集的差異,從而避免應用合成數據集帶來的偏差。如何評估合成數據集與真實數據集的差異仍是一個亟待解決的問題。
(2) “合成數據”仍存在“非自然數據”的問題。目前大多合成數據技術是基于統計機器學習方法的,由于經典統計學只關注了數據中蘊含的相關性,而忽視了因果性,因此有可能會生成不合邏輯的數據。例如,合成圖像中可能會出現具有異常背景的圖像,這類數據被稱為“非自然數據”[27]?!胺亲匀粩祿睂χ悄芩惴ǖ挠绊懩壳叭匀晃粗绕鋵λ惴ǖ聂敯粜院涂煽啃?。刻畫影響的邊界并提早思考應對辦法將會是“合成數據”能否進入風險敏感領域的關鍵。
(3) “合成數據”的“隱式隱私”泄露問題。雖然“合成數據”并不由某個用戶產生,但是目前的“合成數據”仍然需要借用數據來訓練用于合成數據的模型,比如生成對抗網絡。由于生成對抗網絡結構的復雜度較高,因此在模型訓練的過程中,存在記憶原始訓練樣本分布的可能。已經有最新研究結果表明,可以通過合成的數據反向推斷出原始訓練樣本[28]。所以,數據合成技術存在上述“隱式隱私”泄露問題,如何更嚴密地保護隱私仍是有待探究的問題。
圖8|人工智能的好處主要集中在數據資源豐富的領域,而“合成數據”有望填補領域空白。(圖片來源:MIT Technology Review 官網)
除碳工廠
Carbon removal factory
減少碳排放是緩解氣候變化的關鍵步驟,但據聯合國稱,這還不夠。為了避免未來發生災難性的氣候變暖,我們還應采取一定的措施清除空氣中的二氧化碳。2021年9月,瑞士科技公司Climeworks開啟了迄今為止最大的二氧化碳捕獲工廠Orca的開關。該設施位于冰島雷克雅未克的郊外,每年可捕獲4 000噸的二氧化碳。該“除碳工廠”工作流程為:大型風扇將空氣吸過一個過濾器,在那里碳捕獲材料與二氧化碳分子結合;然后,該公司的合作伙伴Carbfix,將二氧化碳與水混合,并將其泵入地下,進而與玄武巖反應,最終變成石頭。該設施完全依靠無碳電力運行,電力主要來自于附近的地熱發電廠??梢钥隙ǖ氖牵? 000噸的年處理量并不是那么多,比900輛汽車的年排放量還要少。實際上,更大的“除碳”設施也在計劃建設中。位于加拿大不列顛哥倫比亞省斯夸米什(Squamish)的碳工程公司,計劃今年在美國西南部開始建設一個二氧化碳年處理量可達100萬噸的工廠。此外,該公司與合作伙伴一起,也啟動了蘇格蘭和挪威除碳工廠的工程設計工作,這些工廠將每年捕獲50萬~100萬噸二氧化碳。“除碳”企業也希望通過更多更大的“除碳工廠”建設、運行調試和操作優化,進一步降低運行成本,并實現規模經濟效益。Climeworks公司估計,到21世紀 30 年代末,捕集每噸碳的成本將從現階段的600~800美元之間降低至約100~150美元?,F如今,越來越多的個人及公司,包括微軟、Stripe和Square,已經在支付高額費用來吸走空氣中的二氧化碳,以努力抵消他們所產生的碳排放。而這些資金為“除碳工廠”提供了關鍵的早期收入。
專家點評
單文坡
中國科學院城市環境研究所研究員,博士生導師。主要從事環境催化與大氣污染控制研究,在國內外學術期刊發表論文100余篇。國家自然科學基金優秀青年科學基金和浙江省“萬人計劃”青年拔尖人才項目獲得者。2019年,以第三完成人身份獲國家自然科學獎二等獎。
工業革命以來,人類活動大量排放二氧化碳(Carbon Dioxide,CO2)等溫室氣體,使得溫室效應持續加強,導致全球平均氣溫不斷升高。2022年4月4日,聯合國政府間氣候變化專門委員會(Intergovernmental Panel on Climate Change,IPCC)發布了題為《氣候變化2022:減緩氣候變化》的第三工作組報告,指出2010—2019年全球溫室氣體年均排放量處于人類歷史最高水平,排放量增速雖然放緩,但上升趨勢并未改變;全球碳排放量必須在2025年達到頂峰,并在2030年之前削減43%,才有機會將全球氣溫上升幅度控制在1.5 ℃(與工業革命之前相比)之內。實際上,即使全世界達到了碳中和,由于工業革命以來人類已經排放了超過萬億噸的CO2,如果僅僅依靠自然過程,大氣CO2濃度降低至工業革命前的水平也將是一個非常緩慢的過程。
作為一項利用工程系統從大氣中去除CO2的技術,直接空氣碳捕獲(Direct Air Capture,DAC)技術的大規模應用對于有效降低大氣中CO2濃度,遏制氣候變化具有重要意義。該技術主要利用引風機將空氣抽入,通過吸附、吸收或膜分離裝置捕集CO2,并將貧CO2的空氣排回大氣,而捕獲的CO2可以進行封存或利用,整個過程可以理解為一種工業“光合作用”。不同于針對工業固定源的CO2捕獲技術,DAC可以部署在世界上任何有電力供應的地方,選址更靈活,且可以模塊化建設。自1999年被提出以來,DAC技術經過20余年的發展,已經初具實際應用的可能性。2021年9月,瑞士Climeworks公司在冰島啟動了名為Orca的除碳工廠,以地熱發電為主要能量來源,利用目前最大的DAC裝置,每年可捕獲4 000噸CO2。此次除碳工廠能夠入選MIT Technology Review2022年“全球十大突破性技術”,充分說明DAC技術工業化實踐的重要意義。
DAC在除碳方面具有明顯的技術優勢,對Climeworks公司DAC工藝的全生命周期分析也證實了其負碳排放效果[29],但目前高昂的運行成本仍是限制DAC大規模應用的關鍵因素。近期,加州大學伯克利分校的研究人員對DAC技術的發展前景進行了展望,并提出了適于該技術發展的政策路線圖,他們認為DAC的全球推廣不能依賴市場杠桿效應,而應通過持續的“財政激勵+強制部署”政策推進其大規模部署[30]。另一方面,從技術角度來看,DAC發展的關鍵在于高效低成本的碳捕集材料與工藝系統的研發,其商業化應用仍然需要依靠技術進步來大幅降低運行成本。
近年來,歐美發達國家已陸續開展DAC技術的研發與應用,通過材料與技術的進步不斷降低運行成本,2021年8月美國能源部宣布撥款2 400萬美元支持DAC技術,一些比Orca更大型的除碳工廠也正在建設之中。這些先行工作可能使得發達國家更早掌握DAC前沿技術和核心知識產權,并為未來獲取經濟效益搶得先機。2020年9月,在第75屆聯合國大會上,我國提出CO2排放力爭在2030年前達峰,努力爭取2060年實現碳中和的“雙碳”目標,這也將我國綠色發展之路提升到了新的高度,為低碳、零碳、負碳技術的發展提供了重大機遇。當前,從實際國情出發,我國主要以產業結構和能源結構低碳轉型來推動綠色發展,對DAC等負碳排放技術的創新和儲備還相對不足。目前我國在碳捕集材料研發方面有著較為豐富的研究成果,但嚴重缺乏類似除碳工廠的工業化實踐,以及以DAC為核心技術的商業化公司。為確保“雙碳”目標的有序推進,我國應進一步鼓勵和推動DAC等負碳排放技術的科技創新與應用實踐,加強技術儲備,搶占技術前沿,更好地參與引領全球氣候治理。
圖9|一個從空氣中捕獲CO2的大型工廠將有助于創建一個世界需要的產業,以規避本世紀氣候變暖的風險(圖片來源:MIT Technology Review 官網)
【本文來源:《中國科學基金》2022年第3期】
參 考 文 獻
[1] Buecker A, Chakrabarty B, Dymoke-Bradshaw B, et al. Reduce risk and improve security on IBM mainframes: volume 1 architecture and platform security.(2014-12-09)/[2022-06-14].http://www.redbooks.ibm.com/redbooks/pdfs/sg247803.pdf.
[2] Wang D, Zhang ZJ, Wang P, et al. Targeted online password guessing: an underestimated threat.(2016-10-24)/[2022-06-14].https://dl.acm.org/doi/10.1145/2976749.2978339.
[3] Lyons K. Hackers reportedly used a compromised password in Colonial Pipeline cyberattack.(2021-06-05)/[2022-06-14].https://www.theverge.com/2021/6/5/22520297/compromised-password-reportedly-allowed-hackers-colonial-pipeline-cyberattack.
[4] Kotadia M. Gates predicts death of the password.(2004-02-25)/[2022-06-14].https://www.cnet.com/news/privacy/gates-predicts-death-of-the-password/.
[5] Bonneau J, Herley C, van Oorschot PC, et al. The quest to replace passwords: a framework for comparative evaluation of web authentication schemes//2012 IEEE Symposium on Security and Privacy. San Francisco: IEEE, 2012: 553—567.
[6] Bonneau J, Herley C, van Oorschot PC, et al. Passwords and the evolution of imperfect authentication. Communications of the ACM, 2015, 58(7): 78—87.
[7] 汪定. 口令安全關鍵問題研究. 北京: 北京大學, 2017.
[8] Vijayan J. Apple, Microsoft are pushing passwordless; here’s a reality check.(2022-02-15)/[2022-06-14].https://techbeacon.com/security/apple-microsoft-are-pushing-passwordless-heres-reali
ty-check.
[9] Micorsoft. Identity is the new battleground.(2022-02)/[2022-06-14].https://news.microsoft.com/wp-content/uploads/prod/sites/626/2022/02/Cyber-Signals-E-1.pdf.
[10] Hammond J, Leister-Tebbe H, Gardner A, et al. Oral nirmatrelvir for high-risk, nonhospitalized adults with covid-19. The New England Journal of Medicine, 2022, 386(15): 1397—1408.
[11] Owen DR, Allerton CMN, Anderson AS, et al. An oral SARS-CoV-2 Mpro inhibitor clinical candidate for the treatment of COVID-19. Science, 2021, 374(6575): 1586—1593.
[12] McDonald EG, Lee TC. Nirmatrelvir-ritonavir for COVID-19. Canadian Medical Association Journal, 2022, 194(6): E218.
[13] Hegyi A, Ziebuhr J. Conservation of substrate specificities among coronavirus main proteases. The Journal of General Virology, 2002, 83(Pt 3): 595—599.
[14] Abdelnabi R, Foo CS, Jochmans D, et al. The oral protease inhibitor (PF-07321332) protects Syrian hamsters against infection with SARS-CoV-2 variants of concern. Nature Communications, 2022, 13: 719.
[15] Li PF, Wang YN, Lavrijsen M, et al. SARS-CoV-2 Omicron variant is highly sensitive to molnupiravir, nirmatrelvir, and the combination. Cell Research, 2022, 32(3): 322—324.
[16] Girardin F, Manuel O, Marzolini C, et al. Evaluating the risk of drug-drug interactions with pharmacokinetic boosters: the case of ritonavir-enhanced nirmatrelvir to prevent severe COVID-19. Clinical Microbiology and Infection, 2022, doi: 10.1016/j.cmi.2022.03.030.
[17] Strickland E. Andrew ng, AI minimalist: the machine-learning pioneer says small is the new big. IEEE Spectrum, 2022, 59(4): 22—50.
[18] Rose LT, Fischer KW. Garbage in, garbage out: having useful data is everything. Measurement: Interdisciplinary Research & Perspective, 2011, 9(4): 222—226.
[19] Kilkenny MF, Robinson KM. Data quality: “garbage in-garbage out”. Health Information Management Journal, 2018, 47(3): 103—105.
[20] Gupta A, Vedaldi A, Zisserman A. Synthetic data for text localisation in natural images. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 2315—2324.
[21] Jaderberg M, Simonyan K, Vedaldi A, et al. Synthetic data and artificial neural networks for natural scene text recognition.(2014-12-09)/[2022-06-15].https://arxiv.org/abs/1406.2227.
[22] Frid-Adar M, Klang E, Amitai M, et al. Synthetic data augmentation using GAN for improved liver lesion classification// 2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018). Washington, DC: IEEE, 2018: 289—293.
[23] Patki N, Wedge R, Veeramachaneni K. The synthetic data vault// 2016 IEEE International Conference on Data Science and Advanced Analytics. Montreal, QC: IEEE, 2016: 399—410.
[24] Gartner. Maverick* Research: Forget About Your Real Data—Synthetic Data Is the Future of AI.(2021-06-24)/[2022-04-16].https://www.gartner.com/en/documents/4002912.
[25] Fu CY, Wu X, Hu YB, et al. DVG-face: dual variational generation for heterogeneous face recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 2938—2952.
[26] 阿里云開發者社區阿里技術. AI 訓練數據不夠用? 支付寶 3D 合成數據方案揭秘.(2020-03-25)/[2022-04-16].https://developer.aliyun.com/article/751561.
[27] Varga T, Bunke H. Perturbation models for generating synthetic training data in handwriting recognition machine learning in document analysis and recognition// Marinai S, Fujisawa H, eds. Machine Learning in Document Analysis and Recognition and Berlin, Heidelberg: Springer, 2008. 333—360.
[28] Hitaj B, Ateniese G, Perez-Cruz F. Deep models under the GAN: information leakage from collaborative deep learning//CCS \'17: Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. New York: Association for Computing Machinery Digital Library, 2017: 603—618.
[29] Deutz S, Bardow A. Life-cycle assessment of an industrial direct air capture process based on temperature—vacuum swing adsorption. Nature Energy, 2021, 6(2): 203—213.
[30] Meckling J, Biber E. A policy roadmap for negative emissions using direct air capture. Nature Communications, 2021, 12: 2051.
以上就是關于全球pos機,MIT Technology Review 2022年的知識,后面我們會繼續為大家整理關于全球pos機的知識,希望能夠幫助到大家!
