随着世界团结起来与COVID-19的斗争,世界各地的科学家和研究人员正在研究新型冠状病毒,并将其发现发表在经过同行评审的期刊和预发本服务器上。
这些研究论文可能散布着一些谜题,这些谜题将解开用于COVID-19的治疗方法或疫苗,或治疗患者并防止病毒传播的新方法。不幸的是,没有一个人可以浏览成千上万的文档,而且每周还要增加成千上万的文档。
这是人工智能界派上现场的地方。在帮助应对冠状病毒大流行的其他努力中,人工智能研究人员正在忙于开发工具,这些工具将帮助医学家们浏览围绕冠状病毒的快速增长的文献库。政府机构,科技巨头,大学和研究实验室的共同努力,共同处理了COVID-19论文,将衡量我们先进的AI算法已变得多么有用。
CORD-19数据集
3月,美国政府与科技巨头微软和谷歌合作,收集有关COVID-19的研究论文。该语料库由艾伦AI研究所(AI2)与Chan Zuckerberg Initiative,乔治敦大学安全与新兴技术中心,Microsoft Research以及其他机构合作,编译为名为COVID-19开放研究数据集(CORD-19)的数据集。国立卫生研究院国家医学图书馆,与白宫科学技术政策办公室合作。
CORD-19于3月中旬发布,可供AI研究人员使用,以使用它来创建可以帮助科学家找到所需信息的机器学习模型。最初的数据集包括来自同行评审出版物的24000多个研究论文,以及bioRxiv和medRxiv等预打印服务器。自那以来,它已发展到超过47000个文档。
可在AI2的语义学者网站上找到CORD-19,该网站是进行同行评审研究的搜索引擎。机器学习研究人员可以从语义学者那里下载数据库。语料库也已集成到搜索引擎中,可以通过语义学者查询。
AI2还启动了CORD-19 Explorer,这是专门针对COVID-19研究语料库的全文本搜索引擎。该资源管理器还具有其他相关工具的链接。其中一些是基于CORD-19构建的,例如使用Microsoft Azure的认知搜索的搜索引擎。其他工具基于其他数据源,例如Elsevier冠状病毒研究资料库。您还将找到一个指向COVID-19 Cognitive City的链接,该社交网络专注于阻止冠状病毒的传播。
Kaggle挑战
语义学者和Google学者,也合并了相关的研究论文,已经成为搜索COVID-19上生成的知识语料库的强大工具。语义学者使用的是自然语言处理(NLP)领域的最新技术。Google在其搜索引擎的最新更新中还添加了BERT的实现,它是变压器的实现。
但是,社区有兴趣知道他们是否可以突破当前AI算法的极限,并利用它们进一步帮助科学家对抗COVID-19。在发布CORD-19之后,Google拥有的数据科学和机器学习竞赛中心Kaggle发起了COVID-19开放研究数据集挑战赛。挑战说明中写道:“我们正在向世界的人工智能专家发出号召,以开发文本和数据挖掘工具,这些工具可以帮助医学界为高度优先的科学问题找到答案。”
为了衡量进度和成功,挑战已分解为10个任务的列表,这些任务可以帮助更好地了解有关COVID-19,患者护理和治疗发展的新信息。
例如,一项任务涉及非药物干预。解决此任务的AI应当能够细读数据集,并找到讨论NPI及其有效性的论文,例如旅行禁令和学校停课如何帮助拉平COVID-19曲线。另一个任务是收集有关COVID-19危险因素的最新发现。结果应包括补充信息,例如研究中发现的证据强度,这些信息可以帮助决策过程。
Kaggle的首席执行官Anthony Goldbloom在关于CORD-19挑战的咨询报告中写道:“研究结果应该集中,简明扼要,从论文中引用和引用数字,并提供与潜在来源的链接。”截至撰写本文时,CORD-19挑战赛的贡献者已超过730名。
人工智能技术在今天的地位
CORD-19挑战中包含的任务是非常实际的任务,其结果将直接影响我们对冠状病毒大流行的反应。但是要注意的一件事是,我们不能指望当代人工智能技术带来奇迹。
语言处理可能是AI最具挑战性的一个子领域,也是人脑最复杂的功能,这是使我们脱离其他生物的一件事。许多专家认为,在我们创建人工智能通用人工智能之前,语言处理问题将一直没有得到解决。人工智能是一种具有人类抽象,推理和解决问题能力的人工智能。从许多方面来看,我们与通用AI 至少相距数十年。
目前,我们最先进的NLP模型依赖于深度学习和人工神经网络。神经网络是非常有效的统计模型,可以在大型数据序列中找到重复出现的模式。如今,大多数高级语言模型中都使用了像转换器之类的深度学习模型,它可以在超大型文本集上运行,并以超出先前人工智能算法能力范围的方式回答查询。
但是,在提取通常以书面和口头语言省略的隐含含义时,即使是最复杂的AI算法也难以解决。我们仍然没有能够像七岁的孩子那样高效地理解和处理人类语言的人工智能。但一线希望是,这一特殊挑战涉及非常狭窄的研究领域。与一般自然语言理解相反,CORD-19挑战有一个非常特定的要求:搜索有关一种病毒和一种疾病的信息。
尽管当前的AI系统缺乏一般的问题解决方案,但它们非常擅长处理狭窄的领域,其性能通常甚至比人类更好。实际上,根据Goldbloom所说,“到目前为止,一些最具影响力的工作都涉及到诸如字符串匹配和正则表达式之类的简单方法。”如今,甚至不考虑将字符串匹配和正则表达式视为AI。
带来希望的另一个因素是信息的质量。机器学习的挑战之一是收集和清理用于训练模型的数据。在这种情况下,整个社区将齐心协力,并且要进行大量的手动和自动操作,以确保我们拥有可靠的研究文档合并体。
因此,我们可能无法期望像人类科学家那样能够读取和理解每个文档的AI系统的出现。过去创建此类AI系统的努力失败了,并且没有任何根本性的突破可以显示出对此方面的改变的希望。
但是我们可以期待的是,非常专业的AI驱动的搜索工具的开发将帮助我们的科学家在COVID-19上日益增长的信息海中找到相关的信息。只要您知道要问的问题,而且使用这些系统的人肯定会问您,您就能获得非常优质的信息。
正如A12首席执行官Oren Etzioni上周在《连线》杂志中写道:“尽管在接下来的几周中,陪审团仍未就AI的贡献进行评判,但很明显,AI社区已在争取参加Covid-19。人工智能现在正处于帮助科学家应对Covid-19和未来大流行的第一线,我们使用AI对抗Covid-19的经历提醒我们,AI是是一种工具,而不是存在,这取决于我们为共同利益而使用该工具。”

2020-04-16 21:26:14