据外媒报道,IBM的开源数据和人工智能技术中心(CODAIT)正在发布一个新的工具包,帮助开发人员和数据科学家回答有关疫情的问题。COVID notebooks旨在帮助完成一些任务,包括获取有关疫情现状的权威数据,清理最严重的数据质量问题,将数据整理成便于使用Pandas和Scikit-Learn等工具进行分析的格式,以及构建一组初始的示例报告和图表。
处理好这些任务,开发人员和数据科学家就可以解放出来,专注于高级分析和建模任务,而不用担心数据格式和数据清理等问题。该存储库使用开发者友好的Jupyter notebook来涵盖每个初始数据分析步骤。此外还有使用Elyra Notebook Pipelines Visual Editor和KubeFlow Pipelines的数据处理管道。
“对于正在分析COVID-19效果并试图根据数据提出可操作计划的数据科学家和政策制定者来说,信息景观是压倒性的,”IBM开源数据和AI技术中心的首席架构师Frederick Reiss说。“来自研究报告、新闻媒体、社交媒体和健康组织的数据几乎源源不断,这使得将数据分析为有用的行动的任务几乎不可能完成。开发人员和数据科学家需要回答他们关于数据来源、工具以及如何从不断变化的数据中得出有意义的、统计上有效的结论的问题。”
COVID notebooks工具现已通过GitHub提供,你可以在IBM开发者博客上阅读更多内容。