会场介绍 | 第15届中国 R 会（北京）—

2022年，第15届中国 R 会（北京）将于11月19-25日在中国人民大学召开，本次会议由统计之都，中国人民大学统计学院、中国人民大学应用统计科学研究中心主办，得到 Posit 赞助支持，将以线上会议和线下会议相结合的方式举办。欢迎进入 R 会官网，获取更多会议信息！

链接：

https://china-r.org/bj2022/index.html

下面为您奉上本次 R 会软件工具专场（一）演讲介绍，本会场主席为黄湘云，谢益辉：

软件工具专场（一）

时间：2022年11月20日晚上19:00-22:50

腾讯会议号：674557544

腾讯会议链接：https://meeting.tencent.com/dm/4Edq5qJRMwIc

任坤

Switching from RStudio to VS Code

个人简介

任坤，就职于明汯投资，微软最有价值专家（MVP），R语言开源社区的活跃贡献者，是VS Code R语言扩展以及R Language Server的主要开发者和维护者，也贡献于许多其他的R扩展包，例如data.table, lintr等。2016年底出版了Learning R Programming，中文版为《R语言编程指南》。

报告摘要

In this talk, I will introduce my motivation and experience of switching from RStudio to VS Code and how I implement new features for the R extension and R language server as I find potential improvements. The R development experience in VS Code has been vastly enhanced in recent two years and VS Code itself is evolving rapidly too. Besides the code editing features powered by the R language server, I will shed more light on the most exciting features such as remote development with SSH/WSL/Container, working with multiple terminals, and live collaboration.

谭显英

R语言中常见字符编码问题及其最佳实践

个人简介

谭显英是R语言的技术爱好者，也是Github的活跃用户，为很多R包做出过贡献，如DT和data.table等。他本职从事投资管理行业，长年在工作中使用R语言分析数据、搭建和部署模型、使用shiny和自动化报告（knitr, rmarkdown）展现成果等，对解决R语言在生产环境中面临的各种疑难杂症颇有心得。

报告摘要

如果字符串都用UTF-8编码该多好，然而Windows系统仍是许多R用户的工作环境，也是字符编码问题（“乱码”）的重灾区。本报告将会分析字符编码问题的由来，分享R语言本身在解决该问题的进展，并针对常见字符编码问题场景（源代码、数据文件和数据库等）给出解决方案或最佳实践。

覃文锋

与 R 互补的现代编程语言工具

个人简介

从事量化交易系统开发有关工作，曾参与开发和维护了 R Weekly 等开源项目。

报告摘要

主要讨论现代编程语言的特性，以及能够与 R 互补的一些常见工具。完成一个任务通常会用到多种工具来共同协作，本演讲会从编程语言原理，现代编程语言特性等角度，讨论异步编程、异构编程、即时编译、工具特性、性能优化等问题。

俞丽佳

Using Python in R: An Example of Auto-encoder

个人简介

临床检测诊断从业者，从事临床分子检测质量评价和计算生物学研究。

报告摘要

Many deep learning frameworks are built in Python. In order to improve the user numbers,wrapping the Python package into R package is essential for bioinformatics applications. In this talk, I'll use autoencoder as an example to show how to wrap a simple deep-learning Python package into a R package that can be run on GPU.

李传权

基于复杂网络的开源软件生态系统研究--以R软件为例

个人简介

李传权，现就职于江西财经大学统计学院，讲师，硕士生导师，中南大学博士毕业，R语言爱好者，统计之都十年粉丝。研究领域包括高维统计、网络数据分析等。

报告摘要

R软件作为统计领域重要的开源软件，开发历史久远，生态系统较为成熟，对其系统架构和依赖关系进行深入研究，从而对国产开源软件及其生态系统的培养具有指导意义. 基于此，本文从复杂的有向网络角度出发，探讨R软件的发展，挖掘R软件包依赖关系中的社区，并研究社区的动态演变. 研究表明：R 软件迅速发展，功能多样；R软件包间的依赖关系服从幂律分布和“小世界”现象；R 软件包的依赖网络中有"统计模型"，"高性能计算"，"数据可视化"，"网页技术"，"数据预处理"，"生物信息"子社区. 综上，R软件生态系统，作为一个成功的开源软件案例，其主导因素有：可满足整个数据分析全流程的需求，与时俱进地扩展，吸引了来自世界各地的开发者，并注重长期维护软件包的健康。

于淼

科研用开源数据分析平台的搭建与部署——以xcmsrocker为例

个人简介

于淼，理学博士，杰克逊实验室科学家，研究方向为环境暴露组学，发表论文四十余篇，引用过千，《现代科研指北》作者，统计之都编辑部主编。

报告摘要

从简单的原始数据共享到完整的数据流程再现，目前科研中对研究结果的可再现性（reproducibility）不断提出更高的要求。影响研究结果可再现性的因素主要是软件的正常使用与模型的标准化构建与评价。前者经常受软件平台影响而后者则主要是缺乏标准化的脚本。以 Docker 为代表的容器化技术可以将软件正常运行所需要的所有依赖、集成开发环境乃至操作系统都打包为一个系统镜像，这样通过系统镜像的分发可以最大程度保障软件的可再现性。而以 Knitr、Jupyter Notebook 等为代表的文学化编程（literate programming）技术则可以很好的将代码运行与工作流（workflow）进行整合，这为再现机器学习模型的构建与评价过程提供了保障。基于容器化技术与文学化编程，我开发维护了一个基于R语言的开源数据处理平台项目 xcmsrocker，可用于基于代谢组学机器学习的环境研究。xcmsrocker 本质上是一个基于 Rocker 项目的系统镜像，后者是一个内置了R语言及其集成开发环境 RStudio 的Linux内核的系统镜像，可以跨平台安装部署到个人计算机或计算集群上并通过浏览器直接访问数据处理界面（RStudio），也支持shiny应用的部署。xcmsrocker 在这个镜像基础上做了两步开发，一步是集成了常见的代谢组学相关的生物信息学、化学信息学、机器学习等开源软件包，预装了相关的编译工具与依赖库；另一步是开发了 rmwf 包，为常见的代谢组学数据分析提供了数据处理模版与演示数据。同时，该镜像通过API可直接调用常见数据分享平台的数据接口，可实现在网络环境下下载原始数据并重现数据分析结果的全流程操作。此外，作为开源软件，研究人员也可以通过提交自己的工作流来方便其他研究人员再现自己的研究成果。

参与方式

本会场将采取腾讯会议的方式，欢迎各位朋友加入腾讯会议直播，共同参会！

腾讯会议室：674557544

会议组织

主办方