数据科学杂谈之二--工作环境

现阶段数据科学两个特点:1.数据量大;2.处理复杂。 这两个特点决定了数据科学的数据处理环境必须要有以下两个功能:

  1. 多个层面的并行处理
  2. 数据处理现场保存和恢复
  3. 数据处理历史的回溯可重现

关于前两点,在服务器端使用tmux+ranger+emacs是比较好的环境。 简要介绍一下:

emacs设置成每一个tmux的session和window启动一个daemon,这样在每一个tmux的window中打开的emacsclient可以实现互不干扰,具体优点如下:

以上方式要大大优于emacs+tramp的方式进行远程操作。

第三点,可以在cron中添加定时代码备份功能。例如,将projects文件下所有的文件夹架构和其对应的脚本代码复制到固定文件夹中,然后单独进行Git版本管理,可以实现历史回溯。

石见 石页 /
在共享协议(CC)下发布于
类别: technology 
标签: emacs  tmux  数据科学杂谈  中