PiFlow(大数据流水线系统)V0.9官方版

更新时间:2023-11-23 21:18:05      浏览量:134
  PiFlow是一款非常强大的大数据流水线系统,混合型科学大数据流水线系统,这款系统将数据采集、储存的等环节封装成组件,软件简单使用容易,提供100+的数据处理组件,如果有需要朋友的可以来本站下载试试。 软件特色   简单易用。   可视化配置流水线。   监控流水线。   查看流水线日志。   检查点功能。   扩展性强:   支持自定义开发数据处理组件。   性能优越:   基于分布式计算引擎Spark开发。   功能强大:   提供100+的数据处理组件。   包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等。   集成了微生物领域的相关算法。 使用方法   解压piflow-server-v0.9.tar.gz。   tar -zxvf piflow-server-v0.9.tar.gz。   编辑配置文件config.properties。   运行、停止、重启PiFlow Server。   start.sh、stop.sh、 restart.sh、 status.sh。   测试 PiFlow Server。   设置环境变量 PIFLOW_HOME。   vim /etc/profile。   export PIFLOW_HOME=/yourPiflowPath/bin。   export PATH=PATH:PIFLOW_HOME/bin。   运行如下命令。   piflow flow start example/mockDataFlow.json。   piflow flow stop appID。   piflow flow info appID。   piflow flow log appID。   piflow flowGroup start example/mockDataGroup.json。   piflow flowGroup stop groupId。   piflow flowGroup info groupId。   如何配置config.properties。   #spark and yarn config。   spark.master=yarn。   spark.deploy.mode=cluster。   #hdfs default file system。   fs.defaultFS=hdfs://10.0.86.191:9000。   #yarn resourcemanager.hostname。   yarn.resourcemanager.hostname=10.0.86.191。   #if you want to use hive, set hive metastore uris。   #hive.metastore.uris=thrift://10.0.88.71:9083。   #show data in log, set 0 if you do not want to show data in logs。   data.show=10。   #server port   server.port=8002   #h2db port   h2.port=50002

网站类容多为转载,如有侵权,请联系站长删除

-六神源码网 出售域名-六神源码网 网站出售-六神源码网 微信公众号抽奖-六神源码网 微信公众号抽奖-六神源码网 vr全景制作-六神源码网 网站出售带数据-六神源码网 听歌-六神源码网