哪种分布式数据库适合处理返回的数据集很大(几兆几十兆)的并发场景?有一批实时的时间序列数据,需要按时间来查询,并做聚合及复杂处理(不止是sum、avg、max这种),目前来看分布式数据库是elasticsearch跟redis这两种都不太适合使用。
elasticsearch是做非关系数据的搜索引擎场景使用的,比如日志查询场景,redis是主要是做零时文件查询cache使用,大数据查询场景,特别是做join,sum等操作,建议使用hive架构、hatp架构还有就是后起之秀ClickHouse数据库在不少大的互联网公司作为实时大数据分析使用,性能非常强,大数据的聚合查询,大数量的复查查询类场景,我理解性能提升关键有下面几点,一是列式存储是提高性能的关键点,二是还有就是分布式节点架构,所有节点都能参与进来,三是节点本身能过滤计算数据集合,减少数据在网络上的传输量,四是可以使用底层的存储级索引,可以在物理存储过滤掉一些成本。
收起