博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
蜡炬教育:如何处理机器学习中大型数据的加载问题?
阅读量:6870 次
发布时间:2019-06-26

本文共 585 字,大约阅读时间需要 1 分钟。

原标题:蜡炬教育:如何处理机器学习中大型数据的加载问题?

蜡炬教育老师表示,在处理机器学习算法时,经常会因为数据库太大而导致无法放入内存中,而遇到这样几个问题:当运行数据集算法而导致崩溃时如何解决?当需要处理大容量数据文件时该如何加载?如何方便快捷的解决内存不足的问题?

针对以上问题,蜡炬教育老师给出7个建议:

蜡炬教育:如何处理机器学习中大型数据的加载问题?

1.分配更多内存
某些ML工具或数据库默认内存配置不合理,可以看看是否可以手动分配。

2.使用较小样本

确认是否需要处理所有数据?在对最终数据拟合前,使用随机抽取数据样本这个示例即可。

3.使用内存更大的设备

可以租用大内存的服务器,这样可以在物理手段上获取更大的计算能力。

4.更改数据格式

可以通过更改数据格式来加快数据加载并降低内存使用率,比如二进制格式。

5.流数据或使用渐进加载

可以将数据逐步加载到内存中进行使用。

6.使用关联数据库

从内部来看,存储在磁盘上的数据可以逐步加载,并可以使用标准语言(SQL)来进行查询。

7.使用大型数据平台

比如用Mahout机器学习库的Hadoop以及用MLLib库的Spark,它们是为处理非常大的数据集专门设计的平台。

蜡炬教育老师说到,如果遇到数据库太大无法放入内训的相关问题,可以从如上7个方法中寻找解决办法。

转载于:https://blog.51cto.com/14355900/2401928

你可能感兴趣的文章
我的友情链接
查看>>
Java 实现把字符串转换成整数【底层实现】
查看>>
五大常见的MySQL高可用方案
查看>>
自己搭建练习sql语句的环境~
查看>>
quotacheck: Cannot create new quotafile /data/aquota.group.new: Permission denied
查看>>
从0到33600端口详解
查看>>
EJS甘特图控件下载购买地址
查看>>
MST多重生成树协议
查看>>
python 多用户发邮件
查看>>
Python列表copy
查看>>
Spring自定义标签解析与实现
查看>>
Python:itertools模块-groupby
查看>>
合理看待团队的良性冲突
查看>>
Nginx用户认证与域名重定向
查看>>
区块链技术的核心概念
查看>>
linux下磁盘I/O查看
查看>>
JAXB:xml与java对象互转
查看>>
第一章 数组与指针概念剖析
查看>>
centos7部署python3虚拟环境
查看>>
我的友情链接
查看>>