当前位置：首页 > 专题 >

《大数据分析》专题

使用熊猫的“大数据”工作流
在学习熊猫的过程中，我已经尝试了好几个月来找出这个问题的答案。我在日常工作中使用SAS，这是非常好的，因为它提供了非核心支持。然而，SAS作为一个软件是可怕的，原因还有很多。有一天，我希望用python和pandas取代SAS的使用，但我目前缺乏大型数据集的核心外工作流。我说的不是需要分布式网络的“大数据”，而是文件太大而无法放入内存，但又太小而无法装入硬盘。我的第一个想法是使用将大型数据集保
在flink广播流中处理大数据
我正在使用一个Flink流式Java应用程序，输入源为Kafka。在我的应用程序中总共使用了4个流。一个是主数据流，另一个3个用于广播流。我加入了使用任何一种类型的三个广播流。我已经作为流B广播，并且能够在广播过程函数上下文状态（即在processBroadcastElement（））中接收。我的问题是, > 是否可以在广播状态下存储大数据？注意：根据我的理解，Flink广播状态在运行时保存
处理大量数据的最佳方式
目前，我的应用程序的某些部分在将大量数据加载到报告表时遇到了速度问题。报告表中的数据是从多个表中提取的，并运行一些复杂的查询，但这是必需的。除了优化代码，我的问题是，您个人如何处理需要向用户显示的大量数据，最佳实践是什么？目前我正在处理所有的数据，然后通过javascript库生成数据表。我知道的事情: 用户不需要一次看到所有数据用户需要能够搜索所有数据用户需要能够过滤数据最好的方法真
大数据微服务之间的通信
我正在构建一个基于Spring云的微服务ML管道。我有一个数据摄取服务，它（当前）从SQL接收数据，这些数据需要被预测服务使用。普遍的共识是写入应该使用kafka/Rabbitmq使用基于异步消息的通信。我不确定的是如何编排这些服务？我是否应该使用API网关来调用启动管道的摄取？
无法用GraphDB加载大型数据集
当我将这个DBpedia（2015-10，嗯，大约10亿个三倍）加载到GraphDB 9.1.1中时，CPU负载在大约1300万个三倍和空闲之后下降到0%。在我手动终止之前，进程不会终止。与通过Xmx CMD选项分配给java的512GB相比，该机器有足够的磁盘空间和足够多的RAM。我试图加载的文件提供在这里：https://hobbitdata.informatik.uni-leipzig.
Android.os.TransactionToolargeException：数据包大小牛轧糖错误
我正在使用reverfit进行api调用，我从服务器得到了几乎不到30KB大小的JSON响应。当JSON将响应解析为一个复杂对象时，它会抛出这个错误。如果我尝试将响应存储在对象类中，然后通过LinkedHashMap获取值，我就能够获取数据。但是，这将是一个繁琐的过程。有谁能帮我弄清楚这里的问题是什么，以及如何找到解决办法吗？根据我的研究，这种情况只发生在版本>=牛轧糖的android设备上
用python逐行创建大型数据集
对于我的毕业论文，我需要创建一个扑克动作的数据集来测试模型。我编写了一个函数，该函数读取包含关于手的信息的文本文件，并返回，并将其附加到pandas数据帧中。我有大约1500个文件，每个文件包含1500~3000个需要传递给这个函数的手，所以我的主脚本看起来像这样。问题是，运行几个小时后，它变得非常慢。第一个文件大约需要20秒，但它们每次都变慢，在运行8h后，它们开始需要一个多小时。我刚开始为
大容量插入对空数据无效
当我从CSV文件向表插入大容量数据时，它不工作，显示错误：行2列9的大容量加载数据转换错误（类型不匹配或指定代码格式的字符无效） csv文件中的第9列值为NULL。我怎么处理这个？
不能用UTL_FILE.PUT_LINE写入大尺寸数据
我创建了一个包含大量数据的xml。现在，我正在尝试将生成的xml写入一个文件。声明：写入文件：如果返回有限的记录，则该记录是工作文件，但如果超出大小（几乎35 KB)，则会出现错误：
av_read_frame之后ffmpeg中的数据包大小
我在FFMPEG中有以下疑问，请澄清。 2.视频数据包的大小从最小的14到最大的21824不等。请指出为什么视频数据包的大小不一样，某处写着：对于视频，一个数据包意味着一帧，所以如果对于视频，PKT->size=14也等于一帧视频。（pkt属于AVPacket类型）。 3.如果我们在解析mp4流的同时，在Probe函数中对其进行解复用，并将其存储在某个缓冲区中，或者调用av_read_frame对
使jtable更大以适应所有数据
我目前在JPanel中的JscrollPane中有一个JTable。无论我如何设置这3个元素的大小，表总是显示为相同的大小。JPanel位于BorderLayout中，我正在打包框架。我想这样做的原因是因为我的列中的一些数据不适合，而不必使其他列太小。
将大文本文件数据写入excel
我正在阅读一个用一些分隔符分隔的文本文件。我的文本文件内容示例 Avc def efg JKSJD 1 2 3 5 3 4 6 0 每次调用createRow和createCell时是否都会创建新对象？如果是，有什么替代方案？。如何以更好的性能将大数据写入excel？
百度大数据开发一面面经
2022-07-22 时长1h 1 自我介绍 2 数仓项目数据量多大 3 几个shell问题，监控spark日志内容并写入到另一个文件、实时监控spark日志内容 4 Java关键字、面向对象三大特征、接口和抽象类区别 5 set list map区别 6 介绍JVM内存区域，String是基本数据类型吗？基本数据类型变量存在哪里 7 垃圾回收机制 8 新生代老年代对象是如何流转的 9 创建线程的
百度大数据开发二面面经
2022-07-27 下午时长1h5min 百度的面试官真的很好，这点没得说 1 自我介绍 2 数据倾斜——结合业务说了分组聚合和join，大表大表join怎么解决数据倾斜，展开说 3 SQL 没做出来，但是面试官全程提示，沟通交流 4 Hive和Spark哪个比较熟悉，我们聊一聊——都比较熟悉，问了Hive组件和底层执行逻辑，逻辑计划优化有哪些方法，什么是谓词下推（自己提到了） 5 算法：数组
星环科技大数据后端一面
问题如下，50min左右自我介绍为什么要找互联网而不是研究方向项目介绍，主要负责内容整体框架怎么去搭、团队如何分工、沟通 shiro、Spring security区别（优缺点，选择其中一个的理由），查资料后，有没有自己写demo验证 shiro比security使用方便具体的点，举开发例子 Docker怎么部署，如何资源分配，怎么分配运行的远程服务报错，本地无法复现，怎么排查问题有没

首页

44

45

46

47

48

49

50

51

52

尾页

最新发布

💼｜腾讯产品运营实习｜详细面经🔍高德地图产品经理(社招)哈啰产品经理实习面经 python-数据分析岗位-22届考研-华OD面经安克数开

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

javascript - 为什么相同的代码无法正确排列数据？求java/php大佬帮帮忙？epub - 有没有类似语雀这样的笔记管理软件最后可以导出为EPUB格式的？前端 - 如何在抖音H5页面中让安卓手机拉起自带应用商店下载APP？人工智能 - 要运行本地Midjourney只自己用（只自己使用，不给别人服务使用）1张显卡就足够了吗？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Motto Poseidon IDE TaSSL Heraldry Prana csu-thesis circuitikz JavaWeb-Project-Source-Share

文档资料

SUI 移动开发UI库 Jackson 入门教程 Elixir 编程入门 React 使用文档驾驭 Go 语言基础与网络开发