• 如何比较R中一个数据帧的行?

    我有一个包含很多行和至少13列的数据框。我需要将每一行与上一行进行比较,以查看两列是否完全相同,而其余各行是否不同。 如果两列中的两行相等,我想将这些行放在新的数据框中。 这是我的数据框。 前三行的样本为“ Sample”,但只有两行相同的“ Gene”。第7和8行也具有相同的样本和基因。 我想有一个新数据框,其中只有具有相同样本和相同基因的行。像这样: 我写了这段代码: Vec_sample <- c() Vec_genes <- c() Vec_variants <- c() Vec_chr <...
  • 将文本DF分解为单个句子DF:如何使用lambda创建更长的熊猫数据框并应用?

    这个问题可能看起来很长,但我保证它确实并不复杂。 我有一个带文本块和一些ID列的DF。我想创建一个新的DF,其中包含每个句子作为自己的行。 original_df = pd.DataFrame(data={"year":[2018,2019], "text_nr":[1,2], "text":["This is one sentence. This is another!","Please help me. I am lost. "]}) original_df >>> year text_...
  • 熊猫合并功能产生重复错误

    我对熊猫还不陌生,并且在合并两个特定的数据框时遇到困难。 右表如下所示: 左表如下所示: 这是我要运行的代码: with pd.HDFStore(spadl_h5) as spadlstore: games = spadlstore["games"].merge(spadlstore["competitions"], left_on='competitionId', right_on='wyId') 这是我收到的错误: ...
  • R-通过匹配名称来查找带有数据帧列表的lapply输出

    目标 我的主要目的是添加一个均值行,以某种方式将均值列表中的均值rbind到我创建的数据框列表中,以便在数据框列表中创建更大的数据框。我为这个问题写了很多书,希望您能为我提供帮助。如果不清楚,请发表评论! 码 假设您要在下面创建三个不同的数据框: df1 <- data.frame(aa = sample(1:10, 5, replace = TRUE), bb = sample(1:10, 5, replace = TRUE), cc...
  • 匹配列表并根据数据框优化中其他列的值获取一列的值

    我有一个类似下面的输入数据框,其中“ ID”是唯一标识符,“ Signals_in_Group”是派生字段,其中包含“组”中所有唯一“信号”列值的列表。 “ Signals_Count”也是一个派生字段,其值是“ Signals_in_Group”中的项目计数。 groups_df ID Timestamp Signal Group Signals_in_Group Signals_Count 1 5 1590662170 A 1 [A, B, C...
  • 如何避免在熊猫的整个专栏中输入NaN?

    我的最终目标:我想将一个新的表格文件(例如excel,pdf,txt,csv)上传到一个主excel电子表格。然后,从该主数据表中挑选出几列,然后按状态对其进行图形化和分组:这些样本属于X还是Y类?然后将它们绘制在每个样本上。 数据方面,我的样本属于X类别或Y类别。它们是X或Y,并且具有与样本相关联的名称以及样本计数(例如,样本#abc属于X类别,并且具有30个具有不同值的计数)。 我正在使用熊猫打开数据并操纵表格。这是我的代码中给我一些问题的部分。我发现所有其他问题的解决方法。我不能。我尝试做fillna...
  • 如何在R中正确解析和扩展我的XML ID

    嗨,我正在尝试解析ID标识的树中的孩子。这就是我的XML的样子: <Reporte xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> <nombre>PML</nombre> <proceso>MDA</proceso> <sistema>BCS</sistema> <area>PÚBLICA</area> <Resultad...
  • 如何使用熊猫读入csv文件?找不到文件错误

    找不到文件路径错误。我已经搜索了大多数相关问题,但仍然无法解决。我想知道是否与我正在使用IBM技能网络实验室上托管的Jupyter笔记本有关吗?我可以肯定我的文件路径是正确的...使用Python 3.6 无论如何,这是我的代码; import pandas as pd df = pd.read_csv(r'E:\user117787937_workout_history (1).csv') print (df) --------------------------------------------...
  • 合并两个重复的数据框

    我有两个看起来像的数据框,我想根据国家/地区合并它们 df1: +-------------------+-------------------+--------------+----------+----------+ | Country/Region | ObservationDate | Confirmed | Deaths | Recovered| +-------------------+-------------------+--------------+----------...
  • 根据下一个值移动列中的值,并填写空白条目

    我有一个数据争用问题,不确定如何解决。我有一个数据框,其中一列的行都向上移动,并且此列没有完全填充。我需要向下移动行并填充X行数,具体取决于其他列中的数据量。数据集很大,但通常看起来像这样: | code | IdGene | Type | COGgene | PosLeft | postRight | Strand | Function | |------|---------|------|---------|---------|-----------|--------|----------| | 1 ...
  • 在DataFrame中插入熊猫图的图像

    我已经在这个问题上动了两天了,所以想得到社区的帮助。我在Jupyter笔记本中使用Python 3,但希望最终使它成为脚本。 问题 我有一个Pandas DataFrame,它具有三列(查询,URL,趋势)。所有数据都在工作。我什至可以为每个查询生成绘图图像。但是,我无法将趋势图的图像显示在DataFrame的“趋势”列中。它只显示“ AxesSubplot(0.125,0.125; 0.775x0.755)”。没有错误消息(尽管我已经解决了一些)。 我尝试过的 我看了一下fig.savefig(),这似乎...
  • JSON_Normalize带有列表的熊猫

    我有一个以以下嵌套方式格式化的JSON文件。 [ { "unitCode": "ABCD", "bedType": "Adult MT/MS", "census": 13, "subCensus": null, "censusDetails": [], "occupancy": 62, "occupancyStar": null, "occupancyAlertStatus": null, "columns": [ { ...
  • 格式化数据并使其正常运行方面的问题

    我收到错误消息,试图在我的数据集中查找变量的摘要统计信息: **Error in UseMethod("filter_") : no applicable method for 'filter_' applied to an object of class "character" $ operator is invalid for atomic vectors Error in UseMethod("tbl_vars") : no applicable method for 'tbl_vars' ap...
  • 如何在Python中连接多个32位哈希字符串并将其转换为唯一标识符

    我有一个问题,我正在从API中提取数据集以进行报告,但不幸的是,它具有: 没有唯一的标识符字段 组成唯一组合键的四个字段中的三个都是32位哈希值。 它们不应该是哈希值,但是由于某些原因,开发人员似乎已在此特定的API端点中对其进行了哈希处理。 我正在使用Python 3.7.6和pandas 1.0.3。数据最终将最终存储在SQL Server中。 对于我的任务,要求我确保在调用REST API时可以检查记录的唯一性,并且如果数据库中的现有记录已有更新,请使用唯一的标识符来了解要更新的行。 32位哈希...
公告

欢迎访问 goshare  点击这里设置您的邮箱  可以接收站内跟帖、回复邮件提醒,不错过任何一条消息。

关注公众号订阅更多技术干货! 码农俱乐部