• 崩溃,找到组内的最小值和最大值;并计算平均值和stdev做滑动窗口awk

    我正在对一些基因组数据进行滑动窗口分析,并使用awk进行了分析。 第1列:代表染色体名称。 第2列和第3列:代表位置(从0开始的符号)。 第4列和第5列:感兴趣的值。 我需要做的是获取X行(是X的窗口大小)和: 获取第1列的所有不同值(即此窗口内的所有不同染色体) 对于第1列中的每个不同值,获取第2列的最小值(即,对于每个染色体,最小值) 对于第1列中的每个不同值,获取第3列的最大值(即,对于每个染色体,最大值) 第4列的平均值 第5列的平均值 然后开始相同的过程(获取X行),但从下面开始Y行(...
  • 根据下一个值移动列中的值,并填写空白条目

    我有一个数据争用问题,不确定如何解决。我有一个数据框,其中一列的行都向上移动,并且此列没有完全填充。我需要向下移动行并填充X行数,具体取决于其他列中的数据量。数据集很大,但通常看起来像这样: | code | IdGene | Type | COGgene | PosLeft | postRight | Strand | Function | |------|---------|------|---------|---------|-----------|--------|----------| | 1 ...
  • 使用awk计算两个文件中相同行的数量

    我有很多文件。其中一些具有共同点。我正在尝试使用awk查找两个文件之间不同的行,然后将该数字打印到在awk外部使用的变量。 这是我的awk代码当前的样子: awk 'NR==FNR{a[$1FS$2]=$0;next} {print (!a[$1FS$2]?$0:"")}' C6H6_1651.com C6H6_1652.com | awk 'END { print NR }' What I get out is 32 which is the number of lines in each of...
  • 将文件拆分为较小的最大n个字符,而不切割任何行

    这是使用cal命令生成的示例输入文本文件: $ cal 2743 > sample_text 在此的示例此文件具有2180个字符 $ wc sample_text 36 462 2180 sample_text 我想将其拆分为较小的文件,每个文件不超过700行,但将行保留为完整状态(无法剪切行) 我可以使用以下awk代码查看每个此类块: $ awk '{l=length+l;if(l<=700){print l,$0}else{l=length;print "\nnext block\n",l,$...
  • 用awk分割csv文件并按列格式保存到新文件

    我正在尝试学习AWK 我有一个很大的csv文件,我们需要从一个系统中导出该文件,并且需要将其导入另一个系统中。 CSV文件是产品列表: "Varenr.";"Beskrivelse";"Lagerbeholdning";"M�rke Navn";"Forventet levering";"Varegrp. Nr.";"Varegrp. Navn";"Beskrivelse 2";"Beskrivelse 3";"EAN/UPC";"Bruttov�gt";"Nettov�gt" "0-761345-0010...
  • AWK脚本意外打印

    我想得到这样的东西: ('ABAR-000001', 1, Barras special k pastry crips strawberry 12/1, 195.00, null, 10, Disponible, 2020-12-30, https://assets.sirena.do/product/thumbs/00/00/06/1b/4cc5a4cf847b2169c4529f84bbfa999b.jpg), ('ABAR-000001', 1, Barras de chocolate fiber o...
  • 选择大于阈值的特定列,然后选择文件中提到的grep -i字

    我需要选择提到“ Trump”(忽略大小写)的行,并且这些行的点赞次数(第10列)大于100。并生成一个带有post_id(第2列)并按like_count(第10列)排序的新文件),并将其命名为“ trump.txt”。这是输入文件的示例: page_name,post_id,page_id,post_name,message,description,caption,post_type,status_type,likes_count,comments_count,shares_count,love...
  • Linux中的大型CSV /文本处理

    我收集了相当大的CSV文件(每个记录约1M,15MB +),我需要提取其内容,重新格式化然后附加到模板文本文件中。 我已经编写了以下python脚本来执行此操作,并且可以执行我想要的操作,但是运行速度非常慢(单个文件的处理时间约为15分钟),并且我要处理数千个CSV文件。 我写的脚本如下: import pandas as pd import shutil as s from datetime import datetime as dt dir = '/media/E/data/idb/' f = '2...
  • 用awk打印条件字符串

    I would like to have another question about this. 我使用代码: awk ' /^c/ { X[$2] = $3 } /^c end/ { outfile = X["column2="] X["ROIysiz="] X["column3="] print "#", X["column2="], X["RedNumDa="] > outfile } !/^c/ { print $0 >> outfile } ' input 输入: c ...
公告

欢迎访问 goshare  点击这里设置您的邮箱  可以接收站内跟帖、回复邮件提醒,不错过任何一条消息。

关注公众号订阅更多技术干货! 码农俱乐部