मेरे पास एक pyspark डेटा फ्रेम है जिसे मैं s3 में लिखना चाहता हूं। मेरा डेटा फ्रेम जैसा दिखता है -

id          age       gender        salary      item
1            32        M            30000        A
2            28        F            27532        B
3            39        M            32000        A
4            22        F            22000        C

एस 3 से उस डेटा फ्रेम को पढ़ते समय ऐसा लगता है -

_c0         _c1       _c2           _c3         _c4
id          age       gender        salary      item
1            32        M            30000        A
2            28        F            27532        B
3            39        M            32000        A
4            22        F            22000        C

एक नया हेडर दिखाई दे रहा है।

मैंने कर लिया है -

df.coalesce(1).write.format('csv').mode('overwrite').option("header", "false")\
.save("s3a://xxx-aaa/data/group=XXX/my_data/")

# reading the data -
final_df = spark.read.csv(s3a://xxx-aaa/data/group=XXX/my_data/")
0
Pallavi Verma 15 मई 2019, 09:37

1 उत्तर

सबसे बढ़िया उत्तर

इसे सहेजते समय .option("header", "true") का उपयोग करें और इसे पढ़ते समय Spark.read.csv(filepath, Header=True) का उपयोग करें

0
ashish14 15 मई 2019, 07:14