मेरे पास एक संबंधित लेबल के साथ समाचार लेखों और फेसबुक पोस्ट (पूर्ण पाठ) के मिश्रण के साथ एक डेटाफ्रेम है (सभी ग्रंथों के लिए लेबल का एक सेट - लेख और पोस्ट दोनों)। हालांकि, मैं अपने क्लासिफायरियर को दोनों प्रकार के ग्रंथों (लेखों और पोस्ट) पर प्रशिक्षित करना चाहता हूं, फिर भी मेरे परीक्षण सेट में केवल फेसबुक पोस्ट हैं। क्या पंक्तियों का एक समूह निर्दिष्ट करने के लिए वैसे भी है ('स्रोत' कॉलम द्वारा समूहीकृत) जिससे परीक्षण सेट निकाला जा सके?

मैं उपयोग कर रहा हूँ

sklearn.model_selection import train_test_split

और वर्गीकरण मॉडल के लिए सरल ट्रांसफार्मर।

धन्यवाद!

0
Dror M 12 सितंबर 2020, 23:13

1 उत्तर

सबसे बढ़िया उत्तर

विभाजन निम्न प्रकार से किया जाता है:

# create X
X = df[<columns>]
# create y
y = df[<one column>]
# split to train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123, stratify = y)

यदि आपके पास दो डेटाफ़्रेम हैं, तो आपको उन्हें पहले एक करना होगा:

df = df1.append(df2)
1
gtomer 12 सितंबर 2020, 23:34