Beispiel-Codes: # python 3. x import pandas as pd df = ad_csv( '', sep=" ", header=None) print(df) Ausgabe: 0 1 2 3 4 0 45 apple orange banana mango 1 12 orange kiwi onion tomato Wir setzen sep=" ", weil die Werte durch ein einzelnes Leerzeichen getrennt sind. In ähnlicher Weise können wir sep=", " setzen, wenn wir Daten aus einer durch Komma getrennten Datei lesen. Ersetzen Sie die Leerzeichen in durch, und lassen Sie den Code laufen, nachdem Sie sep=" " durch sep=", " ersetzt haben. 45, apple, orange, banana, mango 12, orange, kiwi,, tomato Kodex: # python 3. x '', sep=", ", header=None) 1 12 orange kiwi NaN tomato read_fwf() Methode zum Laden einer Textdatei im Breitenformat in Pandas dataframe read_fwf() ist sehr hilfreich, um eine in der Breite formatierte Textdatei zu laden. Wir können sep nicht benutzen, weil unterschiedliche Werte unterschiedliche Trennzeichen haben können. Betrachten Sie die folgende Textdatei: 45 apple orange banana mango In ist der Begrenzer nicht für alle Werte gleich.
append ( df) frame = pd. concat ( li, axis = 0, ignore_index = True) Eine Alternative zu darindaCoders Antwort: all_files = glob. glob ( os. path. join ( path, "*")) # advisable to use as this makes concatenation OS independent df_from_each_file = ( pd. read_csv ( f) for f in all_files) concatenated_df = pd. concat ( df_from_each_file, ignore_index = True) # doesn't create a list, nor does it append to one import glob, os df = pd. concat ( map ( pd. read_csv, glob. join ( '', "my_files*")))) Die Dask-Bibliothek kann einen Datenrahmen aus mehreren Dateien lesen: >>> import dask. dataframe as dd >>> df = dd. read_csv ( 'data*') (Quelle:) Die Dask-Datenrahmen implementieren eine Teilmenge der Pandas-Datenrahmen-API. Wenn alle Daten passt in den Speicher, können Sie rufen pute() die Datenrahmen in eine Pandas Datenrahmen zu konvertieren. Fast alle Antworten hier sind entweder unnötig komplex (Glob Pattern Matching) oder basieren auf zusätzlichen Bibliotheken von Drittanbietern. Sie können dies in zwei Zeilen tun, indem Sie alles verwenden, was Pandas und Python (alle Versionen) bereits eingebaut haben.
Importieren Sie Module und suchen Sie Dateipfade: import pandas from collections import OrderedDict Hinweis: OrderedDict ist nicht erforderlich, behält jedoch die Reihenfolge der Dateien bei, die für die Analyse hilfreich sein können. Laden Sie CSV-Dateien in ein Wörterbuch. Dann verketten: dict_of_df = OrderedDict (( f, pandas. read_csv ( f)) for f in filenames) pandas. concat ( dict_of_df, sort = True) Schlüssel sind Dateinamen f und Werte sind der Datenrahmeninhalt von CSV-Dateien. Anstatt f als Wörterbuchschlüssel zu verwenden, können Sie auch (f) oder andere Methoden verwenden, um die Größe des Schlüssels im Wörterbuch nur auf den kleineren Teil zu reduzieren, der relevant ist. Alternative Nutzung der pathlib Bibliothek (oft bevorzugt). Diese Methode vermeidet die iterative Verwendung von Pandas concat() / apped(). Aus der Pandas-Dokumentation: Es ist erwähnenswert, dass concat () (und daher append ()) eine vollständige Kopie der Daten erstellt und dass die ständige Wiederverwendung dieser Funktion zu einem erheblichen Leistungseinbruch führen kann.