Question Lecture d'un fichier texte en Java


Il semble qu'il existe différentes façons de lire et d'écrire des données de fichiers en Java.

Je veux lire les données ASCII d'un fichier. Quelles sont les manières possibles et leurs différences?


796
2018-01-17 18:29


origine


Réponses:


ASCII est un fichier texte que vous utiliserez Lecteurs a lire. Java prend également en charge la lecture à partir d'un fichier binaire en utilisant InputStreams. Si les fichiers lus sont énormes, vous voudrez utiliser un BufferedReader au sommet d'un FileReader pour améliorer les performances de lecture.

Traverser Cet article sur comment utiliser un lecteur

Je vous recommande également de télécharger et de lire ce merveilleux livre (encore gratuit) appelé Penser en Java

En Java 7:

new String (Files.readAllBytes (...)) ou Files.readAllLines (...)

En Java 8:

Files.lines (..). ForEach (...)


467
2018-01-17 18:31



Ma façon préférée de lire un petit fichier est d'utiliser un BufferedReader et un StringBuilder. C'est très simple et précis (mais pas particulièrement efficace, mais assez bon pour la plupart des cas):

BufferedReader br = new BufferedReader(new FileReader("file.txt"));
try {
    StringBuilder sb = new StringBuilder();
    String line = br.readLine();

    while (line != null) {
        sb.append(line);
        sb.append(System.lineSeparator());
        line = br.readLine();
    }
    String everything = sb.toString();
} finally {
    br.close();
}

Certains ont souligné que, après Java 7, vous devriez utiliser essayer avec des ressources (c'est-à-dire fermeture automatique) caractéristiques:

try(BufferedReader br = new BufferedReader(new FileReader("file.txt"))) {
    StringBuilder sb = new StringBuilder();
    String line = br.readLine();

    while (line != null) {
        sb.append(line);
        sb.append(System.lineSeparator());
        line = br.readLine();
    }
    String everything = sb.toString();
}

Quand je lis des chaînes comme celle-ci, je veux généralement faire un peu de manipulation de chaînes par ligne, alors je vais pour cette implémentation.

Bien que si je veux juste lire un fichier dans une chaîne, j'utilise toujours Apache Commons IO avec la méthode IOUtils.toString () de classe. Vous pouvez jeter un oeil à la source ici:

http://www.docjar.com/html/api/org/apache/commons/io/IOUtils.java.html

FileInputStream inputStream = new FileInputStream("foo.txt");
try {
    String everything = IOUtils.toString(inputStream);
} finally {
    inputStream.close();
}

Et encore plus simple avec Java 7:

try(FileInputStream inputStream = new FileInputStream("foo.txt")) {     
    String everything = IOUtils.toString(inputStream);
    // do something with everything string
}

634
2018-01-17 18:42



Le plus simple est d'utiliser le Scanner class dans Java et l'objet FileReader. Exemple simple:

Scanner in = new Scanner(new FileReader("filename.txt"));

Scanner a plusieurs méthodes pour lire dans les chaînes, les nombres, etc ... Vous pouvez rechercher plus d'informations à ce sujet sur la page de documentation Java.

Par exemple lire tout le contenu dans un String:

StringBuilder sb = new StringBuilder();
while(in.hasNext()) {
    sb.append(in.next());
}
in.close();
outString = sb.toString();

Aussi, si vous avez besoin d'un encodage spécifique, vous pouvez l'utiliser au lieu de FileReader:

new InputStreamReader(new FileInputStream(fileUtf8), StandardCharsets.UTF_8)

122
2018-01-17 18:35



Voici une solution simple:

String content;

content = new String(Files.readAllBytes(Paths.get("sample.txt")));

59
2018-01-29 16:24



Voici une autre façon de le faire sans utiliser de bibliothèques externes:

import java.io.File;
import java.io.FileReader;
import java.io.IOException;

public String readFile(String filename)
{
    String content = null;
    File file = new File(filename); // For example, foo.txt
    FileReader reader = null;
    try {
        reader = new FileReader(file);
        char[] chars = new char[(int) file.length()];
        reader.read(chars);
        content = new String(chars);
        reader.close();
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        if(reader != null){
            reader.close();
        }
    }
    return content;
}

54
2018-05-22 21:02



Les méthodes dans org.apache.commons.io.FileUtils peut également être très pratique, par exemple:

/**
 * Reads the contents of a file line by line to a List
 * of Strings using the default encoding for the VM.
 */
static List readLines(File file)

21
2018-01-17 18:46



Je devais comparer les différentes manières. Je commenterai mes conclusions mais, en bref, le moyen le plus rapide consiste à utiliser un ancien tampon BufferedInputStream sur un FileInputStream. Si de nombreux fichiers doivent être lus, trois threads réduiront le temps d'exécution total à environ la moitié, mais l'ajout de threads dégradera progressivement les performances jusqu'à ce que cela prenne trois fois plus de temps avec vingt threads qu'avec un seul thread.

L'hypothèse est que vous devez lire un fichier et faire quelque chose de significatif avec son contenu. Dans les exemples, il s'agit de lire les lignes d'un journal et de compter celles qui contiennent des valeurs dépassant un certain seuil. Donc, je suppose que le one-liner Java 8 Files.lines(Paths.get("/path/to/file.txt")).map(line -> line.split(";")) n'est pas une option.

J'ai testé sur Java 1.8, Windows 7 et les lecteurs SSD et HDD.

J'ai écrit six implémentations différentes:

rawParse: Utilisez BufferedInputStream sur un FileInputStream, puis coupez les lignes en lisant octet par octet. Cela a surpassé toute autre approche monothread, mais cela peut être très gênant pour les fichiers non-ASCII.

lineReaderParse: Utilisez un BufferedReader sur un FileReader, lisez ligne par ligne, divisez les lignes en appelant String.split (). Ceci est approximativement 20% plus lent que rawParse.

lineReaderParseParallel: C'est la même chose que lineReaderParse, mais il utilise plusieurs threads. C'est l'option la plus rapide dans tous les cas.

nioFilesParse: Utilisez java.nio.files.Files.lines ()

nioAsyncParse: Utilisez un AsynchronousFileChannel avec un gestionnaire d'achèvement et un pool de threads.

nioMemoryMappedParse: Utilisez un fichier mappé en mémoire. C'est vraiment une mauvaise idée d'avoir des temps d'exécution au moins trois fois plus longs que n'importe quelle autre implémentation.

Ce sont les temps moyens pour lire 204 fichiers de 4 Mo chacun sur un disque i7 et SSD quad-core. Les fichiers sont générés à la volée pour éviter la mise en cache du disque.

rawParse                11.10 sec
lineReaderParse         13.86 sec
lineReaderParseParallel  6.00 sec
nioFilesParse           13.52 sec
nioAsyncParse           16.06 sec
nioMemoryMappedParse    37.68 sec

J'ai trouvé une différence plus petite que ce à quoi je m'attendais entre courir sur un SSD ou un disque dur étant le SSD environ 15% plus rapide. Cela peut être dû au fait que les fichiers sont générés sur un disque dur non fragmenté et qu'ils sont lus séquentiellement, par conséquent, le disque rotatif peut fonctionner presque comme un disque SSD.

J'ai été surpris par les faibles performances de l'implémentation de nioAsyncParse. Soit j'ai implémenté quelque chose dans le mauvais sens, soit l'implémentation multi-thread utilisant NIO et un gestionnaire de complétion fait la même chose (ou même pire) qu'une implémentation à un seul thread avec l'API java.io. De plus, l'analyse asynchrone avec CompletionHandler est beaucoup plus longue dans les lignes de code et difficile à implémenter correctement qu'une implémentation directe sur les anciens flux.

Maintenant les six implémentations suivies d'une classe les contenant toutes, plus une méthode parametrizable main () qui permet de jouer avec le nombre de fichiers, la taille du fichier et le degré de simultanéité. Notez que la taille des fichiers varie plus moins 20%. Ceci afin d'éviter tout effet dû au fait que tous les fichiers ont exactement la même taille.

rawParse

public void rawParse(final String targetDir, final int numberOfFiles) throws IOException, ParseException {
    overrunCount = 0;
    final int dl = (int) ';';
    StringBuffer lineBuffer = new StringBuffer(1024);
    for (int f=0; f<numberOfFiles; f++) {
        File fl = new File(targetDir+filenamePreffix+String.valueOf(f)+".txt");
        FileInputStream fin = new FileInputStream(fl);
        BufferedInputStream bin = new BufferedInputStream(fin);
        int character;
        while((character=bin.read())!=-1) {
            if (character==dl) {

                // Here is where something is done with each line
                doSomethingWithRawLine(lineBuffer.toString());
                lineBuffer.setLength(0);
            }
            else {
                lineBuffer.append((char) character);
            }
        }
        bin.close();
        fin.close();
    }
}

public final void doSomethingWithRawLine(String line) throws ParseException {
    // What to do for each line
    int fieldNumber = 0;
    final int len = line.length();
    StringBuffer fieldBuffer = new StringBuffer(256);
    for (int charPos=0; charPos<len; charPos++) {
        char c = line.charAt(charPos);
        if (c==DL0) {
            String fieldValue = fieldBuffer.toString();
            if (fieldValue.length()>0) {
                switch (fieldNumber) {
                    case 0:
                        Date dt = fmt.parse(fieldValue);
                        fieldNumber++;
                        break;
                    case 1:
                        double d = Double.parseDouble(fieldValue);
                        fieldNumber++;
                        break;
                    case 2:
                        int t = Integer.parseInt(fieldValue);
                        fieldNumber++;
                        break;
                    case 3:
                        if (fieldValue.equals("overrun"))
                            overrunCount++;
                        break;
                }
            }
            fieldBuffer.setLength(0);
        }
        else {
            fieldBuffer.append(c);
        }
    }
}

lineReaderParse

public void lineReaderParse(final String targetDir, final int numberOfFiles) throws IOException, ParseException {
    String line;
    for (int f=0; f<numberOfFiles; f++) {
        File fl = new File(targetDir+filenamePreffix+String.valueOf(f)+".txt");
        FileReader frd = new FileReader(fl);
        BufferedReader brd = new BufferedReader(frd);

        while ((line=brd.readLine())!=null)
            doSomethingWithLine(line);
        brd.close();
        frd.close();
    }
}

public final void doSomethingWithLine(String line) throws ParseException {
    // Example of what to do for each line
    String[] fields = line.split(";");
    Date dt = fmt.parse(fields[0]);
    double d = Double.parseDouble(fields[1]);
    int t = Integer.parseInt(fields[2]);
    if (fields[3].equals("overrun"))
        overrunCount++;
}

lineReaderParseParallel

public void lineReaderParseParallel(final String targetDir, final int numberOfFiles, final int degreeOfParalelism) throws IOException, ParseException, InterruptedException {
    Thread[] pool = new Thread[degreeOfParalelism];
    int batchSize = numberOfFiles / degreeOfParalelism;
    for (int b=0; b<degreeOfParalelism; b++) {
        pool[b] = new LineReaderParseThread(targetDir, b*batchSize, b*batchSize+b*batchSize);
        pool[b].start();
    }
    for (int b=0; b<degreeOfParalelism; b++)
        pool[b].join();
}

class LineReaderParseThread extends Thread {

    private String targetDir;
    private int fileFrom;
    private int fileTo;
    private DateFormat fmt = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
    private int overrunCounter = 0;

    public LineReaderParseThread(String targetDir, int fileFrom, int fileTo) {
        this.targetDir = targetDir;
        this.fileFrom = fileFrom;
        this.fileTo = fileTo;
    }

    private void doSomethingWithTheLine(String line) throws ParseException {
        String[] fields = line.split(DL);
        Date dt = fmt.parse(fields[0]);
        double d = Double.parseDouble(fields[1]);
        int t = Integer.parseInt(fields[2]);
        if (fields[3].equals("overrun"))
            overrunCounter++;
    }

    @Override
    public void run() {
        String line;
        for (int f=fileFrom; f<fileTo; f++) {
            File fl = new File(targetDir+filenamePreffix+String.valueOf(f)+".txt");
            try {
            FileReader frd = new FileReader(fl);
            BufferedReader brd = new BufferedReader(frd);
            while ((line=brd.readLine())!=null) {
                doSomethingWithTheLine(line);
            }
            brd.close();
            frd.close();
            } catch (IOException | ParseException ioe) { }
        }
    }
}

nioFilesParse

public void nioFilesParse(final String targetDir, final int numberOfFiles) throws IOException, ParseException {
    for (int f=0; f<numberOfFiles; f++) {
        Path ph = Paths.get(targetDir+filenamePreffix+String.valueOf(f)+".txt");
        Consumer<String> action = new LineConsumer();
        Stream<String> lines = Files.lines(ph);
        lines.forEach(action);
        lines.close();
    }
}


class LineConsumer implements Consumer<String> {

    @Override
    public void accept(String line) {

        // What to do for each line
        String[] fields = line.split(DL);
        if (fields.length>1) {
            try {
                Date dt = fmt.parse(fields[0]);
            }
            catch (ParseException e) {
            }
            double d = Double.parseDouble(fields[1]);
            int t = Integer.parseInt(fields[2]);
            if (fields[3].equals("overrun"))
                overrunCount++;
        }
    }
}

nioAsyncParse

public void nioAsyncParse(final String targetDir, final int numberOfFiles, final int numberOfThreads, final int bufferSize) throws IOException, ParseException, InterruptedException {
    ScheduledThreadPoolExecutor pool = new ScheduledThreadPoolExecutor(numberOfThreads);
    ConcurrentLinkedQueue<ByteBuffer> byteBuffers = new ConcurrentLinkedQueue<ByteBuffer>();

    for (int b=0; b<numberOfThreads; b++)
        byteBuffers.add(ByteBuffer.allocate(bufferSize));

    for (int f=0; f<numberOfFiles; f++) {
        consumerThreads.acquire();
        String fileName = targetDir+filenamePreffix+String.valueOf(f)+".txt";
        AsynchronousFileChannel channel = AsynchronousFileChannel.open(Paths.get(fileName), EnumSet.of(StandardOpenOption.READ), pool);
        BufferConsumer consumer = new BufferConsumer(byteBuffers, fileName, bufferSize);
        channel.read(consumer.buffer(), 0l, channel, consumer);
    }
    consumerThreads.acquire(numberOfThreads);
}


class BufferConsumer implements CompletionHandler<Integer, AsynchronousFileChannel> {

        private ConcurrentLinkedQueue<ByteBuffer> buffers;
        private ByteBuffer bytes;
        private String file;
        private StringBuffer chars;
        private int limit;
        private long position;
        private DateFormat frmt = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

        public BufferConsumer(ConcurrentLinkedQueue<ByteBuffer> byteBuffers, String fileName, int bufferSize) {
            buffers = byteBuffers;
            bytes = buffers.poll();
            if (bytes==null)
                bytes = ByteBuffer.allocate(bufferSize);

            file = fileName;
            chars = new StringBuffer(bufferSize);
            frmt = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
            limit = bufferSize;
            position = 0l;
        }

        public ByteBuffer buffer() {
            return bytes;
        }

        @Override
        public synchronized void completed(Integer result, AsynchronousFileChannel channel) {

            if (result!=-1) {
                bytes.flip();
                final int len = bytes.limit();
                int i = 0;
                try {
                    for (i = 0; i < len; i++) {
                        byte by = bytes.get();
                        if (by=='\n') {
                            // ***
                            // The code used to process the line goes here
                            chars.setLength(0);
                        }
                        else {
                                chars.append((char) by);
                        }
                    }
                }
                catch (Exception x) {
                    System.out.println(
                        "Caught exception " + x.getClass().getName() + " " + x.getMessage() +
                        " i=" + String.valueOf(i) + ", limit=" + String.valueOf(len) +
                        ", position="+String.valueOf(position));
                }

                if (len==limit) {
                    bytes.clear();
                    position += len;
                    channel.read(bytes, position, channel, this);
                }
                else {
                    try {
                        channel.close();
                    }
                    catch (IOException e) {
                    }
                    consumerThreads.release();
                    bytes.clear();
                    buffers.add(bytes);
                }
            }
            else {
                try {
                    channel.close();
                }
                catch (IOException e) {
                }
                consumerThreads.release();
                bytes.clear();
                buffers.add(bytes);
            }
        }

        @Override
        public void failed(Throwable e, AsynchronousFileChannel channel) {
        }
};

MISE EN ŒUVRE PLEINEMENT RUNNABLE DE TOUS LES CAS

https://github.com/sergiomt/javaiobenchmark/blob/master/FileReadBenchmark.java


21
2017-11-14 20:20



Voici les trois méthodes de travail et testées:

En utilisant BufferedReader

package io;
import java.io.*;
public class ReadFromFile2 {
    public static void main(String[] args)throws Exception {
        File file = new File("C:\\Users\\pankaj\\Desktop\\test.java");
        BufferedReader br = new BufferedReader(new FileReader(file));
        String st;
        while((st=br.readLine()) != null){
            System.out.println(st);
        }
    }
}

En utilisant Scanner

package io;

import java.io.File;
import java.util.Scanner;

public class ReadFromFileUsingScanner {
    public static void main(String[] args) throws Exception {
        File file = new File("C:\\Users\\pankaj\\Desktop\\test.java");
        Scanner sc = new Scanner(file);
        while(sc.hasNextLine()){
            System.out.println(sc.nextLine());
        }
    }
}

En utilisant FileReader

package io;
import java.io.*;
public class ReadingFromFile {

    public static void main(String[] args) throws Exception {
        FileReader fr = new FileReader("C:\\Users\\pankaj\\Desktop\\test.java");
        int i;
        while ((i=fr.read()) != -1){
            System.out.print((char) i);
        }
    }
}

Lire le fichier entier sans boucle en utilisant le Scanner classe

package io;

import java.io.File;
import java.io.FileNotFoundException;
import java.util.Scanner;

public class ReadingEntireFileWithoutLoop {

    public static void main(String[] args) throws FileNotFoundException {
        File file = new File("C:\\Users\\pankaj\\Desktop\\test.java");
        Scanner sc = new Scanner(file);
        sc.useDelimiter("\\Z");
        System.out.println(sc.next());
    }
}

19
2018-01-10 18:52