登录
首页 >  Golang >  Go问答

如何处理任意尺寸的文件?

来源:stackoverflow

时间:2024-03-15 16:55:26 304浏览 收藏

对于处理具有可变重复字段的文本文件,一种有效的解析方法是采用“分而治之”策略。首先,将文件建模为一组具有固定字段的记录,并确定这些字段的类型和名称。其次,设计一个解析函数的接口,考虑输入源、输出格式和处理约束。最后,逐步实现解析器,逐行读取输入并根据行的内容采取适当的操作,例如创建新记录、更新现有记录或发出已解析的记录。

问题内容

我有一个文本文件,我想用如下记录来解析它:

===================
name: John Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Sun Java Certified Programmer
Age: 29
===================
name: Bob Bear
Education: High School Diploma
Age: 18
===================
name: Jane Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Master's Degree
Education: AWS Certified Solution Architect Professional
Age: 25

如您所见,此类文本文件中的 fields 是固定的,但其中一些重复任意次数。记录由固定长度 ==== 分隔符分隔。

我该如何编写这种问题的解析逻辑?我想使用 switch 因为它读取行的开头,但处理多个重复字段的逻辑让我感到困惑。


解决方案


解决此类问题的一个好方法是“分而治之”。也就是说,将整体问题划分为更易于管理的较小的子问题,然后单独解决每个子问题。如果您计划得当,那么当您完成每个子问题时,您应该已经解决了整个问题。

首先考虑建模。该文档似乎包含一个记录列表,这些记录应该被称为什么?记录应包含哪些命名字段以及它们应具有哪些类型?你会如何在 go 中惯用地表示它们?例如,您可能决定将每个记录称为 person,其字段如下:

type person struct {
    name        string
    credentials []string
    age         int
}

接下来,考虑解析函数的接口(签名)应该是什么样子。它应该散发出一群人吗?它是否应该使用访问者模式并在解析后立即发出一个人?应该有哪些约束来驱动答案?内存或计算时间限制重要吗?解析器的用户是否想要对解析工作进行任何控制,例如取消?他们是否需要元数据,例如文档中包含的记录总数?输入是否始终来自文件或字符串,也许来自 http 请求或网络套接字?这些选择将如何推动您的设计?

func parsepeople(string) ([]person, error) // ?
func parsepeople(io.reader) ([]person, error) // ?
func parsepeople(io.reader, func visitor(person) bool) error // ?

最后,您可以实现解析器来实现您决定的接口。这里一个简单的方法是逐行读取输入文件并根据该行的内容采取行动。例如(伪代码):

foreach line = inputfile.line
  if line is a separator
    emit or store the last parsed person, if present
    create a new person to store parsed fields
  else if line is a data field
    parse the data
    update the person with the parsed data
  end
end
return the parsed records or final record, if emitting

上面的每一行伪代码都代表一个子问题,它应该比整个问题更容易解决。

编辑:添加解释为什么我只是发布一个程序作为答案。

我提出了一个非常直接的实现来解析您在问题中给出的文本。您接受了 maerics 的答案,那就可以了。不过,我想在他的回答中添加一些反驳论点。基本上,该答案中的伪代码是我答案中代码的不可编译版本,因此我们同意此问题的解决方案。

我不同意的是过度工程的说法。我每天都必须处理由过度思考者编写的代码。我强烈建议您不要考虑模式、记忆和时间限制,或者将来谁可能想要从中得到什么。

访客模式?这几乎只在解析编程语言时有用,不要尝试为它构建一个用例来解决这个问题。访问者模式用于遍历其中包含不同类型事物的树。这里我们有一个列表,而不是一棵树,其中的内容都是相同的。

内存和时间限制?你用这个解析 5 gb 的文本吗?那么这可能是一个真正令人担忧的问题。但即使你这样做,也一定要先写最简单的东西。就足够了。在我的职业生涯中,我每年最多只需要使用简单数组以外的东西或应用复杂的算法。尽管如此,我仍然看到到处都是毫无理由地使用复杂数据结构和算法的代码。这使更改变得复杂,容易出错,有时最终会让事情变得更慢!不要使用可观察列表抽象,每当其内容发生变化时通知所有观察者 - 但是等等,让我们添加一个更新锁和解锁,以便我们可以控制何时不通知每个人......不!不要走那条路。使用一片。做你的逻辑。让所有内容从上到下都易于阅读。我不想从 a 跳到 b 再到 c,追逐接口,跟随 getter 最终找到的不是一个具体的数据类型,而是另一个接口。这不是要走的路。

这些就是我的代码不导出任何内容的原因,它是一个独立的、可运行的示例,是针对您的具体问题的具体解决方案。你可以阅读它,很容易理解。它没有被大量评论,因为不需要。这三个评论没有说明发生了什么,而是说明为什么会发生。其他一切从代码本身就显而易见。我故意在那里留下了有关潜在错误的注释。您知道自己拥有什么样的数据,其中没有任何一行会触发此错误。不要编写代码来处理不可能发生的事情。如果将来有人在冒号后添加一行没有文本的行(记住,没有人会这样做,不用担心),这会引发恐慌,将您指向这一行,您添加另一个 if 或其他内容,你完成了。这段代码比一个试图处理各种不同的、不存在的输入变体的程序更能证明未来。

我想强调的要点是:只写解决手头问题所必需的内容。除此之外的一切都会使您的程序难以阅读和更改,它将未经测试且不必要。

话虽如此,这是我原来的答案:

https://play.golang.org/p/T6c51jSM5nr

package main

import (
    "fmt"
    "strconv"
    "strings"
)

func main() {
    type item struct {
        name       string
        educations []string
        age        int
    }
    var items []item

    var current item
    finishItem := func() {
        if current.name != "" { // handle the first ever separator
            items = append(items, current)
        }
        current = item{}
    }

    lines := strings.Split(code, "\n")
    for _, line := range lines {
        if line == separator {
            finishItem()
        } else {
            colon := strings.Index(line, ":")
            if colon != -1 {
                id := line[:colon]
                value := line[colon+2:] // note potential bug if text has nothing after ':'
                switch id {
                case "name":
                    current.name = value
                case "Education":
                    current.educations = append(current.educations, value)
                case "Age":
                    age, err := strconv.Atoi(value)
                    if err == nil {
                        current.age = age
                    }
                }
            }
        }
    }
    finishItem() // in case there was no separator at the end

    for _, item := range items {
        fmt.Printf("%s, %d years old, has educations:\n", item.name, item.age)
        for _, e := range item.educations {
            fmt.Printf("\t%s\n", e)
        }
    }
}

const separator = "==================="

const code = `===================
name: John Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Sun Java Certified Programmer
Age: 29
===================
name: Bob Bear
Education: High School Diploma
Age: 18
===================
name: Jane Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Master's Degree
Education: AWS Certified Solution Architect Professional
Age: 25`

今天关于《如何处理任意尺寸的文件?》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

声明:本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>