R 数据导入：read.csv() 与 read.table()

执行读取命令。完整调用结构如下：

df_raw <- read.table("raw_data.log", sep = "\t", header = TRUE, fileEncoding = "UTF-8", skip = 3)

调用 read.csv() 快速加载常规表格
传入文件地址。标准 CSV 文件无需额外声明分隔符，函数已内置 sep = "," 预设。
关闭因子转换。默认行为会将文本列转为分类变量，添加 stringsAsFactors = FALSE 保留原始文本形态，避免后续字符串操作报错。
处理缺失值占位符。若原始文件使用 "NA"、"NULL" 或 "." 代表空值，设置 na.strings = c("NA", "NULL", ".") 将其统一转换为 R 识别的空值对象。
拦截末尾注释。若表格底部附带说明文本，设置 comment.char = "" 关闭 # 符号的注释拦截功能，防止数据行被意外丢弃。

执行读取命令。快捷调用结构如下：

df_clean <- read.csv("report.csv", stringsAsFactors = FALSE, na.strings = c("", "NA"), comment.char = "")

以下对照表明确列出两函数在关键行为上的出厂设置差异，直接决定是否需要手动传参。

参数	`read.table()` 默认值	`read.csv()` 默认值	核心影响范围
`sep`	`""`（空白字符）	`","`	决定列与列的切分依据
`header`	`FALSE`	`TRUE`	决定首行是否被提取为变量名
`fill`	`FALSE`	`TRUE`	行内列数不足时是否自动补空值，关闭则直接报错
`comment.char`	`"#"`	`"#"`	忽略该行指定符号后的所有内容
`strip.white`	`FALSE`	`FALSE`	是否自动清除字符值两端的空白字符

修复高频读取故障
定位列数错位警告。控制台提示 more columns than column names 时，说明某一行多出了分隔符。全局搜索目标符号，删除多余标记或在该行首尾添加转义引号。
修正数值误读为文本。检查 str() 输出，若数值列显示为 chr，返回读取命令并添加 colClasses 参数。例如 colClasses = c("numeric", "Date", "character") 强制类型。
清理隐藏不可见字符。导入后若数据比对失败，执行 df[] <- lapply(df, trimws) 批量清除列首尾空格与换行符残留。
突破内存限制瓶颈。文件体积超过 1.5GB 时，基础函数会引发内存溢出。替换底层引擎为 data.table::fread() 或 vroom::vroom()，利用内存映射与多线程实现秒级加载。

验证数据完整性与结构
核对维度指标。运行 dim(df) 比对返回的行列数，确认未发生数据截断或异常膨胀。
扫描列名异常。执行 names(df) 检查变量名。若出现 X1, X2 等自动前缀，说明原文件首行包含非法字符（如数字开头或特殊符号），需修改 make.names() 行为或提前清洗源文件。
抽验数据类型分布。使用 summary(df) 或 head(df, 5) 查看前五行实际内容，确认数值列未混入文本标记，日期列已识别为正确的时间对象。