broker load 导数问题

使用broker load从hive导数到doris,有些表可以导入成功,数据也没有问题,但是有些表导入成功后,只有日期分区有数据,其他字段都为空,我查看了表的字段以及对应关系应该都没有问题(表字段除分区字段的数据类型不一样,其他字段的数据类型都是字符串,且长度足够),hive表对应分区也有数据,会是什么原因造成的呢

你用这个功能,直接读取一个你要导入的orc文件,看看是啥?
然后 也 desc function hdfs(xx) 看看这个文件推断出的schema 是啥

我这里无法知道ip和端口,所以用不了这个功能,我看有人遇到和我一样的问题:[Bug](hdfs-broker) load hdfs error, Invalid ORC postscript length · Issue #23520 · apache/doris · GitHub

报错信息里有IP地址,你可以找到IP地址对应的BE,然后看下be.INFO里对应的错误的完整信息。可以贴出来。
另外,issue里描述的是orc 解析错误,你得错误是导入了但是结果是null吧?这应该是两个问题。
你的问题大部分原因是因为orc里的列名和实际table的列名不一样

抱歉,因为我不是集群的部署人员,所以没有权限看be信息 :sweat_smile:
我复现一下我的操作,我的hive表一共有51个字段,11万条数据;图片为导入数据的代码,还请大神参详,谢谢

1、当我选择只导入其中10个字段并且只导入20条数据,就会出现除了分区有数据,其他字段都为null的结果;
2、当我选择只导入其中10个字段的全量数据,doris直接报orc错误。

另外就是hive和doris的建表语句中,字段我完全是复制粘贴,两边的字段名称和数据类型完全是一一对应,已经反复检查了几次。所以我认为是不是有脏数据造成的,但是我看了一下那20条数据,没有特殊符号,都是正常的数据


小伙伴好~Doris 问答论坛已经迁移,辛苦将问题转发至新论坛提问哦。

【论坛迁移公告】全新论坛地址 ask.selectdb.com ,后续所有内容将迁移至新论坛