用recode工具来转换html entity编码的文件

之前元数据自动导出的xml文件,里面的汉字内容都是采用html entity来编码的,在浏览器里可以直接看到,但有时需要在console直接查找文本内容,这时就需要将这写编码后的文本进行转译,恢复成为之前的UTF8汉字,发现recode工具就可以完成这个工作。

cat *.xml | recode HTML_4.0 | grep ‘地貌’

还可以用php cli来完成:

alias decode=”php -r ‘echo html_entity_decode(fgets( STDIN ));’”

$ echo ‘Hello, & world! "’ | decode
Hello, & world! “

reference: http://stackoverflow.com/questions/3322820/find-replace-htmlentities-using-the-standard-linux-toolchain


已发布

分类

,

来自

标签:

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注