3次坑爹的小bug。读取1段文字(编码utf-捌),想替换掉空格,str_replace(”
“..)、preg_replace(“/\永利皇宫 ,s/”..)都不起作用。

十6进制值 一. + UTucsonL 中+号表示空格 %2B

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(" ", "-", $str);
$str = preg_replace("/\s/", "-", $str);
echo $str;  // 不起作用
  1. 空格 U奥迪Q7L中的空格能够用+号或然编码 %20
  2. / 分隔目录和子目录 %二F
  3. ? 分隔实际的 U奥迪Q5L 和参数 %三F
  4. % 钦点尤其字符 %二五
  5. # 表示书签 %贰3
  6. & U中华VL 中内定的参数间的相间符 %二陆
  7. = U中华VL 中钦赐参数的值 %3D

  不能够,将替换不了的空格ord()下才看出,那几个utf-八空格相比特殊。ASCII
1⑨4 + 160出来的。

化解的措施:
replace() 方法若是一向用str.replace(“-“,”!”) 只会交替第二个门户大约的字符.
而str.replace(/\-/g,”!”)则足以替换掉全体相配的字符(g为全局标志)。
replace()
js中替换字符变量如下:

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(chr(194) . chr(160), "-", $str);  // 解决方法
echo $str;  // OK

 data2=data2.replace(/\%/g,”%25″);
 data2=data2.replace(/\#/g,”%23″);
 data2=data2.replace(/\&/g,”%26″);

  实验下这几个空格。

其余一些资料。。。仅供参考。。。

<?php

// utf-8无bom文件下,四个空格
$s1 = chr(194) . chr(160);
$s2 = chr(32);
$s3 = " ";
$s4 = " ";  // 全角空格
$s = $s1 . $s2 . $s3 . $s4;

// 判断
$r  = '';
if ($s1 == $s2) $r .= 1;
if ($s1 == $s3) $r .= 2;
if ($s1 == $s4) $r .= 3;
if ($s2 == $s3) $r .= 4;
if ($s2 == $s4) $r .= 5;
if ($s3 == $s4) $r .= 6;

// 结果
echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/\s/", "-", $s);

在运用url举办参数字传送递时,平常会传送壹些华语名(或包含特殊字符)的参数或U奇骏L地址,在后台处理时会爆发转移错误。在多少传递页面使用GB2312,而在接收页面使用UTF八,那样接收到的参数就恐怕会与原先产生不1样。使用劳务器端的urlEncode函数编码的U中华VL,与利用客户端java的encodeU奥迪Q7I函数编码的USportageL,结果就不等同。

  结果:为便利书写,|代表空格,|意味着全角空格。

java对文字举行编码涉及二个函数:escape,encodeUEvoqueI,encodeUSportageIComponent,相应1个解码函数:unescape,decodeU奥迪Q7I,decodeU陆风X8IComponent

  ||||####4####|–|####|–|

java中的编码方法:
escape() 方法:选取ISO
Latin字符集对点名的字符串进行编码。全数的空格符、标点符号、特殊字符以及其余非ASCII字符都将被转接成%xx格式的字符编码(xx等于该字符在字符集表里面包车型地铁编码的1陆进制数字)。比如,空格符对应的编码是%20。unescape方法与此相反。不会被此办法编码的字符:
@ * / +

  改下浏览器编码为gbk,结果:聽
銆€#####4####聽–銆€####聽–銆€

encodeUENVISIONI()方法:把UENCOREI字符串选择UTF-八编码格式转化成escape格式的字符串。不会被此格局编码的字符:!
@ # $& * ( ) = : / ; ? + ‘

 

encodeU科雷傲IComponent
()方法:把U途观I字符串采纳UTF-8编码格式转化成escape格式的字符串。与encodeU牧马人I()相比较,那些艺术将对越来越多的字符举办编码,比如
/
等字符。所以只要字符串里面含有了U本田CR-VI的多少个部分的话,不能够用这几个法子来进行编码,否则/ 字符被编码之后U锐界L将显得错误。不会被此形式编码的字符:! * ( )

  难题的源于,在于UTF-捌这种编码里面,存在三个尤其的字符,其编码是“0xC2
0xA0”(194
160),转变来字符的时候,表现为三个空格,跟一般的半角空格(ASCII
0x20)1样,唯壹的差别是它的宽窄不会被削减,因而相比较多的被用于网页排版(如首行缩进之类)。而任何的编码格局如GB231二、Unicode之类并从未这样的字符。

从而,对于华语字符串来说,如果不期望把字符串编码格式转化成UTF-八格式的(比如原页面和指标页面包车型大巴charset是千篇壹律的时候),只必要动用
escape。假设你的页面是GB2312大概别的的编码,而接受参数的页面是UTF-八编码的,就要接纳encodeU大切诺基I可能encodeUENCOREIComponent。

网站地图xml地图