programmer
С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760
|
Добавлено: 01/12/07 в 02:31 |
вот такие скажем
Код: | ”“““ |
короче в исходнике они не мнемоники, а квадратики
|
|
|
|
С нами с 03.05.07
Сообщения: 801
Рейтинг: 825
|
Добавлено: 01/12/07 в 03:34 |
Это ковычки левые и правые, в юникоде. У тебя просто неверная кодировка стоит в html или сам документ сохранён в неверной кодировке. Поставь правильную и будет показываться всё как надо.
А если всё же надо вырезать, то ты не уточнил что именно. Конкретно эти символы или вообще все которые могут отображаться квадратиками или что?
|
|
|
|
programmer
С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760
|
Добавлено: 01/12/07 в 10:20 |
CJLOG:
не могу исправить, потому что документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ
|
|
|
|
С нами с 01.03.06
Сообщения: 629
Рейтинг: 620
|
Добавлено: 01/12/07 в 11:42 |
убрать можно по разному - если вообще - то регуляркой отрезать все лишнее, если убрать="привести в нормальный вид" то можно, например так:
html_entity_decode(текст с хтмл сущностями,0,'UTF-8')
хз возьмет ли все форматы, но в сетке есть примеры (правда ручные) перевода всех в нормальный вид.
&1020;&1032;
ϼЈ
&#u1020;&#u1032; или как-то там еше
|
|
|
|
С нами с 01.03.06
Сообщения: 629
Рейтинг: 620
|
Добавлено: 01/12/07 в 11:46 |
Sterx писал: | CJLOG:
документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ |
как правило эта фигня приходит от некоторых браузеров юзеров постящих коменты, или админов - пишущих новости и все это не смотря на то что делается в документа с объявленной кодировкой UTF-8... ужас вообщем да и РРС-ы многие таким грешат и некоторые скрипты... а если такой текст еще и в базу кто-то впихнул, то 100% уже править не будет, так что боротся нужно.
|
|
|
|
programmer
С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760
|
Добавлено: 01/12/07 в 20:58 |
спасибо за функцию, почитал, попробовал.
она работает с мнемониками (&xxx)
а в коде именно квадратики, а на странице A с черточками
короче не режет ниче.
|
|
|
|
С нами с 19.10.05
Сообщения: 351
Рейтинг: 755
|
Добавлено: 01/12/07 в 23:17 |
Код: | <?
$str='Text ”“““ Text';
echo preg_replace("/&#(\d+);/","",$str);
?> |
Может я конечно что то не так понял! покажи пример если что. !
|
|
|
|
programmer
С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760
|
Добавлено: 01/12/07 в 23:38 |
там xml данные
смотришь source - нет мнемоник, есть квадратики
про &# это даже мне понятно
|
|
|
|
С нами с 19.10.05
Сообщения: 351
Рейтинг: 755
|
Добавлено: 02/12/07 в 00:00 |
Кодировка глючит или что.... кинь на мыло кусок тех данных.. постараюсь помочь!
kornevar(delete)@gmail.com
|
|
|
|
С нами с 01.03.06
Сообщения: 629
Рейтинг: 620
|
Добавлено: 02/12/07 в 01:10 |
Sterx писал: | в коде именно квадратики, а на странице A с черточками
короче не режет ниче. |
поясни как к тебе этот xml попадает - идет с твоей страницы аяксом например, грабится какой-то ррс или дергается какое-то апи, берется из какого склада уже готовых хмл-ей...
какая стоит кодировка в хмл-е? получается ли вместо квадратиков увидеть нормальные символы при принудительном указании utf-8 или unicode... ?
если просто тупо резать все лишнее - то возможно поможет регулярки с помощью библиотек iconv или mbstring... либо может вот так вырежет preg_replace('/[^\w\d\s...]/u',...) (т.е. строка будет обработана в юникоде и попросить регуляркой вырезать все что не буквы, цифры, знаки)...
|
|
|
|
С нами с 01.02.07
Сообщения: 2
|
Добавлено: 21/12/07 в 21:12 |
Использую для этого редактор Aditor. В опциях есть искать и заменить. В искать (одна строка) вводишь свои символы, в заменить (вторая строка) ничего не вводишь или вводишь пробел (бывало прога глючила). Здесь же кнопка =все=. Тогда она пакетом вырезает все твои символы. Ещё в прожке есть опции, чтобы поиграться с кодировками. Там можно прочесть твои символы, если повезёт Весит всего 1мг.
Проверил только что, Штирлицем твои кракозябры, прав был CJLOG, кавычки это ”“““. Адитор спёкся, зато режет классно.
|
|
|
|
nobody knows
С нами с 07.07.04
Сообщения: 1360
Рейтинг: 784
|
Добавлено: 22/12/07 в 00:22 |
тоже в своё время думал как вырезать. только из урла.
решилось вырезанием всего кроме цифр и букв типа
/([^0-9a-z]+)/$1/i
пс. регексп на память написал, может кривой быть, но думаю смысл понятен.
|
|
Nihil probat, qui nimium probat
|
0
|
|
|
С нами с 19.06.06
Сообщения: 97
Рейтинг: 9
|
Добавлено: 29/12/07 в 16:04 |
Была аналогичная проблема "очиски" кода от постороннего.
Справился частично в WORD
Там есть такая фигня с поиском
|
|
|
|
programmer
С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760
|
Добавлено: 13/01/08 в 09:45 |
причем тут Ворд? речь о замене на лету была
|
|
|
|