Реклама на сайте Advertise with us

Как вырезать нечитаемые символы из текста

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:

programmer

С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760

Ссылка на сообщениеДобавлено: 01/12/07 в 02:31       Ответить с цитатойцитата 

вот такие скажем
Код:
”“““

Цитата:
“

короче в исходнике они не мнемоники, а квадратики

крипта на ByBit

0
 



С нами с 03.05.07
Сообщения: 801
Рейтинг: 825

Ссылка на сообщениеДобавлено: 01/12/07 в 03:34       Ответить с цитатойцитата 

Это ковычки левые и правые, в юникоде. У тебя просто неверная кодировка стоит в html или сам документ сохранён в неверной кодировке. Поставь правильную и будет показываться всё как надо.
А если всё же надо вырезать, то ты не уточнил что именно. Конкретно эти символы или вообще все которые могут отображаться квадратиками или что?

создай свою партнёрку

8
 

programmer

С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760

Ссылка на сообщениеДобавлено: 01/12/07 в 10:20       Ответить с цитатойцитата 

CJLOG:
не могу исправить, потому что документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ

крипта на ByBit

0
 



С нами с 01.03.06
Сообщения: 629
Рейтинг: 620

Ссылка на сообщениеДобавлено: 01/12/07 в 11:42       Ответить с цитатойцитата 

убрать можно по разному - если вообще - то регуляркой отрезать все лишнее, если убрать="привести в нормальный вид" то можно, например так:
html_entity_decode(текст с хтмл сущностями,0,'UTF-8')
хз возьмет ли все форматы, но в сетке есть примеры (правда ручные) перевода всех в нормальный вид.
&1020;&1032;
ϼЈ
&#u1020;&#u1032; или как-то там еше

8
 



С нами с 01.03.06
Сообщения: 629
Рейтинг: 620

Ссылка на сообщениеДобавлено: 01/12/07 в 11:46       Ответить с цитатойцитата 

Sterx писал:
CJLOG:
документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ

как правило эта фигня приходит от некоторых браузеров юзеров постящих коменты, или админов - пишущих новости и все это не смотря на то что делается в документа с объявленной кодировкой UTF-8... ужас вообщем icon_smile.gif да и РРС-ы многие таким грешат и некоторые скрипты... а если такой текст еще и в базу кто-то впихнул, то 100% уже править не будет, так что боротся нужно. icon_smile.gif

8
 

programmer

С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760

Ссылка на сообщениеДобавлено: 01/12/07 в 20:58       Ответить с цитатойцитата 

спасибо за функцию, почитал, попробовал.
она работает с мнемониками (&xxx)
а в коде именно квадратики, а на странице A с черточками
короче не режет ниче.

крипта на ByBit

0
 



С нами с 19.10.05
Сообщения: 351
Рейтинг: 755

Ссылка на сообщениеДобавлено: 01/12/07 в 23:17       Ответить с цитатойцитата 

Код:
<?
$str='Text &#148;&#147;&#147;&#147; Text';
echo preg_replace("/&#(\d+);/","",$str);
?>

Может я конечно что то не так понял! покажи пример если что. !

8
 

programmer

С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760

Ссылка на сообщениеДобавлено: 01/12/07 в 23:38       Ответить с цитатойцитата 

там xml данные
смотришь source - нет мнемоник, есть квадратики
про &# это даже мне понятно

крипта на ByBit

0
 



С нами с 19.10.05
Сообщения: 351
Рейтинг: 755

Ссылка на сообщениеДобавлено: 02/12/07 в 00:00       Ответить с цитатойцитата 

Кодировка глючит или что.... кинь на мыло кусок тех данных.. постараюсь помочь!
kornevar(delete)@gmail.com

8
 



С нами с 01.03.06
Сообщения: 629
Рейтинг: 620

Ссылка на сообщениеДобавлено: 02/12/07 в 01:10       Ответить с цитатойцитата 

Sterx писал:
в коде именно квадратики, а на странице A с черточками
короче не режет ниче.

поясни как к тебе этот xml попадает - идет с твоей страницы аяксом например, грабится какой-то ррс или дергается какое-то апи, берется из какого склада уже готовых хмл-ей...
какая стоит кодировка в хмл-е? получается ли вместо квадратиков увидеть нормальные символы при принудительном указании utf-8 или unicode... ?
если просто тупо резать все лишнее - то возможно поможет регулярки с помощью библиотек iconv или mbstring... либо может вот так вырежет preg_replace('/[^\w\d\s...]/u',...) (т.е. строка будет обработана в юникоде и попросить регуляркой вырезать все что не буквы, цифры, знаки)...

8
 



С нами с 01.02.07
Сообщения: 2

Ссылка на сообщениеДобавлено: 21/12/07 в 21:12       Ответить с цитатойцитата 

Использую для этого редактор Aditor. В опциях есть искать и заменить. В искать (одна строка) вводишь свои символы, в заменить (вторая строка) ничего не вводишь или вводишь пробел (бывало прога глючила). Здесь же кнопка =все=. Тогда она пакетом вырезает все твои символы. Ещё в прожке есть опции, чтобы поиграться с кодировками. Там можно прочесть твои символы, если повезёт icon_smile.gif Весит всего 1мг.

Проверил только что, Штирлицем твои кракозябры, прав был CJLOG, кавычки это ”“““. Адитор спёкся, зато режет классно.

0
 

nobody knows

С нами с 07.07.04
Сообщения: 1360
Рейтинг: 784

Ссылка на сообщениеДобавлено: 22/12/07 в 00:22       Ответить с цитатойцитата 

тоже в своё время думал как вырезать. только из урла.
решилось вырезанием всего кроме цифр и букв типа
/([^0-9a-z]+)/$1/i

пс. регексп на память написал, может кривой быть, но думаю смысл понятен.

Nihil probat, qui nimium probat

0
 



С нами с 19.06.06
Сообщения: 97
Рейтинг: 9

Ссылка на сообщениеДобавлено: 29/12/07 в 16:04       Ответить с цитатойцитата 

Была аналогичная проблема "очиски" кода от постороннего.

Справился частично в WORD
Там есть такая фигня с поиском

0
 

programmer

С нами с 08.12.02
Сообщения: 7613
Рейтинг: 5760

Ссылка на сообщениеДобавлено: 13/01/08 в 09:45       Ответить с цитатойцитата 


причем тут Ворд? речь о замене на лету была

крипта на ByBit

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »