Реклама на сайте Advertise with us
Тема: РНР - кодировки. Расширенный поиск по форуму
 
Внимание! В связи с устареванием топика эта страница была взята из кэша.
Автор Сообщение
Информация о пользователе bog


Зарегистрирован: 07.11.02
Сообщения: 1994
Ссылка на сообщениеДобавлено: 10/06/04 в 15:27     

столкнулся с проблемой...
есть сайт который отдает паги в нестандартной кодировке.
надо составить регулярное выражение чтоб текст вытащить и конвертнуть его в стандартную windows-1251
стандартный шаблон для букв [a-zа-я] на нем не работает icon_sad.gif
что делать ???

K началу

 
Информация о пользователе lega_cobra


Зарегистрирован: 21.09.03
Сообщения: 371
Ссылка на сообщениеДобавлено: 10/06/04 в 15:37     

bog писал:
столкнулся с проблемой...
есть сайт который отдает паги в нестандартной кодировке.
надо составить регулярное выражение чтоб текст вытащить и конвертнуть его в стандартную windows-1251
стандартный шаблон для букв [a-zа-я] на нем не работает icon_sad.gif
что делать ???


windows-1251 уж никак не стандартная для интернета. Для винды может быть и да.

Не проще-ли со страницей передавать charset?

K началу

 
Информация о пользователе NAXER


Зарегистрирован: 01.11.02
Сообщения: 72
Ссылка на сообщениеДобавлено: 10/06/04 в 17:00     

bog писал:
столкнулся с проблемой...
есть сайт который отдает паги в нестандартной кодировке.


в какой именно?

K началу

 
Информация о пользователе bog


Зарегистрирован: 07.11.02
Сообщения: 1994
Ссылка на сообщениеДобавлено: 10/06/04 в 19:12     

NAXER писал:
в какой именно?

в какой именно не известно.
обрисую на примере:
.... здесь был скрип ....
запускаем из шела...
скрипт работает и коректно вырезает дату из предложения....

теперь прописываем скрипт в крон
и видим что при запуске скрипта по крону он НЕ РАБОТАЕТ !!!

и на эту загадку я убил уже сутки... из шела пашет, с веба нормально, из крона - ни в какую!
Готов выслушать любые предположения.

Последний раз редактировалось: bog (11/06/04 в 01:52), всего редактировалось 1 раз

K началу

 
Информация о пользователе bog


Зарегистрирован: 07.11.02
Сообщения: 1994
Ссылка на сообщениеДобавлено: 10/06/04 в 19:18     

в общем кто обьяснить как составить регексп чтоб любой русский текст выдирал - +7 к рейтингу icon_smile.gif

K началу

 
Информация о пользователе Grumbler


Зарегистрирован: 06.07.02
Сообщения: 117
Ссылка на сообщениеДобавлено: 10/06/04 в 19:30     

Надо просто выдирать текст, а потом его конвертировать.
Задача в 2 действия ;)
Определение кодировки - отдельная песня icon_sad.gif

K началу

 
Информация о пользователе Wahoven


Зарегистрирован: 19.09.03
Сообщения: 1473
Ссылка на сообщениеДобавлено: 10/06/04 в 20:44     

Может chr-ами попробовать?

K началу

 
Информация о пользователе Stek


Зарегистрирован: 24.10.02
Сообщения: 1613
Ссылка на сообщениеДобавлено: 10/06/04 в 20:45     

iconv должен быть проинстален, он и предназачен для перекодировок. Или пиши таблицы соответствия символов сам.

K началу

 
Информация о пользователе bog


Зарегистрирован: 07.11.02
Сообщения: 1994
Ссылка на сообщениеДобавлено: 10/06/04 в 22:14     

Wahoven писал:
Может chr-ами попробовать?

может тупой вопрос, но я с этим пока не сталкивался...
поэтому спрошу...

как засунуть chrы в регэксп ???
[a-zа-я] понятно... а к примеру украинскую раскладку добавить ???

п.с. текст конвертировать мне в принципе не надо... главное именно вырезать название месяца и дату из текста и сохранить в файле.


п.с.2 рейтинг всем поставил... но поле для роста еще есть ;)))

K началу

 
Информация о пользователе Grumbler


Зарегистрирован: 06.07.02
Сообщения: 117
Ссылка на сообщениеДобавлено: 10/06/04 в 22:53     

Проблема у тебя только в том, что название месяца не по английски?
Сделай табличку:
июн => 06
Июнь => 06
Хухры-мухры => 06 - это "июнь" по украински

Отпадает необходимость определения кодировки.
Вероятность, что разные названия на разных языках совпадут, не более погрешности определения кодировки.

Название месяца ищи не по [a-zа-я], а \w+ или аналогично.

K началу

 
Информация о пользователе bog


Зарегистрирован: 07.11.02
Сообщения: 1994
Ссылка на сообщениеДобавлено: 11/06/04 в 01:50     

После 2-х дневных иследований выяснено что кодировки и т.д. вообще не при чем.
Это охеренный баг РНР о чем было сообщено непосредственно авторам РНР, виновных обещали растрелять.
Скрипт был написан с учетом бага и прекрасно работает.

Тему можно считать закрытой.

K началу

 
Информация о пользователе Grumbler


Зарегистрирован: 06.07.02
Сообщения: 117
Ссылка на сообщениеДобавлено: 11/06/04 в 02:05     

Расскажи хоть, что за баг

K началу

 
Информация о пользователе arachnO +


Зарегистрирован: 25.07.03
Сообщения: 897
Ссылка на сообщениеДобавлено: 11/06/04 в 02:29     

bog, да, действительно - хоть что баг был? чтобы мы не ступили на те же грабли icon_smile.gif

K началу

 
Информация о пользователе bog


Зарегистрирован: 07.11.02
Сообщения: 1994
Ссылка на сообщениеДобавлено: 11/06/04 в 03:00     

не срабатывает ключ /i
т.е. различается реестр для не английских букв.
т.е. для того чтоб все работало надо даже с этим ключом писать
[a-zа-яА-Я].

K началу

 
Информация о пользователе arachnO +


Зарегистрирован: 25.07.03
Сообщения: 897
Ссылка на сообщениеДобавлено: 11/06/04 в 03:07     

wow! icon_surprised.gif никогда бы не подумал
bog, респект!

K началу

 
Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!
Внимание! В связи с устареванием топика эта страница была взята из кэша.

Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »