Внимание! В связи с устареванием топика эта страница была взята из кэша.
|
bog
Зарегистрирован: 07.11.02
Сообщения: 1994
|
Добавлено: 10/06/04 в 15:27
|
|
столкнулся с проблемой... есть сайт который отдает паги в нестандартной кодировке. надо составить регулярное выражение чтоб текст вытащить и конвертнуть его в стандартную windows-1251 стандартный шаблон для букв [a-zа-я] на нем не работает что делать ???
|
K началу
|
|
|
lega_cobra
Зарегистрирован: 21.09.03
Сообщения: 371
|
Добавлено: 10/06/04 в 15:37
|
|
bog писал: | столкнулся с проблемой... есть сайт который отдает паги в нестандартной кодировке. надо составить регулярное выражение чтоб текст вытащить и конвертнуть его в стандартную windows-1251 стандартный шаблон для букв [a-zа-я] на нем не работает что делать ??? |
windows-1251 уж никак не стандартная для интернета. Для винды может быть и да.
Не проще-ли со страницей передавать charset?
|
K началу
|
|
|
NAXER
Зарегистрирован: 01.11.02
Сообщения: 72
|
Добавлено: 10/06/04 в 17:00
|
|
bog писал: | столкнулся с проблемой... есть сайт который отдает паги в нестандартной кодировке.
|
в какой именно?
|
K началу
|
|
|
bog
Зарегистрирован: 07.11.02
Сообщения: 1994
|
Добавлено: 10/06/04 в 19:12
|
|
NAXER писал: | в какой именно? |
в какой именно не известно. обрисую на примере: .... здесь был скрип .... запускаем из шела... скрипт работает и коректно вырезает дату из предложения....
теперь прописываем скрипт в крон и видим что при запуске скрипта по крону он НЕ РАБОТАЕТ !!!
и на эту загадку я убил уже сутки... из шела пашет, с веба нормально, из крона - ни в какую! Готов выслушать любые предположения.
Последний раз редактировалось: bog (11/06/04 в 01:52), всего редактировалось 1 раз
|
K началу
|
|
|
bog
Зарегистрирован: 07.11.02
Сообщения: 1994
|
Добавлено: 10/06/04 в 19:18
|
|
в общем кто обьяснить как составить регексп чтоб любой русский текст выдирал - +7 к рейтингу
|
K началу
|
|
|
Grumbler
Зарегистрирован: 06.07.02
Сообщения: 117
|
Добавлено: 10/06/04 в 19:30
|
|
Надо просто выдирать текст, а потом его конвертировать. Задача в 2 действия ;) Определение кодировки - отдельная песня
|
K началу
|
|
|
Wahoven
Зарегистрирован: 19.09.03
Сообщения: 1473
|
Добавлено: 10/06/04 в 20:44
|
|
Может chr-ами попробовать?
|
K началу
|
|
|
Stek
Зарегистрирован: 24.10.02
Сообщения: 1613
|
Добавлено: 10/06/04 в 20:45
|
|
iconv должен быть проинстален, он и предназачен для перекодировок. Или пиши таблицы соответствия символов сам.
|
K началу
|
|
|
bog
Зарегистрирован: 07.11.02
Сообщения: 1994
|
Добавлено: 10/06/04 в 22:14
|
|
Wahoven писал: | Может chr-ами попробовать? |
может тупой вопрос, но я с этим пока не сталкивался... поэтому спрошу...
как засунуть chrы в регэксп ??? [a-zа-я] понятно... а к примеру украинскую раскладку добавить ???
п.с. текст конвертировать мне в принципе не надо... главное именно вырезать название месяца и дату из текста и сохранить в файле.
п.с.2 рейтинг всем поставил... но поле для роста еще есть ;)))
|
K началу
|
|
|
Grumbler
Зарегистрирован: 06.07.02
Сообщения: 117
|
Добавлено: 10/06/04 в 22:53
|
|
Проблема у тебя только в том, что название месяца не по английски? Сделай табличку: июн => 06 Июнь => 06 Хухры-мухры => 06 - это "июнь" по украински
Отпадает необходимость определения кодировки. Вероятность, что разные названия на разных языках совпадут, не более погрешности определения кодировки.
Название месяца ищи не по [a-zа-я], а \w+ или аналогично.
|
K началу
|
|
|
bog
Зарегистрирован: 07.11.02
Сообщения: 1994
|
Добавлено: 11/06/04 в 01:50
|
|
После 2-х дневных иследований выяснено что кодировки и т.д. вообще не при чем. Это охеренный баг РНР о чем было сообщено непосредственно авторам РНР, виновных обещали растрелять. Скрипт был написан с учетом бага и прекрасно работает.
Тему можно считать закрытой.
|
K началу
|
|
|
Grumbler
Зарегистрирован: 06.07.02
Сообщения: 117
|
Добавлено: 11/06/04 в 02:05
|
|
Расскажи хоть, что за баг
|
K началу
|
|
|
arachnO +
Зарегистрирован: 25.07.03
Сообщения: 897
|
Добавлено: 11/06/04 в 02:29
|
|
bog, да, действительно - хоть что баг был? чтобы мы не ступили на те же грабли
|
K началу
|
|
|
bog
Зарегистрирован: 07.11.02
Сообщения: 1994
|
Добавлено: 11/06/04 в 03:00
|
|
не срабатывает ключ /i т.е. различается реестр для не английских букв. т.е. для того чтоб все работало надо даже с этим ключом писать [a-zа-яА-Я].
|
K началу
|
|
|
arachnO +
Зарегистрирован: 25.07.03
Сообщения: 897
|
Добавлено: 11/06/04 в 03:07
|
|
wow! никогда бы не подумал bog, респект!
|
K началу
|
|
|
Текстовая реклама в форме ответа Заголовок и до четырех строчек текста Длина текста до 350 символов Купить рекламу в этом месте! |
Внимание! В связи с устареванием топика эта страница была взята из кэша.
|