I love suicidegirls.com ;-)
С нами с 27.10.04
Сообщения: 7060
Рейтинг: 2819
|
Добавлено: 06/11/08 в 01:43 |
Нужно что то примерно такое
Ввожу в поле на сайте УРЛ страницы в инете, нажимаю кнопку и сервис мне пишет : что бла бла бла на такой то странице УРЛ текст написан на португальском языке, или что написан на французском ? Есть такое ? Ну очень надо.
|
|
|
|
>100 сайтов вебкам. ссылки.
С нами с 31.03.08
Сообщения: 2372
Рейтинг: 3463
|
Добавлено: 06/11/08 в 02:07 |
Наверное, надо парсить код страницы на содержимое тэга <meta name="language" content="...">
Если он там есть, конечно...
Пару строчек кода в примитивной парсилке.
|
|
|
|
С нами с 01.04.07
Сообщения: 4378
Рейтинг: 2970
|
Добавлено: 06/11/08 в 09:14 |
Чтобы определить язык страницы, нужно понимать этот язык.
Так что, опознание возможно только по косвенным признакам.
Как уже сказали
Код: | <meta name="language" content="fr" />
или
<meta http-equiv="content-language" content="pl">
|
либо для сайтов в xhtml
Код: | <html xmlns="http://www.w3.org/1999/xhtml" lang="fr">
или
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pt-pt" lang="pt-pt" dir="ltr">
|
ещё можно посмотреть на charset, но тоже далеко не всегда по нему можно определить
Код: | <meta http-equiv="content-type" content="text/html; charset=iso-8859-2"> |
Ну и доменная зона
|
|
|
|
I love suicidegirls.com ;-)
С нами с 27.10.04
Сообщения: 7060
Рейтинг: 2819
|
Добавлено: 06/11/08 в 09:42 |
А просто по тексту на странице какой нибудь онлайн переводчик не сможет определить что ли какой язык ему дали переводить?
|
|
|
|
С нами с 28.02.03
Сообщения: 8542
Рейтинг: 1609
|
Добавлено: 06/11/08 в 17:49 |
тут еще прикол может быть что сайт в зависемостьи от ip и от языка броузера может от довать разные страницы
|
|
Сдам место в подписи. Предложения в личку.
|
0
|
|
|
>100 сайтов вебкам. ссылки.
С нами с 31.03.08
Сообщения: 2372
Рейтинг: 3463
|
Добавлено: 06/11/08 в 19:02 |
_4eburek писал: | А просто по тексту на странице какой нибудь онлайн переводчик не сможет определить что ли какой язык ему дали переводить? |
"Это вряд-ли..." (Сухов, "Белое солнце пустыни")
|
|
|
|
С нами с 03.10.08
Сообщения: 129
Рейтинг: 141
|
Добавлено: 06/11/08 в 19:40 |
Можно попробывать проверять сграбленный текстовый контент на признаки того или иного языка. Допустим брать на инглиш буквы A, O, E и русские А, О, Е так же французкие и немецкие. И тупо парсить текст на эти буквы. Найдутся буквы значит к токому языку пренадлежит. Еще не эксперементировал
|
|
Пишу скрипты, асикью 444584-921
|
0
|
|
|
С нами с 19.11.06
Сообщения: 2295
Рейтинг: 345
|
Добавлено: 06/11/08 в 22:03 |
Гуглю можно понасильничать , если проверяемая пага проиндексирована.
В выдаче гугли есть линк "Перевести эту страницу/Translate this page", в этой линке, в параметре sl - искомый язык страницы, а в hl - твой или заданный.
И насколько я помню, если hl=sl, то этот линк "Перевести эту страницу/Translate this page", не появится, т.к. язык проверяемой страницы, тот же что и твой.
Вот почти алгоритм парсилки )
|
|
Строим Луна-парки с блэкджеком и шлюхами. Дорого.
|
0
|
|
|
С нами с 16.04.05
Сообщения: 754
Рейтинг: 352
|
Добавлено: 08/11/08 в 04:11 |
TRUE_AND_FALSE писал: | Можно попробывать проверять сграбленный текстовый контент на признаки того или иного языка. Допустим брать на инглиш буквы A, O, E и русские А, О, Е так же французкие и немецкие. И тупо парсить текст на эти буквы. Найдутся буквы значит к токому языку пренадлежит. Еще не эксперементировал |
Универсального решения не существует, гугль тоже ошибается, чисто "приблизительно проверяет". Зависит от того насколько хочешь ебаться. Если для масс, то всё верно пишут: возьми по тонне текстов разных языков, переведи в юникод и запиши топ кодов (топ 10).
Далее страницу приводи к юникоду и ищи наиболее подходящий топ.
Если в странице что - то указано в хедере (допустим CP1251) - значит смотри что это за кодировка, как правило 1251 - россия, коды всех стран можно найти.
Ещё смотри что отдаёт сервер, как правило он отдаёт (для дедиков) нужную кодировку.
Что ещё... введи список предлогов, в юникоде, как правило они встречаются в одном или двух языках, а ежели и в трёх, то эти языки родственны, и пофиг какой именно из них. Переводи страницу в юникод и ищи стопку слов, далее с какого языка больше нашёл - тот и папа
В общем комбинируй, любой метод по отдельности может не сработать или дать неверные результаты.
|
|
|
|