С нами с 26.02.08
Сообщения: 341
Рейтинг: 100
|
Добавлено: 22/06/09 в 13:41 |
Подскажите тулзу, куда можно было бы засунуть текст, а тулза показала бы в этом тексте самые популярные пары слов.
Должна уметь работать с большим кол-вом текста (с полсотни мегабайт).
Я написал а скорую руку тулзу на Делфи, но сцуко, без оптимизации даже полмега текста долго обрабатывает, а на большом тексте вообще вываливается
|
|
|
|
С нами с 03.02.09
Сообщения: 139
Рейтинг: 235
|
Добавлено: 22/06/09 в 14:51 |
К сожалению чем это сделать не знаю, но с механизмом немного знаком.
Ускорить этот процесс можно только одним способом - распараллелить его по ядрам (или серверам, но не в этом случае). А потом влоб - составление хеш-таблицы в памяти всех пар и поиск по ним, параллельно не забывая удалять уже обработанные элементы. Данный процесс очень хорошо ложиться на параллельные рельсы
|
|
|
|
php
С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410
|
Добавлено: 22/06/09 в 17:17 |
на php можно все рализовать
|
|
|
|
С нами с 27.03.09
Сообщения: 155
Рейтинг: 320
|
Добавлено: 22/06/09 в 18:30 |
чтобы затормозить и без того не быстрый алгоритм - да
навскидку - текстовик на 50 метров это 50 млн символов. выкинем из них 50% на символы, не нужные нам артикли и прочий мусор. 25 млн символов. среднюю длину слова положим 7 символов. итого примерно 4 млн слов. пар слов - на единицу меньше. то есть массив как бы большой получается.
отсюда вывод - не париться с большим текстом, разбивать его на блоки и анализировать поблочно.
Последний раз редактировалось: Scheme (22/06/09 в 18:59), всего редактировалось 1 раз
|
|
|
|
Самый добрый бегемот
С нами с 24.06.03
Сообщения: 954
Рейтинг: 574
|
Добавлено: 22/06/09 в 18:42 |
ну на самом деле ничего особо сложного в написании такого скрипта нет. Весь вопрос в том, что скорость работы будет очень сильно зависить от объема текста, хотя надо понимать, что увеличение размера текста от 3гб до 30гб дает увеличение точности на 5-10%, а вот времени отнимает гораздо больше. Ну и не забывайте про разные словоформы.
так что если ТС готов пообщаться по поводу платного решения для его задачи, то велком в личку, она теперь появилась на форуме вроде=)
|
|
|
|
Текстовая реклама в форме ответа Заголовок и до четырех строчек текста Длина текста до 350 символов Купить рекламу в этом месте! |