Реклама на сайте Advertise with us

Найти популярные пары слов в очень БОЛЬШОМ тексте

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:



С нами с 26.02.08
Сообщения: 341
Рейтинг: 100

Ссылка на сообщениеДобавлено: 22/06/09 в 13:41       Ответить с цитатойцитата 

Подскажите тулзу, куда можно было бы засунуть текст, а тулза показала бы в этом тексте самые популярные пары слов.

Должна уметь работать с большим кол-вом текста (с полсотни мегабайт).

Я написал а скорую руку тулзу на Делфи, но сцуко, без оптимизации даже полмега текста долго обрабатывает, а на большом тексте вообще вываливается icon_sad.gif

0
 



С нами с 03.02.09
Сообщения: 139
Рейтинг: 235

Ссылка на сообщениеДобавлено: 22/06/09 в 14:51       Ответить с цитатойцитата 

К сожалению чем это сделать не знаю, но с механизмом немного знаком.
Ускорить этот процесс можно только одним способом - распараллелить его по ядрам (или серверам, но не в этом случае). А потом влоб - составление хеш-таблицы в памяти всех пар и поиск по ним, параллельно не забывая удалять уже обработанные элементы. Данный процесс очень хорошо ложиться на параллельные рельсы

0
 

php

С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410


Передовик Master-X (16.01.2010)
Ссылка на сообщениеДобавлено: 22/06/09 в 17:17       Ответить с цитатойцитата 

на php можно все рализовать icon_smile.gif

IPhosters.com - любые решения для Вас (виртуалы от $4.99, vps от $11.99, дедики от $95)

0
 



С нами с 27.03.09
Сообщения: 155
Рейтинг: 320

Ссылка на сообщениеДобавлено: 22/06/09 в 18:30       Ответить с цитатойцитата 


чтобы затормозить и без того не быстрый алгоритм - да

навскидку - текстовик на 50 метров это 50 млн символов. выкинем из них 50% на символы, не нужные нам артикли и прочий мусор. 25 млн символов. среднюю длину слова положим 7 символов. итого примерно 4 млн слов. пар слов - на единицу меньше. то есть массив как бы большой получается.
отсюда вывод - не париться с большим текстом, разбивать его на блоки и анализировать поблочно.

Последний раз редактировалось: Scheme (22/06/09 в 18:59), всего редактировалось 1 раз

программист. набираю отзывы и заказы. | блог Вордпресскина

0
 

Самый добрый бегемот

С нами с 24.06.03
Сообщения: 954
Рейтинг: 574

Ссылка на сообщениеДобавлено: 22/06/09 в 18:42       Ответить с цитатойцитата 

ну на самом деле ничего особо сложного в написании такого скрипта нет. Весь вопрос в том, что скорость работы будет очень сильно зависить от объема текста, хотя надо понимать, что увеличение размера текста от 3гб до 30гб дает увеличение точности на 5-10%, а вот времени отнимает гораздо больше. Ну и не забывайте про разные словоформы.
так что если ТС готов пообщаться по поводу платного решения для его задачи, то велком в личку, она теперь появилась на форуме вроде=)

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »