polskie stop words w tsearch2
takeshin - 28-06-2006 00:09
polskie stop words w tsearch2
witam!
walczę z instalacją tsearch2 na postgresie, i mam problem z dodaniem słownika.
zrobiłem listę słów polish.stop, ale chyba jeszcze mam w niej złe kodowanie, bo dalej indeksuje słowa z polskimi literkami np. "się" lub "także" pozostałe jak "lub" "czy" odrzuca tak jak powinien
jakie powinno być kodowanie pliku polish.stop, żeby działało z bazą w latin2
czy ktoś już to przeskoczył? ma ktoś gotową listę takich słów? na mojej jest 110 pozycji, to chyba zbyt mało?
pozdrawiam,
ethanak - 29-06-2006 00:42
On 2006-06-27 19:38, takeshin wrote: > witam!
[...]
> ma ktoś gotową listę takich słów? > na mojej jest 110 pozycji, > to chyba zbyt mało?
http://www.ranks.nl/stopwords/polish.html
Jeśli 110 pozycji to chyba korzystamy z tej samej (Content compiled by Maciek Uhlig, z dystrybucji mnogosearch). Używam co prawda nie w tsearch2 a w mnogo ale wygląda na to że zawiera to co trzeba.
ethanak -- mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20=');
takeshin - 29-06-2006 00:42
>> ma ktoś gotową listę takich słów? >> na mojej jest 110 pozycji, >> to chyba zbyt mało? > > http://www.ranks.nl/stopwords/polish.html > > Jeśli 110 pozycji to chyba korzystamy z tej samej (Content compiled by > Maciek Uhlig, z dystrybucji mnogosearch). Używam co prawda nie w > tsearch2 a w mnogo ale wygląda na to że zawiera to co trzeba. > > ethanak
tak, dokładnie z tego linku ściągnąłem ale wiem, że za lista jest zbyt uboga brakuje np. "się" "takiemu" "takim" itp.
poza tym, w dalszym ciągu nie wiem, w jakim kodowaniu powinien zostać zapisany plik polish.stop, żeby porównywać też słowa z polskimi literkami (baza jest w latin2)
ethanak - 29-06-2006 00:42
takeshin napisał(a): [...] > że za lista jest zbyt uboga > brakuje np. "się" "takiemu" "takim" itp.
A faktycznie :(
Jako że jest mi to do szczęścia niezbędne pewnie zaraz się tym zajmę - jak skończę to wystawię gdzieś poprawiony plik. > > poza tym, > w dalszym ciągu nie wiem, > w jakim kodowaniu powinien zostać zapisany plik polish.stop, > żeby porównywać też słowa z polskimi literkami > (baza jest w latin2)
Tu nie pomogę niestety - u mnie w mnogo charset jest deklarowany w pliku.
ethanak -- mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20='); /* Pisze człowiek ambitnie, a tu przychodzi prostak i wszystko rozumie. To jest ewidentna bezczelność! S. Friedmann/J. Kofta */
ethanak - 29-06-2006 00:43
takeshin napisał(a): [...] > że za lista jest zbyt uboga > brakuje np. "się" "takiemu" "takim" itp.
To co mi się udało na szybko zrobić:
http://www.polip.com/pl.sl.gz
Zerknij, jakby co dodaj swoje których nie mam, może się uda jakąś porządną listę wysmażyć.
ethanak -- mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20='); /* Pisze człowiek ambitnie, a tu przychodzi prostak i wszystko rozumie. To jest ewidentna bezczelność! S. Friedmann/J. Kofta */
takeshin - 29-06-2006 00:43
ethanak napisał(a): > takeshin napisał(a): > [...] >> że za lista jest zbyt uboga >> brakuje np. "się" "takiemu" "takim" itp. > > To co mi się udało na szybko zrobić: > > http://www.polip.com/pl.sl.gz > > Zerknij, jakby co dodaj swoje których nie mam, może się uda jakąś > porządną listę wysmażyć. > > ethanak
dzięki, ta lista jest zdecydowanie konkretniejsza, ale brakuje, dla przykładu: zaś tudzież ażeby ewentualnie mimo pomimo
odezwę się, jak będę już miał gotową listę
teraz mam następny problem, bo nie mogę popadać w skrajność. na przykład przy indeksowaniu nazw firm, w wyszukiwarce nie będzie można znaleźć nic o firmie która się nazywa mimo...
myślę, że zrobię to trochę dłuższą metodą: pozwolę indeksować wszystko, potem zrobię statystykę dla konkretnych słów i ilości wystąpień i będę wiedział, o ile mi się niepotrzebnie baza powiększa i czy zabawa jest tego warta
ethanak - 30-06-2006 00:07
takeshin napisał(a): [...] > teraz mam następny problem, > bo nie mogę popadać w skrajność. > na przykład przy indeksowaniu nazw firm, > w wyszukiwarce nie będzie można znaleźć nic > o firmie która się nazywa mimo...
Fakt - w tekście o kulturze Tybetu słowo "jak" to nie stopword :)
Wydaje mi się, że można opracować taką maksymalną listę, z której każdy mógłby sobie wybrać to co mu pasuje (łatwiej jest w końcu usunąć niepotrzebne rzeczy z gotowej listy niż wymyślać nową).
W razie czego pisz na priv - może razem coś sensownego sklecimy :)
ethanak -- mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20='); /* Pisze człowiek ambitnie, a tu przychodzi prostak i wszystko rozumie. To jest ewidentna bezczelność! S. Friedmann/J. Kofta */
zanotowane.pldoc.pisz.plpdf.pisz.pleffulla.pev.pl
|
Import za =?ISO-8859-2?Q?pomoc=B1_EMS_Data_Import_for_?==?ISO-8859-2?Q?MySQL_-_polskie_litery=2E?=
xHarbour/CLipper/Linuks - brak polskich =?ISO-8859-2?Q?znak=F3w_?==?ISO-8859-2?Q?w_GET?=
=?ISO-8859-2?Q?[psql]_Polskie_t=B3umaczenie_?= =?ISO-8859-2?Q?licencji_BSD_dla_PostgreSQL=3F?=
[MySQL] Po aktualizacji =?ISO-8859-2?Q?znikn=EA=B3y_polskie_?==?ISO-8859-2?Q?znaki=2E?=
polski nowy klip. realizacja Fotki i montaż: Rymek Błaszczak. animki fx i CC: mariusz mario zdanowski
VFP 8 i problem z polskimi znakami przy otwieraniu dbf-a z dosowego Fox-a
=?ISO-8859-2?Q?[firebird]_gdzie_si=EA_podzia=B3y_polskie_literki?=
=?iso-8859-2?q?mysql_+_polskie_znaczki_+_brak_pomys=B3=F3w?=
Zapis polskich literek w bazie danych US7ASCII z bazy EE8ISO8859P2
[MySql] Select, polskie znaki i duze oraz małe litery
zanotowane.pldoc.pisz.plpdf.pisz.plets2.xlx.pl
Cytat
Decede mihi sole - nie zasłaniaj mi słonca. Gdy kogoś kochasz, jesteś jak stworzyciel świata - na cokolwiek spojrzysz, nabiera to kształtu, wypełnia się barwą, światłem. Powietrze przytula się do ciebie, choćby był mróz, a ty masz w sobie tyle radości, że musisz ją rozdawać wokoło, bo się w tobie nie mieści Hoc fac - tak czyń. A tergo - od tyłu; z tyłu. I czarne włosy posiwieją. Safona |
|