nixp.ru v3.0

22 октября 2017,
воскресенье,
02:19:47 MSK

DevOps с компанией «Флант»
vitnik написал 18 апреля 2005 года в 13:42 (527 просмотров) Ведет себя неопределенно; открыл 3 темы в форуме, оставил 8 комментариев на сайте.

Никто не знает хороший html2text converter с сохранением линков на web странице?

т.е если на html странице есть какой-то адрес или e-mail он бы его сохранял в текст, типа http://blablabla.com или mailto:xxxx.

В принципе есть такой html2text на http://userpage.fu-berlin.de/~mbayer/tools/html2text.html

Все устраивает только вот линки не сохраняет….

Genie

lynx

elinks

не помогут?

vitnik

нет… нужно что-нибудь для plain text (с возможностью изменение width экрана)

vitnik

спасибо за такое огромное количество ответов….

не выдержал и сам написал converter ….

anonymous

А никто не знает как сделать чтобы линки при дампе (lynx) отображались не после текста а рядом с нужным словом. Типа:

Для того чтобы попасть на эту страницу нужно перейти по етой ссылке [http://blabla.ru]

Вот в таком виде. Видел что это возможно только не знаю какой софт использовался

Дмитрий Шурупов

Ну, знаете ли…

> спасибо за такое огромное количество ответов….

Спасибо за такое внимательное изучение каталогов с программами для UNIX/Linux (а также поисковых систем), где можно легко найти решения своего вопроса, перед тем, как спрашивать.

P.S. http://userpage.fu-berlin.de/~mbayer/tools/html2text.html

Feuerbach
Dmitry Shurupov
> спасибо за такое огромное количество ответов….

Спасибо за такое внимательное изучение каталогов с программами для UNIX/Linux (а также поисковых систем), где можно легко найти решения своего вопроса, перед тем, как спрашивать.

P.S. http://userpage.fu-berlin.de/~mbayer/tools/html2text.html


vitnik
В принципе есть такой html2text на http://userpage.fu-berlin.de/~mbayer/tools/html2text.html

Все устраивает только вот линки не сохраняет….

Кто бы говорил о внимательности :))

Дмитрий Шурупов

Оу, да, но это было первое, что попалось.

Аналогично, например, находятся:

Grutatxt — http://www.triptico.com/software/grutatxt.html

Vilistextum — http://bhaak.dyndns.org/vilistextum/

(последний, правда, вместо ссылок расставляет всякие [X], а в конце страницы их перечисляет с указанием того, куда они ссылаются)

anonymous

2 КАРАНДАШ

я тоже этим мучился. Да и сейчас проблема в принципе не решилась.

lynx -dump URL работает здорово, токо мне надо было чтобы ссылки не после текста в reference шли а рядом со словами. Написал такое творение:

#include

#include

#include

main() {

FILE *in,*out;

char st[200];

int i,c;

in=fopen(«text.html»,«rb»);

if(in==NULL) printf(«CAN’T OPEN»);

out=fopen(«text2.html»,«wb»);

while(fgets(st,199,in)!=NULL) {

for(i=0;i<=strlen(st);i++) {

if (st==’<' && st[i+1]==’A' && st[i+2]==' ' && st[i+3]==’H' && st[i+4]==’R') {

for(c=0;c<=7;c++) st[i+c]=’\n’;

st[i+8]='[';

} if (st=='<' && st[i+1]==’a' && st[i+2]==' ' && st[i+3]==’h' && st[i+4]==’r') {

for(c=0;c<=7;c++) st[i+c]=’\n’;

st[i+8]='[';

} if (st=='<' && st[i+1]==’a' && st[i+2]==' ' && st[i+3]==’H' && st[i+4]==’R') {

for(c=0;c<=7;c++) st[i+c]=’\n’;

st[i+8]='[';

}

if (st=='<' && st[i+1]==’/' && st[i+2]==’a' && st[i+3]==’>’) {

st=’]';

for(c=1;c<=7;c++) st[i+c]=’\n’;

}

if (st==’<' && st[i+1]==’t' && st[i+2]==’/' && st[i+3]==’A') {

st=’]';

for(c=1;c<=7;c++) st[i+c]=’\n’;

}

}

fputs(st,out);

}

return 0;

}

смысл в том что ета дрянь убирает из html такие знаки как

Genie

буквально пяти минут наколеночное:

$ cat html2text.pl
#!/usr/bin/perl
while($line=){$file.=$line;}
$file=~s~]+).*?>(.*?)</a>~$2 [$1]~ig;


$file=~s~<.*?>~~g;


print $file;

явные минусы (занят пока что):


  • не обрабатываются многострочные теги (комментарии, стили, скрипты);


  • прожорливое на больших файлах;


  • не форматирует ;(
anonymous

2 Genie

А зачем велосипед то на перле изобретать ??? Его давно создали…. lynx, links и w3m намного лучше справляются (мягко сказано)…. они и текст форматируют как надо.

Genie
S4Nt4
2 Genie

А зачем велосипед то на перле изобретать ??? Его давно создали…. lynx, links и w3m намного лучше справляются (мягко сказано)…. они и текст форматируют как надо.

гхм. если кто что-то не заметил, то см. ответ за номером 1 ;))

про lynx и elinks я как раз и говорил.

anonymous

Тогда в чем смысл этого изобретения?

Genie
S4Nt4
Тогда в чем смысл этого изобретения?

никакого, кроме как некоторого показателя, о котором имеется обсуждение в соседней теме (как видно, того же самого автора).