vitnik
написал 18 апреля 2005 года в 13:42 (926 просмотров)
Ведет себя
неопределенно; открыл 3 темы в форуме, оставил 8 комментариев на сайте.
Никто не знает хороший html2text converter с сохранением линков на web странице?
т.е если на html странице есть какой-то адрес или e-mail он бы его сохранял в текст, типа http://blablabla.com или mailto:xxxx.
В принципе есть такой html2text на http://userpage.fu-berlin.de/~mbayer/tools/html2text.html
Все устраивает только вот линки не сохраняет….
Последние комментарии
- OlegL, 17 декабря в 15:00 → Перекличка 21
- REDkiy, 8 июня 2023 года в 9:09 → Как «замокать» файл для юниттеста в Python? 2
- fhunter, 29 ноября 2022 года в 2:09 → Проблема с NO_PUBKEY: как получить GPG-ключ и добавить его в базу apt? 6
- Иванн, 9 апреля 2022 года в 8:31 → Ассоциация РАСПО провела первое учредительное собрание 1
- Kiri11.ADV1, 7 марта 2021 года в 12:01 → Логи catalina.out в TomCat 9 в формате JSON 1
ecobeing.ru
Экология и вегетарианство на благо всем живым существам Планеты.
lynx
elinks
не помогут?
нет… нужно что-нибудь для plain text (с возможностью изменение width экрана)
спасибо за такое огромное количество ответов….
не выдержал и сам написал converter ….
А никто не знает как сделать чтобы линки при дампе (lynx) отображались не после текста а рядом с нужным словом. Типа:
Для того чтобы попасть на эту страницу нужно перейти по етой ссылке [http://blabla.ru]
Вот в таком виде. Видел что это возможно только не знаю какой софт использовался
Ну, знаете ли…
> спасибо за такое огромное количество ответов….
Спасибо за такое внимательное изучение каталогов с программами для UNIX/Linux (а также поисковых систем), где можно легко найти решения своего вопроса, перед тем, как спрашивать.
P.S. http://userpage.fu-berlin.de/~mbayer/tools/html2text.html
Кто бы говорил о внимательности :))
Оу, да, но это было первое, что попалось.
Аналогично, например, находятся:
Grutatxt — http://www.triptico.com/software/grutatxt.html
Vilistextum — http://bhaak.dyndns.org/vilistextum/
(последний, правда, вместо ссылок расставляет всякие [X], а в конце страницы их перечисляет с указанием того, куда они ссылаются)
2 КАРАНДАШ
я тоже этим мучился. Да и сейчас проблема в принципе не решилась.
lynx -dump URL работает здорово, токо мне надо было чтобы ссылки не после текста в reference шли а рядом со словами. Написал такое творение:
#include
#include
#include
main() {
FILE *in,*out;
char st[200];
int i,c;
in=fopen(«text.html»,«rb»);
if(in==NULL) printf(«CAN’T OPEN»);
out=fopen(«text2.html»,«wb»);
while(fgets(st,199,in)!=NULL) {
for(i=0;i<=strlen(st);i++) {
if (st==’<' && st[i+1]==’A' && st[i+2]==' ' && st[i+3]==’H' && st[i+4]==’R') {
for(c=0;c<=7;c++) st[i+c]=’\n’;
st[i+8]='[';
} if (st=='<' && st[i+1]==’a' && st[i+2]==' ' && st[i+3]==’h' && st[i+4]==’r') {
for(c=0;c<=7;c++) st[i+c]=’\n’;
st[i+8]='[';
} if (st=='<' && st[i+1]==’a' && st[i+2]==' ' && st[i+3]==’H' && st[i+4]==’R') {
for(c=0;c<=7;c++) st[i+c]=’\n’;
st[i+8]='[';
}
if (st=='<' && st[i+1]==’/' && st[i+2]==’a' && st[i+3]==’>’) {
st=’]';
for(c=1;c<=7;c++) st[i+c]=’\n’;
}
if (st==’<' && st[i+1]==’t' && st[i+2]==’/' && st[i+3]==’A') {
st=’]';
for(c=1;c<=7;c++) st[i+c]=’\n’;
}
}
fputs(st,out);
}
return 0;
}
смысл в том что ета дрянь убирает из html такие знаки как
буквально пяти минут наколеночное:
явные минусы (занят пока что):
2 Genie
А зачем велосипед то на перле изобретать ??? Его давно создали…. lynx, links и w3m намного лучше справляются (мягко сказано)…. они и текст форматируют как надо.
гхм. если кто что-то не заметил, то см. ответ за номером 1 ;))
про lynx и elinks я как раз и говорил.
Тогда в чем смысл этого изобретения?
никакого, кроме как некоторого показателя, о котором имеется обсуждение в соседней теме (как видно, того же самого автора).