当前位置: 首页 >> 应用软件 >> 网络相关 >> 使用ant驱动nutch crawl
 

使用ant驱动nutch crawl

作者:pwlazy      来源:zz     发表时间:2006-08-02     浏览次数:      字号:    

在windows下 跑nutch  crawl必须使用cygwin,没办法的事情,目前nutch只有shell脚本驱动,这多多少少给windows开发者带来一些麻烦,虽然通常情况下,java应用总会部署在unix机器上,即使如此,对于众多在windows上开发 java 应用的开发者来说,不需要装什么其他东西,直接在window环境中就能跑 nutch  crawl显得更省力,下面将nutch-0.7.1 bin目录下的nutch shell 脚本直接转换成ant脚本,nutch玩家直接将ant脚本放在nutch-0.7.1下直接运行即可,当然你应该根据你的需求设置一些脚本元素

<project name="nutch-crawl" default="crawl" basedir=".">
    
    
<property name="lib.dir"  location="lib"/>
    
<property name="conf.dir"  location="conf"/>
    

    
<path id="project.classpath">
        
<fileset dir="." includes="nutch-*.jar"/>
        
<fileset dir="lib" />
       
<pathelement path="."/>
        
<pathelement path="${conf.dir}"/>
    
</path>
    
    
    
<target name="crawl" >
        
<echo>crwaling starting...</echo>
        
<property name="JVM.extra.args" value="-Xmx1000m" />
        
<java classname="org.apache.nutch.tools.CrawlTool" classpathref="project.classpath" fork="true">
            
<jvmarg line="${JVM.extra.args}"/>
            
<arg value="e:/nutch-0.7.1/urls"/>
            
<arg value="-dir"/>
            
<arg value="e:/xxcrawled"/>
            
<arg value="-depth"/>
            
<arg value="2"/>
            
<arg value="-threads"/>
            
<arg value="10"/>
        
</java>
        
<echo>crwaling finished...</echo>
    
</target>
    
</project>

注意上面代码中的<arg>,你可以根据要求设置.

责任编辑 webmaster

 
 
 
 
 
评论更多>>
 
 
 
发表
 
姓名: QQ:
性别: MSN:
E-mail: 主页:
评分: 1 2 3 4 5
评论内容:
验证码:
  
  • 请遵守《互联网电子公告服务管理规定》及中华人民共和国其他各项有关法律法规。
  • 严禁发表危害国家安全、损害国家利益、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容的评论 。
  • 用户需对自己在使用本站服务过程中的行为承担法律责任(直接或间接导致的)。
  • 本站管理员有权保留或删除评论内容。
  • 评论内容只代表网友个人观点,与本网站立场无关。
  •